JP2023053670A - Information processing device, information processing method, and program - Google Patents

Information processing device, information processing method, and program Download PDF

Info

Publication number
JP2023053670A
JP2023053670A JP2021162852A JP2021162852A JP2023053670A JP 2023053670 A JP2023053670 A JP 2023053670A JP 2021162852 A JP2021162852 A JP 2021162852A JP 2021162852 A JP2021162852 A JP 2021162852A JP 2023053670 A JP2023053670 A JP 2023053670A
Authority
JP
Japan
Prior art keywords
sound
speaker
microphone
information processing
sound collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021162852A
Other languages
Japanese (ja)
Inventor
裕 高瀬
Yutaka Takase
哲哉 皆川
Tetsuya Minagawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Group Corp
Original Assignee
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Group Corp filed Critical Sony Group Corp
Priority to JP2021162852A priority Critical patent/JP2023053670A/en
Priority to PCT/JP2022/034914 priority patent/WO2023054047A1/en
Publication of JP2023053670A publication Critical patent/JP2023053670A/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Otolaryngology (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

To provide an information processing device, an information processing method, and a program, capable of collecting sound emitted by a sound source in high quality.SOLUTION: A information processing device includes an information acquisition unit and a sound collection control unit. The information acquisition unit acquires sound source information that indicates a position of a sound source and a direction in which the sound source emits sound. From multiple sound collection devices arranged around the sound source and having a configurable sound collection direction, the sound collection control unit selects, on the basis of the sound source information, at least one target device to be used to collect sound emitted by the sound source.SELECTED DRAWING: Figure 4

Description

本技術は、集音システム等に適用可能な情報処理装置、情報処理方法、及びプログラムに関する。 The present technology relates to an information processing device, an information processing method, and a program applicable to a sound collection system or the like.

近年、音源を分離して集音を行う技術が開発されている。例えば、特定の方向から発せられた音を選択的に集音することで、様々な音の中から目的とする音を分離することができる。方向を指定して集音を行う方法としては、例えばアレイ状に配意された複数のマイクの出力を処理して特定の方向の音源を分離するビームフォーミング技術が知られている。 In recent years, techniques for separating sound sources and collecting sounds have been developed. For example, by selectively collecting sounds emitted from a specific direction, a desired sound can be separated from various sounds. As a method of collecting sound by designating a direction, for example, beamforming technology is known, which processes outputs of a plurality of microphones arranged in an array to separate a sound source in a specific direction.

特許文献1には、ビームフォーミング技術を用いた音声認識システムについて記載されている。このシステムでは、アレイマイク周辺を撮影した画像から人体が検出される。アレイマイクから見て人体がある方向は集音方向に設定され、人体がない方向はノイズ方向に設定される。またビームフォーミング処理が実行され、アレイマイクの出力から集音方向の音源(目的音)とノイズ方向の音源(ノイズ音)とが分離される。この目的音からノイズ音をキャンセルすることで、高精度なノイズキャンセルが可能となっている(特許文献1の明細書段落[0017][0018][0023][0024]図3等)。 Patent Literature 1 describes a speech recognition system using beamforming technology. In this system, the human body is detected from the image taken around the array microphone. The direction in which the human body exists as viewed from the array microphone is set as the sound collection direction, and the direction in which the human body does not exist is set as the noise direction. A beamforming process is also performed to separate the sound source in the sound collecting direction (target sound) and the sound source in the noise direction (noise sound) from the output of the array microphone. By canceling the noise sound from the target sound, highly accurate noise cancellation is possible (paragraphs [0017] [0018] [0023] [0024] FIG. 3 of Patent Document 1, etc.).

特開2020-3724号公報JP 2020-3724 A

特許文献1のように、目的音からノイズ音をキャンセルできたとしても、目的音が発せられる方向によっては、所望の音質が得られないこともあり得る。このため、目的とする音そのものをより高い品質で集音する技術が求められている。 Even if the noise sound can be canceled from the target sound as in Patent Document 1, the desired sound quality may not be obtained depending on the direction in which the target sound is emitted. Therefore, there is a demand for a technique for collecting the target sound itself with higher quality.

以上のような事情に鑑み、本技術の目的は、音源が発する音を高品質に集音することが可能な情報処理装置、情報処理方法、及びプログラムを提供することにある。 In view of the circumstances as described above, an object of the present technology is to provide an information processing device, an information processing method, and a program capable of collecting sound emitted by a sound source with high quality.

上記目的を達成するため、本技術の一形態に係る情報処理装置は、情報取得部と、集音制御部とを具備する。
前記情報取得部は、音源の位置と前記音源が音を発する方向とを示す音源情報を取得する。
前記集音制御部は、前記音源情報に基づいて、前記音源の周辺に配置され集音方向を設定可能な複数の集音装置から、前記音源が発する音の集音に用いる少なくとも1つの対象装置を選択する。
To achieve the above object, an information processing apparatus according to an aspect of the present technology includes an information acquisition unit and a sound collection control unit.
The information acquisition unit acquires sound source information indicating a position of a sound source and a direction in which the sound source emits sound.
Based on the sound source information, the sound collection control unit selects at least one target device that is used to collect sound emitted by the sound source from among a plurality of sound collection devices that are arranged around the sound source and whose sound collection direction can be set. to select.

この情報処理装置では、音源の周辺に配置された複数の集音装置から、音源の音を集音するための対象装置が少なくとも1つ選択される。各集音装置は、集音方向を設定できる装置であり、対象装置の選択には、音源の位置及び音源が音を発する方向を示す音源情報が用いられる。これにより、例えば音源の位置や音の出る方向に適応した集音装置を用いることが可能となり、音源が発する音を高品質に集音することが可能となる。 In this information processing device, at least one target device for collecting the sound of the sound source is selected from a plurality of sound collectors arranged around the sound source. Each sound collecting device is a device capable of setting a sound collecting direction, and sound source information indicating the position of the sound source and the direction in which the sound source emits sound is used for selecting the target device. As a result, it becomes possible to use a sound collector adapted to, for example, the position of the sound source and the direction from which the sound is emitted, and it is possible to collect the sound emitted by the sound source with high quality.

前記集音制御部は、前記音源情報に基づいて、前記対象装置の集音方向を設定してもよい。 The sound collection control unit may set a sound collection direction of the target device based on the sound source information.

前記集音制御部は、前記対象装置から前記音源に向かう方向を前記対象装置の集音方向に設定してもよい。 The sound collection control unit may set a direction from the target device toward the sound source as a sound collection direction of the target device.

前記集音制御部は、前記音源が音を発する方向を基準として前記音源が発する直接音を集音可能な前記集音装置を判定し、当該集音装置を前記対象装置として選択してもよい。 The sound collection control unit may determine the sound collection device capable of collecting the direct sound emitted by the sound source based on the direction in which the sound source emits sound, and select the sound collection device as the target device. .

前記複数の集音装置は、各々の配置に応じて割り当てられた割当範囲に前記集音方向を設定可能なように構成されてもよい。この場合、前記集音制御部は、前記音源が音を発する方向が前記割当範囲の中心方向に対応する前記集音装置を前記対象装置として選択してもよい。 The plurality of sound collecting devices may be configured such that the sound collecting direction can be set within an allocation range allocated according to each arrangement. In this case, the sound collection control unit may select, as the target device, the sound collection device whose direction in which the sound source emits sound corresponds to the central direction of the allocation range.

前記集音制御部は、前記音源が音を発する方向が前記割当範囲の中心方向に対応する前記集音装置が存在しない場合、前記音源が音を発する方向に沿った集音が可能であり、前記音源との距離が最も近い前記集音装置を前記対象装置として選択してもよい。 The sound collection control unit is capable of collecting sound along the direction in which the sound source emits sound when there is no sound collection device in which the direction in which the sound source emits sound corresponds to the center direction of the allocation range, The sound collecting device closest to the sound source may be selected as the target device.

前記情報取得部は、複数の音源ごとに前記音源情報を取得してもよい。この場合、前記集音制御部は、前記複数の音源ごとの前記音源情報に基づいて、前記複数の音源ごとに前記対象装置をそれぞれ選択してもよい。 The information acquisition unit may acquire the sound source information for each of a plurality of sound sources. In this case, the sound collection control unit may select the target device for each of the plurality of sound sources based on the sound source information for each of the plurality of sound sources.

前記集音制御部は、処理対象の音源が発する直接音を集音し前記処理対象とは異なる他の音源が発する直接音を集音しないように前記集音方向を設定可能な前記集音装置を前記対象装置として選択してもよい。 The sound collection control unit is capable of setting the sound collection direction so as to collect direct sound emitted by a sound source to be processed and not to collect direct sound emitted by a sound source different from the sound source to be processed. may be selected as the target device.

前記情報処理装置は、さらに、前記少なくとも1つの対象装置の出力に基づいて、前記音源が発する音を表す音データを生成する集音処理部を具備してもよい。 The information processing device may further include a sound collection processing unit that generates sound data representing the sound emitted by the sound source based on the output of the at least one target device.

前記複数の集音装置は、予め集音方向が設定された複数の候補装置を含んでもよい。この場合、前記集音制御部は、前記複数の候補装置から前記対象装置を選択してもよい。また、前記集音処理部は、前記対象装置として選択されない候補装置を集音状態で待機させてもよい。 The plurality of sound collecting devices may include a plurality of candidate devices whose sound collecting directions are set in advance. In this case, the sound collection control unit may select the target device from the plurality of candidate devices. Further, the sound collection processing unit may make the candidate device that is not selected as the target device stand by in a sound collection state.

前記集音制御部は、単一の前記音源について、前記複数の集音装置から複数の対象装置を選択してもよい。 The sound collection control unit may select a plurality of target devices from the plurality of sound collection devices for the single sound source.

前記集音処理部は、前記複数の対象装置により集音されたデータを合成して、前記音源の前記音データを生成してもよい。 The sound collection processing unit may generate the sound data of the sound source by synthesizing data collected by the plurality of target devices.

前記音源は、発話者であってもよい。この場合、前記音源が音を発する方向は、前記発話者の発話方向であってもよい。 The sound source may be a speaker. In this case, the direction in which the sound source emits sound may be the utterance direction of the speaker.

前記情報取得部は、前記発話者を撮影した画像データに基づいて、前記発話者に関するボーン検出を実行して前記発話者の発話方向を推定してもよい。 The information acquisition unit may estimate the speech direction of the speaker by performing bone detection on the speaker based on image data of the speaker.

前記情報取得部は、前記発話者のジェスチャーを検出してもよい。
前記集音処理部は、前記発話者のジェスチャーに応じて、前記発話者の音声を集音する集音処理を制御してもよい。
The information acquisition unit may detect a gesture of the speaker.
The sound collection processing unit may control sound collection processing for collecting the voice of the speaker according to the gesture of the speaker.

前記集音処理部は、前記発話者が手を挙げるジェスチャーが検出された場合、前記発話者に対する前記集音処理を優先して実行し、前記発話者が手で口を遮るジェスチャーが検出された場合、前記発話者に対する前記集音処理を停止してもよい。 The sound collection processing unit preferentially executes the sound collection processing for the speaker when a gesture of the speaker raising a hand is detected, and a gesture of the speaker covering the mouth with a hand is detected. case, the sound collection process for the speaker may be stopped.

前記集音処理部は、前記対象装置により集音されたデータから、前記発話者の音声と、前記発話者の所作音とを分離してもよい。 The sound collection processing unit may separate the speech of the speaker and the gesture sound of the speaker from the data collected by the target device.

前記集音装置は、複数のマイクが配置されたマイクアレイであってもよい。この場合、前記集音方向は、前記マイクアレイに関するビームフォーミング処理で設定されるビームの方向であってもよい。 The sound collecting device may be a microphone array in which a plurality of microphones are arranged. In this case, the sound collection direction may be a beam direction set by beamforming processing for the microphone array.

本技術の一形態に係る情報処理方法は、コンピュータシステムにより実行される情報処理方法であって、音源の位置と前記音源が音を発する方向とを示す音源情報を取得することを含む。
前記音源情報に基づいて、前記音源の周辺に配置され集音方向を設定可能な複数の集音装置から、前記音源が発する音の集音に用いる少なくとも1つの対象装置が選択される。
An information processing method according to an embodiment of the present technology is an information processing method executed by a computer system, and includes acquiring sound source information indicating a position of a sound source and a direction in which the sound source emits sound.
Based on the sound source information, at least one target device used to collect the sound emitted by the sound source is selected from a plurality of sound collectors arranged around the sound source and capable of setting a sound collection direction.

本技術の一形態に係るプログラムは、コンピュータシステムに以下のステップを実行させる。
音源の位置と前記音源が音を発する方向とを示す音源情報を取得するステップ。
前記音源情報に基づいて、前記音源の周辺に配置され集音方向を設定可能な複数の集音装置から、前記音源が発する音の集音に用いる少なくとも1つの対象装置を選択するステップ。
A program according to an embodiment of the present technology causes a computer system to execute the following steps.
Obtaining sound source information indicating the position of a sound source and the direction in which the sound source emits sound.
Based on the sound source information, selecting at least one target device to be used for collecting the sound emitted by the sound source from a plurality of sound collecting devices arranged around the sound source and capable of setting a sound collection direction.

本技術の一実施形態に係る集音システムの構成例を示すブロック図である。1 is a block diagram showing a configuration example of a sound collection system according to an embodiment of the present technology; FIG. BFマイクの構成例を示す模式図である。It is a schematic diagram which shows the structural example of BF microphone. BFマイクに設定されるビームの一例を示す模式図である。FIG. 4 is a schematic diagram showing an example of beams set in a BF microphone; 集音システムの基本的な集音動作を示す模式図である。FIG. 4 is a schematic diagram showing a basic sound collection operation of the sound collection system; 集音システムの動作例を示すフローチャートである。4 is a flowchart showing an operation example of the sound collection system; BFマイクの配置例を示す模式図である。FIG. 4 is a schematic diagram showing an example of arrangement of BF microphones; 発話者の発話方向の一例を示す模式図である。FIG. 4 is a schematic diagram showing an example of a speaking direction of a speaker; 複数の発話者に対する集音動作について説明するための模式図である。FIG. 4 is a schematic diagram for explaining a sound collecting operation for a plurality of speakers; 複数のBFマイクを用いた集音動作の一例を示す模式図である。FIG. 4 is a schematic diagram showing an example of sound collection operation using a plurality of BF microphones; 発話者が移動する際の集音動作の一例を示す模式図である。FIG. 4 is a schematic diagram showing an example of sound collection operation when a speaker moves. 音声の合成処理について説明するための模式図である。FIG. 4 is a schematic diagram for explaining a speech synthesizing process; 複数の発話者が移動する際の集音動作の一例を示す模式図である。FIG. 5 is a schematic diagram showing an example of sound collection operations when a plurality of speakers move; 発話者の発話方向を想定した集音動作の一例を示す模式図である。FIG. 10 is a schematic diagram showing an example of a sound collection operation assuming an utterance direction of a speaker; ジャスチャーに応じた集音動作の一例を示す模式図である。FIG. 10 is a schematic diagram showing an example of a sound collection operation in response to a gesture; 音声と動作音とを集音する集音動作の一例を示す模式図である。FIG. 5 is a schematic diagram showing an example of a sound collection operation for collecting voice and operation sound;

以下、本技術に係る実施形態を、図面を参照しながら説明する。 Hereinafter, embodiments according to the present technology will be described with reference to the drawings.

[集音システムの構成]
図1は、本技術の一実施形態に係る集音システムの構成例を示すブロック図である。集音システム100は、集音対象となる空間内にいる発話者1の音声5を集音して、発話者1の音声データ6を生成するシステムである。本実施形態では、発話者1は音源の一例であり、発話者1の音声5が集音対象となる音(目的音)となる。
図1に示すように、集音システム100は、複数のBFマイクMと、検出カメラ10と、記憶部11と、コントローラ20とを有する。
[Configuration of sound collection system]
FIG. 1 is a block diagram showing a configuration example of a sound collection system according to an embodiment of the present technology. The sound collection system 100 is a system that collects the voice 5 of the speaker 1 in a space to be sound-collected and generates the voice data 6 of the speaker 1 . In this embodiment, speaker 1 is an example of a sound source, and speech 5 of speaker 1 is a sound to be collected (target sound).
As shown in FIG. 1 , the sound collection system 100 has multiple BF microphones M, a detection camera 10 , a storage unit 11 and a controller 20 .

複数のBFマイクMは、各々がビームフォーミング(BF)技術を用いて特定方向に対する集音を行うことが可能な集音装置である。
図1には、複数のBFマイクMとして、4つのBFマイクM1~M4が模式的に図示されている。なおBFマイクMの個数は限定されない。
ここでビームフォーミング技術は、BFマイクMから特定の方向に伸びるビームを設定し、そのビームに沿って到来する音波を高感度に集音する技術である。この場合、ビームが設定される方向は、BFマイクMの集音方向となる。
各BFマイクMは、発話者1がいる空間に設定された所定の位置にそれぞれ配置される。集音システム100におけるBFマイクMの配置例については、後に詳しく説明する。
このように、各BFマイクMは、音源である発話者1の周辺に配置され集音方向を設定可能な装置である。本実施形態では、BFマイクMは、集音装置に相当する。
A plurality of BF microphones M are sound collecting devices each capable of collecting sound in a specific direction using beam forming (BF) technology.
Four BF microphones M1 to M4 are schematically illustrated as the plurality of BF microphones M in FIG. Note that the number of BF microphones M is not limited.
Here, the beamforming technique is a technique of setting a beam extending in a specific direction from the BF microphone M and collecting sound waves arriving along the beam with high sensitivity. In this case, the direction in which the beam is set is the direction in which the BF microphone M collects sound.
Each BF microphone M is arranged at a predetermined position set in the space where the speaker 1 is present. An example of arrangement of the BF microphones M in the sound collection system 100 will be described later in detail.
In this way, each BF microphone M is a device that is arranged around the speaker 1 who is a sound source and can set the sound collecting direction. In this embodiment, the BF microphone M corresponds to a sound collector.

図2は、BFマイクMの構成例を示す模式図である。図3は、BFマイクMに設定されるビーム7の一例を示す模式図である。
図2に示すBFマイクMは、平板状の基板15と、基板15に配置された複数のマイク16とを有する。すなわち、BFマイクMは、複数のマイク16が配置されたマイクアレイである。
図2Aは、基板15と直交する方向から見たBFマイクMの平面図であり、図2Bは、基板15と平行な方向から見たBFマイクMの側面図である。
FIG. 2 is a schematic diagram showing a configuration example of the BF microphone M. As shown in FIG. FIG. 3 is a schematic diagram showing an example of the beam 7 set on the BF microphone M. As shown in FIG.
The BF microphone M shown in FIG. 2 has a flat board 15 and a plurality of microphones 16 arranged on the board 15 . That is, the BF microphone M is a microphone array in which a plurality of microphones 16 are arranged.
2A is a plan view of the BF microphone M seen from a direction orthogonal to the substrate 15, and FIG. 2B is a side view of the BF microphone M seen from a direction parallel to the substrate 15. FIG.

基板15は、平面形状が円形の板状部材であり、第1の面17aと、第1の面17aとは反対側の第2の面17bとを有する。第1の面17aは、複数のマイク16が配置される面である。図2Aは、BFマイクMの第1の面17aを見た平面図である。また図2Bでは、基板15の図中上側の表面が第1の面17aであり、基板15の図中下側の表面が第2の面17bである。
複数のマイク16は、音波に応じた電気信号(音信号)を発生させる素子である。各マイク16は、無指向性マイクとして構成され、音波の到来方向によらず略一定の感度で音波を検出する。マイク16としては、例えばダイナミック型のマイクロフォンや、コンデンサ型のマイクロフォン等が用いられる。
The substrate 15 is a plate member having a circular planar shape, and has a first surface 17a and a second surface 17b opposite to the first surface 17a. The first surface 17a is a surface on which a plurality of microphones 16 are arranged. 2A is a plan view of the first surface 17a of the BF microphone M. FIG. 2B, the upper surface of the substrate 15 in the drawing is the first surface 17a, and the lower surface of the substrate 15 in the drawing is the second surface 17b.
The multiple microphones 16 are elements that generate electrical signals (sound signals) corresponding to sound waves. Each microphone 16 is configured as an omnidirectional microphone, and detects sound waves with substantially constant sensitivity regardless of the arrival direction of the sound waves. As the microphone 16, for example, a dynamic microphone, a condenser microphone, or the like is used.

図2Bに示す例では、各マイク16は、音波を受ける受音部分を基板15とは反対側に向けて配置される。この場合、第1の面17a側がBFマイクMの受音側となる。この構成では、例えば第1の面17a側に各マイク16を保護するカバー等が設けられてもよい。
これに限定されず、第2の面17a側がBFマイクMの受音側となるようにBFマイクMを構成してもよい。この場合、基板15上の各マイク16の配置位置には、第1の面17aから第2の面17bに貫通するマイク孔が設けられる。また各マイク16は、受音部分をマイク孔に向けて配置される。
In the example shown in FIG. 2B , each microphone 16 is arranged with the sound receiving portion for receiving sound waves facing away from the substrate 15 . In this case, the first surface 17a side is the sound receiving side of the BF microphone M. FIG. In this configuration, for example, a cover or the like for protecting each microphone 16 may be provided on the first surface 17a side.
The configuration is not limited to this, and the BF microphone M may be configured such that the second surface 17a side is the sound receiving side of the BF microphone M. In this case, a microphone hole penetrating from the first surface 17a to the second surface 17b is provided at the placement position of each microphone 16 on the substrate 15 . Each microphone 16 is arranged with its sound receiving portion directed toward the microphone hole.

図2Aに示すように、BFマイクMには、8つのマイク16a~16hが設けられる。各マイク16a~16hは、第1の面17aにおける基板15の中心(基板中心C)を基準として回転対称となるように配置される。従って、基板中心Cと、互いに隣接する2つのマイク16とを結ぶ2つの線分のなす角度(角度間隔)は45°となる。
以下では、基板中心Cから見たマイク16aの方位角φを0°とする。また図2Aにおいて時計回りの方向(基板中心Cを右側に見ながら回転する右回りの方向)に方位角φが増えるものとする。従ってマイク16a~16hが配置される方位角は0°、45°、90°、135°、180°、225°、270°、及び315°となる。
As shown in FIG. 2A, the BF microphone M is provided with eight microphones 16a-16h. The microphones 16a to 16h are arranged so as to be rotationally symmetric with respect to the center of the substrate 15 (substrate center C) on the first surface 17a. Therefore, the angle (angular interval) between the two line segments connecting the substrate center C and the two microphones 16 adjacent to each other is 45°.
In the following, the azimuth angle φ of the microphone 16a viewed from the substrate center C is assumed to be 0°. Also, in FIG. 2A, the azimuth angle φ increases in the clockwise direction (clockwise direction of rotation while viewing the substrate center C on the right side). Therefore, the azimuth angles at which the microphones 16a to 16h are arranged are 0°, 45°, 90°, 135°, 180°, 225°, 270° and 315°.

BFマイクMは、典型的には、基板15(第1の面17a又は第2の面17b)が水平となるように配置して用いられる。従って、マイク16a~16hの方位角は水平面における方位角として扱うことができる。なお、BFマイクMの姿勢は限定されない。例えばBFマイクMを水平面に対して傾けて配置することも可能である。 The BF microphone M is typically used with the substrate 15 (first surface 17a or second surface 17b) arranged horizontally. Therefore, the azimuth angles of the microphones 16a to 16h can be treated as azimuth angles in the horizontal plane. Note that the posture of the BF microphone M is not limited. For example, it is possible to arrange the BF microphone M tilted with respect to the horizontal plane.

BFマイクMからは、マイク16a~16hが生成した各音信号が出力される。すなわち、複数のマイク16a~16hが生成する多チャンネルの音信号が、BFマイクMの出力となる。
これらの音信号に対して、後述するコントローラ20(集音処理部23)によりビームフォーミング処理が実行される。
ビームフォーミング処理では、特定の方向を向いたビーム7が設定され、ビーム7に沿って到来する音波を集音する処理が行われる。例えば、ビーム7に沿って到来する音波の各マイク16a~16hへの伝搬遅延(到達時間のずれ)が補正される。また伝搬遅延が補正された信号が適宜加算され、ビーム7に沿って到来する音波を強調した信号が生成される。これにより、ビーム7に沿って到来する音波を選択的に集音することが可能となる。
このように、BFマイクMの集音方向3は、BFマイクMに関するビームフォーミング処理で設定されるビーム7の方向である。
The BF microphone M outputs each sound signal generated by the microphones 16a to 16h. That is, multi-channel sound signals generated by the plurality of microphones 16a to 16h are output from the BF microphone M. FIG.
A controller 20 (sound collection processing unit 23), which will be described later, performs beamforming processing on these sound signals.
In the beamforming process, a beam 7 directed in a specific direction is set, and a process of collecting sound waves arriving along the beam 7 is performed. For example, the propagation delay (difference in arrival time) of sound waves arriving along the beam 7 to each of the microphones 16a to 16h is corrected. Also, the signals whose propagation delays have been corrected are appropriately added to generate a signal in which the sound wave arriving along the beam 7 is emphasized. This makes it possible to selectively collect sound waves arriving along the beam 7 .
Thus, the sound collection direction 3 of the BF microphone M is the direction of the beam 7 set in the beamforming process for the BF microphone M. FIG.

図3には、BFマイクMに設定されるビーム7の範囲が灰色の領域を用いて模式的に図示されている。BFマイクMでは、基板中心Cから集音方向3を中心に扇状に広がる範囲が、ビーム7の範囲となる。このビーム7の範囲は、集音方位角A及びビーム幅βで規定される。 FIG. 3 schematically shows the range of the beam 7 set on the BF microphone M using a gray area. In the BF microphone M, the range of the beam 7 is a fan-shaped range centered on the sound collecting direction 3 from the center C of the substrate. The range of this beam 7 is defined by the sound collection azimuth A and the beam width β.

集音方位角Aは、集音方向3の中心角を表す方位角度である。例えばBFマイクMを集音方向3に指向性をもつマイクと見做した場合に、集音方位角Aは、指向性をもつマイクの向きに相当する。
BFマイクMでは、8つのマイク16a~16hを回転対象に配置することで、集音方位角Aを360°の全方位にわたって設定すること、すなわち360°の全方位に向けてビームを張ることが可能となっている。従って、図2に示すBFマイクMは、音源方位360°対応のビームフォーミングマイクアレイであると言える。
A sound collection azimuth angle A is an azimuth angle representing the central angle of the sound collection direction 3 . For example, when the BF microphone M is regarded as a microphone having directivity in the sound collection direction 3, the sound collection azimuth angle A corresponds to the direction of the microphone having directivity.
In the BF microphone M, by arranging the eight microphones 16a to 16h in rotational symmetry, it is possible to set the sound collection azimuth angle A in all directions of 360°, that is, to extend the beam in all directions of 360°. It is possible. Therefore, it can be said that the BF microphone M shown in FIG. 2 is a beam forming microphone array corresponding to 360 degrees of sound source directions.

ビーム幅βは、集音方位角Aに対するBFマイクMの指向性を表す角度である。ビーム幅βが小さいほど、指向性が高くなる。またビーム幅βが大きいほど、集音可能な範囲が広くなる。本実施形態では、ビーム幅βは一定の値に設定されるものとする。
なお、マイク16の個数やマイクアレイの直径等のBFマイクMの装置規模を拡大することで、ビーム幅βを可変にすることも可能である。この場合、例えば発話者1の状況やシーンに応じてビーム幅βを変更するといった処理が行われてもよい。
The beam width β is an angle representing the directivity of the BF microphone M with respect to the sound collection azimuth A. The smaller the beam width β, the higher the directivity. Also, the larger the beam width β, the wider the sound-collectable range. In this embodiment, the beam width β is set to a constant value.
The beam width β can be made variable by increasing the size of the BF microphone M, such as the number of microphones 16 and the diameter of the microphone array. In this case, for example, a process of changing the beam width β according to the situation or scene of the speaker 1 may be performed.

本実施形態では、集音方位角Aは、外部のセンサ(検出カメラ10)を用いて検出された発話者1の位置の情報をもとに、発話者1を逐次追従するように設定される。集音対象となる発話者1に対して、ビーム7の方位角度の範囲をA±βに制御することで、目的音である発話者1の音声5の高品位な集音を実現することが可能となる。
集音方位角Aを設定する方法については、後に詳しく説明する。
In this embodiment, the sound collection azimuth angle A is set so as to sequentially follow the speaker 1 based on information on the position of the speaker 1 detected using an external sensor (detection camera 10). . By controlling the azimuth angle range of the beam 7 to A±β with respect to the target speaker 1, it is possible to achieve high-quality sound collection of the voice 5 of the speaker 1, which is the target sound. It becomes possible.
A method for setting the sound collection azimuth angle A will be described later in detail.

図1に戻り、検出カメラ10は、音源である発話者1を撮影するカメラである。検出カメラ10は、例えば発話者1がいる空間に向けて配置され、集音システム100の動作中に発話者1を撮影する。
検出カメラ10としては、CMOSやCCD等のイメージセンサを備えたデジタルカメラが用いられる。また検出カメラ10として、例えばステレオカメラやToFカメラ等の奥行きを測定可能な測距カメラが用いられてもよい。
なお検出カメラ10は、1台でもよいし、複数の検出カメラ10が用いられてもよい。
Returning to FIG. 1, the detection camera 10 is a camera that captures an image of the speaker 1 who is the sound source. The detection camera 10 is arranged, for example, facing the space where the speaker 1 is present, and photographs the speaker 1 while the sound collection system 100 is operating.
As the detection camera 10, a digital camera equipped with an image sensor such as CMOS or CCD is used. Further, as the detection camera 10, a distance measuring camera capable of measuring depth, such as a stereo camera or a ToF camera, may be used.
One detection camera 10 may be used, or a plurality of detection cameras 10 may be used.

記憶部11は、不揮発性の記憶デバイスであり、例えばSSD(Solid State Drive)やHDD(Hard Disk Drive)等が用いられる。その他、コンピュータが読み取り可能な非一過性の任意の記録媒体が用いられてよい。
図1に示すように記憶部11には、制御プログラム12と、マイク情報13と、音声データベース(音声DB14)とが記憶される。
The storage unit 11 is a non-volatile storage device such as an SSD (Solid State Drive) or HDD (Hard Disk Drive). In addition, any non-transitory computer-readable recording medium may be used.
As shown in FIG. 1, the storage unit 11 stores a control program 12, microphone information 13, and a voice database (voice DB 14).

制御プログラム12は、集音システム100全体の動作を制御するプログラムである。
マイク情報13は、複数のBFマイクMに関する情報である。例えば各BFマイクMが配置された位置の3次元座標や、各BFマイクMの姿勢等がマイク情報として格納される。これらのマイク情報は、ビームフォーミング処理を実行する際に適宜参照される。この他、BFマイクMの種類や型番等がマイク情報13として格納されてもよい。
音声DB14は、発話者1の音声データ6を記録したデータベースである。例えばコントローラ20で生成された音声データ6が、発話者1のラベルとともに逐次記録される。また例えば、複数の発話者1がいる場合には、各発話者1ごとに音声データ6が記録される。
The control program 12 is a program that controls the operation of the sound collection system 100 as a whole.
The microphone information 13 is information about a plurality of BF microphones M. FIG. For example, the three-dimensional coordinates of the position where each BF microphone M is arranged, the posture of each BF microphone M, and the like are stored as microphone information. These pieces of microphone information are appropriately referred to when performing beam forming processing. In addition, the type, model number, etc. of the BF microphone M may be stored as the microphone information 13 .
The voice DB 14 is a database in which the voice data 6 of the speaker 1 is recorded. For example, the voice data 6 generated by the controller 20 are sequentially recorded together with the label of the speaker 1 . Further, for example, when there are a plurality of speakers 1, voice data 6 is recorded for each speaker 1. FIG.

コントローラ20は、集音システム100が有する各ブロックの動作を制御する。コントローラ20は、例えばCPUやメモリ(RAM、ROM)等のコンピュータに必要なハードウェア構成を有する。CPUが記憶部11に記憶されている制御プログラム12をRAMにロードして実行することにより、種々の処理が実行される。 The controller 20 controls the operation of each block included in the sound collection system 100 . The controller 20 has a hardware configuration necessary for a computer, such as a CPU and memory (RAM, ROM). Various processes are executed by the CPU loading the control program 12 stored in the storage unit 11 into the RAM and executing it.

コントローラ20は、例えばPC等のコンピュータを用いて構成される。またコントローラ20として、例えばFPGA(Field Programmable Gate Array)等のPLD(Programmable Logic Device)、その他ASIC(Application Specific Integrated Circuit)等のデバイスが用いられてもよい。 The controller 20 is configured using a computer such as a PC, for example. As the controller 20, for example, a device such as a PLD (Programmable Logic Device) such as an FPGA (Field Programmable Gate Array) or an ASIC (Application Specific Integrated Circuit) may be used.

本実施形態では、コントローラ20のCPUが本実施形態に係る制御プログラム12を実行することで、機能ブロックとして、画像処理部21、集音制御部22、及び集音処理部23が実現される。そしてこれらの機能ブロックにより、本実施形態に係る情報処理方法が実行される。なお各機能ブロックを実現するために、IC(集積回路)等の専用のハードウェアが適宜用いられてもよい。 In this embodiment, the CPU of the controller 20 executes the control program 12 according to this embodiment, thereby realizing an image processing unit 21, a sound collection control unit 22, and a sound collection processing unit 23 as functional blocks. These functional blocks execute the information processing method according to the present embodiment. In order to implement each functional block, dedicated hardware such as an IC (integrated circuit) may be used as appropriate.

画像処理部21は、検出カメラ10が撮影した画像に対して各種の画像処理を実行して音源情報を生成する。ここで音源情報とは、集音システム100の集音対象となる音源に関する情報である。
音源情報には、音源を識別する情報が含まれる。例えば複数の音源が集音対象となっている場合には、各音源を識別するID等が音源情報として生成される。
また音源情報には、音源の位置を示す情報、音源が音を発する方向を示す情報が含まれる。すなわち、音源が音を発する位置及び方向を示す情報が音源情報として生成される。
このように、画像処理部21は、音源の位置と音源が音を発する方向とを示す音源情報を取得する。本実施形態では、画像処理部21は、音源情報を取得する情報取得部に相当する。
The image processing unit 21 performs various types of image processing on the image captured by the detection camera 10 to generate sound source information. Here, the sound source information is information about a sound source to be collected by the sound collection system 100 .
The sound source information includes information for identifying the sound source. For example, when a plurality of sound sources are targeted for sound collection, an ID or the like for identifying each sound source is generated as sound source information.
The sound source information includes information indicating the position of the sound source and information indicating the direction in which the sound source emits sound. That is, information indicating the position and direction in which the sound source emits sound is generated as the sound source information.
Thus, the image processing unit 21 acquires sound source information indicating the position of the sound source and the direction in which the sound source emits sound. In this embodiment, the image processing unit 21 corresponds to an information acquiring unit that acquires sound source information.

本実施形態では、音源である発話者1を対象とした音源情報が生成される。
このため、音源を識別する情報は、発話者1を識別する情報(発話者1の名称やID等)となる。画像処理部21では、検出カメラ10を用いて発話者1を撮影した画像データから発話者1が識別される。発話者1の識別には、例えば画像認識技術を利用した個人識別等の処理が用いられる。
In this embodiment, sound source information is generated for the speaker 1 who is the sound source.
Therefore, the information identifying the sound source is the information identifying the speaker 1 (name, ID, etc. of the speaker 1). The image processing unit 21 identifies the speaker 1 from the image data of the speaker 1 captured by the detection camera 10 . To identify the speaker 1, processing such as individual identification using image recognition technology is used.

また音源の位置を示す情報は、発話者1の位置を示す情報となる。
画像処理部21では、検出カメラ10を用いて発話者1を撮影した画像データから発話者1の位置が算出される。発話者1の位置を示す情報は、発話者1がいる床面における2次元座標でもよいし、発話者1の頭部の3次元座標でもよい。
発話者1の位置を算出する方法は限定されない。
Information indicating the position of the sound source is information indicating the position of the speaker 1 .
The image processing unit 21 calculates the position of the speaker 1 from image data obtained by photographing the speaker 1 using the detection camera 10 . The information indicating the position of speaker 1 may be two-dimensional coordinates on the floor where speaker 1 is located, or may be three-dimensional coordinates of the head of speaker 1 .
A method for calculating the position of speaker 1 is not limited.

また音源が音を発する方向は、発話者1の発話方向である。発話方向は、例えば発話者1の頭部正面が向けられた方向である。音源情報には、このような発話者1の発話方向を示す情報(例えば発話者1の頭部の向き等を示す情報)が含まれる。
画像処理部21では、検出カメラ10を用いて発話者1を撮影した画像データに基づいて、発話者1に関するボーン検出(骨格推定)が実行され発話者1の発話方向が推定される。ボーン検出を用いることで、発話方向を精度よく推定することが可能である。また複数の発話者1が存在する場合であっても、各発話者1の発話方向を容易に推定可能である。
なお発話方向を検出する方法は、ボーン検出を用いた方法に限定されず、例えば頭部の向き等を推定可能な任意の方法が用いられてよい。
Also, the direction in which the sound source emits sound is the speaking direction of speaker 1 . The speaking direction is, for example, the direction in which the front of the head of the speaker 1 is directed. The sound source information includes such information indicating the speaking direction of the speaker 1 (for example, information indicating the orientation of the head of the speaker 1, etc.).
The image processing unit 21 performs bone detection (skeletal estimation) of the speaker 1 based on image data of the speaker 1 captured by the detection camera 10 to estimate the direction of speech of the speaker 1 . By using bone detection, it is possible to accurately estimate the direction of speech. Moreover, even when there are a plurality of speakers 1, the speaking direction of each speaker 1 can be easily estimated.
Note that the method of detecting the speech direction is not limited to the method using bone detection, and any method that can estimate the orientation of the head, for example, may be used.

例えば、発話者1が特定できている場合には、その発話者1の位置や発話方向が逐次算出される。また、複数の発話者1が存在する場合には、各発話者1が個別に識別され、発話者1ごとに音源情報(位置や発話方向)が算出される。
このように、集音システム100では、検出カメラ10と、画像処理部21とにより、集音対象となる発話者1を識別し、発話者1の位置及び発話方向を検出する検出装置が構成される。
For example, when speaker 1 can be identified, the position and speech direction of speaker 1 are sequentially calculated. Also, when there are a plurality of speakers 1, each speaker 1 is individually identified, and sound source information (position and speaking direction) is calculated for each speaker 1. FIG.
As described above, in the sound collection system 100, the detection camera 10 and the image processing unit 21 constitute a detection device that identifies the speaker 1 to be sound-collected and detects the position and speech direction of the speaker 1. be.

集音制御部22は、集音システム100による集音動作を制御する。
本実施形態では、集音制御部22は、上記した音源情報に基づいて、音源(発話者1)の周辺に配置され集音方向3を設定可能な複数のBFマイクMから、音源が発する音(発話者1の音声5)の集音に用いる少なくとも1つの対象マイク25を選択する。
ここで対象マイク25とは、集音対象となる発話者1の音声データ6の生成に使用されるBFマイクMである。すなわち、対象マイク25として選択されたBFマイクMの出力が、音声データ6の元データとして用いられる。
The sound collection control unit 22 controls the sound collection operation of the sound collection system 100 .
In the present embodiment, the sound collection control unit 22, based on the sound source information described above, selects a plurality of BF microphones M that are arranged around the sound source (speaker 1) and that can set the sound collection direction 3. Sound emitted by the sound source Select at least one target microphone 25 to be used for collecting (speech 5 of speaker 1).
Here, the target microphone 25 is the BF microphone M used to generate the voice data 6 of the speaker 1 who is the target of sound collection. That is, the output of the BF microphone M selected as the target microphone 25 is used as the original data of the voice data 6 .

対象マイク25は、音源情報が示す発話者1の位置や発話方向をもとに選択される。
この処理では、例えば発話者1の音声5を十分な感度で検出することができるBFマイクMが、対象マイク25として選択される。選択されるBFマイクMは1つでもよいし、複数でもよい。これにより、発話者1の状態にあった適切なBFマイクMを対象マイク25として選択することが可能となる。
図1に示す例では、BFマイクM1が対象マイク25に選択されている。
The target microphone 25 is selected based on the position and speaking direction of the speaker 1 indicated by the sound source information.
In this process, for example, the BF microphone M that can detect the voice 5 of the speaker 1 with sufficient sensitivity is selected as the target microphone 25 . One or a plurality of BF microphones M may be selected. As a result, it is possible to select the BF microphone M suitable for the state of the speaker 1 as the target microphone 25 .
In the example shown in FIG. 1, the BF microphone M1 is selected as the target microphone 25. In the example shown in FIG.

また本実施形態では、集音制御部22は、音源情報に基づいて、対象マイク25の集音方向3を設定する。すなわち、音源情報が示す発話者1の位置や発話方向をもとに、対象マイク25のビーム7の方向が設定される。
この処理では、例えば発話者1の発話方向に沿った集音が可能となるように、集音方向3(ビーム7の方向)が設定される。これにより、発話方向2にあった適切な集音方向を設定することが可能となる。
Further, in this embodiment, the sound collection control unit 22 sets the sound collection direction 3 of the target microphone 25 based on the sound source information. That is, the direction of the beam 7 of the target microphone 25 is set based on the position and speaking direction of the speaker 1 indicated by the sound source information.
In this process, the sound collection direction 3 (the direction of the beam 7) is set so that the sound can be collected along the utterance direction of the speaker 1, for example. As a result, it is possible to set an appropriate sound collection direction that matches the utterance direction 2 .

なお、複数の発話者1が集音対象となる場合には、各発話者1の音源情報をもとに、各発話者1ごとに対象マイク25が選択されその集音方向3が設定される。 When a plurality of speakers 1 are to be sound-collected, the target microphone 25 is selected for each speaker 1 based on the sound source information of each speaker 1, and the sound-collecting direction 3 is set. .

図1に示すように、集音制御部22では、複数のBFマイクMのうち対象マイク25を指定する信号(音声選択信号)と、対象マイク25に関する集音方向3を指定する信号(集音方向信号)とが生成される。
音声選択信号は、集音処理部23に出力される。また対象マイク25として選択されたBFマイクMについては、集音方向信号が指定する方向にその集音方向3が設定される。
なお図1では、各BFマイクMに対して集音方向信号が出力される様子が模式的に図示されている。実際には、集音方向信号は、集音処理部23に出力され、集音処理部23により実行される対象マイク25に関するビームフォーミング処理に用いられる。
As shown in FIG. 1, in the sound collection control unit 22, a signal (sound selection signal) that designates the target microphone 25 among the plurality of BF microphones M and a signal that designates the sound collection direction 3 regarding the target microphone 25 (sound collection direction signals) are generated.
The audio selection signal is output to the sound collection processing unit 23 . For the BF microphone M selected as the target microphone 25, the sound collection direction 3 is set to the direction specified by the sound collection direction signal.
Note that FIG. 1 schematically shows how the sound collection direction signal is output to each BF microphone M. As shown in FIG. In practice, the sound collection direction signal is output to the sound collection processing unit 23 and used in the beamforming process for the target microphone 25 executed by the sound collection processing unit 23 .

集音処理部23は、少なくとも1つの対象マイク25の出力に基づいて、発話者1が発する音声5を表す音声データ6を生成する。
上記したように対象マイク25の出力は、対象マイク25を構成する複数のマイク16a~16hが生成する音信号である。これらの音信号に対して、ビームフォーミング処理が実行され、発話者1の音声5を集音した音声データ6が生成される。本実施形態では、音声データ6は、音源が発する音を表す音データに相当する。
図1に示すように、集音処理部23は、マイク切替部27と、音声データ生成部28とを有する。
The sound collection processing unit 23 generates sound data 6 representing the sound 5 uttered by the speaker 1 based on the output of at least one target microphone 25 .
As described above, the output of the target microphone 25 is the sound signal generated by the plurality of microphones 16a to 16h that constitute the target microphone 25. FIG. A beam forming process is performed on these sound signals to generate audio data 6 obtained by collecting the voice 5 of the speaker 1 . In this embodiment, the sound data 6 corresponds to sound data representing sound produced by a sound source.
As shown in FIG. 1 , the sound collection processing unit 23 has a microphone switching unit 27 and an audio data generation unit 28 .

マイク切替部27は、音声選択信号に基づいて、複数のBFマイクMから対象マイク25を選択する。マイク切替部27は、全てのBFマイクMの出力を読み込むことが可能である。このうち、音声選択信号により対象マイク25に指定されたBFマイクMの出力が読み込まれる。従ってマイク切替部27は、複数のBFマイクMの出力のうち対象マイク25の出力を読み込むことで、対象マイク25を選択するとも言える。 The microphone switching unit 27 selects the target microphone 25 from the plurality of BF microphones M based on the voice selection signal. The microphone switching unit 27 can read the outputs of all the BF microphones M. Among them, the output of the BF microphone M designated as the target microphone 25 by the voice selection signal is read. Therefore, it can be said that the microphone switching unit 27 selects the target microphone 25 by reading the output of the target microphone 25 among the outputs of the plurality of BF microphones M.

なお図1に示すマイク切替部27は、4つのBFマイクM1~M4のうち、単一のBFマイクMを対象マイク25として選択する切替スイッチとして模式的に図示されている。これに限定されず、マイク切替部27は、4つのBFマイクM1~M4のうち、複数のBFマイクMを対象マイク25として選択することも可能である。 Note that the microphone switching unit 27 shown in FIG. 1 is schematically illustrated as a switching switch that selects a single BF microphone M as the target microphone 25 from among the four BF microphones M1 to M4. Without being limited to this, the microphone switching unit 27 can also select a plurality of BF microphones M as the target microphones 25 from among the four BF microphones M1 to M4.

音声データ生成部28は、マイク切替部27により読み込まれた対象マイク25の出力(マイク16a~16hの音信号)にビームフォーミング処理を実行し音声データ6を生成する。
ビームフォーミング処理では、集音方向信号が指定する集音方向3にビーム7が設定される。そして設定されたビーム7に沿って到来する音波について、伝搬遅延を補正する処理や、補正後の音信号を加算する処理等が実行される。
またビームフォーミング処理の他にも、各音信号の強度を調整する処理や、ノイズを除去する処理等が実行されてもよい。
The audio data generation unit 28 generates audio data 6 by executing beamforming processing on the output of the target microphone 25 (sound signals of the microphones 16a to 16h) read by the microphone switching unit 27 .
In the beamforming process, the beam 7 is set in the sound collection direction 3 specified by the sound collection direction signal. Then, for sound waves arriving along the set beam 7, processing for correcting propagation delay, processing for adding sound signals after correction, and the like are executed.
In addition to the beamforming process, a process of adjusting the intensity of each sound signal, a process of removing noise, and the like may be performed.

音声データ生成部28により生成された音声データ6は、所定の再生装置29に出力される。あるいは、音声データ6は、記憶部11に構成された音声DB14に格納される。
なお、複数の発話者1が集音対象となる場合には、各発話者1ごとに選択された対象マイク25の出力をもとに、各発話者1ごとに音声データ6が生成される。
The audio data 6 generated by the audio data generator 28 is output to a predetermined reproducing device 29 . Alternatively, the voice data 6 is stored in the voice DB 14 configured in the storage unit 11 .
Note that when a plurality of speakers 1 are to be sound-collected, voice data 6 is generated for each speaker 1 based on the output of the target microphone 25 selected for each speaker 1 .

図4は、集音システム100の基本的な集音動作を示す模式図である。図4には、発話者1と、2つのBFマイクM1及びM2と、検出カメラ10とが模式的に図示されている。
以下では、発話者1の位置をQと記載し、BFマイクM1及びM2の位置をそれぞれP1及びP2と記載する。また発話者1の発話方向2やBFマイクMの集音方向3が水平面内の方向であるものとして説明を行う。図4には発話方向2及び集音方向3が、それぞれ白抜きの実線の矢印及び黒抜きの実線の矢印を用いて模式的に図示されている。
また、発話者1の発話方向2と、発話者1から見たBFマイクMの方向とのなす角度を、BFマイクMの集音角度と記載する。
FIG. 4 is a schematic diagram showing the basic sound collection operation of the sound collection system 100. As shown in FIG. FIG. 4 schematically shows a speaker 1, two BF microphones M1 and M2, and a detection camera 10. FIG.
In the following, the position of speaker 1 is denoted as Q, and the positions of BF microphones M1 and M2 are denoted as P1 and P2, respectively. Also, the description will be made assuming that the speaking direction 2 of the speaker 1 and the sound collecting direction 3 of the BF microphone M are in the horizontal plane. In FIG. 4, the utterance direction 2 and the sound collection direction 3 are schematically illustrated using solid white arrows and solid black arrows, respectively.
Also, the angle formed by the utterance direction 2 of the speaker 1 and the direction of the BF microphone M viewed from the speaker 1 is referred to as the sound collection angle of the BF microphone M.

図4では、発話者1は、図中の右側を向いている。従って、発話者1の発話方向2は、図中の右側に向かう方向となる。
また発話者1の正面から左側にずれた位置には、BFマイクM1が配置されており、発話者1から見て右側にはBFマイクM2が配置されている。従って、BFマイクM1の集音角度は、BFマイクM2の集音角度よりも小さい。なお、発話者1から見て、BFマイクM1の位置は、BFマイクM2の位置よりも離れている。
In FIG. 4, speaker 1 faces to the right in the figure. Therefore, the utterance direction 2 of the speaker 1 is directed to the right side in the figure.
A BF microphone M1 is arranged at a position shifted to the left side from the front of the speaker 1, and a BF microphone M2 is arranged at the right side as seen from the speaker 1. - 特許庁Therefore, the sound collection angle of the BF microphone M1 is smaller than the sound collection angle of the BF microphone M2. Note that the position of the BF microphone M1 is farther from the position of the BF microphone M2 as viewed from the speaker 1. FIG.

例えば検出カメラ10により検出された発話者1の位置情報だけを用いて、発話者1の音声5を集音するためのBFマイクMを選択する場合を考える。位置情報だけを参照した場合、例えば発話者1に最も近い位置にあるBFマイクM2が選択される。 For example, consider the case of selecting the BF microphone M for collecting the voice 5 of the speaker 1 using only the positional information of the speaker 1 detected by the detection camera 10 . If only the positional information is referred to, for example, the BF microphone M2 closest to the speaker 1 is selected.

ところで、図4に示すシーンでは、発話者1は、BFマイクM2の方向を向いておらず、発話者1の発話方向2と、発話者1から見たBFマイクM2の方向(点Qから点P2に向かう方向)とのなす集音角度が90°を超えている。
例えば、発話位置(発話者1の口元)で発話された音声5を点音源とすると、発話者1自身が障害物となる。このため、BFマイクM2は、口元で発せられた直接音ではなく回折音を集音することになる。
By the way, in the scene shown in FIG. 4, the speaker 1 does not face the direction of the BF microphone M2. direction toward P2) exceeds 90°.
For example, if the voice 5 uttered at the utterance position (the mouth of the speaker 1) is a point sound source, the speaker 1 itself becomes an obstacle. Therefore, the BF microphone M2 collects the diffracted sound rather than the direct sound emitted from the mouth.

ここで、直接音とは、障害物等によって遮られることなく、音源からBFマイクMに到達する音声5である。
一方で、障害物によって遮られ障害物を回り込んで伝搬された音声5(障害物による回折を受けた音声5)は、回折音となる。例えば、集音角度が十分に大きくなると音声5の回折数が多くなり、その分だけ音声5の減衰量も大きくなる。
Here, the direct sound is the sound 5 that reaches the BF microphone M from the sound source without being blocked by obstacles or the like.
On the other hand, the sound 5 blocked by the obstacle and propagated around the obstacle (the sound 5 diffracted by the obstacle) becomes a diffracted sound. For example, when the sound collection angle is sufficiently large, the number of diffractions of the sound 5 increases, and the amount of attenuation of the sound 5 increases accordingly.

また図4に示すように、BFマイクM2では、発話者1の左側から到来する環境雑音30が直接集音される。従って、BFマイクM2を用いて発話者1の音声5を集音する場合、目的音である音声5に比べ環境雑音30の音量レベルが高くなる。 Further, as shown in FIG. 4, the BF microphone M2 directly picks up ambient noise 30 coming from the left side of the speaker 1 . Therefore, when the voice 5 of the speaker 1 is collected using the BF microphone M2, the volume level of the ambient noise 30 is higher than that of the voice 5, which is the target sound.

これに対し、図4に示すシーンでは、BFマイクM1は、発話者1の正面近くに配置される。このため、発話方向2に対するBFマイクM1の集音角度は90°未満となる。従って、BFマイクM1を用いた場合、発話者1が発した直接音を集音可能となり、回折音を集音する場合に比べて音声5の減衰量を十分に抑制することができる。
またBFマイクM1は、環境雑音30を直接集音することはない。これにより、発話者1の音声5の雑音レベルを十分に抑制することが可能である。
On the other hand, in the scene shown in FIG. 4, the BF microphone M1 is arranged near the front of the speaker 1 . Therefore, the sound collection angle of the BF microphone M1 with respect to the utterance direction 2 is less than 90°. Therefore, when the BF microphone M1 is used, the direct sound uttered by the speaker 1 can be collected, and the amount of attenuation of the sound 5 can be suppressed sufficiently compared to the case of collecting the diffracted sound.
Also, the BF microphone M1 does not directly pick up the environmental noise 30 . Thereby, the noise level of the speech 5 of the speaker 1 can be sufficiently suppressed.

そこで、集音システム100では、検出カメラ10で撮影した映像信号(画像データ)をもとに、画像処理部21により発話者1の位置検出と同時に、発話者1のボーン検出が実行されその発話方向2が検出される。
このようにして得られた発話者1の位置Q及び発話方向2の情報(音源情報)から、集音制御部22により発話者1の音声5を集音するBFマイクM(対象マイク25)が選択される。また集音制御部22により対象マイク25の集音方向3が設定される。
Therefore, in the sound collection system 100, based on the video signal (image data) captured by the detection camera 10, the image processing unit 21 simultaneously detects the position of the speaker 1 and detects the bones of the speaker 1. Direction 2 is detected.
Based on the information (sound source information) of the position Q of the speaker 1 and the speaking direction 2 (sound source information) obtained in this way, the BF microphone M (target microphone 25) that collects the voice 5 of the speaker 1 by the sound collection control unit 22 is selected. selected. Also, the sound collection control unit 22 sets the sound collection direction 3 of the target microphone 25 .

対象マイク25を選択する処理では、音源である発話者1が音声5を発する発話方向2を基準として発話者1が発する直接音を集音可能なBFマイクMが判定され、当該BFマイクMが対象マイク25として選択される。
例えば発話方向2を中心とする所定の範囲に集音方向3を設定可能であるか否かを判定することで、直接音を集音可能であるか否かが判定される。例えば音源が発話者1である場合、発話方向2を中心として±90°の範囲が、所定の範囲として設定される。
直接音を集音可能であるか否かを判定する方法は限定されず、例えば障害物の有無等に応じて判定されてもよい。
図4に示す例では、発話方向2から左側にずれて配置されたBFマイクM1が、直接音を集音可能であるとして、対象マイク25として選択される。
In the process of selecting the target microphone 25, the BF microphone M capable of collecting the direct sound emitted by the speaker 1 is determined based on the speaking direction 2 in which the speaker 1, which is the sound source, emits the voice 5, and the BF microphone M is selected. It is selected as the target microphone 25 .
For example, by determining whether or not the sound collection direction 3 can be set within a predetermined range centered on the utterance direction 2, it is determined whether or not the direct sound can be collected. For example, when the sound source is the speaker 1, a range of ±90° centering on the speaking direction 2 is set as the predetermined range.
The method of determining whether direct sound can be collected is not limited, and determination may be made according to the presence or absence of an obstacle, for example.
In the example shown in FIG. 4, the BF microphone M1, which is displaced to the left from the speaking direction 2, is selected as the target microphone 25 because it can collect the direct sound.

また集音方向3を設定する処理では、対象マイク25から発話者1に向かう方向が対象マイク25の集音方向3に設定される。これにより、発話者1が発する直接音を最も効率的に集音することが可能となる。
図4に示す例では、対象マイク25であるBFマイクM1の位置P1から、発話者1の位置Qに向かう方向が、BFマイクM1の集音方向3に設定される。またBFマイクM1のビーム7の範囲は、発話者1に向かう集音方向3を中心として±βの角度で広がる扇状の領域となる。
In the process of setting the sound collection direction 3, the direction from the target microphone 25 toward the speaker 1 is set as the sound collection direction 3 of the target microphone 25. FIG. As a result, the direct sound uttered by the speaker 1 can be collected most efficiently.
In the example shown in FIG. 4, the direction from the position P1 of the BF microphone M1, which is the target microphone 25, toward the position Q of the speaker 1 is set as the sound collection direction 3 of the BF microphone M1. Also, the range of the beam 7 of the BF microphone M1 is a fan-shaped area that spreads at an angle of ±β centering on the sound collecting direction 3 toward the speaker 1 .

このように、集音システム100には、特定方向からの音を集音可能な複数の集音装置(BFマイクM)と、集音対象となる発話者1の位置Q及び発話方向2を検出する機構(検出カメラ10及び画像処理部21)が設けられる。そして、集音制御部22により発話者1の位置Q及び発話方向2にあったBFマイクMが選択され、集音処理部23により発話者1の音声データ6が生成される。これにより、発話者1の音声5を品質よく集音することが可能となる。 In this way, the sound collection system 100 includes a plurality of sound collection devices (BF microphones M) capable of collecting sound from a specific direction, and the position Q and speech direction 2 of the speaker 1 to be collected. A mechanism (the detection camera 10 and the image processing unit 21) is provided. Then, the sound collection control unit 22 selects the BF microphone M at the position Q and the speaking direction 2 of the speaker 1, and the sound collection processing unit 23 generates voice data 6 of the speaker 1. FIG. This makes it possible to collect the speech 5 of the speaker 1 with good quality.

例えば、発話者1の近くにある集音マイクを用いて集音を行うような会議システムでは、発話者1が集音マイクに背を向けていた場合、発話方向2とは反対の方向から集音を行うことになり、音量や音質が大幅に低下する可能性があった。例えばビームフォーミング技術を備えたマイクアレイを用いる場合でも同様の問題が発生する。 For example, in a conference system that collects sound using a sound collecting microphone near speaker 1, if speaker 1 turns his back to the sound collecting microphone There was a possibility that the sound volume and sound quality would be greatly reduced. For example, a similar problem occurs when using a microphone array with beamforming technology.

これに対して、本実施形態に係る集音システム100では、複数のBFマイクMから、発話者1の位置Q及び発話方向2にあったBFマイクMを選択して集音動作が実行される。
例えば映像コンテンツの制作現場等では、演者の正面から集音するようにマイクの位置を移動させている。また演者の正面から集音する場合に、その背後からくる雑音の混入が想定される場合には、マイクの指向範囲にノイズ源が入らないようにマイクの位置や姿勢を変化させて高音質な集音を実現している。
集音システム100で行われる集音動作は、発話者1を正面から集音を出来るBFマイクMを選択することで、上記した制作現場での集音方法と同様の効果を発揮するものである。
On the other hand, in the sound collection system 100 according to the present embodiment, the sound collection operation is performed by selecting the BF microphone M that matches the position Q and the utterance direction 2 of the speaker 1 from a plurality of BF microphones M. .
For example, at a video content production site, etc., the position of the microphone is moved so as to collect sound from the front of the performer. Also, when collecting sound from the front of the performer, if noise coming from behind is expected to be mixed in, change the position and posture of the microphone so that the noise source does not enter the directional range of the microphone to achieve high sound quality. Sound collection is realized.
In the sound collection operation performed by the sound collection system 100, by selecting the BF microphone M that can collect sound from the front of the speaker 1, the same effect as the sound collection method at the production site described above is exhibited. .

また集音システム100では、集音動作が行われている間に、上記した画像処理部21により所定のフレームレートで発話者1の音源情報(位置Q及び発話方向2)を算出する処理が繰り返し実行される。従って画像処理部21は、音源情報をモニタリングするともいえる。
また、集音制御部22により、音源情報のモニタリング結果に応じて、対象マイク25と対象マイク25の集音方向とを指定する信号(音声選択信号及び集音方向信号)を動的に算出される。そして、集音処理部23により、音声選択信号及び集音方向信号に基づいて、音声データ6が生成される。
これにより、各タイミングでの発話者1の位置や発話方向に応じて、動的に集音動作を行うことが可能となり、発話者1の音声5を常時高感度で集音することが可能となる。
Further, in the sound collecting system 100, while the sound collecting operation is being performed, the image processing unit 21 repeats the process of calculating the sound source information (the position Q and the speaking direction 2) of the speaker 1 at a predetermined frame rate. executed. Therefore, it can be said that the image processing unit 21 monitors sound source information.
In addition, the sound collection control unit 22 dynamically calculates a signal (voice selection signal and sound collection direction signal) specifying the target microphone 25 and the sound collection direction of the target microphone 25 according to the monitoring result of the sound source information. be. Then, the sound collection processing unit 23 generates the sound data 6 based on the sound selection signal and the sound collection direction signal.
As a result, it is possible to dynamically collect sound according to the position and speaking direction of the speaker 1 at each timing, and it is possible to always collect the voice 5 of the speaker 1 with high sensitivity. Become.

図5は、集音システムの動作例を示すフローチャートである。図6は、BFマイクMの配置例を示す模式図である。
図5に示す処理は、図6に示すように配置された4つのBFマイクM1~M4から集音に用いる対象マイク25を選択する処理である。なお対象マイク25についての集音方向を設定する処理や、対象マイク25の出力から音声データ6を生成する処理等は、対象マイク25を選択した後に適宜実行される。
また図5に示す処理は、集音動作が行われている間に所定のフレームレートで繰り返し実行されるループ処理である。
FIG. 5 is a flowchart showing an operation example of the sound collection system. FIG. 6 is a schematic diagram showing an arrangement example of the BF microphones M. As shown in FIG.
The processing shown in FIG. 5 is processing for selecting the target microphone 25 to be used for sound collection from the four BF microphones M1 to M4 arranged as shown in FIG. The process of setting the sound collection direction for the target microphone 25, the process of generating the audio data 6 from the output of the target microphone 25, and the like are appropriately executed after the target microphone 25 is selected.
The processing shown in FIG. 5 is loop processing that is repeatedly executed at a predetermined frame rate while the sound collection operation is being performed.

まず、図6に示すBFマイクMの配置について説明する。ここでは、4つのBFマイクM1~M4が、正方形状の領域の4つの頂点にそれぞれ配置される。この正方形状の領域が、集音システム100の集音対象領域40である。ここでは、集音対象領域40内の各点において、図中上方向の方位角を0°とし、時計回りの方向に方位角が増えるものとする。
BFマイクM1は図中右上の頂点に配置され、BFマイクM2は図中右下の頂点に配置され、BFマイクM3は図中左下の頂点に配置され、BFマイクM4は図中左上の頂点に配置される。
First, the arrangement of the BF microphones M shown in FIG. 6 will be described. Here, four BF microphones M1 to M4 are arranged at four vertices of a square area. This square area is the sound collection target area 40 of the sound collection system 100 . Here, at each point in the sound collection target area 40, the azimuth angle in the upward direction in the drawing is assumed to be 0°, and the azimuth angle increases in the clockwise direction.
The BF microphone M1 is placed at the upper right vertex in the figure, the BF microphone M2 is placed at the lower right vertex in the figure, the BF microphone M3 is placed at the lower left vertex in the figure, and the BF microphone M4 is placed at the upper left vertex in the figure. placed.

また本実施形態では、複数のBFマイクMは、各々の配置に応じて割り当てられた割当範囲41に集音方向3を設定可能なように構成される。
割当範囲41は、例えば各BFマイクMが集音を担当する角度範囲であり、典型的には水平面における方位角度の範囲である。割当範囲41は、各BFマイクMの位置や、集音対象領域40の形状に合わせて適宜設定される。
Further, in this embodiment, the plurality of BF microphones M are configured so that the sound collection direction 3 can be set in the allocation range 41 allocated according to the arrangement of each.
The allocation range 41 is, for example, an angle range in which each BF microphone M is in charge of sound collection, and is typically a range of azimuth angles on a horizontal plane. The allocation range 41 is appropriately set according to the position of each BF microphone M and the shape of the sound collection target area 40 .

図6には、円弧状の矢印を用いてBFマイクM1の割当範囲41が模式的に図示されている。BFマイクM1の割当範囲41は、BFマイクM1を基準として180°から270°の範囲である。同様に、BFマイクM2の割当範囲41は、270°から360°の範囲であり、BFマイクM3の割当範囲41は、0°から90°の範囲であり、BFマイクM4の割当範囲41は、90°から180°の範囲である。
各BFマイクMは、少なくとも上記した割当範囲41内に集音方向3を設定可能である。
FIG. 6 schematically illustrates the allocation range 41 of the BF microphone M1 using arc-shaped arrows. The allocation range 41 of the BF microphone M1 is a range from 180° to 270° with respect to the BF microphone M1. Similarly, the allocation range 41 of the BF microphone M2 ranges from 270° to 360°, the allocation range 41 of the BF microphone M3 ranges from 0° to 90°, and the allocation range 41 of the BF microphone M4 is It ranges from 90° to 180°.
Each BF microphone M can set the sound collection direction 3 at least within the allocation range 41 described above.

図5に示すように、まず画像処理部21により、検出カメラ10が撮影した画像データから発話者1が検出される(ステップ101)。発話者1の検出には、例えば人物を検出する任意の画像処理が用いられる。この時、発話者1の識別が行われてもよい。 As shown in FIG. 5, the image processing unit 21 first detects the speaker 1 from the image data captured by the detection camera 10 (step 101). Any image processing for detecting a person, for example, is used to detect the speaker 1 . At this time, speaker 1 identification may be performed.

またステップ101では、発話者1が検出された場合、発話者1の位置座標が検出される。ここでは、集音対象領域40における発話者1の位置Qの2次元座標(xy座標)が検出される。
またステップ101では、発話者1に対してボーン検出が実行され、発話者1の発話方向2が検出される。ここでは、集音対象領域40における発話方向2の方位角度(正面角度)が検出される。
Also, in step 101, when the speaker 1 is detected, the position coordinates of the speaker 1 are detected. Here, the two-dimensional coordinates (xy coordinates) of the position Q of the speaker 1 in the sound collection target area 40 are detected.
Also, in step 101, bone detection is performed for speaker 1, and speech direction 2 of speaker 1 is detected. Here, the azimuth angle (frontal angle) of the speech direction 2 in the sound collection target area 40 is detected.

図7は、発話者1の発話方向2の一例を示す模式図である。
図7に示すように、発話者1の位置Qを基準に算出される。ここでは、発話者1の位置Qから見て、図中上方向の方位角を0°とする。また図中右方向の方位角を90°とし、図中下方向の方位角を180°とし、図中左方向の方位角を270°とする。
発話者1の発話方向2、すなわち発話者1の正面角度θは、0°~360°の方位角度として算出される。例えば図7に示す発話方向2の角度θは、およそ120°である。
FIG. 7 is a schematic diagram showing an example of the speech direction 2 of the speaker 1. As shown in FIG.
As shown in FIG. 7, it is calculated based on the position Q of speaker 1 . Here, as viewed from position Q of speaker 1, the azimuth angle in the upward direction in the figure is assumed to be 0°. The azimuth angle in the right direction in the figure is 90°, the azimuth angle in the downward direction in the figure is 180°, and the azimuth angle in the left direction in the figure is 270°.
The utterance direction 2 of the speaker 1, that is, the frontal angle θ of the speaker 1 is calculated as an azimuth angle of 0° to 360°. For example, the angle θ of speech direction 2 shown in FIG. 7 is approximately 120°.

なお、発話者1の位置Qや発話方向2が検出できない場合には、各パラメータの検出ができない旨の情報が記録されてもよい。 If the position Q and the speech direction 2 of the speaker 1 cannot be detected, information indicating that each parameter cannot be detected may be recorded.

次に、発話方向2が検出可能であるか否かが判定される(ステップ102)。
例えば画像処理部21により発話方向2が検出されない場合、発話方向2が検出できない状態であると判定され(ステップ102のNo)、発話者1の位置Q(xy座標)が取得可能であるか否かが判定される(ステップ103)。
例えば画像処理部21により発話者1の位置Qが検出されない場合、発話者1の位置Qが検出できない状態であると判定され(ステップ103のNo)、再度ステップ101が実行される。
Next, it is determined whether speech direction 2 is detectable (step 102).
For example, when the speech direction 2 is not detected by the image processing unit 21, it is determined that the speech direction 2 cannot be detected (No in step 102), and whether the position Q (xy coordinates) of the speaker 1 can be acquired. is determined (step 103).
For example, when the position Q of the speaker 1 is not detected by the image processing unit 21, it is determined that the position Q of the speaker 1 cannot be detected (No in step 103), and step 101 is executed again.

一方で、発話者1の位置Qが検出された場合、発話者1の位置Qが検出可能な状態であると判定され(ステップ103のYes)、発話者1の位置Qに最寄りのBFマイクMが、対象マイク25として選択される(ステップ104)。
このように、発話方向2が不明であるが、発話者1の位置Qがわかっている場合には、発話者1に直近にあるBFマイクM(図5ではBFマイク(N)と記載している)が選択される。なおNはBFマイクMを表すインデックスであり、N=1、2、3、4である。
ステップ104で、対象マイク25が選択されると、次のループ処理が実行される。
On the other hand, when the position Q of the speaker 1 is detected, it is determined that the position Q of the speaker 1 is detectable (Yes in step 103), and the BF microphone M closest to the position Q of the speaker 1 is installed. is selected as the target microphone 25 (step 104).
In this way, when the utterance direction 2 is unknown, but the position Q of the speaker 1 is known, the BF microphone M (in FIG. is selected). Note that N is an index representing the BF microphone M, where N=1, 2, 3, 4.
At step 104, when the target microphone 25 is selected, the following loop processing is executed.

ステップ102に戻り、画像処理部21により発話方向2が検出された場合、発話方向2が検出可能な状態であると判定され(ステップ102のYes)、発話方向2に最も適したBFマイクMの有無が判定される(ステップ105)。 Returning to step 102, when the speech direction 2 is detected by the image processing unit 21, it is determined that the speech direction 2 is detectable (Yes in step 102). The presence or absence is determined (step 105).

ここで、発話方向2に最も適したBFマイクMとは、発話方向2と割当範囲41の中心方向とが対応しているBFマイクMである。
このようなBFマイクMを用いることで、割当範囲41の中心に沿って到来する音声5を集音することが可能となる。この結果、効果的に音声5を強調することや、他のノイズを抑制するといった処理が可能となり、高品質な音声データ6を生成可能となる。
具体的には発話方向2の角度θが、以下の関係を満たすか否かが判定される。
θ=90°×N-45° ・・・(1)
Here, the BF microphone M most suitable for the utterance direction 2 is the BF microphone M for which the utterance direction 2 and the center direction of the allocation range 41 correspond.
By using such a BF microphone M, it is possible to collect the sound 5 arriving along the center of the allocation range 41 . As a result, processing such as effectively emphasizing the voice 5 and suppressing other noise becomes possible, and high-quality voice data 6 can be generated.
Specifically, it is determined whether or not the angle θ of the speaking direction 2 satisfies the following relationship.
θ=90°×N-45° (1)

(1)式より、N=1の場合、θ=45°となる。このθ=45°の発話方向2は、BFマイクM1の割当範囲41(180°から270°)の中心方向(225°)を180°回転させた方向であり、中心方向に沿ってBFマイクM1に進行する方向である。すなわち、θ=45°の発話方向2は、BFマイクM1の割当範囲41の中心方向と対応している。この場合、BFマイクM1が、発話方向2に最も適したBFマイクMとなる。
同様に、N=2、3、4について、(1)式が満たされる場合には、BFマイクM2、M3、及びM4が、それぞれ発話方向2に最も適したBFマイクMとなる。
From the equation (1), when N=1, θ=45°. This utterance direction 2 of θ=45° is a direction obtained by rotating the central direction (225°) of the allocation range 41 (180° to 270°) of the BF microphone M1 by 180°. direction. That is, utterance direction 2 at θ=45° corresponds to the central direction of allocation range 41 of BF microphone M1. In this case, the BF microphone M1 is the most suitable BF microphone M for the speaking direction 2. FIG.
Similarly, for N=2, 3, and 4, BF microphones M2, M3, and M4 are the most suitable BF microphones M for speech direction 2, respectively, if equation (1) is satisfied.

なおステップ105では、(1)式によるθの判定に一定の幅αを持たせた処理が実行されてもよい。例えば、発話方向2の角度θが(90°×N-45°-α)≦θ≦(90°×N-45°+α)を満たすか否かが、各Nについて判定される。このように、発話方向2と割当範囲41の中心方向とが多少ずれていた場合であっても、高品質な音声データ6を生成可能である。 Note that in step 105, processing may be performed in which a certain width α is given to the determination of θ by equation (1). For example, it is determined for each N whether the angle θ of the speaking direction 2 satisfies (90°×N−45°−α)≦θ≦(90°×N−45°+α). As described above, even if the direction of speech 2 is slightly deviated from the central direction of the allocation range 41, it is possible to generate high-quality voice data 6. FIG.

(1)式を満たすNが存在した場合(ステップ105のYes)、(1)式を満たすBFマイク(N)が、発話方向2に最も適したBFマイクMとして対象マイク25に選択される(ステップ106)。
このように、本実施形態では、割当範囲41の中心方向が発話方向2と対応しているBFマイクMが対象マイク25として選択される。これにより、発話者1の音声5を十分高い音質で集音するといったことが可能となる。
ステップ106で、対象マイク25が選択されると、次のループ処理が実行される。
If there is N that satisfies the expression (1) (Yes in step 105), the BF microphone (N) that satisfies the expression (1) is selected as the target microphone 25 as the BF microphone M most suitable for the utterance direction 2 ( step 106).
Thus, in this embodiment, the BF microphone M whose center direction of the allocation range 41 corresponds to the speech direction 2 is selected as the target microphone 25 . This makes it possible to collect the voice 5 of the speaker 1 with sufficiently high quality.
At step 106, when the target microphone 25 is selected, the following loop processing is executed.

ステップ105に戻り、(1)式を満たすNが存在しない場合(ステップ105のNo)、発話者1の位置Qのxy座標から、発話者1に最寄りのBFマイクMが検出される(ステップ107)。
例えば図6に示す例では、発話者1の発話方向2について(1)式を満たすNは存在しないと判定され、発話者1に最も近いBFマイクM4(N=4)が検出される。
Returning to step 105, if there is no N satisfying the formula (1) (No in step 105), the BF microphone M closest to speaker 1 is detected from the xy coordinates of position Q of speaker 1 (step 107 ).
For example, in the example shown in FIG. 6, it is determined that there is no N that satisfies the expression (1) for the speech direction 2 of the speaker 1, and the BF microphone M4 (N=4) closest to the speaker 1 is detected.

ステップ107で検出されたBFマイクMについて、発話方向2に沿った集音が可能であるか否かが判定される(ステップ108)。ここで、発話方向2に沿った集音とは、発話方向2がビーム7の方向範囲に含まれた状態で行われる集音動作である。
図6を参照して説明したように、ここでは各BFマイクMが、90°の割当範囲41内で集音方向3を設定可能である。従って、N番目のBFマイクMが設定可能な方位角の範囲は、90°×(N-1)-βから、90°×N+βまでの範囲となる。
ステップ108では、発話者1に最も近いBFマイク(N)について、発話方向2の角度θが上記したビーム7を設定可能な範囲に収まるか否かが判定される。これは、以下の関係を満たすか否かを判定する処理である。
90×(N-1)-β≦θ≦90°×N+β ・・・(2)
For the BF microphone M detected in step 107, it is determined whether or not sound can be collected along the speaking direction 2 (step 108). Here, the sound collection along the utterance direction 2 is a sound collection operation performed in a state where the utterance direction 2 is included in the direction range of the beam 7 .
As explained with reference to FIG. 6, here each BF microphone M can set the sound collection direction 3 within the allocation range 41 of 90°. Therefore, the range of azimuth angles that can be set by the N-th BF microphone M is from 90°×(N−1)−β to 90°×N+β.
At step 108, for the BF microphone (N) closest to the speaker 1, it is determined whether or not the angle .theta. This is a process of determining whether or not the following relationship is satisfied.
90×(N−1)−β≦θ≦90°×N+β (2)

図6を参照して(2)式の判定について説明する。ここでは、BFマイクM4(N=4)が最寄りのBFマイクMとして検出されているため、(2)式は、270-β≦θ≦360°+βとなる。これは、BFマイクM4の割当範囲41に集音方向3を設定するという条件のもとで設定可能なビーム7の範囲に対応する。この範囲に、発話方向2の角度θが含まれているかどうかが判定される。
これにより、発話者1に最も近いBFマイクMにおいて、発話方向2に沿った集音が可能であるかどうかがわかる。
The determination of expression (2) will be described with reference to FIG. Here, since the BF microphone M4 (N=4) is detected as the nearest BF microphone M, the formula (2) is 270-β≤θ≤360°+β. This corresponds to the range of the beam 7 that can be set under the condition that the sound collection direction 3 is set in the allocation range 41 of the BF microphone M4. It is determined whether or not the angle θ of the speech direction 2 is included in this range.
Thus, it can be determined whether or not the BF microphone M closest to the speaker 1 can collect sound along the speaking direction 2 .

(2)式が満たされる場合(ステップ108のYes)、ステップ107で検出された最寄りのBFマイク(N)が対象マイク25に選択される(ステップ109)。これにより、発話者1に最も近い位置から十分な感度で音声5を集音することが可能となる。
ステップ109で、対象マイク25が選択されると、次のループ処理が実行される。
If the expression (2) is satisfied (Yes in step 108), the nearest BF microphone (N) detected in step 107 is selected as the target microphone 25 (step 109). This makes it possible to collect the voice 5 from the position closest to the speaker 1 with sufficient sensitivity.
At step 109, when the target microphone 25 is selected, the following loop processing is executed.

また(2)式が満たされない場合(ステップ108のNo)、ステップ107で検出された最寄りのBFマイク(N)は対象マイク25としては選択されない。この場合、次のBFマイク(N+1)について、発話方向2に沿った集音が可能であるか否かが判定される(ステップ110)。
この処理では、発話方向2の角度θが以下の関係を満たすか否かが判定される。
90×N+β<θ≦90×(N+1)+β ・・・(3)
Also, if the formula (2) is not satisfied (No in step 108), the nearest BF microphone (N) detected in step 107 is not selected as the target microphone 25. FIG. In this case, it is determined whether or not the next BF microphone (N+1) can collect sound along the speech direction 2 (step 110).
In this process, it is determined whether or not the angle θ of the speaking direction 2 satisfies the following relationship.
90×N+β<θ≦90×(N+1)+β (3)

(3)式は、発話者1の最寄りのBFマイク(N)に隣接するBFマイク(N+1)が、設定可能なビーム7の範囲のうち、BFマイク(N)と重複しない範囲に発話方向2の角度θが含まれているかどうかを判定する条件式である。
図6に示す例では、最寄りのBFマイクM4であった。この場合ステップ110では、その次のBFマイクM1(N=1)がBFマイクM4とは別に設定可能なビーム7の範囲を対象として判定処理が実行される。
Expression (3) is such that the BF microphone (N+1) adjacent to the BF microphone (N) closest to the speaker 1 is in the range of the settable beam 7 that does not overlap with the BF microphone (N). is a conditional expression for determining whether the angle θ of is included.
In the example shown in FIG. 6, it was the nearest BF microphone M4. In this case, in step 110, determination processing is executed for the range of the beam 7 in which the next BF microphone M1 (N=1) can be set separately from the BF microphone M4.

(3)式が満たされる場合(ステップ110のYes)、最寄りのBFマイク(N)に隣接するBFマイク(N+1)が対象マイク25に選択される(ステップ111)。これにより、発話者1に2番目(又は3番目)に近い位置から十分な感度で音声5を集音することが可能となる。
ステップ111で、対象マイク25が選択されると、次のループ処理が実行される。
If the expression (3) is satisfied (Yes in step 110), the BF microphone (N+1) adjacent to the nearest BF microphone (N) is selected as the target microphone 25 (step 111). This makes it possible to collect the voice 5 from a position second (or third) closest to the speaker 1 with sufficient sensitivity.
At step 111, when the target microphone 25 is selected, the following loop processing is executed.

また(3)式が満たされない場合(ステップ110のNo)、最寄りのBFマイク(N)にBFマイク(N+1)とは反対側で隣接するBFマイク(N-1)が対象マイク25に選択される(ステップ112)。これにより、BFマイク(N+1)が選択された場合と同様に、発話者1に十分近い位置から十分な感度で音声5を集音することが可能となる。
ステップ112で、対象マイク25が選択されると、次のループ処理が実行される。
Further, if the formula (3) is not satisfied (No in step 110), the BF microphone (N−1) adjacent to the nearest BF microphone (N) on the opposite side of the BF microphone (N+1) is selected as the target microphone 25. (step 112). As a result, as in the case where the BF microphone (N+1) is selected, it is possible to collect the voice 5 from a position sufficiently close to the speaker 1 with sufficient sensitivity.
At step 112, when the target microphone 25 is selected, the following loop processing is executed.

ステップ107~ステップ112で行われる処理は、発話方向2に沿った集音が可能なBFマイクMを近い順番に検索して対象マイク25に設定する処理である。このように、本実施形態では、発話方向2が割当範囲41の中心方向に対応するBFマイクMが存在しない場合、発話方向2に沿った集音が可能であり、音源との距離が最も近いBFマイクMが対象マイクとして選択される。
これにより、可能な限り高い感度で音声5を集音することが可能なBFマイクMを対象マイク25に設定することが可能となる。この結果、音声データ6の音質を十分に向上することが可能となる。
The process performed in steps 107 to 112 is a process of retrieving BF microphones M capable of collecting sound along the speaking direction 2 in order of proximity and setting them as the target microphone 25 . As described above, in the present embodiment, when there is no BF microphone M whose speech direction 2 corresponds to the central direction of the allocation range 41, sound can be collected along the speech direction 2, and the distance to the sound source is the closest. BF microphone M is selected as the target microphone.
This makes it possible to set the BF microphone M capable of collecting the voice 5 with the highest possible sensitivity as the target microphone 25 . As a result, the sound quality of the audio data 6 can be sufficiently improved.

図8は、複数の発話者1に対する集音動作について説明するための模式図である。以下では、集音対象領域40に複数の発話者1が居る場合の集音動作について説明する。
ここでは、正方形状の集音対象領域40の中心に置かれた机43の周りに座っている4人の発話者1A、1B、1C、及び1Dを対象として集音動作が行われものとする。発話者1A、1B、1C、及び1Dは、集音対象領域40の中心から見て図中の左上、右上、右下、及び左下に位置し、互いに向かい合うようにして会話をしている。
また集音対象領域40の4つの頂点には、図6と同様にBFマイクM1~M4がそれぞれ配置される。
FIG. 8 is a schematic diagram for explaining the sound collection operation for a plurality of speakers 1. FIG. A sound collection operation when a plurality of speakers 1 are present in the sound collection target area 40 will be described below.
Here, it is assumed that four speakers 1A, 1B, 1C, and 1D sitting around a desk 43 placed in the center of a square-shaped sound-collection target area 40 are subjected to sound-collection operations. . Speakers 1A, 1B, 1C, and 1D are positioned at the upper left, upper right, lower right, and lower left in the drawing when viewed from the center of the target sound collection area 40, and are having a conversation facing each other.
BF microphones M1 to M4 are arranged at the four vertices of the sound collection target area 40, respectively, as in FIG.

複数の発話者1が集音対象となる場合、画像処理部21は、複数の発話者1(音源)ごとに音源情報を取得する。
具体的には、集音対象領域40を図示しない検出カメラ10で撮影した画像データから、発話者1A、1B、1C、及び1Dの各々について、各発話者1の位置と発話方向2とがそれぞれ検出される。
When a plurality of speakers 1 are targeted for sound collection, the image processing unit 21 acquires sound source information for each of the plurality of speakers 1 (sound sources).
Specifically, from the image data captured by the detection camera 10 (not shown) of the sound collection target area 40, the position and the speaking direction 2 of each speaker 1 are obtained for each of the speakers 1A, 1B, 1C, and 1D. detected.

各発話者1の音源情報が取得されると、集音制御部22は、複数の発話者1ごとの音源情報に基づいて、複数の発話者1ごとに対象マイク25をそれぞれ選択する。また集音制御部22は、複数の発話者1ごとに選択された各対象マイク25について、集音方向3をそれぞれ設定する。
図8に示す例では、発話者1Aの対象マイク25として、集音対象領域40の右上に配置されたBFマイクM1が選択される。また、発話者1Bの対象マイク25として、集音対象領域40の左上に配置されたBFマイクM4が選択される。また、発話者1Cの対象マイク25として、集音対象領域40の左下に配置されたBFマイクM3が選択される。また、発話者1Dの対象マイク25として、集音対象領域40の右下に配置されたBFマイクM2が選択される。
When the sound source information of each speaker 1 is obtained, the sound collection control unit 22 selects the target microphone 25 for each of the speakers 1 based on the sound source information of each speaker 1 . The sound collection control unit 22 also sets the sound collection direction 3 for each of the target microphones 25 selected for each of the plurality of speakers 1 .
In the example shown in FIG. 8, the BF microphone M1 arranged at the upper right of the sound collection target area 40 is selected as the target microphone 25 of the speaker 1A. Also, the BF microphone M4 arranged at the upper left of the sound collection target area 40 is selected as the target microphone 25 of the speaker 1B. Also, the BF microphone M3 arranged at the lower left of the sound collection target area 40 is selected as the target microphone 25 of the speaker 1C. Also, the BF microphone M2 arranged at the lower right of the sound collection target area 40 is selected as the target microphone 25 of the speaker 1D.

例えば、発話者1Aの音声5の集音に、発話者1Aの直近に配置されたBFマイクM4を用いるとする。ここでは、発話者1Aは、机を挟んで対峙している発話者1B及び発話者1Cのほうを向いて会話をしている。このため、発話者1Aの発話方向2に対するBFマイクM4の集音角度は、90°以上である。さらにBFマイクM4を用いて発話者1Aの音声5を集音する場合、発話者1B及び1Cの発話方向2の90°以内にビームフォーミングの集音方向3を設定することになる。
この結果、BFマイクM4では、発話者1Aの回折音と、発話者1B及び1Cの直接音とを集音することになり、発話者1Aの音声5を選択的に集音することが難しくなる。
For example, suppose that the BF microphone M4 arranged in the immediate vicinity of the speaker 1A is used to collect the voice 5 of the speaker 1A. Here, speaker 1A is having a conversation while facing speaker 1B and speaker 1C facing each other across the desk. Therefore, the sound collection angle of the BF microphone M4 with respect to the speaking direction 2 of the speaker 1A is 90° or more. Furthermore, when collecting the voice 5 of the speaker 1A using the BF microphone M4, the sound collection direction 3 for beam forming is set within 90° of the speech direction 2 of the speakers 1B and 1C.
As a result, the BF microphone M4 collects the diffracted sound of the speaker 1A and the direct sounds of the speakers 1B and 1C, making it difficult to selectively collect the voice 5 of the speaker 1A. .

これに対し、例えば図5を参照して説明した処理のように、発話方向2の情報を加味することで、発話者1Aの音声を集音する対象マイク25として、BFマイクM1を選択することが可能である。BFマイクM1を用いることで、発話者1Aの直接音を集音することが可能となる。またBFマイクM1から発話者1Aに向けて設定される集音方向3は、発話者1B及び1Cの音声5をほとんど集音しない。このように、発話者1B及び1Cをビームフォーミングの集音範囲外にすることが可能となるので、集音対象でない発話者1の影響を十分に抑えることが可能となる。 On the other hand, the BF microphone M1 can be selected as the target microphone 25 for collecting the voice of the speaker 1A by considering the information on the speaking direction 2, as in the processing described with reference to FIG. 5, for example. is possible. By using the BF microphone M1, it is possible to collect the direct sound of the speaker 1A. Also, the sound collection direction 3 set from the BF microphone M1 toward the speaker 1A hardly collects the voices 5 of the speakers 1B and 1C. In this way, since the speakers 1B and 1C can be placed outside the sound collection range of beamforming, it is possible to sufficiently suppress the influence of the speaker 1 who is not the target of sound collection.

発話者1B~1Dに対して設定される対象マイク25についても、上記と同様の効果を発揮することが可能である。これにより、複数の発話者1が居る場合であっても、各発話者1の音声5を個別にかつ良好な音質で集音することが可能となる。 The same effects as described above can be exhibited for the target microphones 25 set for the speakers 1B to 1D. As a result, even when there are a plurality of speakers 1, it is possible to collect the voice 5 of each speaker 1 individually and with good sound quality.

図9は、複数のBFマイクMを用いた集音動作の一例を示す模式図である。
図9では、複数のBFマイクMを使って一人の発話者1の音声を集音する例について説明する。この場合、集音制御部22では、単一の音源(一人の発話者1)について、複数のBFマイクMから複数の対象マイク25が選択される。
ここでは、図6や図8と同様に4つのBFマイクM1~M4が正方形状の集音対象領域40に配置される。
FIG. 9 is a schematic diagram showing an example of sound collection operation using a plurality of BF microphones M. FIG.
In FIG. 9, an example of collecting the voice of one speaker 1 using a plurality of BF microphones M will be described. In this case, the sound collection control unit 22 selects a plurality of target microphones 25 from a plurality of BF microphones M for a single sound source (single speaker 1).
Here, as in FIGS. 6 and 8, four BF microphones M1 to M4 are arranged in a square sound collection target area 40. FIG.

図9に示す発話者1は、集音対象領域40の中心よりも図中上側に位置した状態で、図中下側を向いて音声5を発している。このため、発話者1に近接するBFマイクM1やM4では、発話者1の直接音の集音が難しい。
このような場合、集音制御部22により、集音対象領域40において発話者1の正面側(発話方向2が向けられた側)にあるBFマイクM2及びM3がともに発話者1の対象マイクとして選択される。また集音処理部23により、BFマイクM2及びM3使って、発話者1の音声5が同時に集音され、各集音結果を加算(合成)して音声データ6が生成される。
このように2つのBFマイクM2及びM3を用いることで、遠距離集音時の集音レベルを向上することが可能となり、品質を低下させることなく発話者1の音声5を集音することが可能となる。
A speaker 1 shown in FIG. 9 is positioned above the center of the sound collection target area 40 in the figure, and is facing downward in the figure and uttering a voice 5 . For this reason, it is difficult for the BF microphones M1 and M4, which are close to the speaker 1, to collect the direct sound of the speaker 1. FIG.
In such a case, the sound collection control unit 22 selects both the BF microphones M2 and M3 located on the front side of the speaker 1 (the side toward which the speech direction 2 is directed) in the sound collection target area 40 as the target microphones of the speaker 1. selected. The sound collection processing unit 23 simultaneously collects the voice 5 of the speaker 1 using the BF microphones M2 and M3, and adds (synthesizes) the collected sound results to generate voice data 6. FIG.
By using the two BF microphones M2 and M3 in this way, it is possible to improve the sound collection level at the time of long-distance sound collection, and it is possible to collect the speech 5 of the speaker 1 without deteriorating the quality. It becomes possible.

図10は、発話者1が移動する際の集音動作の一例を示す模式図である。図11は、音声5の合成処理について説明するための模式図である。ここでは、図10及び図11を参照して、集音対象領域40内を発話者1が移動する場合の対象マイク25の選択動作について説明する。
発話者1は、集音対象領域40の左上から中央右側を通って左下に向けて移動するものとする。図10には、時刻T1、T2、T3、及びT4における発話者1の位置及び発話方向2が模式的に図示されている。またビーム7の範囲を表すグレーの色は各時刻に対応しており、色が濃いほど後の時刻に設定されたビーム7を表している。
FIG. 10 is a schematic diagram showing an example of the sound collection operation when the speaker 1 moves. FIG. 11 is a schematic diagram for explaining the process of synthesizing voice 5. As shown in FIG. Here, the operation of selecting the target microphone 25 when the speaker 1 moves within the sound collection target area 40 will be described with reference to FIGS. 10 and 11. FIG.
It is assumed that the speaker 1 moves from the upper left of the target sound collection area 40 to the lower left through the right side of the center. FIG. 10 schematically shows the position and speech direction 2 of speaker 1 at times T1, T2, T3, and T4. The gray color representing the range of the beam 7 corresponds to each time, and the darker the color, the later the beam 7 is set.

例えば時刻T1では、発話者1は、集音対象領域40の左上に位置し発話方向2は図中右側に向けられている。この場合、BFマイクM1が対象マイク25となり、発話者1に向けてビーム7が設定される。
時刻T2では、発話者1は、BFマイクM1に接近しており発話方向2は図中右下に向けられている。この場合、BFマイクM1とともに、BFマイクM2が対象マイク25として選択される。
時刻T3では、発話者1は、集音対象領域40の中央右側に位置し発話方向2は図中下側に向けられている。この場合、BFマイクM1は対象マイク25から外されており、BFマイクM2が対象マイク25として選択される。
時刻T4では、発話者1は、BFマイクM2に接近しており発話方向2は図中左下のBFマイクM3に向けられている。この場合、BFマイクM2とともに、BFマイクM3が対象マイク25として選択される。
For example, at time T1, the speaker 1 is positioned at the upper left of the sound collection target area 40, and the speech direction 2 is directed to the right side in the figure. In this case, the BF microphone M1 becomes the target microphone 25, and the beam 7 is set toward the speaker 1. FIG.
At time T2, speaker 1 is approaching BF microphone M1 and speaking direction 2 is directed to the lower right in the figure. In this case, the BF microphone M2 is selected as the target microphone 25 along with the BF microphone M1.
At time T3, the speaker 1 is positioned on the right side of the center of the sound collection target area 40, and the speaking direction 2 is directed downward in the figure. In this case, the BF microphone M1 is removed from the target microphone 25, and the BF microphone M2 is selected as the target microphone 25. FIG.
At time T4, the speaker 1 is approaching the BF microphone M2, and the speaking direction 2 is directed toward the BF microphone M3 at the lower left in the figure. In this case, the BF microphone M3 is selected as the target microphone 25 together with the BF microphone M2.

このように、本実施形態では、発話者1の移動に伴い、複数のBFマイクMを適宜切り替えて対象マイク25が設定される。
また時刻T2やT4のように、2つのBFマイクMで集音が可能な場合には、両方のBFマイクMが対象マイク25として設定され、そのデータを用いて音声データ6が合成される。すなわち、集音処理部23では、複数の対象マイク25により集音されたデータを合成して、発話者1の音声データ6が生成される。
以下では、時刻T2の場合を例に挙げて、対象マイク25として選択された2つのBFマイクM1及びM2を用いて音声データ6を合成する方法について説明する。
As described above, in the present embodiment, the target microphone 25 is set by appropriately switching the plurality of BF microphones M as the speaker 1 moves.
Also, when sound can be collected by two BF microphones M, such as times T2 and T4, both BF microphones M are set as the target microphones 25, and the audio data 6 is synthesized using the data. That is, the sound collection processing unit 23 synthesizes the data collected by the plurality of target microphones 25 to generate the speech data 6 of the speaker 1 .
A method of synthesizing the audio data 6 using the two BF microphones M1 and M2 selected as the target microphones 25 will be described below, taking the case of time T2 as an example.

図11には、時刻T2における発話者1とBFマイクM1及びM2との配置関係が模式的に図示されている。
発話者1からBFマイクM1に向かう方向(QからP1に向かう方向)と発話方向2とのなす角度をγ1と記載し、発話者1からBFマイクM2に向かう方向(QからP2に向かう方向)と発話方向2とのなす角度をγ2と記載する。また、発話者1とBFマイクM1との距離(QとP1との距離)をL1と記載し、発話者1とBFマイクM2との距離(QとP2との距離)をL2と記載する。
(γ1、γ2、L1、L2)は、例えば画像処理部21によるボーン検出及び人位置検出の各処理を用いてそれぞれ算出される。
FIG. 11 schematically shows the positional relationship between speaker 1 and BF microphones M1 and M2 at time T2.
The angle between the direction from speaker 1 to BF microphone M1 (the direction from Q to P1) and the utterance direction 2 is denoted as γ1 , and the direction from speaker 1 to BF microphone M2 (the direction from Q to P2) ) and the speaking direction 2 is denoted as γ 2 . Also, the distance between speaker 1 and BF microphone M1 (distance between Q and P1) is indicated as L1 , and the distance between speaker 1 and BF microphone M2 (distance between Q and P2) is indicated as L2. do.
1 , γ 2 , L 1 , L 2 ) are calculated using bone detection and human position detection processing by the image processing unit 21, for example.

ここで、発話者1の正面で集音を行った場合に、必要な発話レベルAを集音可能な距離を、基準集音距離Lと記載する。
例えば、基準集音距離Lに対して、発話者1から距離L1だけ離れた位置で集音するBFマイクM1の集音レベルA1は、以下の式で表される。
A1=A×(L/L1)2 ・・・(4)
同様に、基準集音距離Lに対して、発話者1から距離L2だけ離れた位置で集音するBFマイクM2の集音レベルA2は、以下の式で表される。
A2=A×(L/L2)2 ・・・(5)
Here, a reference sound collection distance L is the distance at which the necessary speech level A can be collected when the sound is collected in front of the speaker 1 .
For example, the sound collection level A1 of the BF microphone M1 that collects sound at a position separated from the speaker 1 by a distance L1 with respect to the reference sound collection distance L is expressed by the following equation.
A1=A×(L/ L1 ) 2 (4)
Similarly, the sound collection level A2 of the BF microphone M2 that collects sound at a position separated from the speaker 1 by a distance L2 with respect to the reference sound collection distance L is expressed by the following equation.
A2=A×(L/L 2 ) 2 (5)

また、BFマイクM1及びM2の各出力を以下の式に従って合成する。
mix=sqrt{(A1×(L1/L)2×cosγ) 2+(A1×(L1/L)2×cosγ) 2
・・・(6)
ここでAmixは、BFマイクM1及びM2の各出力を合成した合成レベルである。
またsqrt{}は、{}内の値に対する平方根を意味する。
またγは、上記した(γ1、γ2)のどちらか一方である。
Also, each output of the BF microphones M1 and M2 is synthesized according to the following formula.
A mix =sqrt{(A1×(L 1 /L) 2 ×cosγ) 2 +(A1×(L 1 /L) 2 ×cosγ) 2 }
... (6)
Here, A mix is a synthesis level obtained by synthesizing the outputs of the BF microphones M1 and M2.
Also, sqrt{} means the square root of the value in {}.
γ is either one of (γ 1 , γ 2 ) described above.

(4)及び(5)式より、必要な発話レベルAは、以下のように表される。
A=A1×(L1/L)2=A2×(L2/L)2 ・・・(7)
従って、(6)式に従って合成される合成レベルAmixは、Amix=Aとなる。
このように、(6)式を用いることで、合成レベルAmixを常に発話レベルAと同等のレベルとすることが可能となる。
From the equations (4) and (5), the required speech level A is expressed as follows.
A=A1×( L1 /L) 2 =A2×( L2 /L) 2 (7)
Therefore, the synthesis level A mix synthesized according to the formula (6) is A mix =A.
Thus, by using the equation (6), the synthesis level A mix can always be kept at the same level as the speech level A.

また、(6)式のγは、例えば2つのBFマイクM(ここではM1及びM2)のうち、メインに集音を行うBFマイクM(主マイクアレイ)の発話方向2に対する集音角度である。
例えば、発話者1の位置Q及び発話方向2をもとに、集音角度γが-90°≦γ≦90°となり、発話者1に近接する2つのBFマイクMが対象マイク25として選択される。また、選択された2つのBFマイクMのうち、発話者1に近いほうが、メインに集音を行うBFマイクMに設定され、その集音角度が(6)式のγとして用いられる。
In addition, γ in equation (6) is, for example, the sound collection angle of the BF microphone M (main microphone array) that mainly collects sound, out of the two BF microphones M (here, M1 and M2), with respect to the utterance direction 2. .
For example, based on the position Q of the speaker 1 and the speaking direction 2, the sound collection angle γ is −90°≦γ≦90°, and two BF microphones M close to the speaker 1 are selected as the target microphones 25. be. Of the two selected BF microphones M, the one closer to the speaker 1 is set as the BF microphone M that mainly collects sound, and its sound collection angle is used as γ in equation (6).

例えば、図11に示す状況では、発話者1に近いBFマイクM1がメインに集音を行うBFマイクMに設定され、その集音角度γ1が(6)式のγとして用いられる。
また時刻T2以降に発話者1が移動して、γ1=90°(またはγ1=-90°)となった場合、メインに集音を行うBFマイクMは、BFマイクM2に切り替えられ、(6)式のγが集音角度γ1に切り替えられる。
これにより、隣接するBFマイクMの連続的な切替えを実現することが可能となる。この結果、不自然な音切れ等を発生させることなく、集音レベルの高い高品質な集音を継続して行うことが可能となる。
For example, in the situation shown in FIG. 11, the BF microphone M1 close to the speaker 1 is set as the BF microphone M that mainly collects sound, and its sound collection angle γ1 is used as γ in equation (6).
Further, when the speaker 1 moves after time T2 and becomes γ 1 =90° (or γ 1 =−90°), the BF microphone M that mainly collects sound is switched to the BF microphone M2, γ in equation (6) is switched to the sound collection angle γ 1 .
This makes it possible to realize continuous switching of adjacent BF microphones M. FIG. As a result, it is possible to continuously perform high-quality sound collection at a high sound collection level without causing unnatural sound interruptions or the like.

図12は、複数の発話者1が移動する際の集音動作の一例を示す模式図である。
図12では、複数の発話者1が移動し、かつ各発話者1に対する集音動作が干渉する場合について説明する。
ここでは、集音対象領域40内を2人の発話者1A及び1Bが、図中の太い矢印に沿ってそれぞれ移動するものとする。図12A及び図12Bには、時刻T1及び時刻T2での発話者1A及び1Bの配置が模式的に図示されている。
また発話者1Aの対象マイク25のビーム7の範囲が薄いグレーの領域で示されており、発話者1Bの対象マイク25のビーム7の範囲が濃いグレーの領域で示されている。また、ドットの領域は、比較のために示した仮想的なビーム7の範囲を表している。
FIG. 12 is a schematic diagram showing an example of a sound collection operation when a plurality of speakers 1 move.
FIG. 12 illustrates a case where a plurality of speakers 1 move and sound collection operations for each speaker 1 interfere.
Here, it is assumed that two speakers 1A and 1B move within the sound collection target area 40 along the thick arrows in the drawing. 12A and 12B schematically show the arrangement of speakers 1A and 1B at time T1 and time T2.
The range of the beam 7 of the target microphone 25 of the speaker 1A is indicated by a light gray area, and the range of the beam 7 of the target microphone 25 of the speaker 1B is indicated by a dark gray area. Also, the dot area represents the range of the virtual beam 7 shown for comparison.

図12Aでは、発話者1Aは集音対象領域40の左上の外周近くに位置し、発話者1Aの発話方向2は図中右側を向いている。また発話者1Bは集音対象領域40の中央下側の外周近くに位置し、発話者1Bの発話方向2は図中左上を向いている。 In FIG. 12A, the speaker 1A is positioned near the upper left outer periphery of the sound collection target area 40, and the speaking direction 2 of the speaker 1A faces the right side in the figure. Also, the speaker 1B is positioned near the outer periphery of the lower center of the sound collection target area 40, and the speech direction 2 of the speaker 1B is directed to the upper left in the figure.

図12Aに示す状況では、発話者1Aの正面側にある直近のBFマイクM1で、発話者1Aの音声5を集音してもその集音方向3(ビーム7aの方向)に他者(発話者1B)が重ならない。このため、BFマイクM1が発話者1Aの対象マイク25として選択され、発話者1Aに向けてビーム7aが設定される。
同様に、発話者1Bの正面側にある直近のBFマイクM3で、発話者1Bの音声5を集音してもその集音方向3(ビーム7cの方向)に他者(発話者1A)が重ならない。このため、BFマイクM3が発話者1Bの対象マイク25として選択され、発話者1Bに向けてビーム7bが設定される。
In the situation shown in FIG. 12A, even if the voice 5 of the speaker 1A is collected by the BF microphone M1 closest to the front side of the speaker 1A, the sound collection direction 3 (the direction of the beam 7a) Person 1B) does not overlap. Therefore, the BF microphone M1 is selected as the target microphone 25 for the speaker 1A, and the beam 7a is set toward the speaker 1A.
Similarly, even if the voice 5 of the speaker 1B is collected with the BF microphone M3 that is closest to the front side of the speaker 1B, the other person (the speaker 1A) is in the sound collection direction 3 (direction of the beam 7c). Do not overlap. Therefore, the BF microphone M3 is selected as the target microphone 25 of the speaker 1B, and the beam 7b is set toward the speaker 1B.

なお、発話者1Aに最も近い位置にあるBFマイクM4では、発話者1Aにビーム7dを向けたとしても、発話者1Aを背後から集音することになる。同様に、発話者1Bに最も近い位置にあるBFマイクM2では、発話者1Bにビーム7bを向けたとしても、発話者1Bを背後から集音することになる。従ってBFマイクM4のビーム7dや、BFマイクM2のビーム7bでは、発話者1の直接音が集音できないため、音質が低下する可能性がある。 Even if the beam 7d is directed toward the speaker 1A, the BF microphone M4 located closest to the speaker 1A picks up sound from behind the speaker 1A. Similarly, the BF microphone M2 located closest to the speaker 1B picks up the sound of the speaker 1B from behind even if the beam 7b is directed toward the speaker 1B. Therefore, since the beam 7d of the BF microphone M4 and the beam 7b of the BF microphone M2 cannot collect the direct sound of the speaker 1, the sound quality may deteriorate.

図12Bでは、発話者1Aは集音対象領域40の中心の右上に位置し、発話者1Aの発話方向2は図中右下を向いている。また発話者1Bは集音対象領域40の中心の左下に位置し、発話者1Bの発話方向2は図中上側を向いている。 In FIG. 12B, the speaker 1A is positioned at the upper right of the center of the sound collection target area 40, and the speech direction 2 of the speaker 1A is directed to the lower right in the figure. Also, the speaker 1B is positioned at the lower left of the center of the sound collection target area 40, and the speech direction 2 of the speaker 1B is directed upward in the figure.

図12Bに示す状況では、図12Aと同様にBFマイクM1を用いて発話者1Aを集音した場合、BFマイクM1のビーム7a'上に、他者(発話者1B)が重なっている。また発話者1Bの発話方向2に対するBFマイクM1の集音角度が90°以下であるため、ビーム7a'を用いた場合、発話者1Bが発する直接音が集音される可能性がある。
一方で、発話者1Aの正面側にあるもう一方のBFマイクM2を用いて発話者1Aを集音した場合、BFマイクM2のビーム7b'上に、他者(発話者1B)が重ならない。このため、図12Bでは、BFマイクM2が発話者1Aの対象マイク25として選択され、発話者1Aに向けてビーム7b'が設定される。これにより、発話者1Aの音声5だけを高品質に集音することが可能である。
In the situation shown in FIG. 12B, when the speaker 1A is picked up using the BF microphone M1 as in FIG. 12A, the other person (speaker 1B) overlaps the beam 7a' of the BF microphone M1. Also, since the sound collection angle of the BF microphone M1 with respect to the speaking direction 2 of the speaker 1B is 90° or less, the direct sound emitted by the speaker 1B may be collected when the beam 7a' is used.
On the other hand, when the other BF microphone M2 in front of the speaker 1A is used to collect the sound of the speaker 1A, the other person (speaker 1B) does not overlap the beam 7b' of the BF microphone M2. Therefore, in FIG. 12B, the BF microphone M2 is selected as the target microphone 25 of the speaker 1A, and the beam 7b' is set toward the speaker 1A. This makes it possible to collect only the voice 5 of the speaker 1A with high quality.

図12Bに示す発話者1Bについても同様に対象マイク25が切り替えられる。例えば、
図12Aと同様にBFマイクM3を用いて発話者1Bを集音した場合、BFマイクM3のビーム7c'には、他者(発話者1A)が重なっており、発話者1Aが発する直接音が集音される可能性がある。
一方で、発話者1Bの正面側にあるBFマイクM4を用いて発話者1Bを集音した場合、BFマイクM4のビーム7d'上に、他者(発話者1A)が重ならない。このため、図12Bでは、BFマイクM4が発話者1Bの対象マイク25として選択され、発話者1Bに向けてビーム7d'が設定される。これにより、発話者1Bの音声5だけを高品質に集音することが可能である。
The target microphone 25 is similarly switched for the speaker 1B shown in FIG. 12B. for example,
When the speaker 1B is collected using the BF microphone M3 as in FIG. 12A, the beam 7c' of the BF microphone M3 overlaps the other person (speaker 1A), and the direct sound emitted by the speaker 1A is Sound may be collected.
On the other hand, when the BF microphone M4 in front of the speaker 1B is used to collect the sound of the speaker 1B, the other person (speaker 1A) does not overlap the beam 7d' of the BF microphone M4. Therefore, in FIG. 12B, the BF microphone M4 is selected as the target microphone 25 of the speaker 1B, and the beam 7d' is set toward the speaker 1B. This makes it possible to collect only the voice 5 of the speaker 1B with high quality.

このように本実施形態では、処理対象(集音対象)の発話者1が発する直接音を集音し処理対象とは異なる他の発話者1が発する直接音を集音しないように集音方向3を設定可能なBFマイクMが対象マイク25として選択される。
これにより、例えば処理対象の発話者1が発した音声5を選択的に集音した音声データ6を生成することが可能となる。
As described above, in this embodiment, the sound collection direction is changed so as to collect the direct sound uttered by the speaker 1 to be processed (sound collection target) and not to collect the direct sound uttered by another speaker 1 different from the processing target. 3 can be set is selected as the target microphone 25 .
As a result, for example, it is possible to generate voice data 6 by selectively collecting the voice 5 uttered by the speaker 1 to be processed.

図13は、発話者1の発話方向2を想定した集音動作の一例を示す模式図である。
図13では、複数の発話方向2にむけた発話が想定可能であり、発話方向2が比較的頻繁に切り替わるような状況での集音動作について説明する。
ここでは、一例としてリモート会議が行われている状況を想定する。集音対象領域40には、発話者1A及び1Bが左右に分かれて座っている。また集音対象領域40の中央上側に設けられたモニター44には、リモート会議の参加者である発話者1Cが映し出されている。
13A and 13B are schematic diagrams showing an example of the sound collection operation assuming the speaking direction 2 of the speaker 1. FIG.
FIG. 13 illustrates a sound collection operation in a situation where it is possible to assume speech directed toward a plurality of speech directions 2 and the speech direction 2 switches relatively frequently.
Here, as an example, it is assumed that a remote conference is being held. Speakers 1A and 1B are sitting on the right and left sides of the sound collection target area 40 . A speaker 1</b>C, who is a participant in the remote conference, is displayed on the monitor 44 provided in the upper center of the sound collection target area 40 .

複数の発話方向2が想定される場合には、対応するBFマイクMに対して、想定される発話方向2に応じた集音方向3が予め設定される。集音方向3が予め設定されたBFマイクMは、対象マイク25の候補となる候補マイク26となる。
このように、複数のBFマイクMには、予め集音方向3が設定された複数の候補マイク26が含まれる。本実施形態では、候補マイク26は、候補装置に相当する。
When a plurality of utterance directions 2 are assumed, a sound collection direction 3 corresponding to the assumed utterance direction 2 is set in advance for the corresponding BF microphone M. The BF microphone M for which the sound collection direction 3 is set in advance becomes a candidate microphone 26 that is a candidate for the target microphone 25 .
Thus, the multiple BF microphones M include multiple candidate microphones 26 for which the sound collection directions 3 are set in advance. In this embodiment, the candidate microphones 26 correspond to candidate devices.

発話者1Aに着目すると、図13に示す状況では、発話者1Aが発話者1Cに向かって発話する場合(発話方向2が上側に向けられる場合)と、発話者1Aが発話者1Bに向かって発話する場合(発話方向2が右側に向けられる場合)とが想定される。
この場合、BFマイクM4及びM1が、発話者1Aの音声5を集音する候補マイク26として設定される。
例えば、発話者1Aが発話者1Cに向かって発話する際の上側に向けられる発話方向2aに対応して、BFマイクM4に集音方向3aが設定される。同様に、発話者1Aが発話者1Bに向かって発話する際の右側に向けられる発話方向2bに対応して、BFマイクM1に集音方向3bが設定される。
Focusing on speaker 1A, in the situation shown in FIG. A case of speaking (speech direction 2 directed to the right) is assumed.
In this case, the BF microphones M4 and M1 are set as candidate microphones 26 for collecting the speech 5 of the speaker 1A.
For example, a sound collection direction 3a is set for the BF microphone M4 corresponding to an upward speaking direction 2a when the speaker 1A speaks to the speaker 1C. Similarly, a sound collection direction 3b is set for the BF microphone M1 in correspondence with the speech direction 2b directed to the right when the speaker 1A speaks to the speaker 1B.

このように、候補マイク26が設定された状態で、発話者1に対する集音動作が実行される。具体的には、集音制御部22により、複数の候補マイク26から対象マイク25が選択される。例えば、発話者1の実際の発話方向2がモニタリングされ、そのモニタリング結果に応じて、各候補マイク26から対象マイク25が選択される。
図13では、発話者1Aが発話者1Cに向かって発話しているとする。この場合、発話方向2aに対応する集音方向3aが設定されたBFマイクM4が対象マイク25として選択される。そして、BFマイクM4により集音方向3aに沿って発話者1Aの音声5が集音される。
In this way, the sound collecting operation for the speaker 1 is performed with the candidate microphones 26 set. Specifically, the target microphone 25 is selected from the plurality of candidate microphones 26 by the sound collection control unit 22 . For example, the actual speaking direction 2 of the speaker 1 is monitored, and the target microphone 25 is selected from each candidate microphone 26 according to the monitoring result.
In FIG. 13, it is assumed that speaker 1A is speaking to speaker 1C. In this case, the BF microphone M4 for which the sound collection direction 3a corresponding to the speaking direction 2a is set is selected as the target microphone 25. FIG. Then, the voice 5 of the speaker 1A is collected along the sound collection direction 3a by the BF microphone M4.

また、集音処理部23は、対象マイク25として選択されない候補マイク26を集音状態で待機させる。ここで集音状態での待機とは、例えば対象マイク25による集音動作のバックグラウンドで集音処理(ビームフォーミング処理)を継続する処理である。なお待機中に生成された音声データ6は適宜削除される。
図13では、BFマイクM4が対象マイク25として選択されるため、もう一方の候補マイク26であるBFマイクM1が集音状態で待機することになる。このときBFマイクM1は集音方向3bに対する集音動作を継続している。
これにより、発話方向2が急に変化した場合であっても、待機させた候補マイク26での集音に切り替えることで、高品質な集音を継続して行うことが可能となる。
In addition, the sound collection processing unit 23 causes the candidate microphones 26 not selected as the target microphones 25 to stand by in the sound collection state. Here, the standby in the sound collecting state is, for example, a process of continuing the sound collecting process (beam forming process) in the background of the sound collecting operation by the target microphone 25 . Note that the voice data 6 generated during standby is deleted as appropriate.
In FIG. 13, since the BF microphone M4 is selected as the target microphone 25, the other candidate microphone 26, the BF microphone M1, is on standby in a sound collecting state. At this time, the BF microphone M1 continues the sound collection operation in the sound collection direction 3b.
As a result, even when the speech direction 2 suddenly changes, it is possible to continuously collect high-quality sound by switching to the sound collection by the candidate microphone 26 that is on standby.

例えば図13では、発話者1Aの隣席に発話者1Bが居るため、発話者1Aがメインの方向(発話方向2a)を向いて発話者1Cと話していたとしても、急に発話者1Bとの会話が始まる可能性がある。そこで、上記したように予め隣席方向(発話方向2b)に対してもBFマイクM1を集音状態で待機すれば、発話者1Aが頻繁に且つ早急に向きを変えて隣席の発話者1Bと会話を始めても、頭切れをせずに発話者1Aの音声5を集音することが可能となる。 For example, in FIG. 13, since speaker 1B is in the seat next to speaker 1A, even if speaker 1A faces the main direction (speech direction 2a) and talks to speaker 1C, the conversation with speaker 1B suddenly occurs. Conversation can start. Therefore, as described above, if the BF microphone M1 is on standby in the sound-collecting state in advance in the adjacent seat direction (speech direction 2b), the speaker 1A can frequently and quickly turn around and converse with the adjacent speaker 1B. , it is possible to collect the voice 5 of the speaker 1A without truncating.

図14は、ジャスチャーに応じた集音動作の一例を示す模式図である。
図14では、発話者1のジェスチャー(特定動作)に応じて発話者1に対する集音処理を制御する方法について説明する。
ここでは、画像処理部21により、発話者1のジェスチャーが検出される。本実施形態では、発話者1の発話方向2を検出するボーン検出機能を利用して、発話者1の骨格の情報から発話者1のジェスチャーが検出される。発話者1のジェスチャーは、静的なジェスチャー(ポーズ)であってもよいし、動的なジェスチャー(動作)であってもよい。
FIG. 14 is a schematic diagram showing an example of a sound collection operation according to a gesture.
In FIG. 14, a method of controlling sound collection processing for speaker 1 according to gestures (specific actions) of speaker 1 will be described.
Here, the gesture of speaker 1 is detected by the image processing unit 21 . In this embodiment, the gesture of speaker 1 is detected from information on the skeleton of speaker 1 using a bone detection function that detects the speaking direction 2 of speaker 1 . The gesture of speaker 1 may be a static gesture (pose) or a dynamic gesture (movement).

図14(a)~(c)には、発話者1の骨格を用いて、発話者1の姿勢が模式的に図示されている。発話者1の骨格は、複数の座標点45で表されており、例えば発話者1の頭部は、頭座標点45aと、首座標点45bとで表されている。また発話者1の右手は、右手首及び右手のひらを表す座標点45のペア46Rで表されており、発話者1の左手は、左手首及び左手のひらを表す座標点45のペア46Lで表されている。
これに限定されず、例えば、目、鼻、耳等の他の部分を表す座標点45が用いられてもよい。
14A to 14C schematically show the posture of speaker 1 using the skeleton of speaker 1. FIG. The skeleton of speaker 1 is represented by a plurality of coordinate points 45. For example, the head of speaker 1 is represented by head coordinate point 45a and neck coordinate point 45b. The right hand of speaker 1 is represented by a pair 46R of coordinate points 45 representing the right wrist and right palm, and the left hand of speaker 1 is represented by a pair 46L of coordinate points 45 representing the left wrist and left palm. ing.
It is not limited to this, and for example, coordinate points 45 representing other parts such as eyes, nose, ears, etc. may be used.

本実施形態では、集音処理部23により、発話者1のジェスチャーに応じて、発話者1の音声5を集音する集音処理が制御される。
ここで集音処理とは、例えば発話者1の音声5を集音するために必要となる一連の処理である。集音処理には、音声データ6を生成するビームフォーミング処理の他、画像処理部21による発話者1の位置Q及び発話方向2の検出処理や、集音制御部22による対象マイク25を選択する処理や集音方向3を設定する処理が含まれる。
これらの処理が、発話者1のジェスチャーに応じて制御される。
In this embodiment, the sound collection processing unit 23 controls sound collection processing for collecting the voice 5 of the speaker 1 according to the gesture of the speaker 1 .
Here, the sound collection process is a series of processes necessary for collecting the voice 5 of the speaker 1, for example. In the sound collection processing, in addition to the beamforming processing for generating the voice data 6, the image processing unit 21 detects the position Q and the speech direction 2 of the speaker 1, and the sound collection control unit 22 selects the target microphone 25. processing and processing for setting the sound collection direction 3 are included.
These processes are controlled according to the gesture of speaker 1 .

図14(a)には、発話者1の一般姿勢が示されている。一般姿勢は、例えば発話者1の通常の姿勢であり、左右の手を下におろして直立した状態である。なお、左右の手(ペア46L及び46R)の位置が例えば肩の座標点45よりも低い位置にある場合を一般姿勢に設定してもよい。
一般姿勢が検出された場合、発話者1に対して通常の集音処理が実行される。
FIG. 14( a ) shows the general posture of speaker 1 . The general posture is, for example, the normal posture of the speaker 1, in which the speaker stands upright with his left and right hands down. A general posture may be set when the left and right hands (pair 46L and 46R) are positioned lower than the shoulder coordinate point 45, for example.
When the general posture is detected, normal sound collection processing is performed for speaker 1 .

図14(b)には、集音を停止する停止ジェスチャーが示されている。停止ジェスチャーは、口前に手をかざす姿勢である。このように、発話者1が手で口を遮る停止ジェスチャーが検出された場合、発話者に対する集音処理が停止される。
ここでは、発話者1の右手(ペア46R)が、頭座標点45a及び首座標点45bの間と重なる位置で検出される。このようなジェスチャーが検出された場合には、発話者1が口を塞いだとみなして、発話者1を対象とする集音処理が停止される。これにより、例えば発話者1が集音したくない会話等が集音される事態を回避することが可能となる。
なお、他の発話者1に対して実行されている集音処理はそのまま継続される。
FIG. 14(b) shows a stop gesture for stopping sound collection. A stop gesture is a posture of holding a hand in front of the mouth. In this way, when the stop gesture of speaker 1 covering his mouth with his hand is detected, the sound collection process for the speaker is stopped.
Here, the right hand (pair 46R) of speaker 1 is detected at a position overlapping between head coordinate point 45a and neck coordinate point 45b. When such a gesture is detected, it is assumed that speaker 1 has covered his mouth, and sound collection processing for speaker 1 is stopped. As a result, for example, it is possible to avoid a situation in which a conversation or the like, which the speaker 1 does not want to collect, is collected.
Note that the sound collection processing that is being executed for the other speaker 1 is continued as it is.

図14(c)には、集音を優先する優先ジェスチャーが示されている。優先ジェスチャーは、左右どちらかの手を頭部より上にかざす姿勢である。このように、発話者1が手を挙げる優先ジェスチャーが検出された場合、発話者1に対する集音処理が優先して実行される。
ここでは、発話者1の左手(ペア46L)が、頭座標点45aよりも高い位置で検出される。このようなジェスチャーが検出された場合には、発話者1が発言のために挙手をしたとみなして、発話者1を優先的に集音する集音処理(優先集音)が実行される。
優先集音では、例えば発話者1の音声を集音するためのビームフォーミング処理の精度が引き上げられる。あるいは、発話者1の発話方向2等の検出精度が引き上げられる。逆に、他の発話者1に対して実行されている集音処理の精度が引き下げられてもよい。また、発話者1の音声5を単独で集音するといった処理が実行されてもよい。これにより、例えば発言を希望する発話者1の音声を高品質に集音することが可能となる。
FIG. 14(c) shows a priority gesture that prioritizes sound collection. A priority gesture is a posture in which either the left or right hand is held above the head. In this way, when the priority gesture of raising the hand of speaker 1 is detected, the sound collection process for speaker 1 is preferentially executed.
Here, speaker 1's left hand (pair 46L) is detected at a position higher than head coordinate point 45a. When such a gesture is detected, it is assumed that speaker 1 has raised his/her hand to speak, and sound collection processing (prioritized sound collection) for preferentially collecting sound for speaker 1 is performed.
In the priority sound collection, for example, the accuracy of beam forming processing for collecting the voice of speaker 1 is raised. Alternatively, the detection accuracy of the utterance direction 2 and the like of the speaker 1 is raised. Conversely, the accuracy of the sound collection process being executed for the other speaker 1 may be lowered. Further, a process of independently collecting the voice 5 of the speaker 1 may be executed. As a result, for example, the voice of speaker 1 who wishes to speak can be collected with high quality.

図15は、音声と動作音とを集音する集音動作の一例を示す模式図である。
図15では、発話者1の移動等の動作に伴う所作音8を分離して集音する方法について説明する。以下では所作音の一例として、発話者1が移動した際に発生する足音を例に挙げて説明する。この処理は、例えばボーン検出や位置検出により、発話者1の移動が検出された場合に実行される。なお、発話者1の移動の有無に関わらず、所作音8(足音)を分離する処理が実行されてもよい。
FIG. 15 is a schematic diagram showing an example of sound collection operation for collecting voice and operation sound.
With reference to FIG. 15, a method of separating and collecting a gesture sound 8 accompanying an action such as movement of the speaker 1 will be described. In the following description, footsteps generated when the speaker 1 moves will be described as an example of the gesture sound. This processing is executed when movement of the speaker 1 is detected by bone detection or position detection, for example. Note that the process of separating the gesture sound 8 (footsteps) may be executed regardless of whether or not the speaker 1 moves.

図15Aは、対象マイク25(BFマイクM)から発話者1に向けられたビーム7の垂直方向の広がりを示す模式図である。例えば対象マイク25に設定されたビーム7は、図15Aに示すように上下方向に広がる。このため、対象マイク25は、発話者1の音声5とともに、発話者1の足元で発生する足音(所作音8)も集音することが可能である。
従って、対象マイク25の出力をもとに生成された音声データ6には、発話者1の音声5と所作音8が含まれている。
FIG. 15A is a schematic diagram showing the spread of the beam 7 directed toward the speaker 1 from the target microphone 25 (BF microphone M) in the vertical direction. For example, the beam 7 set on the target microphone 25 spreads vertically as shown in FIG. 15A. Therefore, the target microphone 25 can collect not only the voice 5 of the speaker 1 but also the sound of footsteps (sound 8) generated at the feet of the speaker 1 .
Therefore, the voice data 6 generated based on the output of the target microphone 25 contains the voice 5 of the speaker 1 and the gesture sound 8 .

本実施形態では、集音処理部23により、対象マイク25により集音された音声データ6から、発話者1の音声5と、発話者1の所作音8とが分離される。
例えば音声データ6から発話成分を分離することで、発話者1の所作音8(足音)を集音した所作音データ等を生成することが可能である。
In this embodiment, the sound collection processing unit 23 separates the sound 5 of the speaker 1 and the gesture sound 8 of the speaker 1 from the sound data 6 collected by the target microphone 25 .
For example, by separating the utterance component from the voice data 6, it is possible to generate gesture sound data or the like in which the gesture sound 8 (footsteps) of the speaker 1 is collected.

図15Bは、所作音8を分離する集音処理部23の構成例を示すブロック図である。この集音処理部23には、図1を参照して説明した音声データ生成部28の後段に、音源分離部35が設けられる。
音源分離部35は、対象マイク25を用いて生成された音声データ6から発話者1の音声5を除去して、所作音8を抽出する。所作音8の抽出には、データの内容や集音環境等に応じて分離周波数等のパラメータを変化させる適応型の音源分離処理が用いられる。あるいは、所作音8の特徴に合わせて固定型の帯域通過フィルタ(BPF)等が用いられてもよい。
FIG. 15B is a block diagram showing a configuration example of the sound collection processing unit 23 that separates the gesture sound 8. As shown in FIG. The sound collection processing unit 23 is provided with a sound source separation unit 35 after the audio data generation unit 28 described with reference to FIG.
The sound source separation unit 35 removes the voice 5 of the speaker 1 from the voice data 6 generated using the target microphone 25 and extracts the gesture sound 8 . An adaptive sound source separation process that changes parameters such as a separation frequency according to the content of data, the sound collection environment, and the like is used for extracting the motion sound 8 . Alternatively, a fixed bandpass filter (BPF) or the like may be used according to the characteristics of the sound 8 .

図15Cは、音声5及び所作音8に関する集音レベルの周波数分布を示す模式的なグラフである。グラフの横軸は、周波数であり、縦軸は、集音レベルである。音声5及び所作音8の集音レベルは、実線のグラフ及び一点鎖線のグラフを用いてそれぞれ示されている。
例えば音声5は、1kHzを中心として比較的急峻なピーク状に分布しており、1kHzよりも十分に周波数が高い領域(または低い領域)には周波数成分を持たない。一方で、所作音8は、音声5よりも広い周波数範囲に分布した比較的ブロードな分布を示す。すなわち音声5が周波数成分を持たない領域にも、所作音8の周波数成分が分布している。
FIG. 15C is a schematic graph showing the frequency distribution of collected sound levels for voice 5 and gesture sound 8. FIG. The horizontal axis of the graph is frequency, and the vertical axis is sound collection level. Sound collection levels of voice 5 and gesture sound 8 are indicated using a solid line graph and a dashed line graph, respectively.
For example, the sound 5 is distributed in a relatively sharp peak shape centered at 1 kHz, and does not have frequency components in a region sufficiently higher (or lower) in frequency than 1 kHz. On the other hand, the gesture sound 8 exhibits a relatively broad distribution in a frequency range wider than that of the voice 5 . That is, the frequency components of the gesture sound 8 are distributed even in areas where the voice 5 does not have frequency components.

このように、音声5の周波数成分は1kHz近辺に集中している。そこで、音源分離部35では、音声データ6から1kHz近辺の周波数成分を除去する処理が実行される。このように、音源分離部35は、1kHz近辺の周波数成分を除去したデータを所作音8(足音)とみなして集音する。
図15Cには、1kHz近辺の周波数成分を除去するBPFの周波数特性が、破線のグラフを用いて示されている。このようなBPFを音声データ6に作用させることで、音声5が除去されて所作音8が抽出された所作音データが生成される。
この他、所作音8を抽出する方法は限定されず、例えば機械学習等を用いた音源分離技術等が適宜用いられてもよい。
Thus, the frequency components of voice 5 are concentrated around 1 kHz. Therefore, the sound source separation unit 35 performs a process of removing frequency components around 1 kHz from the audio data 6 . In this way, the sound source separation unit 35 regards the data from which the frequency component around 1 kHz is removed as the gesture sound 8 (footsteps) and collects the sound.
FIG. 15C shows the frequency characteristics of a BPF that removes frequency components around 1 kHz using a dashed line graph. By applying such a BPF to the voice data 6, gesture sound data in which the voice 5 is removed and the gesture sound 8 is extracted is generated.
In addition, the method of extracting the gesture sound 8 is not limited, and for example, a sound source separation technique using machine learning or the like may be used as appropriate.

音声5と分離された所作音8(所作音データ)は、例えば音声5とは別のトラックの音データとして、再生装置29や記憶部11に出力される。
例えば、発話者1の挙動を遠隔地で再生するようなアプリケーション(リモート会議やリモートプレゼンテーション等)では、音声5と所作音8とを分けて再生することで、臨場感の向上をはかることが可能である。
また例えば、映像コンテンツの収録を行う際に、所作音8を音声5とは別トラックで記録することが可能となり、コンテンツの品質を向上することが可能となる。
The action sound 8 (action sound data) separated from the voice 5 is output to the reproducing device 29 or the storage unit 11 as sound data of a track different from that of the voice 5, for example.
For example, in an application that reproduces the behavior of the speaker 1 at a remote location (remote conference, remote presentation, etc.), it is possible to improve the sense of presence by reproducing the voice 5 and the gesture sound 8 separately. is.
Also, for example, when recording video content, it is possible to record the gesture sound 8 on a separate track from the audio 5, thereby improving the quality of the content.

以上、本実施形態に係るコントローラ20では、音源である発話者1の周辺に配置された複数のBFマイクMから、発話者1の音声5を集音するための対象マイク25が少なくとも1つ選択される。各BFマイクMは、集音方向3を設定できる装置であり、対象マイク25の選択には、発話者1の位置Q及び発話者1が音声を発する発話方向2を示す音源情報が用いられる。これにより、例えば発話者1の位置や音声5の出る方向に適応したBFマイクMを用いることが可能となり、発話者1が発する音声5を高品質に集音することが可能となる。 As described above, in the controller 20 according to the present embodiment, at least one target microphone 25 for collecting the voice 5 of the speaker 1 is selected from the plurality of BF microphones M arranged around the speaker 1 which is the sound source. be done. Each BF microphone M is a device that can set the sound collection direction 3, and sound source information indicating the position Q of the speaker 1 and the speech direction 2 in which the speaker 1 emits voice is used to select the target microphone 25. This makes it possible to use, for example, the BF microphone M adapted to the position of the speaker 1 and the direction from which the voice 5 is emitted, so that the voice 5 emitted by the speaker 1 can be collected with high quality.

音源の音を集音する方法として、例えば目的音以外の音を除去するノイズキャンセルを用いる方法が考えられる。例えば特許文献1では、一つのマイクアレイを用いたビームフォーミング技術によるノイズキャンセルの方法が記載されている。この方法では、マイクアレイとは別の画像処理装置を用いて集音対象となる人物の配置が検出され、集音対象の配置に基づいてノイズ方向が設定される。そして集音対象が存在する方向の音からノイズ方向の音を差し引くことで、ノイズがキャンセルされる。 As a method for collecting sound from a sound source, for example, a method using noise cancellation for removing sounds other than the target sound is conceivable. For example, Patent Literature 1 describes a method of noise cancellation by beam forming technology using one microphone array. In this method, an image processing device separate from the microphone array is used to detect the placement of a person to be sound-collected, and the noise direction is set based on the placement of the sound-collection target. Noise is canceled by subtracting the sound in the noise direction from the sound in the direction in which the sound collection target exists.

しかしながら、例えば集音対象となる人物がマイクアレイに背を向けた場合には、発話方向とは反対側から人物の音声を集音することになり、そもそも集音対象の音を高品質で集音することが難しい。また集音対象とノイズ源との配置関係によっては、目的音より雑音が大きく集音されることになる。この場合、目的音となる発話情報を雑音情報の中から抜き出すことになるので、音声の品質が劣化する可能性がある。 However, for example, when the target person turns his/her back to the microphone array, the person's voice is collected from the opposite side of the speaking direction. difficult to make a sound Also, depending on the positional relationship between the sound collection target and the noise source, the noise may be louder than the target sound. In this case, since the utterance information, which is the target sound, is extracted from the noise information, there is a possibility that the quality of the speech will be degraded.

本実施形態では、集音対象となる音源(発話者1)の位置Q及び発話方向2が音源情報として検出される。この音源情報をもとに、任意の方向に集音方向3を設定可能な複数の集音装置を制御して発話者1の音声5が集音される。これにより、様々な方向を向いている複数の発話者1から発せられる音声5を個別かつ同時に集音することが可能となる。
また複数の発話者1が同時に発話しても、各発話者1の音声データ6を別々のオブジェクトとして発話数分だけ集音することが可能である。これにより、音声データ6の取り扱いが容易になる。
In this embodiment, the position Q and the speech direction 2 of the sound source (speaker 1) to be collected is detected as the sound source information. Based on this sound source information, the sound 5 of the speaker 1 is collected by controlling a plurality of sound collectors capable of setting the sound collection direction 3 in an arbitrary direction. This makes it possible to individually and simultaneously collect sounds 5 emitted from a plurality of speakers 1 facing various directions.
Even if a plurality of speakers 1 speak at the same time, it is possible to collect the voice data 6 of each speaker 1 as separate objects for the number of utterances. This facilitates handling of the audio data 6 .

また、複数のBFマイクMから、対象マイク25を選択しその集音方向3を設定する方法は、発話者1の音声5を良い音質で集音可能な状況を作り出すことを目的としている。これは、ノイズをキャンセルする前の段階で、おおもとのデータにおける音質を向上させる方法であると言える。
このように、集音システム100で行われる集音方法は、ノイズ除去ではないので、再生した場合に明瞭に聞くことが可能な音声データ6を提供することが可能となる。
The method of selecting the target microphone 25 from a plurality of BF microphones M and setting the sound collection direction 3 aims at creating a situation in which the voice 5 of the speaker 1 can be collected with good sound quality. It can be said that this is a method of improving the sound quality of the original data before canceling the noise.
Thus, since the sound collection method performed by the sound collection system 100 is not noise removal, it is possible to provide audio data 6 that can be heard clearly when reproduced.

<その他の実施形態>
本技術は、以上説明した実施形態に限定されず、他の種々の実施形態を実現することができる。
<Other embodiments>
The present technology is not limited to the embodiments described above, and various other embodiments can be implemented.

上記では、各BFマイクMに対して、1つのビーム7を設定して集音を行う方法について説明した。これに限定されず、例えば1つのBFマイクMに対して、複数のビーム7(集音方向3)を設定することも可能である。これにより、例えばBFマイクMの数よりも発話者1が多いような場合であっても、発話者1ごとの高品質な集音を実現することが可能となる。 A method of setting one beam 7 for each BF microphone M to collect sound has been described above. It is not limited to this, and it is also possible to set a plurality of beams 7 (sound collection direction 3) for one BF microphone M, for example. As a result, even when the number of speakers 1 is greater than the number of BF microphones M, for example, it is possible to achieve high-quality sound collection for each speaker 1 .

図1を参照して説明した構成では、集音処理部23によりビームフォーミング処理が実行された。例えば、各BFマイクMがそれぞれビームフォーミング処理を実行可能なように構成されてもよい。この場合、各BFマイクMでは、集音方向信号が指定する集音方向3の音波を集音するビームフォーミング処理が実行され、各BFマイクMからは、集音方向3の音声データ6が出力される。このような構成であっても、発話者1の音声5を高品質に集音することが可能である。 In the configuration described with reference to FIG. 1, the sound collection processing unit 23 executes beam forming processing. For example, each BF microphone M may be configured to be able to perform beam forming processing. In this case, each BF microphone M performs beamforming processing for collecting sound waves in the sound collection direction 3 specified by the sound collection direction signal, and each BF microphone M outputs sound data 6 in the sound collection direction 3. be done. Even with such a configuration, it is possible to collect the speech 5 of the speaker 1 with high quality.

集音方向3を設定可能な集音装置として、BFマイクMに代えて、単一指向性マイク等が用いられてもよい。この場合、例えば多数の単一指向性マイクが発話者1の周辺に配置される。そして発話者1の発話方向2にあった集音方向3をもつ単一指向性マイクが選択され、対象マイク25として用いられる。このような構成であっても、発話者1の音声5を高品質に集音することが可能である。 A unidirectional microphone or the like may be used instead of the BF microphone M as a sound collecting device capable of setting the sound collecting direction 3 . In this case, for example, many unidirectional microphones are arranged around speaker 1 . A unidirectional microphone having a sound collecting direction 3 that matches the speaking direction 2 of the speaker 1 is selected and used as the target microphone 25 . Even with such a configuration, it is possible to collect the speech 5 of the speaker 1 with high quality.

上記では集音システムのコンピュータ(コントローラ)により、本技術に係る情報処理方法が実行される場合を説明した。しかしながら集音システムのコンピュータとネットワーク等を介して通信可能な他のコンピュータとにより、本技術に係る情報処理方法、及びプログラムが実行されてもよい。 A case has been described above in which the computer (controller) of the sound collection system executes the information processing method according to the present technology. However, the computer of the sound collection system and another computer that can communicate via a network or the like may execute the information processing method and the program according to the present technology.

すなわち本技術に係る情報処理方法、及びプログラムは、単体のコンピュータにより構成されたコンピュータシステムのみならず、複数のコンピュータが連動して動作するコンピュータシステムにおいても実行可能である。なお本開示において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれもシステムである。 That is, the information processing method and program according to the present technology can be executed not only in a computer system configured by a single computer, but also in a computer system in which a plurality of computers work together. In the present disclosure, a system means a set of multiple components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and a single device housing a plurality of modules within a single housing, are both systems.

コンピュータシステムによる本技術に係る情報処理方法、及びプログラムの実行は、例えば音源情報を取得する処理及び対象マイクを選択する処理が、単体のコンピュータにより実行される場合、及び各処理が異なるコンピュータにより実行される場合の両方を含む。また所定のコンピュータによる各処理の実行は、当該処理の一部または全部を他のコンピュータに実行させその結果を取得することを含む。 The computer system executes the information processing method and program according to the present technology, for example, when the process of acquiring sound source information and the process of selecting a target microphone are executed by a single computer, and each process is executed by a different computer. includes both cases where Execution of each process by a predetermined computer includes causing another computer to execute part or all of the process and obtaining the result.

すなわち本技術に係る情報処理方法及びプログラムは、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成にも適用することが可能である。 That is, the information processing method and program according to the present technology can also be applied to a configuration of cloud computing in which a plurality of devices share and jointly process one function via a network.

以上説明した本技術に係る特徴部分のうち、少なくとも2つの特徴部分を組み合わせることも可能である。すなわち各実施形態で説明した種々の特徴部分は、各実施形態の区別なく、任意に組み合わされてもよい。また上記で記載した種々の効果は、あくまで例示であって限定されるものではなく、また他の効果が発揮されてもよい。 It is also possible to combine at least two characteristic portions among the characteristic portions according to the present technology described above. That is, various characteristic portions described in each embodiment may be combined arbitrarily without distinguishing between each embodiment. Moreover, the various effects described above are only examples and are not limited, and other effects may be exhibited.

本開示において、「同じ」「等しい」「直交」等は、「実質的に同じ」「実質的に等しい」「実質的に直交」等を含む概念とする。例えば「完全に同じ」「完全に等しい」「完全に直交」等を基準とした所定の範囲(例えば±10%の範囲)に含まれる状態も含まれる。 In the present disclosure, the terms “same”, “equal”, “orthogonal”, etc. are concepts including “substantially the same”, “substantially equal”, “substantially orthogonal”, and the like. For example, states included in a predetermined range (for example, a range of ±10%) based on "exactly the same", "exactly equal", "perfectly orthogonal", etc. are also included.

なお、本技術は以下のような構成も採ることができる。
(1)音源の位置と前記音源が音を発する方向とを示す音源情報を取得する情報取得部と、
前記音源情報に基づいて、前記音源の周辺に配置され集音方向を設定可能な複数の集音装置から、前記音源が発する音の集音に用いる少なくとも1つの対象装置を選択する集音制御部と
を具備する情報処理装置。
(2)(1)に記載の情報処理装置であって、
前記集音制御部は、前記音源情報に基づいて、前記対象装置の集音方向を設定する
情報処理装置。
(3)(2)に記載の情報処理装置であって、
前記集音制御部は、前記対象装置から前記音源に向かう方向を前記対象装置の集音方向に設定する
情報処理装置。
(4)(1)から(3)のうちいずれか1つに記載の情報処理装置であって、
前記集音制御部は、前記音源が音を発する方向を基準として前記音源が発する直接音を集音可能な前記集音装置を判定し、当該集音装置を前記対象装置として選択する
情報処理装置。
(5)(4)に記載の情報処理装置であって、
前記複数の集音装置は、各々の配置に応じて割り当てられた割当範囲に前記集音方向を設定可能なように構成され、
前記集音制御部は、前記音源が音を発する方向が前記割当範囲の中心方向に対応する前記集音装置を前記対象装置として選択する
情報処理装置。
(6)(5)に記載の情報処理装置であって、
前記集音制御部は、前記音源が音を発する方向が前記割当範囲の中心方向に対応する前記集音装置が存在しない場合、前記音源が音を発する方向に沿った集音が可能であり、前記音源との距離が最も近い前記集音装置を前記対象装置として選択する
情報処理装置。
(7)(1)から(6)のうちいずれか1つに記載の情報処理装置であって、
前記情報取得部は、複数の音源ごとに前記音源情報を取得し、
前記集音制御部は、前記複数の音源ごとの前記音源情報に基づいて、前記複数の音源ごとに前記対象装置をそれぞれ選択する
情報処理装置。
(8)(7)に記載の情報処理装置であって、
前記集音制御部は、処理対象の音源が発する直接音を集音し前記処理対象とは異なる他の音源が発する直接音を集音しないように前記集音方向を設定可能な前記集音装置を前記対象装置として選択する
情報処理装置。
(9)(1)から(8)のうちいずれか1つに記載の情報処理装置であって、さらに、
前記少なくとも1つの対象装置の出力に基づいて、前記音源が発する音を表す音データを生成する集音処理部を具備する
情報処理装置。
(10)(9)に記載の情報処理装置であって、
前記複数の集音装置は、予め集音方向が設定された複数の候補装置を含み、
前記集音制御部は、前記複数の候補装置から前記対象装置を選択し、
前記集音処理部は、前記対象装置として選択されない候補装置を集音状態で待機させる
情報処理装置。
(11)(9)又は(10)に記載の情報処理装置であって、
前記集音制御部は、単一の前記音源について、前記複数の集音装置から複数の対象装置を選択する
情報処理装置。
(12)(11)に記載の情報処理装置であって、
前記集音処理部は、前記複数の対象装置により集音されたデータを合成して、前記音源の前記音データを生成する
情報処理装置。
(13)(9)から(12)のうちいずれか1つに記載の情報処理装置であって、
前記音源は、発話者であり、
前記音源が音を発する方向は、前記発話者の発話方向である
情報処理装置。
(14)(13)に記載の情報処理装置であって、
前記情報取得部は、前記発話者を撮影した画像データに基づいて、前記発話者に関するボーン検出を実行して前記発話者の発話方向を推定する
情報処理装置。
(15)(13)又は(14)に記載の情報処理装置であって、
前記情報取得部は、前記発話者のジェスチャーを検出し、
前記集音処理部は、前記発話者のジェスチャーに応じて、前記発話者の音声を集音する集音処理を制御する
情報処理装置。
(16)(15)に記載の情報処理装置であって、
前記集音処理部は、前記発話者が手を挙げるジェスチャーが検出された場合、前記発話者に対する前記集音処理を優先して実行し、前記発話者が手で口を遮るジェスチャーが検出された場合、前記発話者に対する前記集音処理を停止する
情報処理装置。
(17)(13)から(16)のうちいずれか1つに記載の情報処理装置であって、
前記集音処理部は、前記対象装置により集音されたデータから、前記発話者の音声と、前記発話者の所作音とを分離する
情報処理装置。
(18)(1)から(17)のうちいずれか1つに記載の情報処理装置であって、
前記集音装置は、複数のマイクが配置されたマイクアレイであり、
前記集音方向は、前記マイクアレイに関するビームフォーミング処理で設定されるビームの方向である
情報処理装置。
(19)音源の位置と前記音源が音を発する方向とを示す音源情報を取得し、
前記音源情報に基づいて、前記音源の周辺に配置され集音方向を設定可能な複数の集音装置から、前記音源が発する音の集音に用いる少なくとも1つの対象装置を選択する
ことをコンピュータシステムが実行する情報処理方法。
(20)音源の位置と前記音源が音を発する方向とを示す音源情報を取得するステップと、
前記音源情報に基づいて、前記音源の周辺に配置され集音方向を設定可能な複数の集音装置から、前記音源が発する音の集音に用いる少なくとも1つの対象装置を選択するステップと
をコンピュータシステムに実行させるプログラム。
Note that the present technology can also adopt the following configuration.
(1) an information acquisition unit that acquires sound source information indicating the position of a sound source and the direction in which the sound source emits sound;
A sound collection control unit that selects, based on the sound source information, at least one target device used for collecting sound emitted by the sound source from a plurality of sound collection devices arranged around the sound source and capable of setting a sound collection direction. An information processing device comprising and.
(2) The information processing device according to (1),
The information processing apparatus, wherein the sound collection control unit sets a sound collection direction of the target device based on the sound source information.
(3) The information processing device according to (2),
The information processing apparatus, wherein the sound collection control unit sets a direction from the target device toward the sound source as a sound collection direction of the target device.
(4) The information processing device according to any one of (1) to (3),
The sound collection control unit determines the sound collection device capable of collecting the direct sound emitted by the sound source based on the direction in which the sound source emits sound, and selects the sound collection device as the target device. .
(5) The information processing device according to (4),
The plurality of sound collecting devices are configured to be able to set the sound collecting direction in an allocation range allocated according to each arrangement,
The information processing device, wherein the sound collection control unit selects, as the target device, the sound collection device whose direction in which the sound source emits sound corresponds to the center direction of the allocation range.
(6) The information processing device according to (5),
The sound collection control unit is capable of collecting sound along the direction in which the sound source emits sound when there is no sound collection device in which the direction in which the sound source emits sound corresponds to the center direction of the allocation range, An information processing device that selects the sound collecting device closest to the sound source as the target device.
(7) The information processing device according to any one of (1) to (6),
The information acquisition unit acquires the sound source information for each of a plurality of sound sources,
The information processing apparatus, wherein the sound collection control unit selects the target device for each of the plurality of sound sources based on the sound source information for each of the plurality of sound sources.
(8) The information processing device according to (7),
The sound collection control unit is capable of setting the sound collection direction so as to collect direct sound emitted by a sound source to be processed and not to collect direct sound emitted by a sound source different from the sound source to be processed. as the target device. Information processing device.
(9) The information processing device according to any one of (1) to (8), further comprising:
An information processing apparatus comprising a sound collection processing unit that generates sound data representing the sound emitted by the sound source based on the output of the at least one target device.
(10) The information processing device according to (9),
The plurality of sound collecting devices includes a plurality of candidate devices whose sound collecting directions are set in advance,
The sound collection control unit selects the target device from the plurality of candidate devices,
The information processing device, wherein the sound collection processing unit makes a candidate device that is not selected as the target device stand by in a sound collection state.
(11) The information processing device according to (9) or (10),
The information processing device, wherein the sound collection control unit selects a plurality of target devices from the plurality of sound collectors for the single sound source.
(12) The information processing device according to (11),
The information processing device, wherein the sound collection processing unit synthesizes data collected by the plurality of target devices to generate the sound data of the sound source.
(13) The information processing device according to any one of (9) to (12),
The sound source is a speaker,
The information processing apparatus, wherein the direction in which the sound source emits sound is the utterance direction of the speaker.
(14) The information processing device according to (13),
The information processing apparatus, wherein the information acquisition unit estimates a speech direction of the speaker by performing bone detection on the speaker based on image data of the speaker.
(15) The information processing device according to (13) or (14),
The information acquisition unit detects a gesture of the speaker,
The information processing apparatus, wherein the sound collection processing unit controls sound collection processing for collecting the voice of the speaker according to the gesture of the speaker.
(16) The information processing device according to (15),
The sound collection processing unit preferentially executes the sound collection processing for the speaker when a gesture of the speaker raising a hand is detected, and a gesture of the speaker covering the mouth with a hand is detected. information processing device that stops the sound collection process for the speaker if the
(17) The information processing device according to any one of (13) to (16),
The information processing device, wherein the sound collection processing unit separates the speech of the speaker and the gesture sound of the speaker from the data collected by the target device.
(18) The information processing device according to any one of (1) to (17),
The sound collecting device is a microphone array in which a plurality of microphones are arranged,
The information processing apparatus, wherein the sound collection direction is a beam direction set in beamforming processing for the microphone array.
(19) obtaining sound source information indicating the position of a sound source and the direction in which the sound source emits sound;
selecting at least one target device used for collecting sound emitted by the sound source from a plurality of sound collecting devices arranged around the sound source and capable of setting a sound collection direction, based on the sound source information. Information processing methods performed by
(20) obtaining sound source information indicating the position of a sound source and the direction in which the sound source emits sound;
selecting, based on the sound source information, at least one target device used to collect the sound emitted by the sound source from among a plurality of sound collecting devices arranged around the sound source and capable of setting a sound collection direction; A program that you want the system to run.

M、M1~M4…BFマイク
1、1A~1D…発話者
2…発話方向
3…集音方向
5…音声
10…検出カメラ
11…記憶部
12…制御プログラム
16…マイク
20…コントローラ
21…画像処理部
22…集音制御部
23…集音処理部
25…対象マイク
26…候補マイク
35…音源分離部
41…割当範囲
100…集音システム
M, M1 to M4... BF microphone 1, 1A to 1D... Speaker 2... Speech direction 3... Sound collection direction 5... Sound 10... Detection camera 11... Storage unit 12... Control program 16... Microphone 20... Controller 21... Image processing Unit 22 Sound collection control unit 23 Sound collection processing unit 25 Target microphone 26 Candidate microphone 35 Sound source separation unit 41 Allocation range 100 Sound collection system

Claims (20)

音源の位置と前記音源が音を発する方向とを示す音源情報を取得する情報取得部と、
前記音源情報に基づいて、前記音源の周辺に配置され集音方向を設定可能な複数の集音装置から、前記音源が発する音の集音に用いる少なくとも1つの対象装置を選択する集音制御部と
を具備する情報処理装置。
an information acquisition unit that acquires sound source information indicating the position of a sound source and the direction in which the sound source emits sound;
A sound collection control unit that selects, based on the sound source information, at least one target device used for collecting sound emitted by the sound source from a plurality of sound collection devices arranged around the sound source and capable of setting a sound collection direction. An information processing device comprising and.
請求項1に記載の情報処理装置であって、
前記集音制御部は、前記音源情報に基づいて、前記対象装置の集音方向を設定する
情報処理装置。
The information processing device according to claim 1,
The information processing apparatus, wherein the sound collection control unit sets a sound collection direction of the target device based on the sound source information.
請求項2に記載の情報処理装置であって、
前記集音制御部は、前記対象装置から前記音源に向かう方向を前記対象装置の集音方向に設定する
情報処理装置。
The information processing device according to claim 2,
The information processing apparatus, wherein the sound collection control unit sets a direction from the target device toward the sound source as a sound collection direction of the target device.
請求項1に記載の情報処理装置であって、
前記集音制御部は、前記音源が音を発する方向を基準として前記音源が発する直接音を集音可能な前記集音装置を判定し、当該集音装置を前記対象装置として選択する
情報処理装置。
The information processing device according to claim 1,
The sound collection control unit determines the sound collection device capable of collecting the direct sound emitted by the sound source based on the direction in which the sound source emits sound, and selects the sound collection device as the target device. .
請求項4に記載の情報処理装置であって、
前記複数の集音装置は、各々の配置に応じて割り当てられた割当範囲に前記集音方向を設定可能なように構成され、
前記集音制御部は、前記音源が音を発する方向が前記割当範囲の中心方向に対応する前記集音装置を前記対象装置として選択する
情報処理装置。
The information processing device according to claim 4,
The plurality of sound collecting devices are configured to be able to set the sound collecting direction in an allocation range allocated according to each arrangement,
The information processing device, wherein the sound collection control unit selects, as the target device, the sound collection device whose direction in which the sound source emits sound corresponds to the center direction of the allocation range.
請求項5に記載の情報処理装置であって、
前記集音制御部は、前記音源が音を発する方向が前記割当範囲の中心方向に対応する前記集音装置が存在しない場合、前記音源が音を発する方向に沿った集音が可能であり、前記音源との距離が最も近い前記集音装置を前記対象装置として選択する
情報処理装置。
The information processing device according to claim 5,
The sound collection control unit is capable of collecting sound along the direction in which the sound source emits sound when there is no sound collection device in which the direction in which the sound source emits sound corresponds to the center direction of the allocation range, An information processing device that selects the sound collecting device closest to the sound source as the target device.
請求項1に記載の情報処理装置であって、
前記情報取得部は、複数の音源ごとに前記音源情報を取得し、
前記集音制御部は、前記複数の音源ごとの前記音源情報に基づいて、前記複数の音源ごとに前記対象装置をそれぞれ選択する
情報処理装置。
The information processing device according to claim 1,
The information acquisition unit acquires the sound source information for each of a plurality of sound sources,
The information processing apparatus, wherein the sound collection control unit selects the target device for each of the plurality of sound sources based on the sound source information for each of the plurality of sound sources.
請求項7に記載の情報処理装置であって、
前記集音制御部は、処理対象の音源が発する直接音を集音し前記処理対象とは異なる他の音源が発する直接音を集音しないように前記集音方向を設定可能な前記集音装置を前記対象装置として選択する
情報処理装置。
The information processing device according to claim 7,
The sound collection control unit is capable of setting the sound collection direction so as to collect direct sound emitted by a sound source to be processed and not to collect direct sound emitted by a sound source different from the sound source to be processed. as the target device. Information processing device.
請求項1に記載の情報処理装置であって、さらに、
前記少なくとも1つの対象装置の出力に基づいて、前記音源が発する音を表す音データを生成する集音処理部を具備する
情報処理装置。
The information processing apparatus according to claim 1, further comprising:
An information processing apparatus comprising a sound collection processing unit that generates sound data representing the sound emitted by the sound source based on the output of the at least one target device.
請求項9に記載の情報処理装置であって、
前記複数の集音装置は、予め集音方向が設定された複数の候補装置を含み、
前記集音制御部は、前記複数の候補装置から前記対象装置を選択し、
前記集音処理部は、前記対象装置として選択されない候補装置を集音状態で待機させる
情報処理装置。
The information processing device according to claim 9,
The plurality of sound collecting devices includes a plurality of candidate devices whose sound collecting directions are set in advance,
The sound collection control unit selects the target device from the plurality of candidate devices,
The information processing device, wherein the sound collection processing unit makes a candidate device that is not selected as the target device stand by in a sound collection state.
請求項9に記載の情報処理装置であって、
前記集音制御部は、単一の前記音源について、前記複数の集音装置から複数の対象装置を選択する
情報処理装置。
The information processing device according to claim 9,
The information processing device, wherein the sound collection control unit selects a plurality of target devices from the plurality of sound collectors for the single sound source.
請求項11に記載の情報処理装置であって、
前記集音処理部は、前記複数の対象装置により集音されたデータを合成して、前記音源の前記音データを生成する
情報処理装置。
The information processing device according to claim 11,
The information processing device, wherein the sound collection processing unit synthesizes data collected by the plurality of target devices to generate the sound data of the sound source.
請求項9に記載の情報処理装置であって、
前記音源は、発話者であり、
前記音源が音を発する方向は、前記発話者の発話方向である
情報処理装置。
The information processing device according to claim 9,
The sound source is a speaker,
The information processing apparatus, wherein the direction in which the sound source emits sound is the utterance direction of the speaker.
請求項13に記載の情報処理装置であって、
前記情報取得部は、前記発話者を撮影した画像データに基づいて、前記発話者に関するボーン検出を実行して前記発話者の発話方向を推定する
情報処理装置。
The information processing device according to claim 13,
The information processing apparatus, wherein the information acquisition unit estimates a speech direction of the speaker by performing bone detection on the speaker based on image data of the speaker.
請求項13に記載の情報処理装置であって、
前記情報取得部は、前記発話者のジェスチャーを検出し、
前記集音処理部は、前記発話者のジェスチャーに応じて、前記発話者の音声を集音する集音処理を制御する
情報処理装置。
The information processing device according to claim 13,
The information acquisition unit detects a gesture of the speaker,
The information processing apparatus, wherein the sound collection processing unit controls sound collection processing for collecting the voice of the speaker according to the gesture of the speaker.
請求項15に記載の情報処理装置であって、
前記集音処理部は、前記発話者が手を挙げるジェスチャーが検出された場合、前記発話者に対する前記集音処理を優先して実行し、前記発話者が手で口を遮るジェスチャーが検出された場合、前記発話者に対する前記集音処理を停止する
情報処理装置。
The information processing device according to claim 15,
The sound collection processing unit preferentially executes the sound collection processing for the speaker when a gesture of the speaker raising a hand is detected, and a gesture of the speaker covering the mouth with a hand is detected. information processing device that stops the sound collection process for the speaker if the
請求項13に記載の情報処理装置であって、
前記集音処理部は、前記対象装置により集音されたデータから、前記発話者の音声と、前記発話者の所作音とを分離する
情報処理装置。
The information processing device according to claim 13,
The information processing device, wherein the sound collection processing unit separates the speech of the speaker and the gesture sound of the speaker from the data collected by the target device.
請求項1に記載の情報処理装置であって、
前記集音装置は、複数のマイクが配置されたマイクアレイであり、
前記集音方向は、前記マイクアレイに関するビームフォーミング処理で設定されるビームの方向である
情報処理装置。
The information processing device according to claim 1,
The sound collecting device is a microphone array in which a plurality of microphones are arranged,
The information processing apparatus, wherein the sound collection direction is a beam direction set by beamforming processing for the microphone array.
音源の位置と前記音源が音を発する方向とを示す音源情報を取得し、
前記音源情報に基づいて、前記音源の周辺に配置され集音方向を設定可能な複数の集音装置から、前記音源が発する音の集音に用いる少なくとも1つの対象装置を選択する
ことをコンピュータシステムが実行する情報処理方法。
Acquiring sound source information indicating the position of a sound source and the direction in which the sound source emits sound;
selecting at least one target device used for collecting sound emitted by the sound source from a plurality of sound collecting devices arranged around the sound source and capable of setting a sound collection direction, based on the sound source information. Information processing methods performed by
音源の位置と前記音源が音を発する方向とを示す音源情報を取得するステップと、
前記音源情報に基づいて、前記音源の周辺に配置され集音方向を設定可能な複数の集音装置から、前記音源が発する音の集音に用いる少なくとも1つの対象装置を選択するステップと
をコンピュータシステムに実行させるプログラム。
obtaining sound source information indicating the position of a sound source and the direction in which the sound source emits sound;
selecting, based on the sound source information, at least one target device used to collect the sound emitted by the sound source from among a plurality of sound collecting devices arranged around the sound source and capable of setting a sound collection direction; A program that you want the system to run.
JP2021162852A 2021-10-01 2021-10-01 Information processing device, information processing method, and program Pending JP2023053670A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021162852A JP2023053670A (en) 2021-10-01 2021-10-01 Information processing device, information processing method, and program
PCT/JP2022/034914 WO2023054047A1 (en) 2021-10-01 2022-09-20 Information processing device, information processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021162852A JP2023053670A (en) 2021-10-01 2021-10-01 Information processing device, information processing method, and program

Publications (1)

Publication Number Publication Date
JP2023053670A true JP2023053670A (en) 2023-04-13

Family

ID=85782523

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021162852A Pending JP2023053670A (en) 2021-10-01 2021-10-01 Information processing device, information processing method, and program

Country Status (2)

Country Link
JP (1) JP2023053670A (en)
WO (1) WO2023054047A1 (en)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105474667B (en) * 2014-05-09 2018-11-27 松下知识产权经营株式会社 Directivity control method and directive property control system
JP6798502B2 (en) * 2015-12-11 2020-12-09 ソニー株式会社 Information processing equipment, information processing methods, and programs
JP2017175598A (en) * 2016-03-22 2017-09-28 パナソニックIpマネジメント株式会社 Sound collecting device and sound collecting method
JP7126143B2 (en) * 2018-07-18 2022-08-26 パナソニックIpマネジメント株式会社 Unmanned flying object, information processing method and program
JP7484233B2 (en) * 2020-03-04 2024-05-16 富士フイルムビジネスイノベーション株式会社 Display system, display control device and program

Also Published As

Publication number Publication date
WO2023054047A1 (en) 2023-04-06

Similar Documents

Publication Publication Date Title
CN106653041B (en) Audio signal processing apparatus, method and electronic apparatus
EP3440538B1 (en) Spatialized audio output based on predicted position data
US10027888B1 (en) Determining area of interest in a panoramic video or photo
KR101797804B1 (en) Systems, methods, apparatus, and computer-readable media for gestural manipulation of a sound field
JP6101989B2 (en) Signal-enhanced beamforming in an augmented reality environment
CN107534725B (en) Voice signal processing method and device
CN105874408B (en) Gesture interactive wearable spatial audio system
US6005610A (en) Audio-visual object localization and tracking system and method therefor
US10388268B2 (en) Apparatus and method for processing volumetric audio
JP5564873B2 (en) Sound collection processing device, sound collection processing method, and program
TW201120469A (en) Method, computer readable storage medium and system for localizing acoustic source
US11496830B2 (en) Methods and systems for recording mixed audio signal and reproducing directional audio
US10664128B2 (en) Information processing apparatus, configured to generate an audio signal corresponding to a virtual viewpoint image, information processing system, information processing method, and non-transitory computer-readable storage medium
JP6410769B2 (en) Information processing system, control method therefor, and computer program
CN112637529B (en) Video processing method and device, storage medium and electronic equipment
JP2003251583A (en) Robot audio-visual system
US20230088530A1 (en) Sound-generating device, display device, sound-generating controlling method, and sound-generating controlling device
US9756421B2 (en) Audio refocusing methods and electronic devices utilizing the same
CN113676592A (en) Recording method, recording device, electronic equipment and computer readable medium
JP2004198656A (en) Robot audio-visual system
CN113853529A (en) Apparatus, and associated method, for spatial audio capture
WO2023054047A1 (en) Information processing device, information processing method, and program
US9992532B1 (en) Hand-held electronic apparatus, audio video broadcasting apparatus and broadcasting method thereof
JP3843743B2 (en) Robot audio-visual system
JP2018019295A (en) Information processing system, control method therefor, and computer program