JP2019201377A - Imaging apparatus, imaging system, signal processing method, and program - Google Patents

Imaging apparatus, imaging system, signal processing method, and program Download PDF

Info

Publication number
JP2019201377A
JP2019201377A JP2018096057A JP2018096057A JP2019201377A JP 2019201377 A JP2019201377 A JP 2019201377A JP 2018096057 A JP2018096057 A JP 2018096057A JP 2018096057 A JP2018096057 A JP 2018096057A JP 2019201377 A JP2019201377 A JP 2019201377A
Authority
JP
Japan
Prior art keywords
microphone group
sound signal
microphone
sound
imaging
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018096057A
Other languages
Japanese (ja)
Other versions
JP7150470B2 (en
JP2019201377A5 (en
Inventor
智浩 河本
Tomohiro Kawamoto
智浩 河本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2018096057A priority Critical patent/JP7150470B2/en
Publication of JP2019201377A publication Critical patent/JP2019201377A/en
Publication of JP2019201377A5 publication Critical patent/JP2019201377A5/ja
Application granted granted Critical
Publication of JP7150470B2 publication Critical patent/JP7150470B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

To make it possible to clearly collect a target sound even when a position of a subject to be collected is far from a front of a device.SOLUTION: The imaging apparatus includes: an imaging unit having an imaging element; a first microphone group including a plurality of microphones arranged in a direction substantially parallel to an optical axis of the imaging unit; and a second microphone group including a plurality of microphones arranged in a direction substantially perpendicular to the optical axis of the imaging unit. If a range of a sound collection target is wider than a predetermined angle of view, directivity processing is performed using sound signals obtained by the first microphone group. If a range of the sound collection target is narrower than the predetermined angle of view, directivity processing is performed using sound signals obtained by the second microphone group.SELECTED DRAWING: Figure 2

Description

本発明は、撮像装置、撮像システム、信号処理方法、及びプログラムに関する。   The present invention relates to an imaging apparatus, an imaging system, a signal processing method, and a program.

従来、マイクを搭載し、会話の音声等を集音可能な撮像装置がある。このような撮像装置においては、目的とする音を明瞭に集音できることが望まれる。言い換えれば、目的としない音(例えば、会話の音声を集音する場合においては、エアコンの駆動音等)を可能な限り除去して集音できることが望まれる。例えば、特許文献1には、搭載された2つのマイクで集音した各々の音信号を演算処理することにより、応答操作者の声(目的とする音)とそれ以外の室内音(目的としない音)を分離し、応答操作者の声を聴き取り易くするインターホン装置が開示されている。   2. Description of the Related Art Conventionally, there is an image pickup apparatus that is equipped with a microphone and can collect voice of conversation and the like. In such an imaging apparatus, it is desired that the target sound can be clearly collected. In other words, it is desirable to be able to collect sound by removing as much as possible undesired sound (for example, in the case of collecting conversational sound, the driving sound of an air conditioner, etc.). For example, in Patent Document 1, by processing each sound signal collected by two mounted microphones, the voice of the responding operator (target sound) and other room sounds (not intended) An intercom device that separates sound) and makes it easy to hear the voice of the responding operator is disclosed.

特開2017−34490号公報JP 2017-34490 A

しかしながら、特許文献1に開示された技術は、装置の正面方向からの音(応答操作者の声)を明瞭に集音する用途には適しているが、装置の正面方向以外からの音(それ以外の室内音)を明瞭に集音する用途には適していない。そこで、本発明は、集音対象とする被写体の位置が装置の正面方向から離れている場合にも、目的とする音を明瞭に集音することを可能にすることを目的とする。   However, although the technique disclosed in Patent Document 1 is suitable for a purpose of clearly collecting sound from the front direction of the apparatus (voice of the responding operator), It is not suitable for applications that clearly collect other room sounds. Therefore, an object of the present invention is to make it possible to clearly collect a target sound even when the position of a subject to be collected is away from the front direction of the apparatus.

本発明に係る撮像装置は、撮像素子を有する撮像部と、前記撮像部の光軸に略平行な方向に離して配置された複数のマイクを含む第1のマイク群と、前記撮像部の光軸に略垂直な方向に離して配置された複数のマイクを含む第2のマイク群とを有することを特徴とする。   An imaging apparatus according to the present invention includes an imaging unit having an imaging element, a first microphone group including a plurality of microphones arranged in a direction substantially parallel to the optical axis of the imaging unit, and light of the imaging unit And a second microphone group including a plurality of microphones arranged apart from each other in a direction substantially perpendicular to the axis.

本発明によれば、集音対象の被写体の位置が装置の正面方向から離れている場合にも、目的とする音を明瞭に集音することが可能となる。   According to the present invention, it is possible to clearly collect a target sound even when the position of a subject to be collected is away from the front direction of the apparatus.

本実施形態における撮像システムのハードウェア構成の例を示す図である。It is a figure which shows the example of the hardware constitutions of the imaging system in this embodiment. 本実施形態における撮像システムの機能構成の例を示す図である。It is a figure which shows the example of a function structure of the imaging system in this embodiment. 本実施形態における撮像装置の例を説明する図である。It is a figure explaining the example of the imaging device in this embodiment. 本実施形態における音信号処理に係る構成例を示す図である。It is a figure which shows the structural example which concerns on the sound signal process in this embodiment. 本実施形態における音信号処理について説明する図である。It is a figure explaining the sound signal process in this embodiment. 本実施形態における音信号処理について説明する図である。It is a figure explaining the sound signal process in this embodiment. 本実施形態における音信号処理の例を示すフローチャートである。It is a flowchart which shows the example of the sound signal process in this embodiment. 本実施形態におけるアンプの増幅量の設定例を示す図である。It is a figure which shows the example of a setting of the amplification amount of the amplifier in this embodiment. 本実施形態における使用するマイク群の他の選択例を説明する図である。It is a figure explaining the other example of selection of the microphone group used in this embodiment.

以下、本発明の実施形態を図面に基づいて説明する。
図1は、本発明の一実施形態における撮像システムのハードウェア構成の一例を示すブロック図である。本実施形態における撮像システムは、撮像部及び複数のマイクを有する撮像装置110と、撮像装置110に対する操作や撮像装置110により得られる画像、音の出力等を実行可能なクライアント装置120とを有する。撮像装置110とクライアント装置120とは、例えばIP(Internet Protocol)ネットワーク等のネットワーク130を介して通信可能に接続される。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram illustrating an example of a hardware configuration of an imaging system according to an embodiment of the present invention. The imaging system according to the present embodiment includes an imaging device 110 having an imaging unit and a plurality of microphones, and a client device 120 that can execute operations on the imaging device 110 and output images and sounds obtained by the imaging device 110. The imaging device 110 and the client device 120 are communicably connected via a network 130 such as an IP (Internet Protocol) network.

撮像装置110は、CPU111、ROM112、RAM113、通信インターフェース(通信I/F)114、撮像部115、マイク群116、及び記憶装置117を有する。CPU111、ROM112、RAM113、通信I/F114、撮像部115、マイク群116、及び記憶装置117は、システムバス等の伝送路118を介して通信可能に接続される。   The imaging device 110 includes a CPU 111, a ROM 112, a RAM 113, a communication interface (communication I / F) 114, an imaging unit 115, a microphone group 116, and a storage device 117. The CPU 111, the ROM 112, the RAM 113, the communication I / F 114, the imaging unit 115, the microphone group 116, and the storage device 117 are communicably connected via a transmission path 118 such as a system bus.

CPU(Central Processing Unit)111は、システムバス等の伝送路118を介して接続された撮像装置110の各種デバイスの制御を行う。ROM(Read Only Memory)112は、撮像装置110の起動プログラム等を記憶する。RAM(Random Access Memory)113は、CPU111の主記憶装置として使用される。通信I/F114は、撮像装置110をネットワーク130に接続し、ネットワーク130を介した情報通信を制御する。   A CPU (Central Processing Unit) 111 controls various devices of the imaging apparatus 110 connected via a transmission path 118 such as a system bus. A ROM (Read Only Memory) 112 stores a startup program of the imaging device 110 and the like. A RAM (Random Access Memory) 113 is used as a main storage device of the CPU 111. The communication I / F 114 connects the imaging apparatus 110 to the network 130 and controls information communication via the network 130.

撮像部115は、撮像素子を有しており、被写体を撮像して、被写体を含む画像の画像信号を出力する。マイク群116は、複数のマイクを有しており、撮像装置110周辺の音を集音し、集音した音の音信号を出力する。記憶装置117は、例えば不揮発性半導体記憶装置であり、撮像装置110の動作や処理に係る制御プログラム等を記憶する。なお、記憶装置117が、撮像部115から出力される画像の画像信号を必要に応じて記憶するようにしても良い。   The imaging unit 115 has an imaging element, images a subject, and outputs an image signal of an image including the subject. The microphone group 116 includes a plurality of microphones, collects sounds around the imaging device 110, and outputs a sound signal of the collected sounds. The storage device 117 is, for example, a nonvolatile semiconductor storage device, and stores a control program related to the operation and processing of the imaging device 110. Note that the storage device 117 may store the image signal of the image output from the imaging unit 115 as necessary.

前述のように構成された撮像装置110において、撮像装置110に電源が投入されると、CPU111は、ROM112に格納された起動プログラムに従って、ROM112又は記憶装置117から制御プログラム等をRAM113に読み込む。CPU111は、RAM113に読み込んだ制御プログラム等に従い処理等を実行することによって、撮像装置110の機能を実現する。つまり、撮像装置110のCPU111が制御プログラム等に基づき処理を実行することによって撮像装置110の機能及び処理が実現される。   In the imaging device 110 configured as described above, when the imaging device 110 is powered on, the CPU 111 reads a control program or the like from the ROM 112 or the storage device 117 into the RAM 113 in accordance with a startup program stored in the ROM 112. The CPU 111 realizes the function of the imaging device 110 by executing processing according to a control program or the like read into the RAM 113. That is, the functions and processing of the imaging device 110 are realized by the CPU 111 of the imaging device 110 executing processing based on a control program or the like.

クライアント装置120は、CPU121、ROM122、RAM123、通信インターフェース(I/F)124、出力装置125、入力装置126、及び記憶装置127を有する。CPU121、ROM122、RAM123、通信I/F124、出力装置125、入力装置126、及び記憶装置127は、システムバス等の伝送路128を介して通信可能に接続される。   The client device 120 includes a CPU 121, ROM 122, RAM 123, communication interface (I / F) 124, output device 125, input device 126, and storage device 127. The CPU 121, ROM 122, RAM 123, communication I / F 124, output device 125, input device 126, and storage device 127 are communicably connected via a transmission path 128 such as a system bus.

CPU121は、システムバス等の伝送路128を介して接続されたクライアント装置120の各種デバイスの制御を行う。ROM122は、BIOSのプログラムやブートプログラムを記憶する。RAM123は、CPU121の主記憶装置として使用される。通信I/F124は、クライアント装置120をネットワーク130に接続し、ネットワーク130を介した情報通信を制御する。   The CPU 121 controls various devices of the client apparatus 120 connected via a transmission path 128 such as a system bus. The ROM 122 stores a BIOS program and a boot program. The RAM 123 is used as a main storage device for the CPU 121. The communication I / F 124 connects the client device 120 to the network 130 and controls information communication via the network 130.

出力装置125は、CPU121における処理結果等を出力する。また、出力装置125は、例えば撮像装置110から出力される画像信号に基づく画像をディスプレイ等の画像表示部に表示したり、撮像装置110から出力される音信号に基づく音をスピーカ等の音出力部から出力したりする。入力装置126は、ユーザによる入力等を受け付ける。記憶装置127は、オペレーティングシステム(OS)のプログラムやOS上で動作する各種アプリケーションのプログラム等が格納される。記憶装置127は、例えばハードディスクドライブ(HDD)やソリッドステートドライブ(SSD)等である。   The output device 125 outputs a processing result in the CPU 121 and the like. The output device 125 displays an image based on an image signal output from the imaging device 110 on an image display unit such as a display, or outputs a sound based on a sound signal output from the imaging device 110 to a sound output from a speaker or the like. Or output from the section. The input device 126 receives an input by the user. The storage device 127 stores an operating system (OS) program, various application programs operating on the OS, and the like. The storage device 127 is, for example, a hard disk drive (HDD) or a solid state drive (SSD).

前述のように構成されたクライアント装置120において電源が投入されると、CPU121は、ROM122に格納されたブートプログラムに従って、記憶装置127等からOSのプログラム等をRAM123に読み込む。CPU121は、RAM123に読み込んだOSのプログラム等に従い処理を実行することによって、クライアント装置120の機能を実現する。つまり、クライアント装置120のCPU121がプログラムに基づき処理を実行することによってクライアント装置120の機能及び処理が実現される。   When power is turned on in the client device 120 configured as described above, the CPU 121 reads an OS program or the like from the storage device 127 or the like into the RAM 123 in accordance with a boot program stored in the ROM 122. The CPU 121 implements the function of the client device 120 by executing processing according to an OS program or the like read into the RAM 123. That is, the functions and processing of the client device 120 are realized by the CPU 121 of the client device 120 executing processing based on the program.

図2は、本実施形態における撮像システムの機能構成の一例を示すブロック図である。本実施形態における撮像システムは、撮像部210、第1のマイク群220、第2のマイク群230、画像処理部240、音信号処理部250、出力部260、記憶部270、制御部280、及び操作部290を有する。   FIG. 2 is a block diagram illustrating an example of a functional configuration of the imaging system according to the present embodiment. The imaging system in the present embodiment includes an imaging unit 210, a first microphone group 220, a second microphone group 230, an image processing unit 240, a sound signal processing unit 250, an output unit 260, a storage unit 270, a control unit 280, and An operation unit 290 is provided.

撮像部210は、光学系211及び撮像素子212を有し、撮像を行い撮像した被写体を含む画像の画像信号を出力する。光学系211は、レンズ等で構成された光学系であり、フォーカスレンズやその駆動系等を含む。撮像素子212は、例えばCMOSイメージセンサ等の撮像素子であり、光学系211により結像された光学像を光電変換し、得られた画像信号を出力する。   The imaging unit 210 includes an optical system 211 and an imaging element 212, and performs imaging and outputs an image signal of an image including the captured subject. The optical system 211 is an optical system composed of a lens or the like, and includes a focus lens and its drive system. The imaging device 212 is an imaging device such as a CMOS image sensor, for example, and photoelectrically converts the optical image formed by the optical system 211 and outputs the obtained image signal.

第1のマイク群220及び第2のマイク群230は、音声を集音するための複数のマイク221、231をそれぞれ有し、得られた音信号を出力する。第1のマイク群220が有する複数のマイク221は、撮像装置が有する撮像部210の光軸に略平行な方向に離して配置されている。また、第2のマイク群230が有する複数のマイク231は、撮像装置が有する撮像部210の光軸に略垂直な方向に離して配置されている。   The first microphone group 220 and the second microphone group 230 each have a plurality of microphones 221 and 231 for collecting sound and output the obtained sound signals. The plurality of microphones 221 included in the first microphone group 220 are arranged apart from each other in a direction substantially parallel to the optical axis of the imaging unit 210 included in the imaging device. In addition, the plurality of microphones 231 included in the second microphone group 230 are arranged away from each other in a direction substantially perpendicular to the optical axis of the imaging unit 210 included in the imaging device.

例えば、図3(A)及び図3(B)に一例を示すように、撮像装置300が有する撮像部の光軸310に対して、略平行な方向に距離D1を有して、第1のマイク群220に属するマイク221A、221Bが順に配置されている。また、撮像部の光軸310に対して、略垂直な方向に距離D2を有し撮像部の光軸310に略対称となるように、第2のマイク群230に属するマイク231A、231Bが順に配置されている。ここで、図3(A)は撮像装置300の外観図であり、図3(B)は撮像装置の断面図である。なお、図3(A)及び図3(B)に示した第1のマイク群220に属する複数のマイク及び第2のマイク群230に属する複数のマイクの配置は一例であり、本実施形態におけるマイクの配置はこれに限定されるものではない。   For example, as shown in FIG. 3A and FIG. 3B, for example, the distance D1 is approximately parallel to the optical axis 310 of the imaging unit included in the imaging apparatus 300, and the first Microphones 221A and 221B belonging to the microphone group 220 are arranged in order. Further, the microphones 231A and 231B belonging to the second microphone group 230 are sequentially arranged so as to have a distance D2 in a direction substantially perpendicular to the optical axis 310 of the imaging unit and to be substantially symmetric with respect to the optical axis 310 of the imaging unit. Has been placed. Here, FIG. 3A is an external view of the imaging device 300, and FIG. 3B is a cross-sectional view of the imaging device. The arrangement of the plurality of microphones belonging to the first microphone group 220 and the plurality of microphones belonging to the second microphone group 230 shown in FIGS. 3A and 3B is an example, and in this embodiment The arrangement of the microphone is not limited to this.

画像処理部240は、撮像部210によって得られた画像信号に係る画像処理を行う。また、音信号処理部250は、第1のマイク群220のマイク221や第2のマイク群230のマイク231によって得られた音信号に係る音信号処理を行う。音信号処理部250が行う音信号処理は、後述する音信号に係る指向性処理を含む。画像処理部240により画像処理が施された画像信号及び音信号処理部250により音信号処理が施された音信号は、出力部260や記憶部270に出力される。なお、画像処理部240及び音信号処理部250が、記憶部270等に格納された画像信号及び音信号に対して処理を行うようにしてもよい。   The image processing unit 240 performs image processing related to the image signal obtained by the imaging unit 210. The sound signal processing unit 250 performs sound signal processing related to the sound signal obtained by the microphone 221 of the first microphone group 220 and the microphone 231 of the second microphone group 230. The sound signal processing performed by the sound signal processing unit 250 includes directivity processing related to the sound signal described later. The image signal subjected to image processing by the image processing unit 240 and the sound signal subjected to sound signal processing by the sound signal processing unit 250 are output to the output unit 260 and the storage unit 270. Note that the image processing unit 240 and the sound signal processing unit 250 may perform processing on the image signal and the sound signal stored in the storage unit 270 or the like.

出力部260は、画像信号に係る画像を表示する画像表示部261、及び音信号に係る音を再生出力する音出力部262を有する。画像表示部261は、画像処理部240から出力される画像信号、又は記憶部270に格納された画像信号に基づいて、その画像信号に係る画像を表示する。また、音出力部262は、音信号処理部250から出力される音信号、又は記憶部270に格納された音信号に基づいて、その音信号に係る音を出力する。   The output unit 260 includes an image display unit 261 that displays an image related to the image signal, and a sound output unit 262 that reproduces and outputs the sound related to the sound signal. The image display unit 261 displays an image related to the image signal based on the image signal output from the image processing unit 240 or the image signal stored in the storage unit 270. The sound output unit 262 outputs a sound related to the sound signal based on the sound signal output from the sound signal processing unit 250 or the sound signal stored in the storage unit 270.

記憶部270は、画像処理部240により画像処理が施された画像信号や音信号処理部250により音信号処理が施された音信号を記憶する。制御部280は、撮像システムが有する各機能部を制御する。制御部280は、例えば操作部290からの指示に応じて撮像部210を制御したり、画像処理部240及び音信号処理部250を制御したりする。操作部290は、撮像システムに対するユーザの各種指示動作を受け付けて制御部280等に出力する。   The storage unit 270 stores the image signal subjected to image processing by the image processing unit 240 and the sound signal subjected to sound signal processing by the sound signal processing unit 250. The control unit 280 controls each functional unit included in the imaging system. For example, the control unit 280 controls the imaging unit 210 or controls the image processing unit 240 and the sound signal processing unit 250 in accordance with an instruction from the operation unit 290. The operation unit 290 receives various user instruction operations for the imaging system and outputs them to the control unit 280 and the like.

図1に示した撮像装置110のCPU111が制御プログラムを読み出して実行することで、例えば画像処理部240、音信号処理部250、及び制御部280の機能が実現される。なお、クライアント装置120のCPU111がプログラムを読み出して実行することで、画像処理部240、音信号処理部250、及び制御部280のそれぞれの機能の一部が実現されるようにしてもよい。撮像装置110の撮像部115により、例えば撮像部210の機能が実現され、撮像装置110のマイク群116により、例えば第1のマイク群220及び第2のマイク群230の機能が実現される。また、クライアント装置120の出力装置125により、例えば出力部260の機能が実現され、クライアント装置120の入力装置126により、例えば操作部290の機能が実現される。撮像装置110の記憶装置117やクライアント装置120の記憶装置127により、例えば記憶部270の機能が実現される。   The functions of the image processing unit 240, the sound signal processing unit 250, and the control unit 280 are realized by the CPU 111 of the imaging apparatus 110 illustrated in FIG. 1 reading and executing the control program, for example. Note that the CPU 111 of the client device 120 may read out and execute the program, thereby realizing some of the functions of the image processing unit 240, the sound signal processing unit 250, and the control unit 280. For example, the function of the imaging unit 210 is realized by the imaging unit 115 of the imaging apparatus 110, and the functions of the first microphone group 220 and the second microphone group 230 are realized by the microphone group 116 of the imaging apparatus 110, for example. Further, for example, the function of the output unit 260 is realized by the output device 125 of the client device 120, and the function of the operation unit 290 is realized by the input device 126 of the client device 120, for example. The function of the storage unit 270 is realized by the storage device 117 of the imaging device 110 and the storage device 127 of the client device 120, for example.

以下では、図3(A)及び図3(B)に例示したように、第1のマイク群220がマイク221A、221Bを有し、第2のマイク群230がマイク231A、231Bを有する場合を例に説明する。図4は、本実施形態における音信号処理(指向性処理)に係る構成例を示す図である。マイク221A、221B、231A、231Bによりそれぞれ得られた音信号が、音信号処理部250に入力される。   In the following, as illustrated in FIGS. 3A and 3B, the first microphone group 220 includes microphones 221A and 221B, and the second microphone group 230 includes microphones 231A and 231B. Explained as an example. FIG. 4 is a diagram illustrating a configuration example relating to sound signal processing (directivity processing) in the present embodiment. Sound signals obtained by the microphones 221A, 221B, 231A, and 231B are input to the sound signal processing unit 250.

音信号処理部250のセレクタ401は、4つのマイク221A、221B、231A、231Bの音信号が入力され、そのうちの2つの音信号をCPU403からの選択信号SELに基づいて選択し出力する。セレクタ401は、選択信号SELに基づいて、第1のマイク群220が有するマイク221A、221Bの音信号、又は第2のマイク群230が有するマイク231A、231Bの音信号を出力する。アンプ402A、402Bは、セレクタ401から出力された音信号が入力され、入力された音信号をCPU403からの設定信号SGA、SGBに応じた増幅量だけ増幅する。   The selector 401 of the sound signal processing unit 250 receives the sound signals of the four microphones 221A, 221B, 231A, and 231B, and selects and outputs two of the sound signals based on the selection signal SEL from the CPU 403. Based on the selection signal SEL, the selector 401 outputs the sound signals of the microphones 221A and 221B included in the first microphone group 220 or the sound signals of the microphones 231A and 231B included in the second microphone group 230. The amplifiers 402A and 402B receive the sound signal output from the selector 401 and amplify the input sound signal by an amplification amount corresponding to the setting signals SGA and SGB from the CPU 403.

CPU(指向性処理部)403は、アンプ402A、402Bにより増幅された音信号が入力され、その音信号を指向性処理して、指向性処理後の音信号SOUTを出力する。ここで、指向性処理とは、目的の方向からの音を強調し、目的以外の方向からの音を抑制する信号処理である。また、CPU403は、操作部290から目的の方向に関する指示(指向範囲指定)を示す信号SINが入力され、信号SINに応じた選択信号SELを出力する。   A CPU (directivity processing unit) 403 receives the sound signals amplified by the amplifiers 402A and 402B, performs directivity processing on the sound signals, and outputs a sound signal SOUT after directivity processing. Here, directivity processing is signal processing that emphasizes sound from a target direction and suppresses sound from directions other than the target. Further, the CPU 403 receives a signal SIN indicating an instruction (directivity range designation) regarding a target direction from the operation unit 290, and outputs a selection signal SEL corresponding to the signal SIN.

次に、本実施形態における音信号処理(指向性処理)について説明する。なお、以下の説明では、音を集音するマイクと音源との距離は、マイク間の距離に対して十分に大きく、マイクからみた音源の方向(角度)は同じ角度であるとする。   Next, sound signal processing (directivity processing) in the present embodiment will be described. In the following description, it is assumed that the distance between the microphone that collects the sound and the sound source is sufficiently larger than the distance between the microphones, and the direction (angle) of the sound source viewed from the microphone is the same angle.

図5(A)は、音源からの音が、第2のマイク群230に属するマイク231A及びマイク232Bに対して、角度θの方向から到達する様子を示している。マイク231Aとマイク231Bとは、距離D2を隔てて配置されている。この場合において、音源からマイク231Aまでの距離と、音源からマイク231Bまでの距離との差Lは、
L=D2×cosθ
で表される。また、音速をVとすると、音源からの音がマイク231Aに到達してから、音源からの音がマイク231Bに到達するまでの時間Tは、
T=L/V=D2×cosθ/V
で表される。
FIG. 5A shows a state in which sound from the sound source reaches the microphone 231A and the microphone 232B belonging to the second microphone group 230 from the direction of the angle θ. The microphone 231A and the microphone 231B are arranged with a distance D2. In this case, the difference L between the distance from the sound source to the microphone 231A and the distance from the sound source to the microphone 231B is:
L = D2 × cos θ
It is represented by When the sound speed is V, the time T from when the sound from the sound source reaches the microphone 231A until the sound from the sound source reaches the microphone 231B is:
T = L / V = D2 × cos θ / V
It is represented by

図5(B)は、D2=50mm、V=346.75m/sとした場合の角度θに対する、距離の差L、時間Tの値、及び時間Tの差分を示している。例えば、θ=0度のとき、L=50mm、T=144μsであり、θ=15度のとき、L=48mm、T=139μsである。したがって、θ=0度のときとθ=15度のときとの時間Tの差分は、5μsである。   FIG. 5B shows distance difference L, time T value, and time T difference with respect to angle θ when D2 = 50 mm and V = 346.75 m / s. For example, when θ = 0 degrees, L = 50 mm and T = 144 μs, and when θ = 15 degrees, L = 48 mm and T = 139 μs. Therefore, the difference in time T between θ = 0 degrees and θ = 15 degrees is 5 μs.

ここで、音信号の指向性処理においては、時間Tをもとにして演算を行う。例えば、正面方向(90度)の音を強調したい(指向性を持たせたい)場合、マイク231A及びマイク231Bに同時に到達する音(T=0μsの音)を強調し、時間差をもって到達する音声(T≠0μsの音)は抑制する、といった演算を行う。   Here, in the directivity processing of the sound signal, calculation is performed based on the time T. For example, when the sound in the front direction (90 degrees) is to be emphasized (directivity is desired), the sound that reaches the microphone 231A and the microphone 231B at the same time (the sound of T = 0 μs) is emphasized, and the sound that reaches with a time difference ( (Sound of T ≠ 0 μs) is suppressed.

したがって、目的の方向からの音の時間Tと目的以外の方向からの音の時間Tとの差分が大きければ大きいほど、より指向性を有しやすい。図5(B)に示す例では、θ=90度とθ=75度では、時間Tの差分が37μsである。一方、θ=0度とθ=15度では、時間Tの差分が5μsである。この2つを比較した場合、撮像部の光軸に略垂直な方向に配置した第2のマイク群230に属するマイク231A、マイク232Bでは、θ=0度よりもθ=90度のほうが、より指向性を有することになる。   Therefore, the greater the difference between the sound time T from the target direction and the sound time T from the direction other than the target direction, the more directivity is likely to be. In the example shown in FIG. 5B, the difference in time T is 37 μs at θ = 90 degrees and θ = 75 degrees. On the other hand, when θ = 0 degrees and θ = 15 degrees, the difference in time T is 5 μs. When these two are compared, in the microphones 231A and 232B belonging to the second microphone group 230 arranged in a direction substantially perpendicular to the optical axis of the imaging unit, θ = 90 degrees is more than θ = 0 degrees. It will have directivity.

すなわち、正面方向(θ=90度)からの音に指向性を持たせた場合、θ=75度からの音は良好に抑制され、正面方向(θ=90度)からの音が強調されて聞こえる。一方、θ=0度からの音に指向性を持たせた場合、θ=15度からの音声は、θ=90度からの音に指向性を持たせたときのθ=75度からの音ほどは抑制されないため、目的の方向(θ=0度)以外からの音も、漏れ聞こえてしまう状態となる。   That is, when directivity is given to the sound from the front direction (θ = 90 degrees), the sound from θ = 75 degrees is suppressed well, and the sound from the front direction (θ = 90 degrees) is emphasized. hear. On the other hand, when directivity is given to the sound from θ = 0 degrees, the sound from θ = 15 degrees is the sound from θ = 75 degrees when the sound from θ = 90 degrees is given directivity. Since it is not so suppressed, sound from other than the target direction (θ = 0 degree) is leaked.

したがって、撮像部の光軸に略垂直な方向に配置したマイク231A、マイク231Bを用いて指向性処理を実施する場合には、装置の正面方向(例えば、θ=90度)からの音を明瞭に集音する用途には適している。しかし、装置の正面方向以外(例えば、θ=0度)からの音を明瞭に集音する用途には適していないことが理解できる。したがって、集音対象の被写体の位置が装置の正面方向から離れている場合には、目的とする音が明瞭に集音できないという課題が生ずる。   Therefore, when directivity processing is performed using the microphone 231A and the microphone 231B arranged in a direction substantially perpendicular to the optical axis of the imaging unit, sound from the front direction of the apparatus (for example, θ = 90 degrees) is clearly displayed. It is suitable for the purpose of collecting sound. However, it can be understood that it is not suitable for the purpose of clearly collecting sounds from directions other than the front direction of the apparatus (for example, θ = 0 degree). Therefore, when the position of the subject to be collected is away from the front direction of the apparatus, there arises a problem that the target sound cannot be clearly collected.

そこで、本実施形態では、撮像部の光軸に略平行な方向に配置した第1のマイク群220に属するマイク221A及び2211Bを活用することで、前述した課題を解決する。図6(A)は、音源からの音が、第1のマイク群220に属するマイク221A及びマイク222Bに対して、角度θの方向から到達する様子を示している。マイク221Aとマイク221Bとは、距離D1を隔てて配置されている。この場合において、音源からマイク221Aまでの距離と、音源からマイク221Bまでの距離との差Lは、
L=D1×cos(90−θ)=D1×sinθ
で表される。また、音速をVとすると、音源からの音がマイク221Aに到達してから、音源からの音がマイク221Bに到達するまでの時間Tは、
T=L/V=D1×sinθ/V
で表される。
Therefore, in the present embodiment, the above-described problems are solved by utilizing the microphones 221A and 2211B belonging to the first microphone group 220 arranged in a direction substantially parallel to the optical axis of the imaging unit. FIG. 6A shows a state in which sound from the sound source reaches the microphone 221A and the microphone 222B belonging to the first microphone group 220 from the direction of the angle θ. The microphone 221A and the microphone 221B are disposed with a distance D1 therebetween. In this case, the difference L between the distance from the sound source to the microphone 221A and the distance from the sound source to the microphone 221B is:
L = D1 × cos (90−θ) = D1 × sin θ
It is represented by When the sound speed is V, the time T from when the sound from the sound source reaches the microphone 221A until the sound from the sound source reaches the microphone 221B is:
T = L / V = D1 × sin θ / V
It is represented by

図6(B)は、D1=50mm、V=346.75m/sとした場合の角度θに対する、距離の差L、時間Tの値、及び時間Tの差分を示している。ここで、時間Tの差分に着目すると、マイク231A及びマイク231Bを用いた場合(図5(B)を参照)とは異なり、正面方向の差分が小さく、正面方向以外の差分が大きくなっていることが分かる。この結果は、当然のことながら、第1のマイク群220に属するマイク221A及びマイク221Bの配置方向と、第2のマイク群231に属するマイク231A及びマイク231Bの配置方向とが、90度だけ異なることによるものである。   FIG. 6B shows distance difference L, time T value, and time T difference with respect to angle θ when D1 = 50 mm and V = 346.75 m / s. Here, focusing on the difference in time T, unlike the case of using the microphone 231A and the microphone 231B (see FIG. 5B), the difference in the front direction is small and the difference in the direction other than the front direction is large. I understand that. As a matter of course, the arrangement direction of the microphones 221A and 221B belonging to the first microphone group 220 differs from the arrangement direction of the microphones 231A and 231B belonging to the second microphone group 231 by 90 degrees. It is because.

本実施形態における音信号処理(指向性処理)では、時間Tの差分が大きい(指向性処理に適している)方のマイク群によって得られた音信号を使用する。図5(B)及び図6(B)に示した例を比較すると、図5(B)に示す範囲501及び図6(B)に示す範囲601、602が他方よりも時間Tの差分が大きい。したがって、正面方向(θが45度〜135度)の範囲においては、第2のマイク群230に属するマイク231A及びマイク232Bにより得られる音信号を使用して指向性処理を実施する。また、正面以外の方向(θが0度〜45度、135度〜180度)の範囲においては、第1のマイク群220に属するマイク221A及びマイク221Bにより得られる音信号を使用して指向性処理を実施する。このように、集音対象の範囲が所定の画角(この例では45度〜135度)よりも広い側(広角側)である場合、第1のマイク群220で得られる音信号を使用して指向性処理を実施する。また、集音対象の範囲が所定の画角(この例では45度〜135度)よりも狭い側(望遠側)である場合、第2のマイク群230で得られる音信号を使用して指向性処理を実施する。   In the sound signal processing (directivity processing) in the present embodiment, a sound signal obtained by a microphone group having a larger time T difference (suitable for directivity processing) is used. Comparing the examples shown in FIGS. 5B and 6B, the range 501 shown in FIG. 5B and the ranges 601 and 602 shown in FIG. 6B have a larger difference in time T than the other. . Therefore, in the range of the front direction (θ is 45 degrees to 135 degrees), directivity processing is performed using sound signals obtained by the microphones 231A and 232B belonging to the second microphone group 230. Further, in directions other than the front (θ is 0 ° to 45 °, 135 ° to 180 °), directivity is obtained using sound signals obtained by the microphones 221A and 221B belonging to the first microphone group 220. Perform the process. As described above, when the range of the sound collection target is on the side (wide angle side) wider than the predetermined angle of view (45 degrees to 135 degrees in this example), the sound signal obtained by the first microphone group 220 is used. To implement directivity processing. If the range of the sound collection target is on the side (telephoto side) narrower than a predetermined angle of view (45 degrees to 135 degrees in this example), the sound signal obtained by the second microphone group 230 is used for directing. Perform sex processing.

図7は、本実施形態における音信号処理の例を示すフローチャートである。
まず、ステップS700にて、操作部290によって目的の方向に関する指示(指向範囲指定)が与えられると、ステップS701にて、音信号処理部250のCPU403は、指向性処理に使用するマイク群を決定する。このとき、CPU403は、前述したように時間Tの差分が大きいほうのマイク群を使用するように決定する。例えば、θ=75度に指向範囲指定された場合、CPU403は、第2のマイク群230(マイク231A、マイク231B)に決定する。
FIG. 7 is a flowchart showing an example of sound signal processing in the present embodiment.
First, when an instruction (designation of directivity range) regarding a target direction is given by the operation unit 290 in step S700, the CPU 403 of the sound signal processing unit 250 determines a microphone group to be used for directivity processing in step S701. To do. At this time, the CPU 403 determines to use the microphone group having the larger time T difference as described above. For example, when the directivity range is designated at θ = 75 degrees, the CPU 403 determines the second microphone group 230 (the microphone 231A and the microphone 231B).

ステップS702にて、CPU403は、ステップS701において決定したマイク群で得られる音信号を選択するように、セレクタ401に対して選択信号SELを出力する。例えば、θ=75度に指向範囲指定された場合、第2のマイク群230(マイク231A、マイク231B)からの音信号が選択されるように選択信号SELを出力する。   In step S702, the CPU 403 outputs a selection signal SEL to the selector 401 so as to select a sound signal obtained by the microphone group determined in step S701. For example, when the directivity range is designated at θ = 75 degrees, the selection signal SEL is output so that the sound signal from the second microphone group 230 (the microphone 231A and the microphone 231B) is selected.

続いて、ステップS703にて、CPU403は、アンプ402A及び402Bの増幅量を決定する。この処理によって、マイク毎の感度差を補正し、かつ、被写体とマイクとの距離差に起因する感度差を補正する。   Subsequently, in step S703, the CPU 403 determines the amplification amounts of the amplifiers 402A and 402B. By this processing, the sensitivity difference for each microphone is corrected, and the sensitivity difference due to the distance difference between the subject and the microphone is corrected.

例えば、図3(A)及び図3(B)に示した例において、マイク221Aよりもマイク221Bの方が、被写体から距離D1だけ遠い位置に配置されている。そのため、マイク221Bに到達する音源からの音量は、マイク221Aに到達する音源からの音量よりも小さくなる。したがって、マイク221Bからの音信号を増幅するアンプには、マイク221Aからの音信号を増幅するアンプよりも、大きい増幅量を設定する必要がある。   For example, in the example shown in FIGS. 3A and 3B, the microphone 221B is disposed at a position farther from the subject by the distance D1 than the microphone 221A. Therefore, the volume from the sound source that reaches the microphone 221B is smaller than the volume from the sound source that reaches the microphone 221A. Therefore, it is necessary to set a larger amplification amount in the amplifier that amplifies the sound signal from the microphone 221B than in the amplifier that amplifies the sound signal from the microphone 221A.

CPU105は、このように被写体とマイクとの距離差に起因する感度差を補正することも目的として、アンプ402A及び402Bの増幅量を決定する。アンプ402A及び402Bに設定する増幅量の一例を図8(A)及び図8(B)に示す。   The CPU 105 determines the amplification amounts of the amplifiers 402A and 402B for the purpose of correcting the sensitivity difference due to the distance difference between the subject and the microphone in this way. An example of the amount of amplification set in the amplifiers 402A and 402B is shown in FIGS. 8A and 8B.

第1のマイク群220が選択された場合には、例えば、マイク221Aからの音信号を増幅するアンプに対して増幅量30.0dBが設定され、マイク221Bからの音信号を増幅するアンプに対して増幅量30.8dBが設定される。マイク221A及びマイク221Bに対する設定値の差分は、前述した通り、マイク毎の感度差、及び被写体とマイクとの距離差に起因する感度差を考慮したものとなっている。   When the first microphone group 220 is selected, for example, an amplification amount of 30.0 dB is set for the amplifier that amplifies the sound signal from the microphone 221A, and for the amplifier that amplifies the sound signal from the microphone 221B. Thus, an amplification amount of 30.8 dB is set. As described above, the difference between the setting values for the microphones 221A and 221B takes into account the sensitivity difference for each microphone and the sensitivity difference due to the distance difference between the subject and the microphone.

また、第2のマイク群230が選択された場合には、例えば、マイク231Aからの音信号を増幅するアンプに対して増幅量30.3dBが設定され、マイク231Bからの音信号を増幅するアンプに対して増幅量30.1dBが設定される。マイク231A及びマイク231Bに対する設定値の差分は、マイク毎の感度差を考慮したもののみとなっている。第2のマイク群230のマイク231A及びマイク231Bは、撮像部の光軸に略対称となるように配置されているため、被写体とマイクとの距離差に起因する感度差はゼロとみなしている。   When the second microphone group 230 is selected, for example, an amplification amount of 30.3 dB is set for the amplifier that amplifies the sound signal from the microphone 231A, and the amplifier that amplifies the sound signal from the microphone 231B. Is set to an amplification amount of 30.1 dB. The difference between the set values for the microphone 231A and the microphone 231B is only a value considering the sensitivity difference for each microphone. Since the microphone 231A and the microphone 231B of the second microphone group 230 are arranged so as to be substantially symmetric with respect to the optical axis of the imaging unit, the sensitivity difference due to the distance difference between the subject and the microphone is regarded as zero. .

マイク221A、221B、231A、及び231Bで比較すると、最も被写体から遠い距離に配置されているマイクは、マイク221Bである。もし、マイク毎の感度差を無視すれば、マイク221Bからの音信号を増幅するアンプに対しては、最も大きな増幅量を設定する必要がある。言い換えると、マイク毎の感度差がなければ、第1のマイク群220に属するマイクに対して設定される各々の増幅量の平均値は、第2のマイク群230に属するマイクに対して設定される各々の増幅量の平均値より大きくする必要がある。また、第1のマイク群に属するマイクに対して設定される各々の増幅量は、撮像装置において被写体側から遠いほど高く設定する必要がある。   Comparing the microphones 221A, 221B, 231A, and 231B, the microphone arranged at the farthest distance from the subject is the microphone 221B. If the sensitivity difference for each microphone is ignored, it is necessary to set the largest amplification amount for the amplifier that amplifies the sound signal from the microphone 221B. In other words, if there is no sensitivity difference between microphones, the average value of the amplification amounts set for the microphones belonging to the first microphone group 220 is set for the microphones belonging to the second microphone group 230. It is necessary to make it larger than the average value of each amplification amount. Each amplification amount set for the microphones belonging to the first microphone group needs to be set higher as the distance from the subject side in the imaging apparatus increases.

次に、ステップS704にて、CPU403は、ステップS703において決定したアンプ402A及び402Bの増幅量に基づいて、アンプ402A及び402Bに対して設定信号SGA、SGBを出力する。続いて、ステップS705にて、CPU403は、アンプ402A及び402Bによって増幅された音信号を用いて、指向範囲指定された方向に指向性を持たせるように演算処理を行い、指向性処理を実施する。   Next, in step S704, the CPU 403 outputs setting signals SGA and SGB to the amplifiers 402A and 402B based on the amplification amounts of the amplifiers 402A and 402B determined in step S703. Subsequently, in step S705, the CPU 403 performs arithmetic processing using the sound signals amplified by the amplifiers 402A and 402B so as to have directivity in the direction specified by the directivity range, and performs directivity processing. .

以上のように、本実施形態によれば、指向性を持たせる方向(角度θ)によって、指向性処理のために使用するマイクを切り替えることで、正面以外の方向の音を明瞭に集音することが可能となる。したがって、集音対象の被写体(音源)の位置が装置の正面方向から離れている場合にも、目的とする音を集音することが可能となる。   As described above, according to the present embodiment, sounds in directions other than the front are clearly collected by switching the microphone used for directivity processing according to the direction in which directivity is given (angle θ). It becomes possible. Therefore, it is possible to collect the target sound even when the position of the subject (sound source) to be collected is away from the front direction of the apparatus.

以上、説明した実施形態は一例であり、本発明はこれらの実施形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。
例えば、マイク221Aとマイク221Bとの距離D1、マイク231Aとマイク231Bとの距離D2は、前述した実施形態ではD1=D2=50mmとして説明したが、等距離でなくともよく、距離D1と距離D2とが異なっていてもよい。一例として、距離D1=100mm、距離D2=50mmとした場合の角度θに対する、距離の差L、時間Tの値、及び時間Tの差分を図9に示す。第1のマイク群220に属するマイク221A、221Bについて示した図6(B)と図9(B)とを比較すると、時間Tの差分は、距離D1=50mmのときよりも距離D1=100mmにした方が、大きくなっていることが分かる。すなわち、マイク間距離が大きい方が指向性処理に適していることが明らかである。
The embodiments described above are examples, and the present invention is not limited to these embodiments, and various modifications and changes can be made within the scope of the gist.
For example, the distance D1 between the microphone 221A and the microphone 221B and the distance D2 between the microphone 231A and the microphone 231B have been described as D1 = D2 = 50 mm in the above-described embodiment. However, the distance D1 and the distance D2 do not have to be equal. And may be different. As an example, FIG. 9 shows distance difference L, time T value, and time T difference with respect to angle θ when distance D1 = 100 mm and distance D2 = 50 mm. Comparing FIG. 6B and FIG. 9B showing the microphones 221A and 221B belonging to the first microphone group 220, the difference in the time T is a distance D1 = 100 mm than when the distance D1 = 50 mm. You can see that it is getting bigger. That is, it is clear that a larger distance between microphones is suitable for directivity processing.

図3(A)及び図3(B)に示したような箱形の撮像装置(例えば、ネットワークカメラ)においては、マイク231Aとマイク231Bとの距離に比べて、マイク221Aとマイク221Bとの距離のほうが、より大きくできる。そのため、D1=D2とするよりも、D1>D2という関係にした方が、指向性処理に関してはより好ましい。   In a box-shaped imaging device (for example, a network camera) as shown in FIGS. 3A and 3B, the distance between the microphone 221A and the microphone 221B is larger than the distance between the microphone 231A and the microphone 231B. Can be larger. Therefore, it is more preferable for the directivity processing to have a relationship of D1> D2 than to set D1 = D2.

例えば、図9(A)及び図9(B)に示した例においては、図9(A)に示す範囲901及び図9(B)に示す範囲902、903が他方よりも時間Tの差分が大きい。したがって、正面方向(θが60度〜120度)の範囲においては、第2のマイク群230に属するマイク231及びマイク231Bにより得られる音信号を使用して指向性処理を実施する。また、正面以外の方向(θが0度〜60度、120度〜180度)の範囲においては、第1のマイク群220に属するマイク221A及びマイク221Bにより得られる音信号を使用して指向性処理を実施する。以上より、第1のマイク群のマイク間距離と第2のマイク群のマイク間距離が等距離でなくとも、実施形態として好ましい場合があることが理解されよう。   For example, in the example shown in FIGS. 9A and 9B, the range 901 shown in FIG. 9A and the ranges 902 and 903 shown in FIG. large. Therefore, in the range of the front direction (θ is 60 degrees to 120 degrees), directivity processing is performed using sound signals obtained by the microphones 231 and 231B belonging to the second microphone group 230. Further, in directions other than the front (θ is 0 to 60 degrees, 120 to 180 degrees), directivity is obtained using sound signals obtained by the microphones 221A and 221B belonging to the first microphone group 220. Perform the process. From the above, it will be understood that the inter-microphone distance of the first microphone group and the inter-microphone distance of the second microphone group may be preferable as an embodiment even if they are not equidistant.

また、前述した実施形態では、第1のマイク群220に属するマイクと第2のマイク群230に属するマイクとは、すべて異なるものとしているが、少なくとも1つのマイクが第1のマイク群220及び第2のマイク群230に属するようにしてもよい。例えば、図3(C)に示すように第1のマイク群220に属するマイク及び第2のマイク群230に属するマイクを配置し、1つのマイク(221A、231A)を第1のマイク群220と第2のマイク群230とで共用するようにしてもよい。図3(C)に示したように配置しても音信号処理(指向性処理)に使用する音信号を適切に選択することで、図3(A)に示した配置と同様の効果が得られる。   In the above-described embodiment, the microphones belonging to the first microphone group 220 and the microphones belonging to the second microphone group 230 are all different, but at least one microphone is the first microphone group 220 and the first microphone group 220. You may make it belong to 2 microphone groups 230. For example, as shown in FIG. 3C, microphones belonging to the first microphone group 220 and microphones belonging to the second microphone group 230 are arranged, and one microphone (221A, 231A) is connected to the first microphone group 220. The second microphone group 230 may be shared. Even if the arrangement shown in FIG. 3C is used, the same effect as the arrangement shown in FIG. 3A can be obtained by appropriately selecting the sound signal used for the sound signal processing (directivity processing). It is done.

また、図3(D)に示すように、第2のマイク群230に属するマイクとして、撮像部の光軸に対して略垂直な方向で、かつマイク231Aとマイク231Bとを結ぶ方向に略垂直な方向に、さらにマイク231Cを配置するようにしてもよい。このようにした場合には、撮像部の光軸を法線ベクトルとする平面上の任意の位置に対する指向性を持たせることが可能となる。   As shown in FIG. 3D, the microphones belonging to the second microphone group 230 are substantially perpendicular to the optical axis of the imaging unit and substantially perpendicular to the direction connecting the microphones 231A and 231B. The microphone 231C may be further arranged in any direction. In this case, it is possible to provide directivity to an arbitrary position on a plane having the normal axis as the optical axis of the imaging unit.

なお、前述した音信号処理(指向性処理)は、撮像装置110において実施してもよいし、クライアント装置120において実施してもよい。例えば、撮像装置110において指向性処理を実施し、指向性処理後の音信号を撮像装置110から出力するようにしてもよい。また、例えば、撮像装置110から第1のマイク群220及び第2のマイク群220で得られた音信号を出力し、クライアント装置120において使用する音信号を選択して指向性処理を実施してもよい。また、例えば、撮像装置110から第1のマイク群220及び第2のマイク群220の内の使用するマイク群で得られた音信号だけを出力し、クライアント装置120において指向性処理を実施してもよい。   Note that the sound signal processing (directivity processing) described above may be performed in the imaging device 110 or may be performed in the client device 120. For example, directivity processing may be performed in the imaging device 110 and a sound signal after directivity processing may be output from the imaging device 110. In addition, for example, sound signals obtained from the first microphone group 220 and the second microphone group 220 are output from the imaging device 110, and a sound signal used in the client device 120 is selected to perform directivity processing. Also good. Further, for example, only the sound signals obtained from the microphone groups used in the first microphone group 220 and the second microphone group 220 are output from the imaging device 110 and the directivity processing is performed in the client device 120. Also good.

(本発明の他の実施形態)
本発明は、前述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
(Other embodiments of the present invention)
The present invention supplies a program that realizes one or more functions of the above-described embodiments to a system or apparatus via a network or a storage medium, and one or more processors in the computer of the system or apparatus read and execute the program This process can be realized. It can also be realized by a circuit (for example, ASIC) that realizes one or more functions.

なお、前記実施形態は、何れも本発明を実施するにあたっての具体化のほんの一例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。   The above-described embodiments are merely examples of implementation in carrying out the present invention, and the technical scope of the present invention should not be construed as being limited thereto. That is, the present invention can be implemented in various forms without departing from the technical idea or the main features thereof.

110:撮像装置 111、121:CPU 112、122:ROM 113、123:RAM 114、124:通信インターフェース 115:撮像部 116:マイク群 117、127:記憶装置 120:クライアント装置 125:出力装置 126:入力装置 130:ネットワーク 210:撮像部 211:光学系 212:撮像素子 220、230:マイク群 221、231:マイク 240:画像処理部 250:音信号処理部 260:出力部 261:画像表示部 262:音出力部 270:記憶部 280:制御部 290:操作部 110: Imaging device 111, 121: CPU 112, 122: ROM 113, 123: RAM 114, 124: Communication interface 115: Imaging unit 116: Microphone group 117, 127: Storage device 120: Client device 125: Output device 126: Input Device 130: Network 210: Imaging unit 211: Optical system 212: Imaging device 220, 230: Microphone group 221, 231: Microphone 240: Image processing unit 250: Sound signal processing unit 260: Output unit 261: Image display unit 262: Sound Output unit 270: storage unit 280: control unit 290: operation unit

Claims (11)

撮像素子を有する撮像部と、
前記撮像部の光軸に略平行な方向に離して配置された複数のマイクを含む第1のマイク群と、
前記撮像部の光軸に略垂直な方向に離して配置された複数のマイクを含む第2のマイク群とを有することを特徴とする撮像装置。
An imaging unit having an imaging element;
A first microphone group including a plurality of microphones arranged apart in a direction substantially parallel to the optical axis of the imaging unit;
An image pickup apparatus comprising: a second microphone group including a plurality of microphones arranged apart from each other in a direction substantially perpendicular to the optical axis of the image pickup unit.
入力される音信号を用いて指向性処理を実施し、前記指向性処理された音信号を出力する音信号処理部を有し、
前記音信号処理部は、
集音対象の範囲が所定の画角よりも広い側である場合、前記第1のマイク群で得られる音信号を用いて前記指向性処理を実施し、
前記集音対象の範囲が所定の画角よりも狭い側である場合、前記第2のマイク群で得られる音信号を用いて前記指向性処理を実施することを特徴とする請求項1記載の撮像装置。
A sound signal processing unit that performs directivity processing using the input sound signal and outputs the sound signal subjected to the directivity processing,
The sound signal processing unit
When the sound collection target range is wider than a predetermined angle of view, the directivity processing is performed using a sound signal obtained from the first microphone group,
2. The directivity processing according to claim 1, wherein the directivity processing is performed using a sound signal obtained by the second microphone group when the range of the sound collection target is a side narrower than a predetermined angle of view. Imaging device.
前記第1のマイク群に属する少なくとも1つのマイクが、前記第2のマイク群に属することを特徴とする請求項1又は2記載の撮像装置。   The imaging apparatus according to claim 1, wherein at least one microphone belonging to the first microphone group belongs to the second microphone group. 前記第1のマイク群におけるマイク間の距離は、前記第2のマイク群におけるマイク間の距離よりも大きいことを特徴とする請求項1〜3の何れか1項に記載の撮像装置。   The imaging apparatus according to claim 1, wherein a distance between microphones in the first microphone group is greater than a distance between microphones in the second microphone group. 前記第1のマイク群におけるマイク間の距離と、前記第2のマイク群におけるマイク間の距離とが同じであることを特徴とする請求項1〜3の何れか1項に記載の撮像装置。   4. The imaging apparatus according to claim 1, wherein a distance between microphones in the first microphone group is the same as a distance between microphones in the second microphone group. 5. 前記第2のマイク群に属するマイクは、前記撮像部の光軸に略対称に配置されていることを特徴とする請求項1〜5の何れか1項に記載の撮像装置。   The imaging apparatus according to claim 1, wherein microphones belonging to the second microphone group are arranged substantially symmetrically with respect to an optical axis of the imaging unit. 前記音信号処理部は、入力される前記音信号を増幅する複数のアンプを有し、
前記第1のマイク群で得られる音信号を用いて前記指向性処理を実施する場合に前記複数のアンプに設定される増幅量の平均値は、前記第2のマイク群で得られる音信号を用いて前記指向性処理を実施する場合に前記複数のアンプに設定される増幅量の平均値より大きいことを特徴とする請求項2記載の撮像装置。
The sound signal processing unit has a plurality of amplifiers that amplify the input sound signal,
When the directivity processing is performed using the sound signal obtained from the first microphone group, the average value of the amplification amounts set in the plurality of amplifiers is the sound signal obtained from the second microphone group. The imaging apparatus according to claim 2, wherein the imaging apparatus is larger than an average value of amplification amounts set in the plurality of amplifiers when the directivity processing is used.
前記第1のマイク群で得られる音信号を用いて前記指向性処理を実施する場合に前記複数のアンプに設定される増幅量は、音信号を得るマイクの位置が撮像装置において被写体側から遠いほど高く設定されることを特徴とする請求項7記載の撮像装置。   When the directivity processing is performed using sound signals obtained from the first microphone group, the amplification amounts set in the plurality of amplifiers are such that the positions of the microphones that obtain the sound signals are far from the subject side in the imaging apparatus. The imaging apparatus according to claim 7, wherein the imaging apparatus is set higher. 撮像素子を有する撮像部と、前記撮像部の光軸に略平行な方向に離して配置された複数のマイクを含む第1のマイク群と、前記撮像部の光軸に略垂直な方向に離して配置された複数のマイクを含む第2のマイク群とを有する撮像装置と、
前記撮像装置から出力された音信号を用いて指向性処理を実施し、前記指向性処理された音信号を出力する音信号処理部を有し、
前記音信号処理部は、
集音対象の範囲が所定の画角よりも広い側である場合、前記第1のマイク群で得られる音信号を用いて前記指向性処理を実施し、
前記集音対象の範囲が所定の画角よりも狭い側である場合、前記第2のマイク群で得られる音信号を用いて前記指向性処理を実施することを特徴とする撮像システム。
An imaging unit having an imaging element; a first microphone group including a plurality of microphones arranged in a direction substantially parallel to an optical axis of the imaging unit; and a direction substantially perpendicular to the optical axis of the imaging unit. An imaging device having a second microphone group including a plurality of microphones arranged
A sound signal processing unit that performs directivity processing using the sound signal output from the imaging device and outputs the sound signal subjected to the directivity processing,
The sound signal processing unit
When the sound collection target range is wider than a predetermined angle of view, the directivity processing is performed using a sound signal obtained from the first microphone group,
When the range of the sound collection target is on a side narrower than a predetermined angle of view, the directivity process is performed using a sound signal obtained by the second microphone group.
撮像素子を有する撮像部と、前記撮像部の光軸に略平行な方向に離して配置された複数のマイクを含む第1のマイク群と、前記撮像部の光軸に略垂直な方向に離して配置された複数のマイクを含む第2のマイク群とを有する撮像装置により得られる音信号の信号処理方法であって、
集音対象の範囲に応じて、前記第1のマイク群及び前記第2のマイク群の内から使用するマイク群を決定する決定工程と、
前記決定工程で決定されたマイク群で得られる音信号を用いて指向性処理を実施し、前記指向性処理された音信号を出力する音信号処理工程とを有し、
前記音信号処理工程では、
集音対象の範囲が所定の画角よりも広い側である場合、使用するマイク群を前記第1のマイク群に決定し、
前記集音対象の範囲が所定の画角よりも狭い側である場合、使用するマイク群を前記第2のマイク群に決定することを特徴とする信号処理方法。
An imaging unit having an imaging element; a first microphone group including a plurality of microphones arranged in a direction substantially parallel to an optical axis of the imaging unit; and a direction substantially perpendicular to the optical axis of the imaging unit. A signal processing method of a sound signal obtained by an imaging device having a second microphone group including a plurality of microphones arranged
A determination step of determining a microphone group to be used from the first microphone group and the second microphone group according to a range of sound collection targets;
A sound signal processing step of performing directivity processing using a sound signal obtained by the microphone group determined in the determination step, and outputting the sound signal subjected to the directivity processing;
In the sound signal processing step,
When the range of the sound collection target is on the side wider than the predetermined angle of view, the microphone group to be used is determined as the first microphone group,
A signal processing method comprising: determining a microphone group to be used as the second microphone group when the range of the sound collection target is a side narrower than a predetermined angle of view.
撮像素子を有する撮像部と、前記撮像部の光軸に略平行な方向に離して配置された複数のマイクを含む第1のマイク群と、前記撮像部の光軸に略垂直な方向に離して配置された複数のマイクを含む第2のマイク群とを有する撮像装置により得られる音信号の信号処理をコンピュータに実行させるプログラムであって、
集音対象の範囲に応じて、前記第1のマイク群及び前記第2のマイク群の内から使用するマイク群を決定する決定ステップと、
前記決定ステップで決定されたマイク群で得られる音信号を用いて指向性処理を実施し、前記指向性処理された音信号を出力する音信号処理ステップとを有し、
前記音信号処理ステップでは、
集音対象の範囲が所定の画角よりも広い側である場合、使用するマイク群を前記第1のマイク群に決定し、
前記集音対象の範囲が所定の画角よりも狭い側である場合、使用するマイク群を前記第2のマイク群に決定することを特徴とするプログラム。
An imaging unit having an imaging element; a first microphone group including a plurality of microphones arranged in a direction substantially parallel to an optical axis of the imaging unit; and a direction substantially perpendicular to the optical axis of the imaging unit. A program for causing a computer to perform signal processing of a sound signal obtained by an imaging device having a second microphone group including a plurality of microphones arranged in a row,
A determination step of determining a microphone group to be used from among the first microphone group and the second microphone group according to a range of a sound collection target;
A sound signal processing step of performing directivity processing using a sound signal obtained by the microphone group determined in the determination step, and outputting the sound signal subjected to the directivity processing;
In the sound signal processing step,
When the range of the sound collection target is on the side wider than the predetermined angle of view, the microphone group to be used is determined as the first microphone group,
A program that determines a microphone group to be used as the second microphone group when the range of the sound collection target is narrower than a predetermined angle of view.
JP2018096057A 2018-05-18 2018-05-18 IMAGING DEVICE, IMAGING SYSTEM, SIGNAL PROCESSING METHOD, AND PROGRAM Active JP7150470B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018096057A JP7150470B2 (en) 2018-05-18 2018-05-18 IMAGING DEVICE, IMAGING SYSTEM, SIGNAL PROCESSING METHOD, AND PROGRAM

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018096057A JP7150470B2 (en) 2018-05-18 2018-05-18 IMAGING DEVICE, IMAGING SYSTEM, SIGNAL PROCESSING METHOD, AND PROGRAM

Publications (3)

Publication Number Publication Date
JP2019201377A true JP2019201377A (en) 2019-11-21
JP2019201377A5 JP2019201377A5 (en) 2021-07-26
JP7150470B2 JP7150470B2 (en) 2022-10-11

Family

ID=68612567

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018096057A Active JP7150470B2 (en) 2018-05-18 2018-05-18 IMAGING DEVICE, IMAGING SYSTEM, SIGNAL PROCESSING METHOD, AND PROGRAM

Country Status (1)

Country Link
JP (1) JP7150470B2 (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005124090A (en) * 2003-10-20 2005-05-12 Sony Corp Microphone device, reproducing device, and imaging device
JP2006115180A (en) * 2004-10-14 2006-04-27 Sony Corp Electronic appliance
JP2009130854A (en) * 2007-11-27 2009-06-11 Sony Corp Sound signal processor, sound signal processing method, and image pickup device
JP2010251916A (en) * 2009-04-13 2010-11-04 Nec Casio Mobile Communications Ltd Sound data processing device and program
JP2011024112A (en) * 2009-07-17 2011-02-03 Kumagai Gumi Co Ltd Fixing device
JP2012150059A (en) * 2011-01-20 2012-08-09 Chubu Electric Power Co Inc Method and device for estimating sound source

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005124090A (en) * 2003-10-20 2005-05-12 Sony Corp Microphone device, reproducing device, and imaging device
JP2006115180A (en) * 2004-10-14 2006-04-27 Sony Corp Electronic appliance
JP2009130854A (en) * 2007-11-27 2009-06-11 Sony Corp Sound signal processor, sound signal processing method, and image pickup device
JP2010251916A (en) * 2009-04-13 2010-11-04 Nec Casio Mobile Communications Ltd Sound data processing device and program
JP2011024112A (en) * 2009-07-17 2011-02-03 Kumagai Gumi Co Ltd Fixing device
JP2012150059A (en) * 2011-01-20 2012-08-09 Chubu Electric Power Co Inc Method and device for estimating sound source

Also Published As

Publication number Publication date
JP7150470B2 (en) 2022-10-11

Similar Documents

Publication Publication Date Title
JP6023779B2 (en) Audio information processing method and apparatus
JP6246246B2 (en) Device with adaptive camera array
KR101490007B1 (en) Electronic apparatus having microphones with controllable front-side gain and rear-side gain
US10237473B2 (en) Depth map calculation in a stereo camera system
JP5748422B2 (en) Electronics
US20150022636A1 (en) Method and system for voice capture using face detection in noisy environments
JP5635584B2 (en) Imaging device, camera system, and method for calculating information for focus control
US11258940B2 (en) Imaging apparatus
WO2017149124A1 (en) A method, system and device for generating associated audio and visual signals in a wide angle image system
WO2019244695A1 (en) Imaging apparatus
JP7150470B2 (en) IMAGING DEVICE, IMAGING SYSTEM, SIGNAL PROCESSING METHOD, AND PROGRAM
US10939030B2 (en) Video audio processing system and method of controlling the video audio processing system
US8422690B2 (en) Audio reproduction apparatus and control method for the same
KR20200014204A (en) Control apparatus, imaging apparatus, and storage medium
US11490001B2 (en) Imaging apparatus
CN114554154A (en) Audio and video pickup position selection method and system, audio and video acquisition terminal and storage medium
JP6631166B2 (en) Imaging device, program, and imaging method
JP6368055B2 (en) Recording method and terminal for video chat
JP2007208866A (en) Camera
JP2019103011A (en) Converter, conversion method, and program
JP2018157314A (en) Information processing system, information processing method and program
US10873805B2 (en) Sound processing apparatus and audio signals processing method thereof based on sound source position
JP2022180926A (en) Voice processing apparatus, imaging apparatus, method for controlling those, and program
JP7337491B2 (en) AUDIO VIDEO PROCESSING SYSTEM AND CONTROL METHOD FOR VIDEO AUDIO PROCESSING SYSTEM
JP2019201377A5 (en)

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210517

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210517

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220322

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220830

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220928

R151 Written notification of patent or utility model registration

Ref document number: 7150470

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151