JP7337491B2 - AUDIO VIDEO PROCESSING SYSTEM AND CONTROL METHOD FOR VIDEO AUDIO PROCESSING SYSTEM - Google Patents

AUDIO VIDEO PROCESSING SYSTEM AND CONTROL METHOD FOR VIDEO AUDIO PROCESSING SYSTEM Download PDF

Info

Publication number
JP7337491B2
JP7337491B2 JP2018167901A JP2018167901A JP7337491B2 JP 7337491 B2 JP7337491 B2 JP 7337491B2 JP 2018167901 A JP2018167901 A JP 2018167901A JP 2018167901 A JP2018167901 A JP 2018167901A JP 7337491 B2 JP7337491 B2 JP 7337491B2
Authority
JP
Japan
Prior art keywords
address
audio
sound
microphone
camera
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018167901A
Other languages
Japanese (ja)
Other versions
JP2020043420A (en
Inventor
裕也 藤原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2018167901A priority Critical patent/JP7337491B2/en
Priority to US16/552,268 priority patent/US10939030B2/en
Publication of JP2020043420A publication Critical patent/JP2020043420A/en
Application granted granted Critical
Publication of JP7337491B2 publication Critical patent/JP7337491B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、映像音声処理システムおよび映像音声処理システムの制御方法に関する。 The present invention relates to a video/audio processing system and a control method for the video/audio processing system.

特許文献1では、撮像装置は、画像を取得する撮像ユニットと、画像を表示する画像表示ユニットとともに、入力された外部音声を複数の音声信号に変換して出力するマイクユニットを備える。撮像装置は、表示ユニットで表示された画像に対して、画像内の特定の被写体を指定し、指定された被写体の座標情報と撮影画角とに基づいて、撮像ユニットからの特定の被写体の方向を算出する。そして、撮像装置は、算出された特定の被写体の方向に基づいて、複数の音声信号から特定の被写体の方向に対応した合成音声信号を生成し、合成音声信号を外部に出力する。 In Patent Document 1, an imaging apparatus includes an imaging unit that acquires an image, an image display unit that displays an image, and a microphone unit that converts an input external sound into a plurality of audio signals and outputs the signals. The imaging device designates a specific subject in the image displayed on the display unit, and determines the direction of the specific subject from the imaging unit based on the coordinate information of the designated subject and the shooting angle of view. Calculate Then, based on the calculated direction of the specific subject, the imaging device generates a synthesized sound signal corresponding to the direction of the specific subject from the plurality of sound signals, and outputs the synthesized sound signal to the outside.

特開2008-193196号公報JP 2008-193196 A

特許文献1では、1つのカメラに対し、1つのマイクロフォンを用意することを前提としている。複数のカメラが録画と共に録音をするには、録音するすべてのカメラにマイクロフォンを接続するか、または内蔵マイクを搭載したカメラを用意する必要がある。ユーザは、カメラの台数分のマイクロフォンを用意すると、費用が増えるので、録音機能を断念してしまう。 In Patent Document 1, it is assumed that one microphone is prepared for one camera. In order for multiple cameras to record along with recording, you will need to connect a microphone to every camera you want to record, or have a camera with a built-in microphone. If the user prepares as many microphones as the number of cameras, the cost will increase, so the user will give up the recording function.

特許文献1では、撮像ユニットとマイクロフォンの位置がそれぞれ固定であり、ユーザは、撮像ユニットに対するマイクロフォンの相対位置を変更することができないことを前提としている。そのため、ユーザの意思で撮像ユニットとマイクロフォンの数を決定し、それぞれを任意の位置に設置する場合では、設置場所によって、撮像ユニットからの被写体の方向と、マイクロフォンからの被写体の方向とが異なってしまう。この場合、カメラの映像に合わせて集音方向を指定し、音声を配信することができない。 Patent Document 1 assumes that the positions of the imaging unit and the microphone are fixed, and that the user cannot change the relative position of the microphone with respect to the imaging unit. Therefore, when the user decides the number of imaging units and microphones and installs them in arbitrary positions, the direction of the subject from the imaging unit and the direction of the subject from the microphones will differ depending on the installation location. put away. In this case, it is not possible to specify the sound collection direction in accordance with the image of the camera and distribute the sound.

本発明の目的は、複数の映像データと複数の音声データを適切に関連付けることができるようにすることである。 SUMMARY OF THE INVENTION An object of the present invention is to appropriately associate a plurality of video data with a plurality of audio data.

本発明の映像音声処理システムは、複数の映像データを生成する複数の撮像装置と、音声の指向性処理を行う複数の集音範囲が設定され、当該集音範囲ごとに、集音部により集音された音声を指向性処理することにより、前記集音範囲ごとの音声データを生成する音声入力装置と、処理装置と、を有し、前記音声入力装置は、前記生成された複数の音声データのそれぞれに対応する通信デバイスのIPアドレスが設定され、前記生成された複数の音声データと、当該音声データに対応する前記通信デバイスのIPアドレスと、を前記複数の撮像装置に送信し、前記複数の撮像装置は、それぞれ、自身の撮像装置に対応する前記通信デバイスのIPアドレスを記憶し、当該記憶されたIPアドレスに一致するIPアドレスと共に前記音声入力装置から受信した音声データと、前記自身の撮像装置により撮像された映像データとを含むファイルを生成し、当該生成されたファイルを前記処理装置に送信し、前記処理装置は、前記ファイルを受信する。 In the video/audio processing system of the present invention, a plurality of imaging devices for generating a plurality of video data and a plurality of sound collection ranges for performing sound directivity processing are set, and a sound collection unit collects data for each sound collection range. an audio input device that generates audio data for each of the sound collection ranges by performing directivity processing on the sounded audio; and a processing device, wherein the audio input device receives the generated audio data. is set, and the plurality of generated audio data and the IP address of the communication device corresponding to the audio data are transmitted to the plurality of imaging devices; each of the imaging devices stores the IP address of the communication device corresponding to its own imaging device, and the audio data received from the audio input device together with the IP address matching the stored IP address; and video data captured by an imaging device, the generated file is transmitted to the processing device, and the processing device receives the file.

本発明によれば、複数の映像データと複数の音声データを適切に関連付けることができる。 According to the present invention, it is possible to appropriately associate a plurality of video data and a plurality of audio data.

映像音声処理システムの構成例を示す図である。It is a figure which shows the structural example of an audio-video processing system. カメラとマイクロフォンとサーバ装置の構成例を示す図である。It is a figure which shows the structural example of a camera, a microphone, and a server apparatus. CPUとROMとRAMを示す図である。It is a figure which shows CPU, ROM, and RAM. 音源からの音がマイクロフォンに到達する様子を示す図である。FIG. 2 is a diagram showing how sound from a sound source reaches a microphone; カメラの撮影範囲とマイクロフォンの集音範囲を示す図である。It is a figure which shows the imaging|photography range of a camera, and the sound collection range of a microphone. IDとIPアドレスと指向性条件を記憶する記憶部を示す図である。It is a figure which shows the memory|storage part which memorize|stores ID, an IP address, and directivity conditions. 映像音声処理システムの制御方法を示すフローチャートである。4 is a flow chart showing a control method of the video/audio processing system; 映像音声処理システムの制御方法を示すフローチャートである。4 is a flow chart showing a control method of the video/audio processing system; カメラの撮影範囲の極座標の算出方法を示す図である。It is a figure which shows the calculation method of the polar coordinate of the imaging|photography range of a camera. マイクロフォンの指向性方向および指向性範囲を示す図である。FIG. 4 is a diagram showing the directional direction and directional range of a microphone;

(第1の実施形態)
図1(a)は、本発明の第1の実施形態による映像音声処理システム100の構成例を示す図である。映像音声処理システム100は、カメラ1101と、カメラ1102と、カメラ1103と、マイクロフォン2000と、サーバ装置3000と、ネットワーク4000とを有する。カメラ1101と、カメラ1102と、カメラ1103と、マイクロフォン2000と、サーバ装置3000は、ネットワーク4000を介して、相互に通信可能である。マイクロフォン2000の数は、カメラ1101~1103の数より少ない。
(First embodiment)
FIG. 1(a) is a diagram showing a configuration example of a video/audio processing system 100 according to the first embodiment of the present invention. The audiovisual processing system 100 has a camera 1101 , a camera 1102 , a camera 1103 , a microphone 2000 , a server device 3000 and a network 4000 . Camera 1101 , camera 1102 , camera 1103 , microphone 2000 and server device 3000 can communicate with each other via network 4000 . The number of microphones 2000 is less than the number of cameras 1101-1103.

カメラ1101は、映像データを生成し、映像データをネットワーク4000を介して送信するネットワークカメラであり、撮像装置に相当する。カメラ1102とカメラ1103は、それぞれ、カメラ1101と同様である。なお、映像音声処理システム100は、カメラ1101~1103以外にも、複数のカメラを備えてもよい。カメラ1101~1103は、ズーム駆動機構、パン駆動機構、チルト駆動機構等を備えてもよい。 A camera 1101 is a network camera that generates video data and transmits the video data via the network 4000, and corresponds to an imaging device. Cameras 1102 and 1103 are each similar to camera 1101 . Note that the audiovisual processing system 100 may include a plurality of cameras in addition to the cameras 1101-1103. The cameras 1101-1103 may include zoom drive mechanisms, pan drive mechanisms, tilt drive mechanisms, and the like.

マイクロフォン2000は、音声を入力し、入力した音声をネットワーク4000を介して送信するネットワークマイクロフォンであり、音声入力装置に相当する。図1(b)は、マイクロフォン2000の構成例を示す図である。マイクロフォン2000は、複数のマイクロフォン(集音部)2011~2018を有する。マイクロフォン2011~2018の数は、8個に限定されず、増やしても、減らしてもよい。 Microphone 2000 is a network microphone that inputs voice and transmits the input voice via network 4000, and corresponds to a voice input device. FIG. 1B is a diagram showing a configuration example of the microphone 2000. As shown in FIG. Microphone 2000 has a plurality of microphones (sound collecting units) 2011-2018. The number of microphones 2011-2018 is not limited to eight, and may be increased or decreased.

サーバ装置3000は、カメラ1101~1103およびマイクロフォン2000に対して、ネットワーク4000を介して相互に通信可能である。カメラ1101~1103、マイクロフォン2000およびサーバ装置3000は、それぞれ、ネットワーク4000を介して、他の装置に各種コマンドを送信し、コマンドを受信した場合には、送信した装置にレスポンスを送信する。サーバ装置3000は、パーソナルコンピュータ(PC)等の処理装置の一例である。 Server device 3000 can communicate with cameras 1101 to 1103 and microphone 2000 via network 4000 . Cameras 1101 to 1103, microphone 2000, and server device 3000 each transmit various commands to other devices via network 4000, and when commands are received, they transmit responses to the transmitting device. The server device 3000 is an example of a processing device such as a personal computer (PC).

ネットワーク4000は、例えばEthernet(登録商標)等の通信規格を満足する複数のルータ、スイッチ、ケーブル等から構成される。なお、ネットワーク4000は、カメラ1101~1103とマイクロフォン2000とサーバ装置3000との間の通信を行うことができるものであれば、その通信規格、規模、構成を問わない。例えば、ネットワーク4000は、インターネットや有線LAN(Local Area Network)、無線LAN(Wireless LAN)、WAN(Wide Area Network)等により構成されていてもよい。なお、カメラ1101~1103は、例えば、PoE(Power Over Ethernet(登録商標))に対応する監視カメラでもよく、LANケーブルを介して電力を供給されてもよい。 The network 4000 is composed of a plurality of routers, switches, cables, etc. that satisfy communication standards such as Ethernet (registered trademark). As long as the network 4000 can communicate between the cameras 1101 to 1103, the microphone 2000, and the server apparatus 3000, its communication standard, scale, and configuration are not limited. For example, the network 4000 may be configured by the Internet, a wired LAN (Local Area Network), a wireless LAN (Wireless LAN), a WAN (Wide Area Network), or the like. The cameras 1101 to 1103 may be, for example, monitoring cameras compatible with PoE (Power Over Ethernet (registered trademark)), and may be supplied with power via LAN cables.

図2は、カメラ1101とマイクロフォン2000とサーバ装置3000の構成例を示す図である。カメラ1101は、撮像部1001と、画像処理部1002と、制御部1003と、通信部1004と、記憶部1005とを有する。なお、カメラ1102および1103は、カメラ1101と同様の構成を有する。 FIG. 2 is a diagram showing a configuration example of the camera 1101, the microphone 2000, and the server device 3000. As shown in FIG. The camera 1101 has an imaging unit 1001 , an image processing unit 1002 , a control unit 1003 , a communication unit 1004 and a storage unit 1005 . Cameras 1102 and 1103 have the same configuration as camera 1101 .

撮像部1001は、レンズと、CCDまたはCMOS等の撮像素子とを有し、レンズ設定等によって決定される画角によって被写体を撮像し、光電変換により、映像信号を生成する。画像処理部1002は、撮像部1001により生成された映像信号に対して、所定の画像処理および圧縮符号化処理を行い、映像データを生成する。なお、制御部1003は、ユーザにより設定された撮像条件または制御部1003が自動で決定した撮像条件に基づいて、撮像部1001および画像処理部1002を制御する。ここで、撮像条件は、撮像ゲイン条件、ガンマ条件、ダイナミックレンジ条件、露出条件、フォーカス条件等を含む。 The image pickup unit 1001 has a lens and an image pickup device such as a CCD or CMOS, picks up an image of a subject with an angle of view determined by lens settings or the like, and generates a video signal by photoelectric conversion. The image processing unit 1002 performs predetermined image processing and compression encoding processing on the video signal generated by the imaging unit 1001 to generate video data. Note that the control unit 1003 controls the imaging unit 1001 and the image processing unit 1002 based on imaging conditions set by the user or imaging conditions automatically determined by the control unit 1003 . Here, the imaging conditions include imaging gain conditions, gamma conditions, dynamic range conditions, exposure conditions, focus conditions, and the like.

制御部1003は、図3に示すように、CPU301とROM302とRAM303を有する。制御部1003は、マイクロフォン2000とサーバ装置3000等からネットワーク4000経由で受信したカメラ制御コマンドを解析し、カメラ制御コマンドに応じた処理を行う。例えば、制御部1003は、画像処理部1002に対して、画質調整の指示、ズームやフォーカス制御の指示、パンチルト動作の指示、音声データと映像データの結合および送信を行う。また、制御部1003は、CPU301を有し、カメラ1101の各構成要素を統括的に制御し、各種パラメータ等の設定を行う。また、制御部1003は、データを記憶するROM302およびRAM303を有し、RAM302またはROM303に記憶されたプログラムを実行する。RAM303は、制御部1003が実行するプログラムの格納領域、プログラム実行中のワーク領域、データの格納領域等を有する。また、制御部1003は、計時手段を有し、取得した各データに対してタイムスタンプ等を付与することができる。 The control unit 1003 has a CPU 301, a ROM 302, and a RAM 303, as shown in FIG. The control unit 1003 analyzes camera control commands received from the microphone 2000, the server device 3000, and the like via the network 4000, and performs processing according to the camera control commands. For example, the control unit 1003 instructs the image processing unit 1002 to adjust image quality, instruct zoom and focus control, instruct pan/tilt operation, and combine and transmit audio data and video data. Also, the control unit 1003 has a CPU 301, controls each component of the camera 1101 in an integrated manner, and sets various parameters. The control unit 1003 also has a ROM 302 and a RAM 303 that store data, and executes programs stored in the RAM 302 or ROM 303 . The RAM 303 has a storage area for programs executed by the control unit 1003, a work area during program execution, a data storage area, and the like. In addition, the control unit 1003 has a timer, and can add a time stamp or the like to each acquired data.

通信部1004は、マイクロフォン2000が送信した音声データをネットワーク4000経由で受信し、適切なパケット処理を行った後に、制御部1003へ出力する。また、通信部1004は、マイクロフォン2000からコマンドを受信し、受信したコマンドに対するレスポンスをマイクロフォン2000へ送信する。また、通信部1004は、映像データをネットワーク4000経由でサーバ装置3000に送信する。また、通信部1004は、サーバ装置3000が送信するカメラ制御コマンドを受信し、適切なパケット処理等を行った後に、制御部1003へ出力する。また、通信部1004は、サーバ装置3000から受信したコマンドに対するレスポンスをサーバ装置3000へ送信する。 The communication unit 1004 receives audio data transmitted by the microphone 2000 via the network 4000 , performs appropriate packet processing, and then outputs the data to the control unit 1003 . Also, the communication unit 1004 receives a command from the microphone 2000 and transmits a response to the received command to the microphone 2000 . Communication unit 1004 also transmits video data to server device 3000 via network 4000 . Also, the communication unit 1004 receives a camera control command transmitted by the server device 3000 , performs appropriate packet processing and the like, and then outputs the command to the control unit 1003 . Also, the communication unit 1004 transmits to the server device 3000 a response to the command received from the server device 3000 .

記憶部1005は、カメラ1101によって生成された映像データとマイクロフォン2000によって生成された音声データを関連付けるための情報を記憶する。 Storage unit 1005 stores information for associating video data generated by camera 1101 with audio data generated by microphone 2000 .

続いて、図2を参照して、マイクロフォン2000の各部構成と機能を説明する。マイクロフォン2000は、集音部2001と、音声処理部2002と、制御部2003と、通信部2004と、記憶部2005とを有する。なお、8個のマイクロフォン2011~2018の各々は、少なくとも別々の集音部2001を有する。 Next, with reference to FIG. 2, the configuration and function of each part of microphone 2000 will be described. Microphone 2000 has sound collecting section 2001 , sound processing section 2002 , control section 2003 , communication section 2004 and storage section 2005 . It should be noted that each of the eight microphones 2011 to 2018 has at least a separate sound collecting section 2001 .

集音部2001は、振動膜および固定板等の電極から構成され、音圧による振動膜の振動に応じて電極間の距離が変わることにより、電圧が変動することで音声を電気の音声信号へ変換する。また、集音部2001は、音声信号の電圧を増幅するためのアンプを含んでもよい。 The sound collector 2001 is composed of electrodes such as a vibrating membrane and a fixed plate. When the distance between the electrodes changes according to the vibration of the vibrating membrane due to the sound pressure, the voltage fluctuates, converting the sound into an electric audio signal. Convert. Also, the sound collector 2001 may include an amplifier for amplifying the voltage of the audio signal.

音声処理部2002は、集音部2001により生成された音声信号に対して、音声処理および圧縮符号化処理を行い、音声データを生成する。なお、制御部2003は、ユーザにより設定された音声入力条件または制御部2003が自動で決定した音声入力条件に基づいて、集音部2001および音声処理部2002を制御する。ここで、音声入力条件は、音量ゲイン条件、音声周波数特性条件、音声指向方向条件、音声指向範囲条件等を含む。 The audio processing unit 2002 performs audio processing and compression encoding processing on the audio signal generated by the sound collecting unit 2001 to generate audio data. Note that the control unit 2003 controls the sound collecting unit 2001 and the sound processing unit 2002 based on the voice input condition set by the user or the voice input condition automatically determined by the control unit 2003 . Here, the audio input conditions include a volume gain condition, an audio frequency characteristic condition, an audio orientation direction condition, an audio orientation range condition, and the like.

制御部2003は、図3に示すように、CPU301とROM302とRAM303を有する。制御部2003は、カメラ1101とサーバ装置3000等からネットワーク4000経由で受信した制御コマンドを解析し、制御コマンドに応じた処理を行う。例えば、制御部2003は、音声処理を行った音声データの送信先の制御指示を行う。また、制御部2003は、CPU301を有し、マイクロフォン2000の各構成要素を統括的に制御し、各種パラメータ等の設定を行う。また、制御部2003は、データを記憶するROM302およびRAM303を有し、ROM302またはRAM303に記憶されたプログラムを実行する。なお、RAM303は、制御部2003が実行するプログラムの格納領域、プログラム実行中のワーク領域、データの格納領域等を有する。また、制御部2003は、計時手段を有し、取得した各データに対してタイムスタンプ等を付与することができる。また、制御部2003は、2つのマイクロフォン2011および2012等の音声信号を、指向性処理(目的の方向からの音声を強調し、目的以外の方向からの音声を抑制する信号処理)し、指向性処理した音声信号を出力する。 The control unit 2003 has a CPU 301, a ROM 302, and a RAM 303, as shown in FIG. The control unit 2003 analyzes control commands received from the camera 1101, the server device 3000, etc. via the network 4000, and performs processing according to the control commands. For example, the control unit 2003 instructs control of the transmission destination of audio data that has undergone audio processing. Also, the control unit 2003 has the CPU 301, controls each component of the microphone 2000 in an integrated manner, and sets various parameters and the like. The control unit 2003 also has a ROM 302 and a RAM 303 that store data, and executes programs stored in the ROM 302 or the RAM 303 . The RAM 303 has a storage area for programs executed by the control unit 2003, a work area during program execution, a data storage area, and the like. In addition, the control unit 2003 has a timer, and can add a time stamp or the like to each acquired data. Further, the control unit 2003 performs directivity processing (signal processing that emphasizes sound from the target direction and suppresses sound from other Outputs the processed audio signal.

図4(a)および図4(b)を用いて、指向性処理を説明する。図4(a)は、音源からの音が、マイクロフォン2011およびマイクロフォン2012に対して、角度θの方向から到達する様子を示している。マイクロフォン2011とマイクロフォン2012は、距離D2を隔てて配置されている。この場合において、音源とマイクロフォン2011との距離と、音源とマイクロフォン2012との距離の差Lは、次式で表される。
L=D2×cosθ
Directivity processing will be described with reference to FIGS. 4(a) and 4(b). FIG. 4A shows how sound from a sound source reaches the microphones 2011 and 2012 from the direction of angle θ. The microphone 2011 and the microphone 2012 are arranged with a distance D2. In this case, the difference L between the distance between the sound source and the microphone 2011 and the distance between the sound source and the microphone 2012 is expressed by the following equation.
L=D2×cos θ

また、音速をVとすると、音源からの音がマイクロフォン2011に到達してから、音源からの音がマイクロフォン2012に到達するまでの時間Tは、次式で表される。
T=L/V=D2×cosθ/V
Assuming that the speed of sound is V, the time T from when the sound from the sound source reaches the microphone 2011 to when the sound from the sound source reaches the microphone 2012 is expressed by the following equation.
T=L/V=D2×cos θ/V

図4(b)は、D2=50mm、V=346.75m/sとした場合の、角度θに対する、LとTの値、および、Tの差分を示している。例えば、θ=0degのとき、L=50mm、T=144μsである。θ=15degのとき、L=48mm、T=139μsである。θ=0degとθ=15degのTの差分は、5μsである。 FIG. 4B shows the values of L and T and the difference in T with respect to the angle θ when D2=50 mm and V=346.75 m/s. For example, when θ=0 deg, L=50 mm and T=144 μs. When θ=15 deg, L=48 mm and T=139 μs. The difference in T between θ=0 deg and θ=15 deg is 5 μs.

制御部2003は、時間Tを基にして、指向性処理の演算を行う。例えば、正面方向(90deg)の音声を強調したい(指向性を持たせたい)場合を説明する。その場合、制御部2003は、マイクロフォン2011とマイクロフォン2012に同時に到達する音声(T=0μsの音声)を強調し、時間差をもって到達する音声(T≠0μsの音声)を抑制するための演算を行う。 Based on the time T, the control unit 2003 performs calculations for directivity processing. For example, a case will be described where it is desired to emphasize the sound in the front direction (90 degrees) (to provide directivity). In this case, the control unit 2003 performs a calculation for emphasizing the sound (sound of T=0 μs) arriving at the microphones 2011 and 2012 at the same time and suppressing the sound (sound of T≠0 μs) arriving with a time lag.

通信部2004は、音声データをネットワーク4000経由でサーバ装置3000に送信する。また、通信部2004は、サーバ装置3000から送信される制御コマンドを受信し、適切なパケット処理等を行った後に、制御部2003へ出力する。また、通信部2004は、サーバ装置3000から受信したコマンドに対するレスポンスをサーバ装置3000へ送信する。 Communication unit 2004 transmits the audio data to server device 3000 via network 4000 . Also, the communication unit 2004 receives a control command transmitted from the server device 3000 , performs appropriate packet processing and the like, and then outputs the control command to the control unit 2003 . The communication unit 2004 also transmits a response to the command received from the server device 3000 to the server device 3000 .

記憶部2005は、カメラ1101~1103によって生成された映像データとマイクロフォン2000によって生成された音声データを関連付けるための情報を記憶する。 Storage unit 2005 stores information for associating video data generated by cameras 1101 to 1103 with audio data generated by microphone 2000 .

続いて、図2を参照して、サーバ装置3000の各部構成と機能について説明する。サーバ装置3000は、例えば、パーソナルコンピュータ等の汎用コンピュータである。サーバ装置3000は、通信部3001と、システム制御部3002と、記憶部3003とを有する。 Next, with reference to FIG. 2, the configuration and function of each part of the server device 3000 will be described. Server device 3000 is, for example, a general-purpose computer such as a personal computer. The server device 3000 has a communication section 3001 , a system control section 3002 and a storage section 3003 .

通信部3001は、ネットワーク4000を介して、カメラ1101~1103から映像データを受信し、マイクロフォン2000から音声データを受信する。また、通信部3001は、カメラ1101~1103またはマイクロフォン2000に対して制御コマンドを送信し、この制御コマンドに対するレスポンスを受信する。 Communication unit 3001 receives video data from cameras 1101 to 1103 and audio data from microphone 2000 via network 4000 . The communication unit 3001 also transmits control commands to the cameras 1101 to 1103 or the microphone 2000 and receives responses to these control commands.

システム制御部3002は、図3に示すように、CPU301とROM302とRAM303を有する。システム制御部3002は、ユーザの操作に応じてカメラ制御コマンドを生成し、カメラ制御コマンドを通信部3001を介してカメラ1101~1103へ送信する。また、システム制御部3002は、通信部3001を介して受信したカメラ1101~1103からの映像データを記憶部3003に保存する。また、システム制御部3002は、CPU301を有し、サーバ装置3000の各構成要素を統括的に制御し、各種パラメータ等の設定を行う。また、システム制御部3002は、データを記憶するROM302およびRAM303を有し、ROM302またはRAM303に記憶されたプログラムを実行する。なお、RAM303は、システム制御部3002が実行するプログラムの格納領域、プログラム実行中のワーク領域、データの格納領域等を有する。また、システム制御部3002は、計時手段を有し、取得した各データに対してタイムスタンプ等を付与することができる。 The system control unit 3002 has a CPU 301, a ROM 302 and a RAM 303, as shown in FIG. A system control unit 3002 generates camera control commands according to user operations, and transmits the camera control commands to the cameras 1101 to 1103 via the communication unit 3001 . Also, the system control unit 3002 stores video data received from the cameras 1101 to 1103 via the communication unit 3001 in the storage unit 3003 . Also, the system control unit 3002 has a CPU 301, controls each component of the server apparatus 3000 in an integrated manner, and sets various parameters. The system control unit 3002 also has a ROM 302 and a RAM 303 that store data, and executes programs stored in the ROM 302 or the RAM 303 . The RAM 303 has a storage area for programs executed by the system control unit 3002, a work area during program execution, a data storage area, and the like. Further, the system control unit 3002 has a timer, and can add a time stamp or the like to each acquired data.

記憶部3003は、カメラ1101~1103およびマイクロフォン2000が取得したデータを保存する。システム制御部3002は、記憶部3003に記憶されているデータを読み出し、転送する。 Storage unit 3003 stores data acquired by cameras 1101 to 1103 and microphone 2000 . The system control unit 3002 reads data stored in the storage unit 3003 and transfers it.

図5は、部屋5000に設置したカメラ1101~1107およびマイクロフォン2000の配置、カメラ1101~1107の撮影範囲1201~1207、およびマイクロフォン2000の集音範囲A~Hを示す図である。カメラ1102~1107は、カメラ1101と同様の構成を有し、ネットワーク4000に接続される。マイクロフォン2000の数は、カメラ1101~1107の数より少ない。図5を参照しながら、マイクロフォン2000の指向性処理における集音範囲の決定方法について説明する。カメラ1101~1107が部屋5000に設置されている場合、サーバ装置3000は、カメラ管理ソフトウェアにより、図5のように部屋5000を上から見た方向で表示する。サーバ装置3000は、カメラ1101~1107の撮影範囲1201~1207を表示し、ユーザの設定またはカメラ1101~1107の画角に合わせて撮影範囲1201~1207を自動的に設定する。マイクロフォン2000の指向性の設定可能な集音範囲A、B、C、D、E、F、G、Hのエリアを分割し、マイクロフォン2000に対して集音範囲A~Hのいずれかを選択することにより、集音エリアを指定することができる。例えば、マイクロフォン2000の指向性を集音範囲AおよびBと指定した場合、集音範囲AおよびBのエリアにある音源の音のみを集音することができる。集音範囲A~Hは、マイクロフォン2011~2018に対応する。マイクロフォン2000は、複数の場所または複数の方向の音声を集音し、複数の場所または複数の方向の音声を指向性処理することにより、複数のカメラ1101~1107に対応する複数の音声データを生成する。 FIG. 5 shows the arrangement of cameras 1101 to 1107 and microphone 2000 installed in room 5000, imaging ranges 1201 to 1207 of cameras 1101 to 1107, and sound collection ranges A to H of microphone 2000. FIG. Cameras 1102 to 1107 have the same configuration as camera 1101 and are connected to network 4000 . The number of microphones 2000 is less than the number of cameras 1101-1107. A method for determining the sound collection range in directivity processing of the microphone 2000 will be described with reference to FIG. When the cameras 1101 to 1107 are installed in a room 5000, the server device 3000 displays the room 5000 as seen from above as shown in FIG. 5 by the camera management software. The server device 3000 displays the shooting ranges 1201-1207 of the cameras 1101-1107, and automatically sets the shooting ranges 1201-1207 according to the user's settings or the angles of view of the cameras 1101-1107. The areas of the sound collection ranges A, B, C, D, E, F, G, and H in which the directivity of the microphone 2000 can be set are divided, and one of the sound collection ranges A to H is selected for the microphone 2000. By doing so, it is possible to specify the sound collection area. For example, if the directivity of the microphone 2000 is designated as sound collection ranges A and B, only sounds from sound sources within the sound collection ranges A and B can be collected. Sound collection ranges A through H correspond to microphones 2011 through 2018 . The microphone 2000 collects sounds from multiple locations or from multiple directions, and performs directional processing on the sounds from multiple locations or multiple directions to generate multiple audio data corresponding to multiple cameras 1101 to 1107. do.

図6(a)~(e)は、カメラ1101~1107の映像データとマイクロフォン2000の音声データを関連付けるためのIDとIPアドレスと指向性の対応関係を示す図である。本実施の形態では、カメラ1101~1107のそれぞれに1つのIPアドレスが割り当てられ、マイクロフォン2000には、複数のIPアドレスを有するように複数の通信デバイスが備えられているものとする。図6(a)に示すように、1つのカメラに対して1つのIDが割り当てられる。例えば、カメラ1101のIDは1である。カメラ1102のIDは2である。カメラ1103のIDは3である。カメラ1104のIDは4である。カメラ1105のIDは5である。カメラ1106のIDは6である。カメラ1107のIDは7である。 6A to 6E are diagrams showing correspondence relationships between IDs, IP addresses, and directivities for associating video data from cameras 1101 to 1107 with audio data from microphone 2000. FIG. In this embodiment, one IP address is assigned to each of cameras 1101-1107, and microphone 2000 is provided with a plurality of communication devices so as to have a plurality of IP addresses. As shown in FIG. 6A, one ID is assigned to one camera. For example, the ID of the camera 1101 is 1. The ID of the camera 1102 is 2. The ID of the camera 1103 is 3. The ID of the camera 1104 is 4. The ID of the camera 1105 is 5. The ID of the camera 1106 is 6. The ID of the camera 1107 is 7.

図6(a)は、カメラ1101~1107のIDとIPアドレス(識別情報)との対応関係を示すテーブルの図である。図6(b)は、カメラ1101~1107のIDごとのマイクロフォン2000の指向性の集音範囲を示すテーブルの図である。マイクロフォン2000の指向性の集音範囲は、マイクロフォン2000の指向性を示す情報である。例えば、カメラ1101のID「1」は、カメラ1101の撮影範囲1201に対応する指向性の集音範囲AおよびBが設定される。 FIG. 6A is a diagram of a table showing the correspondence between the IDs of the cameras 1101 to 1107 and IP addresses (identification information). FIG. 6B is a diagram of a table showing the directivity sound collection range of the microphone 2000 for each ID of the cameras 1101-1107. The directivity sound collection range of the microphone 2000 is information indicating the directivity of the microphone 2000 . For example, for ID “1” of camera 1101 , directional sound collection ranges A and B corresponding to imaging range 1201 of camera 1101 are set.

図6(c)は、カメラ1101~1107のIDと音声データに対応する通信デバイスのIPアドレス(識別情報)との対応関係を示すテーブルの図である。例えば、カメラ1101のID「1」に対して、集音範囲AおよびBの音声データを出力するための通信デバイスのIPアドレスが関連付けられている。また、カメラ1102のID「2」に対して、集音範囲AおよびHの音声データを出力するための通信デバイスのIPアドレスが関連付けられている。図6(d)は、カメラ1101~1107のIDに対するカメラのIPアドレスと対応する音声データを出力する通信デバイスのIPアドレスとの対応関係を示すテーブルの図である。図6(e)は、カメラのIDおよびIPアドレス、対応する音声データを出力する通信デバイスのIDおよびIPアドレスの対応関係を示すものであり、カメラのIDが「1」の例を示している。 FIG. 6(c) is a table showing the correspondence between the IDs of the cameras 1101 to 1107 and the IP addresses (identification information) of the communication devices corresponding to the audio data. For example, ID "1" of camera 1101 is associated with the IP address of a communication device for outputting sound data of sound collection ranges A and B. FIG. Also, IP addresses of communication devices for outputting sound data of sound collection ranges A and H are associated with ID "2" of camera 1102 . FIG. 6(d) is a diagram of a table showing the correspondence relationship between the IP addresses of cameras for the IDs of cameras 1101 to 1107 and the IP addresses of communication devices that output the corresponding audio data. FIG. 6(e) shows the correspondence between the ID and IP address of the camera and the ID and IP address of the corresponding communication device that outputs the audio data, and shows an example where the camera ID is "1". .

図7(a)~(c)は、映像音声処理システム100の制御方法を示すフローチャートである。図7(a)は、マイクロフォン2000の制御方法を示すフローチャートである。ステップS701では、マイクロフォン2011~2018の集音部2001は、集音し、音声を電気の音声信号に変換する。音声処理部2002は、音声信号に対して、音声処理および圧縮符号化処理を行い、音声データを生成する。 7A to 7C are flow charts showing the control method of the video/audio processing system 100. FIG. FIG. 7(a) is a flow chart showing a control method of the microphone 2000. FIG. In step S701, the sound collecting units 2001 of the microphones 2011 to 2018 collect sounds and convert the sounds into electrical sound signals. The audio processing unit 2002 performs audio processing and compression encoding processing on the audio signal to generate audio data.

ステップS702では、制御部2003は、記憶2005に記憶されている図6(b)のテーブルを参照し、各カメラ1101~1107のIDに対応するマイクロフォン2000の指向性の集音範囲を読み出す。 In step S702, the control unit 2003 refers to the table of FIG. 6B stored in the memory 2005, and reads out the directivity sound collection range of the microphone 2000 corresponding to the ID of each of the cameras 1101-1107.

ステップS703では、制御部2003は、マイクロフォン2011~2018の音声データに対して、ステップS702で読み出した各カメラ1101~1107のIDの指向性の集音範囲に基づいて指向性処理を行い、各IDの音声データを生成する。例えば、制御部2003は、カメラ2011のIDに対して、マイクロフォン2000の指向性の集音範囲AおよびBの指向性処理を行い、カメラ2011のIDの音声データを生成する。 In step S703, the control unit 2003 performs directivity processing on the audio data of the microphones 2011 to 2018 based on the sound collection range of the IDs of the cameras 1101 to 1107 read out in step S702. to generate audio data. For example, the control unit 2003 performs directivity processing of the directional sound collection ranges A and B of the microphone 2000 on the ID of the camera 2011 to generate audio data of the ID of the camera 2011 .

ステップS704では、制御部2003は、記憶部2005に記憶されている図6(c)のテーブルを参照し、各カメラ1101~1107のIDに対応する音声データのIPアドレスを読み出す。 In step S704, the control unit 2003 refers to the table of FIG. 6C stored in the storage unit 2005, and reads the IP address of the audio data corresponding to the ID of each camera 1101-1107.

ステップS705では、制御部2003は、ステップS704で読み出した各カメラ1101~1107のIDに対応する音声データを出力する通信デバイスのIPアドレスと、ステップS703で生成された各IDの音声データとをそれぞれ対応付ける。そして、制御部2003は、対応付けたIPアドレスと音声データをサーバ装置3000に送信する。 In step S705, the control unit 2003 sets the IP address of the communication device that outputs audio data corresponding to the IDs of the cameras 1101 to 1107 read out in step S704, and the audio data of each ID generated in step S703. Associate. Control unit 2003 then transmits the associated IP address and voice data to server device 3000 .

図7(b)は、カメラ1101~1107の制御方法を示すフローチャートである。ステップS711では、カメラ1101~1107の撮像部1001は、被写体を撮像し、映像信号を生成する。カメラ1101~1107の画像処理部1002は、映像信号に対して、画像処理および圧縮符号化処理を行い、映像データを生成する。 FIG. 7B is a flow chart showing a control method for the cameras 1101-1107. In step S711, the image capturing units 1001 of the cameras 1101 to 1107 capture images of subjects and generate video signals. The image processing units 1002 of the cameras 1101 to 1107 perform image processing and compression encoding processing on video signals to generate video data.

ステップS712では、カメラ1101~1107の制御部1003は、記憶部1005に記憶されている図6(a)のテーブルを参照し、自己のカメラのIDに対応するIPアドレスを読み出す。カメラ1101~1107の制御部1003は、自己のカメラのIDに対応するIPアドレスと、自己のIDのカメラで生成された映像データとをそれぞれ対応付けて、サーバ装置3000に送信する。 In step S712, the control units 1003 of the cameras 1101 to 1107 refer to the table of FIG. 6A stored in the storage unit 1005, and read out the IP address corresponding to the ID of the own camera. The control unit 1003 of each of the cameras 1101 to 1107 associates the IP address corresponding to its own camera ID with the video data generated by the camera having its own ID, and transmits them to the server device 3000 .

図7(c)は、サーバ装置3000の制御方法を示すフローチャートである。ステップS721では、システム制御部3002は、通信部3001を介して、カメラ1101~1107から各IDのIPアドレスと映像データを受信する。また、システム制御部3002は、通信部3001を介して、マイクロフォン2000から各IDに対応する音声データを出力する通信デバイスのIPアドレスと音声データを受信する。 FIG. 7(c) is a flow chart showing a control method of the server apparatus 3000. FIG. In step S721, the system control unit 3002 receives the IP address of each ID and video data from the cameras 1101 to 1107 via the communication unit 3001. FIG. Also, the system control unit 3002 receives, via the communication unit 3001, the IP address of the communication device that outputs the audio data corresponding to each ID and the audio data from the microphone 2000. FIG.

ステップS722では、システム制御部3002は、記憶部3003に記憶されている図6(d)のテーブルを基に、各カメラ1101~1107のIDに対応するIPアドレスと対応する音声データを出力する通信デバイスのIPアドレスの組み合わせを読み出す。 In step S722, based on the table of FIG. 6D stored in the storage unit 3003, the system control unit 3002 communicates to output the IP addresses corresponding to the IDs of the cameras 1101 to 1107 and the corresponding audio data. Read the device's IP address combination.

ステップS723では、システム制御部3002は、同じIDのカメラのIPアドレスと音声データのIPアドレスを基に、対応する映像データと音声データを関連付け、MPEGファイルとして記憶部3003に記録する。システム制御部3002は、カメラのIPアドレスを基に、映像データと音声データを含むMPEGファイルを再生することができる。 In step S723, the system control unit 3002 associates the corresponding video data and audio data based on the IP address of the camera with the same ID and the IP address of the audio data, and records them in the storage unit 3003 as an MPEG file. The system control unit 3002 can reproduce an MPEG file containing video data and audio data based on the IP address of the camera.

(第2の実施形態)
第1の実施形態では、図7(c)に示すように、サーバ装置3000によって、同じIDの映像データと音声データの関連付けを行った。本発明の第2の実施形態では、カメラ1101~1107が、同じIDの映像データと音声データを関連付ける。カメラ1101~1107とマイクロフォン2000とサーバ装置3000の構成および接続は、第1の実施形態と同じであるため説明を省略する。また、指向性処理も、第1の実施形態と同じであるため説明を省略する。以下、本実施形態が第1の実施形態と異なる点を説明する。
(Second embodiment)
In the first embodiment, as shown in FIG. 7C, the server apparatus 3000 associates video data and audio data with the same ID. In the second embodiment of the present invention, cameras 1101-1107 associate video data and audio data with the same ID. The configurations and connections of the cameras 1101 to 1107, the microphone 2000, and the server device 3000 are the same as those of the first embodiment, and thus description thereof is omitted. Further, since directivity processing is also the same as that of the first embodiment, description thereof is omitted. Differences of this embodiment from the first embodiment will be described below.

図8(a)~(c)は、本発明の第2の実施形態による映像音声処理システム100の制御方法を示すフローチャートである。図8(a)は、マイクロフォン2000の制御方法を示すフローチャートである。マイクロフォン2000は、ステップS801~S804の処理を行う。ステップS801~S804の処理は、図7(a)のステップS701~S704の処理と同じです。ステップS805では、制御部2003は、ステップS804で読み出した各カメラ1101~1107のIDに対応する音声データのIPアドレスと、ステップS803で生成された各IDの音声データとを対応付けて、カメラ1101~1107に送信する。 FIGS. 8A to 8C are flow charts showing the control method of the video/audio processing system 100 according to the second embodiment of the present invention. FIG. 8(a) is a flow chart showing a control method of the microphone 2000. FIG. The microphone 2000 performs steps S801 to S804. The processing of steps S801 to S804 is the same as the processing of steps S701 to S704 in FIG. 7(a). In step S805, the control unit 2003 associates the IP addresses of the audio data corresponding to the IDs of the cameras 1101 to 1107 read out in step S804 with the audio data of the IDs generated in step S803. ~1107.

図8(b)は、カメラ1101~1107の制御方法を示すフローチャートである。図6(e)に示すように、カメラ1101の記憶部1005は、自己のカメラ1101のIDに対応するIPアドレスと音声データの組み合わせのテーブルを記憶する。同様に、カメラ1102~1107の記憶部1005は、それぞれ、自己のカメラ1101のIDに対応するIPアドレスと音声データの組み合わせのテーブルを記憶する。 FIG. 8B is a flow chart showing a control method for the cameras 1101-1107. As shown in FIG. 6E, the storage unit 1005 of the camera 1101 stores a table of combinations of IP addresses and audio data corresponding to the ID of the camera 1101 of its own. Similarly, the storage units 1005 of the cameras 1102 to 1107 each store a table of combinations of IP addresses and audio data corresponding to the IDs of the cameras 1101 of their own.

ステップS811では、カメラ1101~1107の撮像部1001は、被写体を撮像し、映像信号を生成する。カメラ1101~1107の画像処理部1002は、映像信号に対して、画像処理および圧縮符号化処理を行い、映像データを生成する。 In step S811, the image capturing units 1001 of the cameras 1101 to 1107 capture images of subjects and generate video signals. The image processing units 1002 of the cameras 1101 to 1107 perform image processing and compression encoding processing on video signals to generate video data.

ステップS812では、カメラ1101の制御部1003は、記憶部1005に記憶されている図6(e)のテーブルを参照し、自己のカメラ1101のIDに対応する音声データを出力する通信デバイスのIPアドレスを読み出す。同様に、カメラ1102~1107の制御部1003は、それぞれ、記憶部1005に記憶されているテーブルを参照し、自己のカメラ1102~1107のIDに対応する音声データを出力する通信デバイスのIPアドレスを読み出す。 In step S812, the control unit 1003 of the camera 1101 refers to the table shown in FIG. read out. Similarly, the control unit 1003 of each of the cameras 1102 to 1107 refers to the table stored in the storage unit 1005, and determines the IP address of the communication device that outputs the audio data corresponding to the ID of the camera 1102 to 1107. read out.

ステップS813では、カメラ1101~1107の制御部1003は、ステップS812で読み出した自己のカメラ1102~1107のIDに対応するIPアドレスを有する通信デバイスから出力される音声データをマイクロフォン2000から受信する。カメラ1101~1107の制御部1003は、それぞれ、上記の音声データを受信できた場合には、ステップS814に進み、上記の音声データを受信できなかった場合には、ステップS815に進む。ステップS815では、制御部1003は、通信部1004を介して、ステップS811で生成された映像データと自己のカメラのIDに対応するIPアドレスをサーバ装置3000に送信する。 In step S813, the control units 1003 of the cameras 1101 to 1107 receive from the microphone 2000 audio data output from the communication device having the IP address corresponding to the ID of the camera 1102 to 1107 read out in step S812. The control units 1003 of the cameras 1101 to 1107 advance to step S814 if the audio data can be received, and advance to step S815 if the audio data cannot be received. In step S<b>815 , control unit 1003 transmits the video data generated in step S<b>811 and the IP address corresponding to the ID of its own camera to server apparatus 3000 via communication unit 1004 .

ステップS814では、カメラ1101~1107の制御部1003は、記憶部1005内の図6(e)等のテーブルを基に、自己のカメラのIDに対応するIPアドレスと対応する音声データを出力する通信デバイスのIPアドレスの組み合わせを読み出す。カメラ1101~1107の制御部1003は、自己のカメラのIDに対応するIPアドレスと音声データを出力する通信デバイスのIPアドレスを基に、自己のカメラのIDの映像データ(S811)と音声データ(S813)を関連付ける。そして、カメラ1101~1107の制御部1003は、関連付けた映像データと音声データを含むMPEGファイルを生成する。その後、カメラ1101~1107の制御部1003は、ステップS815に進む。ステップS815では、制御部1003は、通信部1004を介して、自己のカメラのIDの映像データおよび音声データを含むMPEGファイルと映像データのIPアドレスとをサーバ装置3000に送信する。 In step S814, the control unit 1003 of each of the cameras 1101 to 1107 communicates to output the IP address corresponding to the ID of its own camera and the corresponding audio data based on the table shown in FIG. Read the device's IP address combination. The control unit 1003 of each of the cameras 1101 to 1107, based on the IP address corresponding to the ID of the own camera and the IP address of the communication device that outputs the audio data, determines the video data (S811) and the audio data (S811) of the own camera ID. S813) is associated. Then, the control units 1003 of the cameras 1101 to 1107 generate MPEG files containing the associated video data and audio data. After that, the control units 1003 of the cameras 1101 to 1107 proceed to step S815. In step S<b>815 , control unit 1003 transmits to server device 3000 via communication unit 1004 the MPEG file containing the video data and audio data of its own camera ID and the IP address of the video data.

図8(c)は、サーバ装置3000の制御方法を示すフローチャートである。ステップS821では、システム制御部3002は、通信部3001を介して、カメラ1101~1107から各IDの映像データと音声データを含むMPEGファイルとカメラのIPアドレス、または各IDの映像データとカメラのIPアドレスを受信する。システム制御部3002は、カメラのIPアドレスを基に、映像データと音声データを含むMPEGファイル、または映像データを再生することができる。 FIG. 8(c) is a flow chart showing a control method of the server apparatus 3000. FIG. In step S821, the system control unit 3002 transmits, via the communication unit 3001, the MPEG file containing the video data and audio data of each ID and the IP address of the camera, or the video data of each ID and the IP address of the camera from the cameras 1101 to 1107. receive an address. The system control unit 3002 can reproduce an MPEG file containing video data and audio data or video data based on the IP address of the camera.

第1の実施形態および第2の実施形態では、カメラ1101~1107のIPアドレスおよびマイクロフォン2000が有する通信デバイスのIPアドレスを用いて映像データおよび音声データの関連付けを行っていたが、これに限定されない。マイクロフォン2000が複数の通信デバイスを有さない場合、単純にカメラ1101~1107のIDを識別情報とし、音声を収集する指向性の範囲を関連付けることでもよい。すなわち、この場合、図6(a)および(b)を有するだけでもよい。 In the first and second embodiments, the IP addresses of the cameras 1101 to 1107 and the IP addresses of the communication devices of the microphone 2000 are used to associate video data and audio data, but the present invention is not limited to this. . If the microphone 2000 does not have a plurality of communication devices, the IDs of the cameras 1101 to 1107 may simply be used as identification information and associated with the directional ranges for collecting sound. That is, in this case, one may only have FIGS. 6(a) and (b).

(第3の実施形態)
図9(a)は、本発明の第3の実施形態によるマイクロフォン2000の位置に対するカメラ1101の撮影範囲1201の極座標の算出方法を示す図である。サーバ装置3000は、カメラ1101の撮影範囲1201の極座標を算出し、その極座標を基にカメラ1101の指向性方向と指向性範囲を算出する。以下、本実施形態が第1および第2の実施形態と異なる点を説明する。
(Third embodiment)
FIG. 9(a) is a diagram showing a method of calculating the polar coordinates of the shooting range 1201 of the camera 1101 with respect to the position of the microphone 2000 according to the third embodiment of the present invention. The server device 3000 calculates the polar coordinates of the shooting range 1201 of the camera 1101, and calculates the directivity direction and the directivity range of the camera 1101 based on the polar coordinates. The differences of this embodiment from the first and second embodiments will be described below.

まず、システム制御部3002は、ユーザの指示に応じて、カメラ1101の位置座標a(Xa,Ya)と、カメラ1101の撮影方向と、カメラ1101の撮影角度と、カメラ1101の撮影距離を設定する。次に、システム制御部3002は、ユーザの指示に応じて、マイクロフォン2000の位置座標を設定する。 First, the system control unit 3002 sets the position coordinates a (Xa, Ya) of the camera 1101, the shooting direction of the camera 1101, the shooting angle of the camera 1101, and the shooting distance of the camera 1101 in accordance with the user's instruction. . Next, system control section 3002 sets the position coordinates of microphone 2000 according to the user's instruction.

次に、システム制御部3002は、上記の情報を基に、カメラ1101の撮影範囲1201の頂点座標a(Xa,Ya)、b(Xb,Yb)、c(Xc,Yc)を算出する。次に、システム制御部3002は、次式により、マイクロフォン2000の位置座標に対する撮影範囲1201の頂点座標a(Xa,Ya)、b(Xb,Yb)、c(Xc,Yc)を極座標(ra,θa)、(rb,θb)、(rc,θc)に変換する。 Next, the system control unit 3002 calculates vertex coordinates a (Xa, Ya), b (Xb, Yb), and c (Xc, Yc) of the shooting range 1201 of the camera 1101 based on the above information. Next, the system control unit 3002 converts the vertex coordinates a (Xa, Ya), b (Xb, Yb), and c (Xc, Yc) of the shooting range 1201 with respect to the position coordinates of the microphone 2000 into polar coordinates (ra, θa), (rb, θb), and (rc, θc).

Figure 0007337491000001
Figure 0007337491000001

システム制御部3002は、上記と同様に、マイクロフォン2000の位置座標に対するカメラ1102~1107の撮影範囲1202~1207の頂点座標を極座標に変換する。 The system control unit 3002 converts the vertex coordinates of the photographing ranges 1202 to 1207 of the cameras 1102 to 1107 with respect to the position coordinates of the microphone 2000 into polar coordinates in the same manner as described above.

図9(b)は、本実施形態によるマイクロフォン2000に対するカメラ1101の撮影範囲1201の極座標の他の算出方法を示す図である。サーバ装置3000は、カメラ1101の撮影範囲1201の極座標を算出し、その極座標を基にカメラ1101の指向性方向と指向性範囲を算出する。 FIG. 9B is a diagram showing another method of calculating the polar coordinates of the imaging range 1201 of the camera 1101 with respect to the microphone 2000 according to this embodiment. The server device 3000 calculates the polar coordinates of the shooting range 1201 of the camera 1101, and calculates the directivity direction and the directivity range of the camera 1101 based on the polar coordinates.

まず、システム制御部3002は、ユーザの指示に応じて、カメラ1101の設置領域の座標を設定する。次に、システム制御部3002は、ユーザの指示に応じて、マイクロフォン2000の位置座標を設定する。 First, the system control unit 3002 sets the coordinates of the installation area of the camera 1101 according to the user's instruction. Next, system control section 3002 sets the position coordinates of microphone 2000 according to the user's instruction.

次に、システム制御部3002は、上記の情報を基に、カメラ1101の撮影範囲1201の頂点座標a(Xa,Ya)、b(Xb,Yb)、c(Xc,Yc)、d(Xd,Yd)を算出する。システム制御部3002は、次式により、マイクロフォン2000の位置座標を基準に、頂点座標a(Xa,Ya)、b(Xb,Yb)、c(Xc,Yc)、d(Xd,Yd)を極座標(ra,θa)、(rb,θb)、(rc,θc)、(rd,θd)に変換する。 Next, based on the above information, the system control unit 3002 calculates vertex coordinates a (Xa, Ya), b (Xb, Yb), c (Xc, Yc), d (Xd, Yd) is calculated. The system control unit 3002 converts the vertex coordinates a (Xa, Ya), b (Xb, Yb), c (Xc, Yc), and d (Xd, Yd) into polar coordinates based on the position coordinates of the microphone 2000 according to the following equation. Convert to (ra, θa), (rb, θb), (rc, θc), (rd, θd).

Figure 0007337491000002
Figure 0007337491000002

システム制御部3002は、上記と同様に、マイクロフォン2000の位置座標に対するカメラ1102~1107の撮影範囲1202~1207の頂点座標を極座標に変換する。 The system control unit 3002 converts the vertex coordinates of the photographing ranges 1202 to 1207 of the cameras 1102 to 1107 with respect to the position coordinates of the microphone 2000 into polar coordinates in the same manner as described above.

図10(a)は、カメラ1101の撮影範囲1201に対応するマイクロフォン2000の指向性方向θ1と指向性範囲φ1を示す図である。サーバ装置3000は、図9(a)または(b)の極座標を算出した後、カメラ1101の撮影範囲1201に対応するマイクロフォン2000の指向性方向θ1と指向性範囲φ1を算出する。 FIG. 10A is a diagram showing the directivity direction θ1 and the directivity range φ1 of the microphone 2000 corresponding to the photographing range 1201 of the camera 1101. FIG. After calculating the polar coordinates of FIG. 9A or 9B, the server device 3000 calculates the directivity direction θ1 and the directivity range φ1 of the microphone 2000 corresponding to the shooting range 1201 of the camera 1101 .

まず、システム制御部3002は、マイクロフォン2000の位置座標と撮影範囲1201の両端とを結ぶ2直線901および902の角度を算出する。次に、システム制御部3002は、2直線901および902の角度の平均の角度θ1を、カメラ1101の撮影範囲1201に対応するマイクロフォン2000の指向性方向として算出する。次に、システム制御部3002は、2直線901および902の角度の差の角度φ1を、カメラ1101の撮影範囲1201に対応するマイクロフォン2000の指向性範囲として算出する。 First, the system control unit 3002 calculates angles of two straight lines 901 and 902 connecting the position coordinates of the microphone 2000 and both ends of the imaging range 1201 . Next, the system control unit 3002 calculates the average angle θ1 of the angles of the two straight lines 901 and 902 as the directivity direction of the microphone 2000 corresponding to the shooting range 1201 of the camera 1101 . Next, the system control unit 3002 calculates an angle φ1, which is the angle difference between the two straight lines 901 and 902, as the directivity range of the microphone 2000 corresponding to the shooting range 1201 of the camera 1101. FIG.

システム制御部3002は、上記と同様に、カメラ1102~1107の撮影範囲1202~1207に対応するマイクロフォン2000の指向性方向θ2~θ7および指向性範囲φ2~φ7を算出する。 The system control unit 3002 calculates the directivity directions θ2 to θ7 and the directivity ranges φ2 to φ7 of the microphone 2000 corresponding to the photographing ranges 1202 to 1207 of the cameras 1102 to 1107 in the same manner as described above.

図10(b)は、カメラ1101~1107のIDごとのマイクロフォン2000の指向性方向および指向性範囲を示すテーブルの図である。マイクロフォン2000の指向性方向および指向性範囲は、マイクロフォン2000の指向性を示す情報である。サーバ装置3000は、図10(a)の算出の後、図10(b)のテーブルを生成する。システム制御部3002は、図10(a)の算出の後、図10(b)のように、カメラ1101~1107のIDに対するマイクロフォン2000の指向性方向θ1~θ7および指向性範囲φ1~φ7を示すテーブルを生成する。図10(b)のテーブルは、図6(b)のテーブルの代わりに使用される。サーバ装置3000は、図10(b)のテーブルをマイクロフォン2000に送信する。マイクロフォン2000は、記憶部2005に図10(b)のテーブルを保存し、図10(b)のテーブルを基に、図7(a)のステップS703の指向性処理を行う。 FIG. 10(b) is a diagram of a table showing the directivity direction and directivity range of the microphone 2000 for each ID of the cameras 1101-1107. The directional direction and directional range of microphone 2000 are information indicating the directivity of microphone 2000 . The server device 3000 generates the table of FIG. 10(b) after the calculation of FIG. 10(a). After the calculation in FIG. 10(a), the system control unit 3002 indicates the directivity directions θ1 to θ7 and the directivity range φ1 to φ7 of the microphone 2000 with respect to the IDs of the cameras 1101 to 1107 as shown in FIG. 10(b). Generate a table. The table of FIG. 10(b) is used instead of the table of FIG. 6(b). Server device 3000 transmits the table of FIG. 10B to microphone 2000 . The microphone 2000 stores the table of FIG. 10B in the storage unit 2005, and performs the directivity processing of step S703 of FIG. 7A based on the table of FIG. 10B.

第1~第3の実施形態によれば、マイクロフォン2000の数がカメラ1101~1107の数より少なく、ユーザが任意にマイクロフォン2000とカメラ1101~1107の設置場所を指定することができる。映像音声処理システム100は、カメラ1101~1107の映像に合わせた音声を集音し、各カメラ1101~1107の映像データと音声データを適切に関連付ける(結合する)ことができる。 According to the first to third embodiments, the number of microphones 2000 is less than the number of cameras 1101-1107, and the user can arbitrarily specify the installation locations of the microphones 2000 and cameras 1101-1107. The video/audio processing system 100 can collect sounds matched with the video images of the cameras 1101 to 1107 and appropriately associate (combine) the video data and audio data of the cameras 1101 to 1107 .

(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
(Other embodiments)
The present invention supplies a program that implements one or more functions of the above-described embodiments to a system or apparatus via a network or a storage medium, and one or more processors in the computer of the system or apparatus reads and executes the program. It can also be realized by processing to It can also be implemented by a circuit (for example, ASIC) that implements one or more functions.

なお、上記実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。 It should be noted that the above-described embodiments are merely examples of specific implementations of the present invention, and the technical scope of the present invention should not be construed to be limited by these. That is, the present invention can be embodied in various forms without departing from its technical concept or main features.

1101~1107 カメラ、2000 マイクロフォン、3000 サーバ装置、4000 ネットワーク 1101-1107 cameras, 2000 microphones, 3000 server devices, 4000 networks

Claims (3)

複数の映像データを生成する複数の撮像装置と、
音声の指向性処理を行う複数の集音範囲が設定され、当該集音範囲ごとに、集音部により集音された音声を指向性処理することにより、前記集音範囲ごとの音声データを生成する音声入力装置と、
処理装置と、
を有し、
前記音声入力装置は、前記生成された複数の音声データのそれぞれに対応する通信デバイスのIPアドレスが設定され、前記生成された複数の音声データと、当該音声データに対応する前記通信デバイスのIPアドレスと、を前記複数の撮像装置に送信し、
前記複数の撮像装置は、それぞれ、自身の撮像装置に対応する前記通信デバイスのIPアドレスを記憶し、当該記憶されたIPアドレスに一致するIPアドレスと共に前記音声入力装置から受信した音声データと、前記自身の撮像装置により撮像された映像データとを含むファイルを生成し、当該生成されたファイルを前記処理装置に送信し、
前記処理装置は、前記ファイルを受信することを特徴とする映像音声処理システム。
a plurality of imaging devices that generate a plurality of video data;
A plurality of sound collection ranges are set for sound directivity processing, and sound data is generated for each sound collection range by performing directivity processing on sound collected by the sound collection unit for each sound collection range. a voice input device that
a processor;
has
The voice input device is set with an IP address of a communication device corresponding to each of the plurality of generated voice data, and the plurality of generated voice data and the IP address of the communication device corresponding to the voice data. and transmitting to the plurality of imaging devices,
Each of the plurality of imaging devices stores an IP address of the communication device corresponding to its own imaging device, and audio data received from the audio input device together with an IP address matching the stored IP address; generating a file containing video data captured by its own imaging device, and transmitting the generated file to the processing device;
The audio/video processing system, wherein the processing device receives the file.
前記複数の撮像装置は、それぞれ、自身の撮像装置に対応する前記通信デバイスのIPアドレスを記憶し、当該記憶されたIPアドレスに一致するIPアドレスと共に前記音声入力装置から受信した音声データと、前記自身の撮像装置により撮像された映像データとを含むファイルを生成し、当該生成されたファイルを、前記自身の撮像装置のIPアドレスと共に前記処理装置に送信し、
前記処理装置は、前記ファイルと前記自身の撮像装置のIPアドレスとを受信して当該ファイルを再生することを特徴とする請求項に記載の映像音声処理システム。
Each of the plurality of imaging devices stores an IP address of the communication device corresponding to its own imaging device, and audio data received from the audio input device together with an IP address matching the stored IP address; generating a file containing video data captured by its own imaging device, and transmitting the generated file to the processing device together with the IP address of its own imaging device;
2. The audio/video processing system according to claim 1 , wherein said processing device receives said file and an IP address of said own imaging device and reproduces said file.
複数の撮像装置により、複数の映像データを生成し、
音声入力装置により、音声の指向性処理を行う複数の集音範囲が設定され、当該集音範囲ごとに、集音部により集音された音声を指向性処理することにより、前記集音範囲ごとの音声データを生成し、
前記音声入力装置により、前記生成された複数の音声データのそれぞれに対応する通信デバイスのIPアドレスが設定され、前記生成された複数の音声データと、当該音声データに対応する前記通信デバイスのIPアドレスと、を前記複数の撮像装置に送信し、
前記複数の撮像装置により、それぞれ、自身の撮像装置に対応する前記通信デバイスのIPアドレスを記憶し、当該記憶されたIPアドレスに一致するIPアドレスと共に前記音声入力装置から受信した音声データと、前記自身の撮像装置により撮像された映像データとを含むファイルを生成し、当該生成されたファイルを処理装置に送信し、
前記処理装置により、前記ファイルを受信することを特徴とする映像音声処理システムの制御方法。
Generate a plurality of video data by a plurality of imaging devices,
A plurality of sound collection ranges are set by the sound input device for performing sound directivity processing, and for each of the sound collection ranges, the sound collected by the sound collection unit is subjected to directivity processing, so that for each sound collection range generate audio data of
An IP address of a communication device corresponding to each of the plurality of generated voice data is set by the voice input device, and the plurality of generated voice data and the IP address of the communication device corresponding to the voice data are set. and transmitting to the plurality of imaging devices,
each of the plurality of image pickup devices stores an IP address of the communication device corresponding to the image pickup device, audio data received from the audio input device together with the IP address matching the stored IP address; generating a file containing video data captured by its own imaging device, and transmitting the generated file to the processing device;
A control method for an audiovisual processing system, wherein the file is received by the processing device.
JP2018167901A 2018-09-07 2018-09-07 AUDIO VIDEO PROCESSING SYSTEM AND CONTROL METHOD FOR VIDEO AUDIO PROCESSING SYSTEM Active JP7337491B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018167901A JP7337491B2 (en) 2018-09-07 2018-09-07 AUDIO VIDEO PROCESSING SYSTEM AND CONTROL METHOD FOR VIDEO AUDIO PROCESSING SYSTEM
US16/552,268 US10939030B2 (en) 2018-09-07 2019-08-27 Video audio processing system and method of controlling the video audio processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018167901A JP7337491B2 (en) 2018-09-07 2018-09-07 AUDIO VIDEO PROCESSING SYSTEM AND CONTROL METHOD FOR VIDEO AUDIO PROCESSING SYSTEM

Publications (2)

Publication Number Publication Date
JP2020043420A JP2020043420A (en) 2020-03-19
JP7337491B2 true JP7337491B2 (en) 2023-09-04

Family

ID=69798797

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018167901A Active JP7337491B2 (en) 2018-09-07 2018-09-07 AUDIO VIDEO PROCESSING SYSTEM AND CONTROL METHOD FOR VIDEO AUDIO PROCESSING SYSTEM

Country Status (1)

Country Link
JP (1) JP7337491B2 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003008972A (en) 2001-06-19 2003-01-10 Matsushita Electric Ind Co Ltd Imaging unit and method
JP2016010021A (en) 2014-06-25 2016-01-18 株式会社リコー Image/voice distribution system, image/voice distribution device, and image/voice distribution program
JP2016118987A (en) 2014-12-22 2016-06-30 パナソニックIpマネジメント株式会社 Abnormality sound detection system
JP2016152557A (en) 2015-02-18 2016-08-22 パナソニックIpマネジメント株式会社 Sound collection system and sound collection setting method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003008972A (en) 2001-06-19 2003-01-10 Matsushita Electric Ind Co Ltd Imaging unit and method
JP2016010021A (en) 2014-06-25 2016-01-18 株式会社リコー Image/voice distribution system, image/voice distribution device, and image/voice distribution program
JP2016118987A (en) 2014-12-22 2016-06-30 パナソニックIpマネジメント株式会社 Abnormality sound detection system
JP2016152557A (en) 2015-02-18 2016-08-22 パナソニックIpマネジメント株式会社 Sound collection system and sound collection setting method

Also Published As

Publication number Publication date
JP2020043420A (en) 2020-03-19

Similar Documents

Publication Publication Date Title
US9875410B2 (en) Camera system for transmitting and receiving an audio signal and operating method of the same
JP6493860B2 (en) Monitoring control system and monitoring control method
US20150022636A1 (en) Method and system for voice capture using face detection in noisy environments
KR102287373B1 (en) Apparatus and method for generating alarm
US20130121505A1 (en) Microphone array configuration and method for operating the same
JP6217930B2 (en) Sound speed correction system
JP2012186551A (en) Control device, control system, and control method
JP2017028608A (en) Video conference terminal equipment
US10939030B2 (en) Video audio processing system and method of controlling the video audio processing system
JP7337491B2 (en) AUDIO VIDEO PROCESSING SYSTEM AND CONTROL METHOD FOR VIDEO AUDIO PROCESSING SYSTEM
TW201318421A (en) System and method for controlling image capturing device
JP6832507B2 (en) Manufacturing method of microphone array device, microphone array system and microphone array device
JP6835205B2 (en) Shooting sound pickup device, sound pick-up control system, shooting sound pick-up device control method, and shooting sound pick-up control system control method
JP2000209689A (en) Sound processor, its control method and recording medium
JP2014072835A (en) Conference device
JP6471955B2 (en) Monitoring system and directivity control method in monitoring system
JP6261191B2 (en) Display control apparatus, display control method, and program
JP2011114720A (en) Intercom system with external abnormality detection function
JP2018157314A (en) Information processing system, information processing method and program
JP6987538B2 (en) Image processing equipment, work support systems, control methods and programs
JP5712599B2 (en) Imaging apparatus and program
JP6971589B2 (en) Imaging device, imaging system, its control method and program
JP7150470B2 (en) IMAGING DEVICE, IMAGING SYSTEM, SIGNAL PROCESSING METHOD, AND PROGRAM
JP2017028375A (en) Image processing device and program
JP2001086588A (en) Audio signal processor and audio signal processing method and electronic device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210902

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230323

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230725

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230823

R151 Written notification of patent or utility model registration

Ref document number: 7337491

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151