JP2016140055A - Moving image sound recording system, moving image sound recording device, moving image sound recording program, and moving image sound recording method - Google Patents

Moving image sound recording system, moving image sound recording device, moving image sound recording program, and moving image sound recording method Download PDF

Info

Publication number
JP2016140055A
JP2016140055A JP2015226788A JP2015226788A JP2016140055A JP 2016140055 A JP2016140055 A JP 2016140055A JP 2015226788 A JP2015226788 A JP 2015226788A JP 2015226788 A JP2015226788 A JP 2015226788A JP 2016140055 A JP2016140055 A JP 2016140055A
Authority
JP
Japan
Prior art keywords
moving image
sound
shooting
acquisition means
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015226788A
Other languages
Japanese (ja)
Other versions
JP6631193B2 (en
Inventor
亮人 相場
Akihito Aiba
亮人 相場
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to US14/984,728 priority Critical patent/US9794685B2/en
Publication of JP2016140055A publication Critical patent/JP2016140055A/en
Application granted granted Critical
Publication of JP6631193B2 publication Critical patent/JP6631193B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Studio Devices (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

PROBLEM TO BE SOLVED: To enable the acquisition of a sound signal with high accuracy even in the case that a relation between a position for acquiring a moving image signal and a position for acquiring a sound signal changes when acquiring the moving image signal and the sound signal at the same time.SOLUTION: A moving image sound recording system 1 includes: moving image photographing means 21; voice recording means 31; voice enhancement means 32 for enhancing a voice signal of a voice coming from an optional direction among voice signals acquired by the voice recording means 31; photographing parameter acquisition means 24 for acquiring information representing a photographing direction of the moving image photographing means 21 and information representing a positional relation between the moving image photographing means 21 and the voice recording means 31; an enhancement parameter control means 33 for controlling the direction of a voice enhanced by the voice enhancement means 32 on the basis of the information acquired by the photographing parameter acquisition means 24.SELECTED DRAWING: Figure 1

Description

本発明は、動画像および音を収録する動画像音収録システム、動画像音収録装置、動画像音収録プログラム、および動画像音収録方法に関する。   The present invention relates to a moving image sound recording system, a moving image sound recording device, a moving image sound recording program, and a moving image sound recording method for recording moving images and sounds.

ビデオカメラやスマートフォン(高機能携帯電話機)、タブレット端末、テレビ会議装置など、カメラとマイクを内蔵し、カメラによる動画像信号の取得と並行して、マイクによる音声信号の取得を行う機能を備えた機器(デバイス)がある。   Built-in camera and microphone, such as a video camera, smart phone (high-function mobile phone), tablet terminal, video conference device, etc. There is a device.

しかし、これらの機器では、カメラで撮影した被写体とは無関係で不要な音声がマイクに混入してしまう問題がある。そこで、この問題に対処した装置として、動画像信号を取得するカメラと、音声信号を取得するマイクと、前記カメラで取得された動画像信号内における撮影対象者の位置と、前記カメラが撮影に用いるパラメータ情報(画角情報、焦点距離情報など)とに基づき、自端末に対する前記撮影対象者の相対位置を推定する推定手段と、前記相対位置に向けて、前記マイクの指向性を調整する調整手段と、を備えた携帯端末がある(特許文献1)。   However, these devices have a problem that unnecessary sound is mixed into the microphone regardless of the subject photographed by the camera. Therefore, as a device that has coped with this problem, a camera that acquires a moving image signal, a microphone that acquires an audio signal, the position of a person to be imaged in the moving image signal acquired by the camera, and the camera that captures the image. Based on parameter information to be used (view angle information, focal length information, etc.), estimation means for estimating the relative position of the subject to be photographed with respect to the terminal, and adjustment for adjusting the directivity of the microphone toward the relative position There is a portable terminal provided with a means (Patent Document 1).

しかしながら、この携帯端末には、カメラとマイクがどちらも同一の装置に内蔵され、その位置関係が変化しないという前提がある。したがって、カメラとマイクが別々の装置に備わっており、動画像信号あるいは音声信号を無線通信等でやり取りする場合、さらにそれぞれの装置を持って動かす場合などは、その位置関係が変動するため適応できないという問題がある。   However, this portable terminal has a premise that both the camera and the microphone are built in the same device, and the positional relationship does not change. Therefore, the camera and microphone are provided in different devices, and when moving image signals or audio signals are exchanged by wireless communication, etc., or when each device is moved, the positional relationship fluctuates and cannot be adapted. There is a problem.

本発明は、このような問題を解決するためになされたものであり、その目的は、動画像信号と、音信号とを同時に取得するときに、動画像信号を取得する位置と、音信号を取得する位置との関係が変化する場合でも、音信号を高精度に取得できるようにすることである。   The present invention has been made to solve such a problem. The object of the present invention is to obtain a position for acquiring a moving image signal and a sound signal when acquiring the moving image signal and the sound signal at the same time. Even when the relationship with the acquisition position changes, the sound signal can be acquired with high accuracy.

本発明は、被写体を撮影して動画像信号を取得する動画像取得手段と、音を収録して音信号を取得する音取得手段と、前記動画像取得手段の撮影方向を表す情報、および前記動画像取得手段と前記音取得手段との位置関係を表す情報を取得する撮影パラメータ取得手段と、前記撮影パラメータ取得手段により取得された前記情報に基づいて、前記音取得手段により取得する前記音信号のうち、所定の方向の音信号を強調する音強調手段と、を有する動画像音収録システムである。   The present invention includes a moving image acquisition unit that captures a moving image signal by photographing a subject, a sound acquisition unit that captures sound and acquires a sound signal, information indicating a shooting direction of the moving image acquisition unit, and An imaging parameter acquisition unit that acquires information representing a positional relationship between the moving image acquisition unit and the sound acquisition unit, and the sound signal acquired by the sound acquisition unit based on the information acquired by the imaging parameter acquisition unit Among them, a moving image sound recording system having sound enhancement means for enhancing a sound signal in a predetermined direction.

本発明によれば、動画像信号と、音信号とを同時に取得するときに、動画像信号を取得する位置と、音信号を取得する位置との関係が変化する場合でも、音信号を高精度に取得することができる。   According to the present invention, when acquiring a moving image signal and a sound signal at the same time, even if the relationship between the position where the moving image signal is acquired and the position where the sound signal is acquired changes, the sound signal is highly accurate. Can be obtained.

本発明の実施形態に係る動画像音声収録ステムの構成を示すブロック図である。It is a block diagram which shows the structure of the moving image audio | voice recording system which concerns on embodiment of this invention. 本発明の実施形態に係る動画像音声収録システムにおける撮影パラメータ情報および装置状態情報の関係について説明するための図である。It is a figure for demonstrating the relationship between the imaging | photography parameter information and apparatus state information in the moving image audio | voice recording system which concerns on embodiment of this invention. 本発明の実施形態に係る動画像音声収録システムにおいて、音声収録装置に対する動画像撮影装置の位置および向きを所定の状態に調整する操作の流れの一例について説明するための図である。It is a figure for demonstrating an example of the flow of operation which adjusts the position and direction of the moving image imaging device with respect to an audio recording device to a predetermined state in the moving image audio recording system which concerns on embodiment of this invention. 本発明の実施形態に係る動画像音声収録システムが撮影パラメータ情報の基準状態を取得する処理の流れを示すフローチャートである。It is a flowchart which shows the flow of a process in which the moving image audio | voice recording system which concerns on embodiment of this invention acquires the reference | standard state of imaging parameter information. 本発明の実施形態における動画像撮影装置の撮影方向と音声収録装置の指向性との対応関係について説明するための図である。It is a figure for demonstrating the correspondence of the imaging | photography direction of the moving image imaging device and the directivity of an audio | voice recording device in embodiment of this invention. 本発明の実施形態に係る動画像音声収録システムにおいて、音声収録装置に対する動画像撮影装置の位置が変化する場合の音声収録装置の指向性の制御について説明するための図である。It is a figure for demonstrating the directivity control of an audio | voice recording apparatus when the position of the moving image imaging device with respect to an audio | voice recording apparatus changes in the moving image audio | voice recording system which concerns on embodiment of this invention. 本発明の実施形態に係る動画像音声収録システムの動作を示すフローチャートである。It is a flowchart which shows operation | movement of the moving image audio | voice recording system which concerns on embodiment of this invention. 本発明の実施形態に係る動画像音声収録システムを実現するコンピュータシステムのハードウェア構成を示すブロック図である。It is a block diagram which shows the hardware constitutions of the computer system which implement | achieves the moving image audio | voice recording system which concerns on embodiment of this invention.

以下、本発明の実施形態について図面を参照しつつ詳細に説明する。
〈動画像音声収録システム〉
図1は、本発明の実施形態に係る動画像音声収録システム1の構成を示すブロック図である。図示のように、本発明の実施形態に係る動画像音声収録システム(以下、本システム)1は、動画像撮影装置2と、音声収録装置3からなる。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
<Video recording system>
FIG. 1 is a block diagram showing a configuration of a moving image audio recording system 1 according to an embodiment of the present invention. As shown in the figure, a moving image audio recording system (hereinafter, this system) 1 according to an embodiment of the present invention includes a moving image photographing device 2 and an audio recording device 3.

動画像撮影装置2は被写体を撮影して動画像信号を取得する。音声収録装置3は音声を収録して音声信号(音声に対応する電気信号)を取得する。また、動画像撮影装置2は、自身が取得した動画像信号と、音声収録装置3が取得した音声信号とを結合して動画像音声信号を生成し、記憶する。   The moving image capturing device 2 captures a subject and acquires a moving image signal. The voice recording device 3 records voice and acquires a voice signal (electrical signal corresponding to the voice). In addition, the moving image photographing device 2 generates a moving image sound signal by combining the moving image signal acquired by itself and the sound signal acquired by the sound recording device 3 and stores the moving image sound signal.

なお、音声収録装置3は、音声(人間の発声による音)を収録して音声信号を生成するだけでなく、周囲に他の音(物音、機械の動作音、騒音など)が存在するときは、それらの音に対応する電気信号も生成する。すなわち、音声収録装置3は、音声を含む全ての音を収録して、それらに対応する電気信号である音信号を生成する。したがって、厳密には「音声収録装置3」は「音収録装置3」、「動画像音声収録システム1」は「動画像音収録システム1」とすべきであるが、便宜上、本実施形態では「音声収録装置3」、「動画像音声収録システム1」とした。   Note that the voice recording device 3 not only records voice (sound produced by human speech) and generates a voice signal, but also when other sounds (such as physical sounds, machine operation sounds, noises, etc.) are present in the surroundings. The electric signals corresponding to those sounds are also generated. That is, the sound recording device 3 records all sounds including sound and generates sound signals that are electrical signals corresponding to them. Therefore, strictly speaking, “sound recording device 3” should be “sound recording device 3” and “moving image sound recording system 1” should be “moving image sound recording system 1”. The audio recording device 3 ”and the“ moving image audio recording system 1 ”were used.

動画像撮影装置2は、動画像撮影手段21、基準点認識手段22、装置状態取得手段23、撮影パラメータ取得手段24、送信手段25、受信手段26、動画像音声結合手段27、および動画像音声記憶手段28を備えている。ここで、基準点認識手段22、撮影パラメータ取得手段24、および動画像音声結合手段27は、CPU、ROM、およびRAMを有する制御手段20により構成される。すなわち、ROMに記憶されている動画像音声収録プログラムなどのコンピュータプログラムをCPUがRAMを作業エリアとして処理することにより実現される機能ブロックである。   The moving image shooting device 2 includes a moving image shooting unit 21, a reference point recognition unit 22, an apparatus state acquisition unit 23, a shooting parameter acquisition unit 24, a transmission unit 25, a reception unit 26, a moving image audio combining unit 27, and a moving image audio. Storage means 28 is provided. Here, the reference point recognizing means 22, the photographing parameter acquiring means 24, and the moving image / sound combining means 27 are constituted by a control means 20 having a CPU, a ROM, and a RAM. That is, it is a functional block realized when the CPU processes a computer program such as a moving image audio recording program stored in the ROM using the RAM as a work area.

また、音声収録装置3は、音声収録手段31、音声強調手段32、強調パラメータ制御手段33、受信手段34、および送信手段35を備えている。ここで、音声強調手段32および強調パラメータ制御手段33は、CPU、ROM、およびRAMを有する制御手段30により構成される。すなわち、ROMに記憶されている動画像音声収録プログラムなどのコンピュータプログラムをCPUがRAMを作業エリアとして処理することにより実現される機能ブロックである。   The voice recording device 3 includes a voice recording unit 31, a voice enhancement unit 32, an enhancement parameter control unit 33, a reception unit 34, and a transmission unit 35. Here, the voice emphasis unit 32 and the emphasis parameter control unit 33 are configured by a control unit 30 having a CPU, a ROM, and a RAM. That is, it is a functional block realized when the CPU processes a computer program such as a moving image audio recording program stored in the ROM using the RAM as a work area.

《動画像撮影装置》
動画像撮影装置2における動画像撮影手段21は、例えばカメラであり、被写体を撮影して動画像信号を取得する。動画像撮影手段21は本発明に係る動画像取得手段として機能する。
《Moving image shooting device》
The moving image photographing means 21 in the moving image photographing device 2 is a camera, for example, and photographs a subject to obtain a moving image signal. The moving image photographing means 21 functions as moving image acquisition means according to the present invention.

基準点認識手段22は、動画像音声収録システム1が動画像信号および音声信号の取得を開始するに先立ち、動画像撮影装置2と音声収録装置3とを所定の位置関係(以下、初期位置関係)に設定するための手段である。   Prior to the moving image / audio recording system 1 starting to acquire moving image signals and audio signals, the reference point recognizing means 22 establishes a predetermined positional relationship between the moving image capturing device 2 and the audio recording device 3 (hereinafter referred to as an initial positional relationship). ).

より詳しくは、動画像信号により構成される画像上の音声収録装置3の位置(以下、動画像信号により構成される画像上の位置を画像座標という)が所定の位置であるか否かを認識し、その結果を基準点合致情報として出力する。基準点合致情報は、例えば音声収録装置3の画像座標が所定の位置である場合は“true”、所定の位置でない場合は“false”となる。認識には、例えばパターンマッチングなどの手法を用いる(詳細については図3を参照して後述する)。なお、基準点は複数あってもよく、その場合、全ての点がそれぞれの所定の座標にあるか否かを判定する。   More specifically, it is recognized whether or not the position of the audio recording device 3 on the image composed of moving image signals (hereinafter, the position on the image composed of moving image signals is referred to as image coordinates) is a predetermined position. The result is output as reference point match information. The reference point match information is, for example, “true” when the image coordinates of the audio recording device 3 are a predetermined position, and “false” when the image coordinates are not the predetermined position. For the recognition, for example, a technique such as pattern matching is used (details will be described later with reference to FIG. 3). There may be a plurality of reference points. In this case, it is determined whether or not all the points are at their predetermined coordinates.

装置状態取得手段23は装置状態情報を取得する。装置状態情報とは、動画像撮影装置2の加速度や角加速度などである。装置状態情報は例えば、三次元空間内に設定したXYZ直交座標におけるX軸方向の加速度aX、Y軸方向の加速度aY、Z軸に対する角加速度ωZ、からなる3つの値の組(aX,aY,ωZ)で表すことができる。ここで、X軸およびY軸を含む面が水平面であり、Z軸は鉛直線である。これらの加速度や角加速度は、例えば加速度センサや角加速度センサを用いて取得することができる。 The device state acquisition unit 23 acquires device state information. The apparatus state information is the acceleration or angular acceleration of the moving image capturing apparatus 2. The apparatus state information includes, for example, a set of three values (a in the X-axis direction acceleration a X , Y-axis direction acceleration a Y in the XYZ orthogonal coordinates set in the three-dimensional space, and the angular acceleration ω Z in the Z-axis (a X , a Y , ω Z ). Here, the plane including the X axis and the Y axis is a horizontal plane, and the Z axis is a vertical line. These accelerations and angular accelerations can be acquired using, for example, an acceleration sensor or an angular acceleration sensor.

撮影パラメータ取得手段24は動画像撮影装置2の撮影パラメータ情報を取得する。撮影パラメータ情報とは、例えば、動画像撮影装置2が前述した初期位置関係に設定された状態を原点(位置関係を表す情報の基準値)、および0度(撮影方向を表す情報の基準値)としたときの、現在の動画像撮影装置2の座標(位置関係を表す情報)、および角度(撮影方向を表す情報)である。   The shooting parameter acquisition unit 24 acquires shooting parameter information of the moving image shooting apparatus 2. The shooting parameter information is, for example, the state in which the moving image shooting apparatus 2 is set to the above-described initial positional relationship, the origin (reference value of information representing the positional relationship), and 0 degree (reference value of information representing the shooting direction). Are the coordinates (information indicating the positional relationship) and the angle (information indicating the shooting direction) of the current moving image shooting device 2.

例えばこの情報は(X,Y,θ)の3組の値で表すことが出来る。これらは、装置状態情報と、基準点認識手段22の基準点合致情報から推定する。すなわち、装置状態情報を取得する時間間隔をΔt、前回推定した撮影パラメータ情報を(X0,Y0,θ0)とすると、現在の撮影パラメータ情報は下記の式〔1〕〜式〔3〕により算出できる。 For example, this information can be expressed by three sets of values (X, Y, θ). These are estimated from the apparatus state information and the reference point match information of the reference point recognition means 22. That is, assuming that the time interval for acquiring the apparatus state information is Δt and the previously estimated shooting parameter information is (X 0 , Y 0 , θ 0 ), the current shooting parameter information is represented by the following equations [1] to [3]. Can be calculated.

X=X0+aXΔt2…式〔1〕
Y=Y0+aYΔt2…式〔2〕
θ=θ0+ωZΔt2…式〔3〕
これらの式において、aXΔt2、aYΔt2、ωZΔt2は、それぞれ加速度aX、加速度aY、角加速度ωZの時間軸上の二重積分を表す。
X = X 0 + a X Δt 2 Formula [1]
Y = Y 0 + a Y Δt 2 Formula [2]
θ = θ 0 + ω Z Δt 2 Formula [3]
In these equations, a X Δt 2 , a Y Δt 2 , and ω Z Δt 2 represent double integrals on the time axis of acceleration a X , acceleration a Y , and angular acceleration ω Z , respectively.

ここで、初めの推定時の(X0,Y0,θ0)については、基準点合致情報が“true”、かつ装置状態情報が静止、すなわち(aX,aY,ωZ)=(0,0,0)の状態を基準状態、すなわち(X0,Y0,θ0)=(0,0,0)とし、そこから推定を始めるやり方がある。この場合、基準状態から、装置状態情報(aX、aY、ωZ)の時間軸上の二重積分を算出することで、動画像撮影装置2の現在の位置および撮影方向を表す撮影パラメータ情報を取得する。 Here, for (X 0 , Y 0 , θ 0 ) at the time of the initial estimation, the reference point match information is “true” and the device state information is stationary, that is, (a X , a Y , ω Z ) = ( There is a method in which the state of ( 0 , 0 , 0 ) is set as a reference state, that is, (X 0 , Y 0 , θ 0 ) = ( 0 , 0 , 0), and estimation is started therefrom. In this case, a shooting parameter representing the current position and shooting direction of the moving image shooting device 2 is calculated by calculating a double integral on the time axis of the device status information (a X , a Y , ω Z ) from the reference state. Get information.

図2は、撮影パラメータ情報と装置状態情報との関係について説明するための図である。ここで、図2Aは撮影パラメータ情報を示し、図2Bは装置状態情報を示す。   FIG. 2 is a diagram for explaining the relationship between the shooting parameter information and the apparatus state information. Here, FIG. 2A shows photographing parameter information, and FIG. 2B shows apparatus state information.

図2Aにおいて、(X,Y,θ)=(0,0,0)の点101は初期位置関係における動画像撮影装置2の撮影パラメータ情報を表し、(X,Y,θ)=(X1,Y1,θ1)の点102は動画像撮影装置2の現在の撮影パラメータ情報を表す。また、矢印103は動画像撮影装置2の現在の撮影方向(θ1)を表す。また、(X,Y,θ)=(0,Yref,0)の点100は初期位置関係における音声収録装置3に対する撮影パラメータ情報を表す。すなわち、初期位置関係では、動画像撮影装置2に対して、音声収録装置3がY軸方向(=矢印103に示す撮影方向)にYref離れた位置に存在することを表す。 In FIG. 2A, a point 101 of (X, Y, θ) = (0, 0, 0) represents shooting parameter information of the moving image shooting apparatus 2 in the initial positional relationship, and (X, Y, θ) = (X 1 , Y 1 , θ 1 ) 102 represents the current shooting parameter information of the moving image shooting apparatus 2. An arrow 103 represents the current shooting direction (θ 1 ) of the moving image shooting apparatus 2. A point 100 of (X, Y, θ) = (0, Y ref , 0) represents shooting parameter information for the audio recording device 3 in the initial positional relationship. That is, the initial positional relationship indicates that the audio recording device 3 is present at a position Y ref away from the moving image photographing device 2 in the Y-axis direction (= the photographing direction indicated by the arrow 103).

図2Bにおいて、aX,aY,ωZは、任意の点105(X,Y,θ)におけるX軸方向の加速度、Y軸方向の加速度、Z軸の周りの角加速度の向きを表す。 In FIG. 2B, a X , a Y , and ω Z represent the direction of acceleration in the X-axis direction, acceleration in the Y-axis direction, and angular acceleration around the Z-axis at an arbitrary point 105 (X, Y, θ).

図1の説明に戻る。送信手段25は撮影パラメータ情報を音声収録装置3へ送信する。通信方法は有線通信でも無線通信でもよい。受信手段26は音声収録装置3で収録され、強調処理された音声信号(以下、強調音声信号)を受信する。この通信方法も有線通信でも無線通信でもよい。   Returning to the description of FIG. The transmission means 25 transmits the shooting parameter information to the audio recording device 3. The communication method may be wired communication or wireless communication. The receiving means 26 receives an audio signal recorded by the audio recording device 3 and subjected to an enhancement process (hereinafter, an emphasized audio signal). This communication method may be wired communication or wireless communication.

動画像音声結合手段27は、動画像撮影手段21により取得された動画像信号と、受信手段26により受信された強調音声信号とを結合し、関連付けられた動画像音声信号とする。動画像音声記憶手段28は、例えばハードディスク、ソリッドステートディスク、SDメモリなどからなり、動画像音声信号を記憶する。   The moving image audio combining unit 27 combines the moving image signal acquired by the moving image capturing unit 21 and the enhanced audio signal received by the receiving unit 26 to obtain an associated moving image audio signal. The moving image audio storage means 28 is composed of, for example, a hard disk, a solid state disk, an SD memory, etc., and stores a moving image audio signal.

《音声収録装置》
本発明に係る音取得手段としての音声収録手段31は、例えばマイクアレイからなり、音声を収録して音声信号を生成する。音声強調手段32は、音声信号から、任意の方向から来た音声を強調した強調音声信号を生成する。強調方法には、例えばマイクアレイによるビームフォーミングや、指向性の向きの異なるマイクの切り替えなどを用いる。マイクアレイによるビームフォーミングについては後に詳述する。
<Audio recording device>
The sound recording means 31 as the sound acquisition means according to the present invention comprises, for example, a microphone array, and records sound and generates a sound signal. The voice emphasizing unit 32 generates an emphasized voice signal in which voice coming from an arbitrary direction is emphasized from the voice signal. As an emphasis method, for example, beam forming by a microphone array or switching of microphones having different directivity directions is used. The beam forming by the microphone array will be described in detail later.

受信手段34は動画像撮影装置2から撮影パラメータ情報を受信する。強調パラメータ制御手段33は、受信手段34により受信された撮影パラメータ情報に基づいて、音声強調手段32の強調パラメータを制御する。この強調パラメータについては後に詳述する。送信手段35は、音声強調手段32により生成された強調音声信号を動画像撮影装置2へ送信する。   The receiving unit 34 receives shooting parameter information from the moving image shooting apparatus 2. The enhancement parameter control unit 33 controls the enhancement parameter of the voice enhancement unit 32 based on the shooting parameter information received by the reception unit 34. This enhancement parameter will be described in detail later. The transmission unit 35 transmits the enhanced audio signal generated by the audio enhancement unit 32 to the moving image capturing apparatus 2.

なお、この実施形態では、動画像撮影装置2側に動画像音声記憶手段28があり、音声収録装置3からの音声信号を受信しているが、逆に、音声収録装置3側に動画像音声記憶手段を設けて、動画像撮影装置2からの動画像信号を受信するように構成することもできる。また、動画像音声記憶手段をさらに別の装置に設けてもよい。   In this embodiment, the moving image capturing device 28 has the moving image sound storage means 28 and receives the sound signal from the sound recording device 3, but conversely, the moving image sound is transmitted to the sound recording device 3 side. A storage unit may be provided to receive a moving image signal from the moving image capturing device 2. Further, the moving image / audio storage means may be provided in another device.

また、この実施形態では、動画像音声信号を最終的に記憶しているが、例えばディスプレイやスピーカなどの出力手段を設けて、そこから出力してもよいし、テレビ会議のような用途でネットワークを介して他装置へ送信してもよい。   In this embodiment, the moving image audio signal is finally stored. However, for example, an output unit such as a display or a speaker may be provided and output from the output unit. You may transmit to other apparatuses via.

また、この実施形態では、動画像撮影装置2と音声収録装置3とが初期位置関係であることを認識した後は、音声収録装置3は動かず、動画像撮影装置2が動くことを前提としているため、装置状態取得手段23を動画像撮影装置23内に設けたが、音声収録装置3内にも装置状態取得手段を設けることで、音声収録装置3の装置状態情報を取得するように構成してもよい。このように構成すれば、音声収録装置3が動いても、動画像撮影装置2は撮影パラメータ情報を取得することができる。   Moreover, in this embodiment, after recognizing that the moving image photographing device 2 and the sound recording device 3 are in the initial positional relationship, the sound recording device 3 does not move and the moving image photographing device 2 moves. Therefore, the apparatus state acquisition means 23 is provided in the moving image photographing apparatus 23. However, the apparatus state acquisition means is also provided in the audio recording apparatus 3, so that the apparatus state information of the audio recording apparatus 3 is acquired. May be. If comprised in this way, even if the audio | voice recording apparatus 3 moves, the moving image imaging device 2 can acquire imaging parameter information.

〈撮影パラメータ情報の基準状態の取得〉
音声収録装置3に対する動画像撮影装置2の位置、および向きを所定の状態に調整する操作の流れの一例について図3を参照して説明する。ここでは、図3Aに示すように、動画像撮影装置2をカメラ付きタブレット端末とし、音声収録装置3を動画像撮影装置2と無線通信可能なワイヤレスマイクとした。
<Acquisition of reference state of shooting parameter information>
An example of an operation flow for adjusting the position and orientation of the moving image capturing apparatus 2 with respect to the audio recording apparatus 3 to a predetermined state will be described with reference to FIG. Here, as shown in FIG. 3A, the moving image shooting device 2 is a tablet terminal with a camera, and the audio recording device 3 is a wireless microphone capable of wireless communication with the moving image shooting device 2.

この操作は第1〜第3の前提のもとで実行する。
第1の前提:音声収録装置3上の3点を基準点とする。ここでは、図3Aに示すように、音声収録装置3に付けた3つの十字型のマーカーPa、Pb、Pcの中心を基準点とした。
第2の前提:この3点を、所定の位置、所定の向きで動画像撮影装置2により撮影したときの画像座標をそれぞれ(xa,ya)、(xb,yb)、(xc,yc)とする。
第3の前提:そのとき、音声収録装置3は静止していなければならない。
This operation is executed under the first to third assumptions.
First premise: Three points on the audio recording device 3 are set as reference points. Here, as shown in FIG. 3A, the center of the three cross-shaped markers Pa, Pb, and Pc attached to the audio recording device 3 is used as a reference point.
Second premise: The image coordinates when these three points are photographed by the moving image photographing device 2 at a predetermined position and in a predetermined direction are (xa, ya), (xb, yb), (xc, yc), respectively. To do.
Third premise: At that time, the audio recording device 3 must be stationary.

ユーザは撮影中の音声収録装置3の画像を見ながら、3つの基準点であるマーカーPa、Pb、Pcの中心がそれぞれ(x1,y1)、(x2,y2)、(x3,y3)に一致するように動画像撮影装置2を動かす。このとき、確認用に撮影中の画像の(x1,y1)、(x2,y2)、(x3,y3)の点にガイドを表示することが好適である。ここでは、図3Bに示すように、(x1,y1)、(x2,y2)、(x3,y3)を指示する矢印P1、P2、P3をディスプレイ200に表示した。 While viewing the image of the sound recording device 3 being photographed, the center of the markers Pa, Pb, and Pc, which are the three reference points, is (x 1 , y 1 ), (x 2 , y 2 ), (x 3 ), respectively. , Y 3 ), the moving image photographing device 2 is moved. At this time, it is preferable to display a guide at points (x 1 , y 1 ), (x 2 , y 2 ), (x 3 , y 3 ) of the image being photographed for confirmation. Here, as shown in FIG. 3B, arrows P 1 , P 2 , and P 3 indicating (x 1 , y 1 ), (x 2 , y 2 ), and (x 3 , y 3 ) are displayed on the display 200. did.

ユーザが動画像撮影装置2を動かした結果、図3Cに示すように、撮影中の画像上の3つの基準点の座標がそれぞれ(x1,y1)、(x2,y2)、(x3,y3)に一致すると、基準点認識手段22は基準点合致情報として“true”を出力する。 As a result of the user moving the moving image photographing device 2, as shown in FIG. 3C, the coordinates of the three reference points on the image being photographed are (x 1 , y 1 ), (x 2 , y 2 ), ( If they match x 3 , y 3 ), the reference point recognition means 22 outputs “true” as reference point match information.

さらに、装置状態取得手段23は、動画像撮影装置2の加速度および角加速度をセンサから取得し、装置状態情報を出力する。動画像撮影装置2が静止していれば装置状態情報は(0,0,0)を示す。   Furthermore, the apparatus state acquisition means 23 acquires the acceleration and angular acceleration of the moving image capturing apparatus 2 from the sensor, and outputs apparatus state information. If the moving image photographing device 2 is stationary, the device state information indicates (0, 0, 0).

基準点合致情報として“true”を、装置状態情報として(0,0,0)を受け取った撮影パラメータ取得手段24は、その時点の状態を、座標、角度計算のための基準状態とする。すなわち、撮影パラメータ情報:(X,Y,θ)=(0,0,0)とし、操作を終了する。   The imaging parameter acquisition unit 24 that has received “true” as the reference point match information and (0, 0, 0) as the apparatus state information sets the current state as a reference state for calculating coordinates and angles. That is, the shooting parameter information: (X, Y, θ) = (0, 0, 0) is set, and the operation is terminated.

図4は、動画像音声収録システム1が撮影パラメータ情報の基準状態を取得する処理の流れを示すフローチャートである。   FIG. 4 is a flowchart showing a flow of processing in which the moving image audio recording system 1 acquires the reference state of the shooting parameter information.

まず、動画像撮影手段21が動画像信号を取得する(ステップS1)。次に、取得された動画像信号により構成される動画像上の基準点の画像座標(例えば図3BにおけるマーカーPa、Pb、Pcの中心の画像座標(xa,ya)、(xb,yb)、(xc,yc))が所定の座標(例えば(x1,y1)、(x2,y2)、(x3,y3))と一致しているか否かを基準点認識手段22が判定する(ステップS2)。判定の結果、一致していれば(ステップS2:YES)、ステップS3へ進み、一致していなければ(ステップS2:NO)、ステップS1に戻る。 First, the moving image photographing means 21 acquires a moving image signal (step S1). Next, the image coordinates of the reference point on the moving image constituted by the acquired moving image signals (for example, the image coordinates (xa, ya), (xb, yb) of the centers of the markers Pa, Pb, Pc in FIG. 3B), The reference point recognizing means 22 determines whether (xc, yc)) matches a predetermined coordinate (for example, (x 1 , y 1 ), (x 2 , y 2 ), (x 3 , y 3 )). Determine (step S2). As a result of the determination, if they match (step S2: YES), the process proceeds to step S3. If they do not match (step S2: NO), the process returns to step S1.

ステップS3では、装置状態取得手段23が装置状態情報(aX,aY,ωZ)を取得する。次に、この装置状態情報が、動画像撮影装置2が静止していることを示しているか否か、すなわち(aX,aY,ωZ)=(0,0,0)であるか否かを撮影パラメータ取得手段24が判定する(ステップS4)。判定の結果、静止していることを示していれば(ステップS4:YES)、ステップS5へ進み、静止していることを示していなければ(ステップS4:NO)、ステップS1に戻る。 In step S3, the device state acquisition unit 23 acquires device state information (a X , a Y , ω Z ). Next, whether or not the apparatus state information indicates that the moving image capturing apparatus 2 is stationary, that is, whether or not (a X , a Y , ω Z ) = (0, 0, 0). This is determined by the imaging parameter acquisition means 24 (step S4). As a result of the determination, if it indicates that it is stationary (step S4: YES), it proceeds to step S5. If it does not indicate that it is stationary (step S4: NO), it returns to step S1.

ステップS5では、撮影パラメータ取得手段24が、現在の撮影パラメータ情報を基準状態に設定する。すなわち(aX,aY,ωZ)=(0,0,0)のとき、動画像撮影装置2の撮影パラメータ情報(X,Y,θ)として、基準状態、すなわち(X0,Y0,θ0)=(0,0,0)を設定する。この結果、例えば図3のマーカーPa、Pb、Pcの中心が矢印P1、P2、P3の先端に一致し、かつ動画像撮影装置2が静止している時に、図2Aの点101における撮影パラメータ情報が設定される。 In step S5, the shooting parameter acquisition unit 24 sets the current shooting parameter information to the reference state. That is, when (a X , a Y , ω Z ) = (0, 0, 0), as the shooting parameter information (X, Y, θ) of the moving image shooting apparatus 2, the reference state, that is, (X 0 , Y 0). , Θ 0 ) = (0, 0 , 0 ). As a result, for example, when the centers of the markers Pa, Pb, and Pc in FIG. 3 coincide with the tips of the arrows P 1 , P 2 , and P 3 and the moving image photographing apparatus 2 is stationary, the point 101 in FIG. Shooting parameter information is set.

〈動画像撮影装置の撮影方向と音声収録装置の指向性との関係〉
図5は、動画像音声収録システム1における動画像撮影装置2の撮影方向と音声収録装置3の指向性との対応関係について説明するための図である。
<Relationship between shooting direction of moving image shooting device and directivity of audio recording device>
FIG. 5 is a diagram for explaining the correspondence between the shooting direction of the moving image shooting apparatus 2 and the directivity of the sound recording apparatus 3 in the moving image / voice recording system 1.

図5Aは、動画像撮影手段21の撮影方向が音声収録装置3に向かう方向111である状態を示している。この図において、p,q,r,sはマイク(音声収録手段31)を表している。すなわち、4つのマイクが正方形の頂点に配置されているといえる。   FIG. 5A shows a state where the shooting direction of the moving image shooting means 21 is a direction 111 toward the sound recording device 3. In this figure, p, q, r, and s represent microphones (audio recording means 31). That is, it can be said that four microphones are arranged at the apex of the square.

この状態では、音声収録装置3の指向性を、動画像撮影手段21の中心に向いている方向にピーク値を有する指向性121、およびその反対の方向にピーク値を有する指向性122からなる双極性にする。   In this state, the directivity of the sound recording device 3 is a bipolar structure including a directivity 121 having a peak value in a direction toward the center of the moving image photographing means 21 and a directivity 122 having a peak value in the opposite direction. Make it sex.

図5Bは、動画像撮影手段21の撮影方向が音声収録装置3へ向かう方向から反時計回りにθ回転した方向112に向いている状態を示している。この状態では、音声収録装置3の指向性を、動画像撮影手段21への方向から時計回りにφ回転した方向113にピーク値を有する指向性123からなる単極性にする。   FIG. 5B shows a state in which the shooting direction of the moving image shooting means 21 is directed to the direction 112 rotated θ from the direction toward the audio recording device 3 counterclockwise. In this state, the directivity of the audio recording device 3 is set to a unipolarity composed of the directivity 123 having a peak value in the direction 113 rotated φ from the direction toward the moving image photographing means 21 clockwise.

図5Cは、動画像撮影手段21の撮影方向が音声収録装置3へ向かう方向から時計回りにθ回転した方向114に向いている状態を示している。この状態では、音声収録装置3の指向性を、動画像撮影手段21への方向から反時計回りにφ回転した方向115にピーク値を有する指向性124からなる単極性にする。   FIG. 5C shows a state in which the shooting direction of the moving image shooting means 21 is directed in the direction 114 rotated θ from the direction toward the audio recording device 3 in the clockwise direction. In this state, the directivity of the audio recording device 3 is set to a unipolarity having a directivity 124 having a peak value in the direction 115 rotated φ counterclockwise from the direction toward the moving image photographing means 21.

図5A、図5B、図5Cに示すように、通常、注目している音源は動画像撮影手段21の撮影方向111、112、114に位置すると考えられるため、音声収録装置3の指向性を122、123、124のように設定することにより、音源からの音を強調することができる。これらの指向性を実現するには、音声収録装置3の強調パラメータ制御手段33が制御信号として、撮影方向情報θに応じて形成する指向性の種類(単極性か双極性か)と、その向きを示すφの値を音声強調手段32に出力し、音声強調手段32がその制御信号を基に指向性を形成することになる。   As shown in FIGS. 5A, 5B, and 5C, the sound source of interest is normally considered to be located in the shooting directions 111, 112, and 114 of the moving image shooting means 21, and therefore the directivity of the sound recording device 3 is set to 122. , 123, and 124, the sound from the sound source can be emphasized. In order to realize these directivities, the type of directivity (monopolar or bipolar) formed by the emphasis parameter control means 33 of the audio recording device 3 according to the shooting direction information θ as a control signal, and its direction Is output to the voice enhancement unit 32, and the voice enhancement unit 32 forms directivity based on the control signal.

θとφとの関係を示すテーブルの一例を下記の表1に示す。ここで、θ=0は図5Aに示されている方向111、すなわち、動画像撮影手段21の中心から音声収録装置3のマイクに向かう方向である。また、時計回りがθのプラス方向、反時計回りがθのマイナス方向である。つまり、図5Bではθはほぼ−π/4であり、図5Cではθはほぼπ/4である。   An example of a table showing the relationship between θ and φ is shown in Table 1 below. Here, θ = 0 is the direction 111 shown in FIG. 5A, that is, the direction from the center of the moving image photographing means 21 toward the microphone of the audio recording device 3. Further, clockwise is the positive direction of θ, and counterclockwise is the negative direction of θ. That is, in FIG. 5B, θ is approximately −π / 4, and in FIG. 5C, θ is approximately π / 4.

Figure 2016140055
Figure 2016140055

また、表1において、φ=0は音声収録装置3から動画像撮影手段21の中心に向かう方向、すなわちθ=πの方向である。また、時計回りがφのプラス方向、反時計回りがφのマイナス方向である。   In Table 1, φ = 0 is the direction from the sound recording device 3 toward the center of the moving image photographing means 21, that is, the direction of θ = π. Further, clockwise is the positive direction of φ, and counterclockwise is the negative direction of φ.

したがって、図5A、図5B、図5Cと表1との関係は下記のようになる。
図5A:「−π/6<θ≦π/6」・・・「双極性、φ=0」
図5B:「7π/6<θ≦11π/6」・・・「単極性、φ=π/4」
図5C:「π/6<θ≦5π/6」・・・「単極性、φ=−π/4」
Therefore, the relationship between FIG. 5A, FIG. 5B, FIG. 5C and Table 1 is as follows.
FIG. 5A: “−π / 6 <θ ≦ π / 6”... “Bipolarity, φ = 0”
FIG. 5B: “7π / 6 <θ ≦ 11π / 6”... “Unipolar, φ = π / 4”
FIG. 5C: “π / 6 <θ ≦ 5π / 6”... “Unipolar, φ = −π / 4”

音声信号を強調する方法としては、マイクアレイによるビームフォーミングなどを用いる。例えば、φ方向に指向性を形成する場合、遅延和ビームフォーミングでは下記の式〔4〕で強調音声信号が得られる。   As a method for enhancing the audio signal, beam forming by a microphone array or the like is used. For example, when directivity is formed in the φ direction, an enhanced speech signal is obtained by the following equation [4] in the delay sum beamforming.

Y(ω)=WH(ω)z(ω) …式〔4〕
ここでωは音声信号のスペクトルの角周波数、Yは強調音声信号のスペクトル、zは入力音声信号のスペクトル、Wは強調のためのフィルタ係数、Hは複素共役転置を表す。zとWはベクトル表現になっており、それぞれ、下記の式〔5〕、〔6〕で表される。
Y (ω) = W H (ω) z (ω) (4)
Here, ω is the angular frequency of the spectrum of the speech signal, Y is the spectrum of the enhanced speech signal, z is the spectrum of the input speech signal, W is the filter coefficient for enhancement, and H is the complex conjugate transpose. z and W are represented by vectors and are expressed by the following equations [5] and [6], respectively.

z(ω)=[Z1(ω),・・・,ZM(ω)]T …式〔5〕
W(ω)=[W1(ω),・・・,WM(ω)]T …式〔6〕
ここで、Zの添え字はマイクの番号を表し、Mはマイクの個数である。また、Tは行列の転置を表す。
z (ω) = [Z 1 (ω),..., Z M (ω)] T Equation (5)
W (ω) = [W 1 (ω),..., W M (ω)] T Equation (6)
Here, the Z suffix represents the number of the microphone, and M is the number of microphones. T represents transposition of the matrix.

ここでWの値は、各マイクの位置と強調したい音源の方向が同一平面状にあるとすると、次の式〔7〕のようになる。
m(ω)=exp{j(ω/c)(xmsinφ+ymcosφ)} …式〔7〕
ここで、cは音速、xm,mはマイクの座標、φは強調したい音声信号の音源の方向である。
Here, the value of W is expressed by the following equation [7] when the position of each microphone and the direction of the sound source to be emphasized are in the same plane.
W m (ω) = exp {j (ω / c) (x m sinφ + y m cosφ)} (7)
Here, c is the sound velocity, x m, the y m coordinates of the microphone, phi is the direction of the sound source of the audio signal to be emphasized.

〈音声収録装置に対する動画像撮影装置の位置が変化する場合の音声収録装置の指向性の制御〉
図6は、音声収録装置に対する動画像撮影装置の位置が変化する場合の音声収録装置の指向性の制御について説明するための図である。
<Directional control of audio recording device when position of moving image shooting device changes with respect to audio recording device>
FIG. 6 is a diagram for describing directivity control of the audio recording device when the position of the moving image capturing device changes with respect to the audio recording device.

この場合は例えば、音声収録装置3から見て、360度(2π)を8分割した領域a〜hのどこに動画像撮影装置2が位置するかで制御信号を切り替える。例えば図示のように動画像撮影装置2が領域cに位置する場合、下記の表2のように撮影方向θと制御信号(指向性の種類、向きφ)を設定する。   In this case, for example, the control signal is switched depending on where the moving image capturing apparatus 2 is located in the areas a to h obtained by dividing 360 degrees (2π) into eight when viewed from the audio recording apparatus 3. For example, when the moving image photographing device 2 is located in the region c as shown in the drawing, the photographing direction θ and the control signal (type of directivity, direction φ) are set as shown in Table 2 below.

Figure 2016140055
Figure 2016140055

この表において、θ=0は音声収録装置3から領域eの中心に向かう方向である。また、時計回りがθのプラス方向、反時計回りがθのマイナス方向である。また、φ=0は音声収録装置3から領域aの中心に向かう方向である。また、時計回りがφのプラス方向、反時計回りがφのマイナス方向である。   In this table, θ = 0 is a direction from the audio recording device 3 toward the center of the region e. Further, clockwise is the positive direction of θ, and counterclockwise is the negative direction of θ. Φ = 0 is a direction from the audio recording device 3 toward the center of the area a. Further, clockwise is the positive direction of φ, and counterclockwise is the negative direction of φ.

この表に示すデータを持つテーブルを領域毎に用意することで、音声収録装置3に対する動画像撮影装置2の方向が変化しても、適切な指向性を形成することができる。なお、動画像撮影装置2が領域c以外の領域(以下、注目領域)に位置するときは、表2におけるθの範囲の値を領域cと注目領域との角度差を付加した値にすればよい。   By preparing a table having the data shown in this table for each region, even if the direction of the moving image photographing device 2 with respect to the sound recording device 3 changes, appropriate directivity can be formed. When the moving image capturing apparatus 2 is located in a region other than the region c (hereinafter referred to as a region of interest), the value of the range of θ in Table 2 is set to a value obtained by adding an angle difference between the region c and the region of interest. Good.

なお、ここではφの値を4段階に変化させているが、例えばθの値に応じて連続的に変化させるなど、より多くの段階に変化させてもよい。   Here, although the value of φ is changed in four steps, it may be changed in more steps, for example, continuously changing according to the value of θ.

〈動画像音声収録システムの動作〉
図7は、動画像音声収録システム1の動作を示すフローチャートである。
<Operation of video / audio recording system>
FIG. 7 is a flowchart showing the operation of the moving image audio recording system 1.

まず、動画像撮影装置2では、装置状態取得手段23が装置状態情報を取得する(ステップS11)。次に、撮影パラメータ取得手段24が、ステップS1で取得された装置状態情報から撮影パラメータ情報を推定する(ステップS12)。このときの基準状態については図4に示した処理により設定済みのものを用いる。   First, in the moving image photographing apparatus 2, the apparatus state acquisition unit 23 acquires apparatus state information (step S11). Next, the shooting parameter acquisition unit 24 estimates shooting parameter information from the apparatus state information acquired in step S1 (step S12). For the reference state at this time, a reference state that has been set by the processing shown in FIG. 4 is used.

次いで、送信手段25が、ステップS2で推定された撮影パラメータ情報を音声収録装置3へ送信する(ステップS13)。次に、動画像撮影手段21が動画像信号を取得する(ステップS14)。   Next, the transmission means 25 transmits the shooting parameter information estimated in step S2 to the audio recording device 3 (step S13). Next, the moving image photographing means 21 acquires a moving image signal (step S14).

音声収録装置3では、受信手段34が撮影パラメータ情報を受信し(ステップS21)、強調パラメータ制御手段33が、ステップS21で受信された撮影パラメータ情報に応じて、音声強調パラメータを制御する(ステップS22)。   In the audio recording device 3, the reception unit 34 receives the shooting parameter information (step S21), and the enhancement parameter control unit 33 controls the audio enhancement parameter according to the shooting parameter information received in step S21 (step S22). ).

次に、音声収録手段31が音声信号を取得し(ステップS23)、音声強調手段32が、ステップS23で取得された音声信号をステップS22で取得された音声強調パラメータに基づいて強調処理し、強調音声信号を取得する(ステップS24)。次に、送信手段35が、ステップS24で取得された強調音声信号を動画像撮影装置2へ送信し、音声収録装置3側の処理を終える。   Next, the voice recording unit 31 acquires a voice signal (step S23), and the voice enhancement unit 32 performs enhancement processing on the voice signal acquired in step S23 based on the voice enhancement parameter acquired in step S22. An audio signal is acquired (step S24). Next, the transmission means 35 transmits the emphasized sound signal acquired in step S24 to the moving image photographing apparatus 2, and the process on the sound recording apparatus 3 side is finished.

動画像撮影装置2では、受信手段26が強調音声信号を受信し(ステップS15)、動画像音声結合手段27が、ステップ14で取得された動画像信号と、ステップS15で受信された強調音声信号を結合して、動画像音声信号を取得する(ステップS16)。次に、動画像音声記憶手段28が、ステップS15で取得された動画像音声信号を記憶し(ステップS17)、動画像撮影装置2側の処理を終える。   In the moving image photographing apparatus 2, the receiving unit 26 receives the enhanced sound signal (step S15), and the moving image / sound combining unit 27 receives the moving image signal acquired in step 14 and the enhanced sound signal received in step S15. Are combined to obtain a moving image audio signal (step S16). Next, the moving image / sound storage unit 28 stores the moving image / sound signal acquired in step S15 (step S17), and the processing on the moving image photographing apparatus 2 side is completed.

〈動画像音声収録システムを実現するコンピュータシステム〉
図8は、動画像撮影装置2および音声収録装置3を実現するコンピュータシステムのハードウェア構成を示すブロック図である。
<Computer system that realizes a moving image audio recording system>
FIG. 8 is a block diagram illustrating a hardware configuration of a computer system that implements the moving image capturing device 2 and the audio recording device 3.

動画像撮影装置2および音声収録装置3は、図8に示すような汎用のコンピュータシステムにより実現することができる。このコンピュータシステムは、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、HDD(Hard Disk Drive)14、およびI/F(インタフェース)15がバス10を介して接続された構成を有し、I/F15にはLCD(Liquid Crystal Display)などの表示部16および操作部17が接続されている。   The moving image photographing device 2 and the sound recording device 3 can be realized by a general-purpose computer system as shown in FIG. In this computer system, a central processing unit (CPU) 11, a read only memory (ROM) 12, a random access memory (RAM) 13, a hard disk drive (HDD) 14, and an interface (I / F) 15 are connected via a bus 10. A display unit 16 such as an LCD (Liquid Crystal Display) and an operation unit 17 are connected to the I / F 15.

CPU11は演算手段であり、コンピュータシステム全体の動作を制御する。ROM12は、読み出し専用の不揮発性記憶媒体であり、ファームウェア等のプログラムが格納されている。RAM13は、情報の高速な読み書きが可能な揮発性の記憶媒体であり、CPU11が情報を処理する際の作業領域として用いられる。HDD14は、情報の読み書きが可能な不揮発性の記憶媒体であり、OS(Operating System)や各種の制御プログラム、アプリケーションプログラム等が格納されている。I/F15は、バスと各種のハードウェアやネットワーク等を接続し制御する。表示部16は、ユーザがコンピュータシステムの状態を確認するための視覚的ユーザインタフェースである。操作部17は、キーボードやマウス等、ユーザがコンピュータシステムに情報を入力するためのユーザインタフェースである。   The CPU 11 is a calculation means and controls the operation of the entire computer system. The ROM 12 is a read-only nonvolatile storage medium, and stores programs such as firmware. The RAM 13 is a volatile storage medium capable of reading and writing information at high speed, and is used as a work area when the CPU 11 processes information. The HDD 14 is a nonvolatile storage medium that can read and write information, and stores an OS (Operating System), various control programs, application programs, and the like. The I / F 15 connects and controls the bus and various hardware and networks. The display unit 16 is a visual user interface for the user to check the state of the computer system. The operation unit 17 is a user interface such as a keyboard and a mouse for the user to input information to the computer system.

以上詳細に説明したように、本発明の実施形態に係る動画像音声収録システム1には下記(1)〜(5)の特徴がある。
(1)音声収録手段31に対する動画像撮影手段21の位置、および動画像撮影手段21の撮影方向を推定し、その推定結果に応じて、音声収録手段31へ到来する音声の方向を特定し、音声収録手段31の指向性を変化させるので、音声収録手段31と動画像撮影手段21との位置関係が変化する場合でも、良好な音声信号を取得することができる。
(2)動画像撮影手段21の撮影方向の推定結果に応じて、撮影範囲の外側から到来する音を相対的に多く抑圧することができる。
(3)動画像撮影装置2の加速度および角加速度から、動画像撮影装置2の位置および撮影方向を推定することができる。
(4)音声収録手段31に対する動画像撮影手段21の基準位置、および動画像撮影手段21の基準の撮影方向を、位置および撮影方向の推定に利用することができる。
(5)ユーザシステム利用時に、音声収録手段31に対する動画像撮影手段21の基準位置、および動画像撮影手段21の基準の撮影方向を得ることができる。
As described above in detail, the moving image and sound recording system 1 according to the embodiment of the present invention has the following features (1) to (5).
(1) Estimating the position of the moving image photographing means 21 with respect to the sound recording means 31 and the photographing direction of the moving image photographing means 21, and specifying the direction of the sound arriving at the sound recording means 31 according to the estimation result; Since the directivity of the sound recording means 31 is changed, a good sound signal can be acquired even when the positional relationship between the sound recording means 31 and the moving image photographing means 21 changes.
(2) According to the estimation result of the shooting direction of the moving image shooting means 21, it is possible to suppress a relatively large amount of sound coming from outside the shooting range.
(3) From the acceleration and angular acceleration of the moving image shooting device 2, the position and shooting direction of the moving image shooting device 2 can be estimated.
(4) The reference position of the moving image photographing means 21 relative to the sound recording means 31 and the reference photographing direction of the moving image photographing means 21 can be used for estimating the position and the photographing direction.
(5) When using the user system, it is possible to obtain the reference position of the moving image photographing means 21 with respect to the sound recording means 31 and the reference photographing direction of the moving image photographing means 21.

なお、以上説明した実施形態では、動画像撮影装置2と、音声収録装置3とが別々の装置であり、かつ動画像撮影装置2が動画像撮影手段(カメラ)21を内蔵し、音声収録装置3が音声収録手段(マイク)31を内蔵しているが、動画像撮影装置と音声収録装置とを1つの動画像音声収録装置とし、かつ動画像撮影手段、音声収録手段を装置と別に設けるように構成してもよい。   In the embodiment described above, the moving image shooting device 2 and the sound recording device 3 are separate devices, and the moving image shooting device 2 has a built-in moving image shooting means (camera) 21, and the sound recording device. 3 includes a sound recording means (microphone) 31, but the moving image photographing device and the sound recording device are one moving image sound recording device, and the moving image photographing means and the sound recording means are provided separately from the device. You may comprise.

1…動画像音声収録システム、2…動画像撮影装置、3…音声収録装置、21…動画像撮影手段、22…基準点認識手段、23…装置状態取得手段、24…撮影パラメータ取得手段、31…音声収録手段、32…音声強調手段、33…強調パラメータ制御手段。   DESCRIPTION OF SYMBOLS 1 ... Moving image audio recording system, 2 ... Moving image imaging device, 3 ... Audio recording device, 21 ... Moving image imaging means, 22 ... Reference point recognition means, 23 ... Apparatus state acquisition means, 24 ... Shooting parameter acquisition means, 31 ... voice recording means, 32 ... voice emphasis means, 33 ... emphasis parameter control means.

特開2011−41096号公報JP 2011-41096 A

Claims (10)

被写体を撮影して動画像信号を取得する動画像取得手段と、
音を収録して音信号を取得する音取得手段と、
前記動画像取得手段の撮影方向を表す情報、および前記動画像取得手段と前記音取得手段との位置関係を表す情報を取得する撮影パラメータ取得手段と、
前記撮影パラメータ取得手段により取得された前記情報に基づいて、前記音取得手段により取得する前記音信号のうち、所定の方向の音信号を強調する音強調手段と、
を有する動画像音収録システム。
Moving image acquisition means for shooting a subject and acquiring a moving image signal;
A sound acquisition means for recording sound and acquiring a sound signal;
Shooting parameter acquisition means for acquiring information indicating the shooting direction of the moving image acquisition means, and information indicating the positional relationship between the moving image acquisition means and the sound acquisition means;
Sound enhancement means for enhancing a sound signal in a predetermined direction among the sound signals acquired by the sound acquisition means based on the information acquired by the imaging parameter acquisition means;
Video sound recording system.
請求項1に記載された動画像音収録システムにおいて、
前記音強調手段は、前記撮影パラメータ取得手段により取得された前記情報から推定される撮影範囲の外側から到来する音を相対的に多く抑圧する、動画像音収録システム。
In the moving image sound recording system according to claim 1,
The moving image sound recording system, wherein the sound emphasizing unit suppresses a relatively large amount of sound coming from outside the imaging range estimated from the information acquired by the imaging parameter acquisition unit.
請求項1に記載された動画像音収録システムにおいて、
前記位置関係を表す情報は、前記音取得手段に対する前記動画像取得手段の位置を表す情報である、動画像音収録システム。
In the moving image sound recording system according to claim 1,
The moving image sound recording system, wherein the information indicating the positional relationship is information indicating a position of the moving image acquisition unit with respect to the sound acquisition unit.
請求項1に記載された動画像音収録システムにおいて、
前記動画像取得手段の動きの状態を表す情報を取得する装置状態取得手段を有し、
前記撮影パラメータ取得手段は、前記装置状態取得手段により取得された情報を用いて、前記動画像取得手段と前記音取得手段との位置関係を表す情報を取得する、動画像音収録システム。
In the moving image sound recording system according to claim 1,
Apparatus status acquisition means for acquiring information representing the state of movement of the moving image acquisition means,
The moving image sound recording system, wherein the shooting parameter acquisition unit acquires information representing a positional relationship between the moving image acquisition unit and the sound acquisition unit using the information acquired by the apparatus state acquisition unit.
請求項4に記載された動画像音収録システムにおいて、
前記動きの状態を表す情報は、加速度および角加速度を表す情報である、動画像音収録システム。
In the moving image sound recording system according to claim 4,
The moving image sound recording system, wherein the information representing the state of movement is information representing acceleration and angular acceleration.
請求項4または5に記載された動画像音収録システムにおいて、
前記動画像取得手段により取得された動画像信号から、空間内の所定の基準点の座標が画像上の所定の座標と合致しているか否かを判定する基準点認識手段を有し、
前記撮影パラメータ取得手段は、前記基準点認識手段により合致していると判定され、かつ前記装置状態取得手段により生成された動きの状態を表す情報が静止を表しているとき、撮影方向を表す情報の基準値、および位置関係を表す情報の基準値を取得する、動画像音収録システム。
In the moving image sound recording system according to claim 4 or 5,
Reference point recognizing means for determining whether or not the coordinates of a predetermined reference point in the space match the predetermined coordinates on the image from the moving image signal acquired by the moving image acquisition means,
The shooting parameter acquisition unit is information indicating the shooting direction when it is determined that the reference point recognition unit matches and the information indicating the state of movement generated by the device state acquisition unit indicates stillness. A moving image sound recording system that acquires a reference value of information and a reference value of information representing positional relationship.
請求項6に記載された動画像音収録システムにおいて、
前記撮影パラメータ取得手段が前記撮影方向を表す情報の基準値および位置関係を表す情報の基準値を取得するまで、前記動画像取得手段の位置と向きの調整をガイドする表示を行う手段を有する、動画像音収録システム。
In the moving image sound recording system according to claim 6,
Until the shooting parameter acquisition unit acquires the reference value of the information indicating the shooting direction and the reference value of the information indicating the positional relationship, the shooting parameter acquisition unit includes a unit that performs display for guiding the adjustment of the position and orientation of the moving image acquisition unit. Video sound recording system.
被写体を撮影して動画像信号を取得する動画像取得手段と、
音を収録して音信号を取得する音取得手段と、
前記動画像取得手段の撮影方向を表す情報、および前記動画像取得手段と前記音取得手段との位置関係を表す情報を取得する撮影パラメータ取得手段と、
前記撮影パラメータ取得手段により取得された前記情報に基づいて、前記音取得手段により取得する前記音信号のうち、所定の方向の音信号を強調する音強調手段と、
を有する動画像音収録装置。
Moving image acquisition means for shooting a subject and acquiring a moving image signal;
A sound acquisition means for recording sound and acquiring a sound signal;
Shooting parameter acquisition means for acquiring information indicating the shooting direction of the moving image acquisition means, and information indicating the positional relationship between the moving image acquisition means and the sound acquisition means;
Sound enhancement means for enhancing a sound signal in a predetermined direction among the sound signals acquired by the sound acquisition means based on the information acquired by the imaging parameter acquisition means;
A moving image sound recording apparatus.
動画像取得手段により取得された動画像信号、および音取得手段により取得された音信号をコンピュータにより処理する動画像音収録プログラムであって、
前記コンピュータを、前記動画像取得手段の撮影方向を表す情報、および前記動画像取得手段と前記音取得手段との位置関係を表す情報を取得する撮影パラメータ取得手段と、
前記撮影パラメータ取得手段により取得された前記情報に基づいて、前記音取得手段により取得する前記音信号のうち、所定の方向の音信号を強調する音強調手段として機能させるための動画像音収録プログラム。
A moving image sound recording program for processing by a computer the moving image signal acquired by the moving image acquisition means and the sound signal acquired by the sound acquisition means,
An imaging parameter acquisition unit for acquiring information indicating a shooting direction of the moving image acquisition unit and information indicating a positional relationship between the moving image acquisition unit and the sound acquisition unit;
A moving image sound recording program for functioning as sound enhancement means for enhancing a sound signal in a predetermined direction among the sound signals acquired by the sound acquisition means based on the information acquired by the shooting parameter acquisition means .
被写体を撮影して動画像信号を取得する動画像取得ステップと、
音を収録して音信号を取得する音取得ステップと、
前記動画像取得ステップにおける撮影の方向を表す情報、および前記動画像取得ステップにおける撮影の位置と前記音取得ステップにおける収録の位置との関係を表す情報を取得する撮影パラメータ取得ステップと、
前記撮影パラメータ取得ステップにより取得された前記情報に基づいて、前記音取得ステップにより取得する前記音信号のうち、所定の方向の音信号を強調する音強調ステップと、
を有する動画像音収録方法。
A moving image acquisition step of shooting a subject and acquiring a moving image signal;
A sound acquisition step for recording sound and acquiring a sound signal;
An imaging parameter acquisition step for acquiring information indicating a shooting direction in the moving image acquisition step, and information indicating a relationship between a shooting position in the moving image acquisition step and a recording position in the sound acquisition step;
Based on the information acquired by the imaging parameter acquisition step, among the sound signals acquired by the sound acquisition step, a sound enhancement step of enhancing a sound signal in a predetermined direction;
A moving image sound recording method.
JP2015226788A 2015-01-23 2015-11-19 Video sound recording system, video sound recording device, video sound recording program, and video sound recording method Active JP6631193B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US14/984,728 US9794685B2 (en) 2015-01-23 2015-12-30 Video audio recording system, video audio recording device, and video audio recording method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015011515 2015-01-23
JP2015011515 2015-01-23

Publications (2)

Publication Number Publication Date
JP2016140055A true JP2016140055A (en) 2016-08-04
JP6631193B2 JP6631193B2 (en) 2020-01-15

Family

ID=56559405

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015226788A Active JP6631193B2 (en) 2015-01-23 2015-11-19 Video sound recording system, video sound recording device, video sound recording program, and video sound recording method

Country Status (1)

Country Link
JP (1) JP6631193B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106331501A (en) * 2016-09-21 2017-01-11 乐视控股(北京)有限公司 Sound acquisition method and device

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009296232A (en) * 2008-06-04 2009-12-17 Casio Hitachi Mobile Communications Co Ltd Sound input unit, sound input method and program
WO2014125835A1 (en) * 2013-02-15 2014-08-21 パナソニック株式会社 Directionality control system, calibration method, horizontal deviation angle computation method, and directionality control method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009296232A (en) * 2008-06-04 2009-12-17 Casio Hitachi Mobile Communications Co Ltd Sound input unit, sound input method and program
WO2014125835A1 (en) * 2013-02-15 2014-08-21 パナソニック株式会社 Directionality control system, calibration method, horizontal deviation angle computation method, and directionality control method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106331501A (en) * 2016-09-21 2017-01-11 乐视控股(北京)有限公司 Sound acquisition method and device

Also Published As

Publication number Publication date
JP6631193B2 (en) 2020-01-15

Similar Documents

Publication Publication Date Title
US9516241B2 (en) Beamforming method and apparatus for sound signal
CN102104767B (en) Facial pose improvement with perspective distortion correction
JP7026819B2 (en) Camera positioning method and equipment, terminals and computer programs
JP6348611B2 (en) Automatic focusing method, apparatus, program and recording medium
TW201246950A (en) Method of controlling audio recording and electronic device
JP2016522437A (en) Image display method, image display apparatus, terminal, program, and recording medium
CN113763228B (en) Image processing method, device, electronic equipment and storage medium
US20190005678A1 (en) Pose estimation using multiple cameras
JP6280674B1 (en) Imaging angle adjustment system, imaging angle adjustment method, and program
CN111385525B (en) Video monitoring method, device, terminal and system
US20170091899A1 (en) Image management apparatus and system, and method for controlling display of captured image
US10306394B1 (en) Method of managing a plurality of devices
JP6631193B2 (en) Video sound recording system, video sound recording device, video sound recording program, and video sound recording method
JP6711118B2 (en) Image management system, program and information terminal
US9983411B2 (en) Control apparatus and correction method
CN108924529A (en) The control method and device that image is shown
US9794685B2 (en) Video audio recording system, video audio recording device, and video audio recording method
JP2018157314A (en) Information processing system, information processing method and program
CN110443841B (en) Method, device and system for measuring ground depth
CN113432620A (en) Error estimation method, error estimation device, vehicle-mounted terminal and storage medium
US9497537B2 (en) Conference apparatus
US11184520B1 (en) Method, apparatus and computer program product for generating audio signals according to visual content
CN113409235B (en) Vanishing point estimation method and apparatus
EP3917160A1 (en) Capturing content
JP2019133217A (en) Transmission program, method and apparatus, and image composition program, method and apparatus

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181009

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190712

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190813

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191009

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191023

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191031

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191112

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191125

R151 Written notification of patent or utility model registration

Ref document number: 6631193

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151