JP6631193B2 - Video sound recording system, video sound recording device, video sound recording program, and video sound recording method - Google Patents

Video sound recording system, video sound recording device, video sound recording program, and video sound recording method Download PDF

Info

Publication number
JP6631193B2
JP6631193B2 JP2015226788A JP2015226788A JP6631193B2 JP 6631193 B2 JP6631193 B2 JP 6631193B2 JP 2015226788 A JP2015226788 A JP 2015226788A JP 2015226788 A JP2015226788 A JP 2015226788A JP 6631193 B2 JP6631193 B2 JP 6631193B2
Authority
JP
Japan
Prior art keywords
moving image
sound
unit
acquiring
obtaining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015226788A
Other languages
Japanese (ja)
Other versions
JP2016140055A (en
Inventor
亮人 相場
亮人 相場
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to US14/984,728 priority Critical patent/US9794685B2/en
Publication of JP2016140055A publication Critical patent/JP2016140055A/en
Application granted granted Critical
Publication of JP6631193B2 publication Critical patent/JP6631193B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Studio Devices (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、動画像および音を収録する動画像音収録システム、動画像音収録装置、動画像音収録プログラム、および動画像音収録方法に関する。   The present invention relates to a moving image sound recording system that records moving images and sounds, a moving image sound recording device, a moving image sound recording program, and a moving image sound recording method.

ビデオカメラやスマートフォン(高機能携帯電話機)、タブレット端末、テレビ会議装置など、カメラとマイクを内蔵し、カメラによる動画像信号の取得と並行して、マイクによる音声信号の取得を行う機能を備えた機器(デバイス)がある。   Built-in cameras and microphones, such as video cameras, smartphones (high-performance mobile phones), tablet terminals, and videoconferencing devices, equipped with a function to acquire audio signals using microphones in parallel with acquiring video signals using cameras. There are devices.

しかし、これらの機器では、カメラで撮影した被写体とは無関係で不要な音声がマイクに混入してしまう問題がある。そこで、この問題に対処した装置として、動画像信号を取得するカメラと、音声信号を取得するマイクと、前記カメラで取得された動画像信号内における撮影対象者の位置と、前記カメラが撮影に用いるパラメータ情報(画角情報、焦点距離情報など)とに基づき、自端末に対する前記撮影対象者の相対位置を推定する推定手段と、前記相対位置に向けて、前記マイクの指向性を調整する調整手段と、を備えた携帯端末がある(特許文献1)。   However, in these devices, there is a problem that unnecessary sound is mixed into the microphone irrespective of the subject photographed by the camera. Therefore, as an apparatus that addresses this problem, a camera that acquires a moving image signal, a microphone that acquires an audio signal, the position of a subject in a moving image signal acquired by the camera, Estimating means for estimating the relative position of the subject with respect to the own terminal based on parameter information (angle of view information, focal length information, etc.) to be used, and adjustment for adjusting the directivity of the microphone toward the relative position There is a portable terminal provided with the following means (Patent Document 1).

しかしながら、この携帯端末には、カメラとマイクがどちらも同一の装置に内蔵され、その位置関係が変化しないという前提がある。したがって、カメラとマイクが別々の装置に備わっており、動画像信号あるいは音声信号を無線通信等でやり取りする場合、さらにそれぞれの装置を持って動かす場合などは、その位置関係が変動するため適応できないという問題がある。   However, in this portable terminal, it is assumed that both the camera and the microphone are built in the same device, and that the positional relationship does not change. Therefore, when the camera and the microphone are provided in different devices, and a moving image signal or an audio signal is exchanged by wireless communication or the like, or when each device is moved while being held, the positional relationship is fluctuated, so that it is not possible to adapt. There is a problem.

本発明は、このような問題を解決するためになされたものであり、その目的は、動画像信号と、音信号とを同時に取得するときに、動画像信号を取得する位置と、音信号を取得する位置との関係が変化する場合でも、音信号を高精度に取得できるようにすることである。   The present invention has been made to solve such a problem, and an object of the present invention is to obtain a moving image signal and a sound signal at the same time when a moving image signal and a sound signal are simultaneously obtained. An object of the present invention is to enable a sound signal to be acquired with high accuracy even when the relationship with the position to be acquired changes.

本発明は、被写体を撮影して動画像信号を取得する動画像取得手段と、音を収録して音信号を取得する音取得手段と、前記動画像取得手段の撮影方向を表す情報、および前記動画像取得手段と前記音取得手段との位置関係を表す情報を取得する撮影パラメータ取得手段と、前記撮影パラメータ取得手段により取得された前記情報に基づいて、前記音取得手段により取得する前記音信号のうち、所定の方向の音信号を強調する音強調手段と、前記動画像取得手段の動きの状態を表す情報を取得する装置状態取得手段と、前記動画像取得手段により取得された動画像信号から、空間内の所定の基準点の座標が画像上の所定の座標と合致しているか否かを判定する基準点認識手段と、を有し、前記撮影パラメータ取得手段は、前記装置状態取得手段により取得された情報を用いて、前記動画像取得手段と前記音取得手段との位置関係を表す情報を取得し、前記基準点認識手段により合致していると判定され、かつ前記装置状態取得手段により生成された動きの状態を表す情報が静止を表しているとき、撮影方向を表す情報の基準値、および位置関係を表す情報の基準値を取得する、動画像音収録システムである。 The present invention is a moving image acquisition unit that acquires a moving image signal by photographing a subject, a sound acquisition unit that acquires a sound signal by recording a sound, information indicating a photographing direction of the moving image acquisition unit, and A photographing parameter acquiring unit for acquiring information representing a positional relationship between a moving image acquiring unit and the sound acquiring unit; and the sound signal acquired by the sound acquiring unit based on the information acquired by the photographing parameter acquiring unit. A sound emphasis unit for emphasizing a sound signal in a predetermined direction, a device state obtaining unit for obtaining information indicating a state of movement of the moving image obtaining unit, and a moving image signal obtained by the moving image obtaining unit. from have a, and the reference point recognizing means determines whether or not consistent with the predetermined coordinate on the coordinate of a predetermined reference point images in the space, the imaging parameter acquiring unit, the device status acquisition means Using the information obtained from the above, to obtain information representing the positional relationship between the moving image acquisition means and the sound acquisition means, it is determined by the reference point recognition means that it matches, and the device state acquisition means Is a moving image and sound recording system that acquires a reference value of information indicating a shooting direction and a reference value of information indicating a positional relationship when information indicating a state of motion generated by the method indicates stillness .

本発明によれば、動画像信号と、音信号とを同時に取得するときに、動画像信号を取得する位置と、音信号を取得する位置との関係が変化する場合でも、音信号を高精度に取得することができる。   According to the present invention, when simultaneously acquiring a moving image signal and a sound signal, even if the relationship between the position at which the moving image signal is acquired and the position at which the sound signal is acquired changes, the sound signal can be accurately acquired. Can be obtained.

本発明の実施形態に係る動画像音声収録ステムの構成を示すブロック図である。FIG. 1 is a block diagram showing a configuration of a moving image audio recording system according to an embodiment of the present invention. 本発明の実施形態に係る動画像音声収録システムにおける撮影パラメータ情報および装置状態情報の関係について説明するための図である。FIG. 3 is a diagram for explaining a relationship between shooting parameter information and device state information in the moving image audio recording system according to the embodiment of the present invention. 本発明の実施形態に係る動画像音声収録システムにおいて、音声収録装置に対する動画像撮影装置の位置および向きを所定の状態に調整する操作の流れの一例について説明するための図である。FIG. 7 is a diagram for explaining an example of an operation flow for adjusting the position and orientation of the moving image photographing device with respect to the sound recording device to a predetermined state in the moving image sound recording system according to the embodiment of the present invention. 本発明の実施形態に係る動画像音声収録システムが撮影パラメータ情報の基準状態を取得する処理の流れを示すフローチャートである。6 is a flowchart illustrating a flow of a process in which the moving image sound recording system according to the embodiment of the present invention acquires a reference state of shooting parameter information. 本発明の実施形態における動画像撮影装置の撮影方向と音声収録装置の指向性との対応関係について説明するための図である。FIG. 4 is a diagram for explaining a correspondence relationship between a shooting direction of the moving image shooting device and a directivity of the audio recording device according to the embodiment of the present invention. 本発明の実施形態に係る動画像音声収録システムにおいて、音声収録装置に対する動画像撮影装置の位置が変化する場合の音声収録装置の指向性の制御について説明するための図である。FIG. 5 is a diagram for describing directivity control of the audio recording device when the position of the moving image photographing device with respect to the audio recording device changes in the moving image audio recording system according to the embodiment of the present invention. 本発明の実施形態に係る動画像音声収録システムの動作を示すフローチャートである。5 is a flowchart showing an operation of the moving picture audio recording system according to the embodiment of the present invention. 本発明の実施形態に係る動画像音声収録システムを実現するコンピュータシステムのハードウェア構成を示すブロック図である。FIG. 1 is a block diagram illustrating a hardware configuration of a computer system that realizes a moving image sound recording system according to an embodiment of the present invention.

以下、本発明の実施形態について図面を参照しつつ詳細に説明する。
〈動画像音声収録システム〉
図1は、本発明の実施形態に係る動画像音声収録システム1の構成を示すブロック図である。図示のように、本発明の実施形態に係る動画像音声収録システム(以下、本システム)1は、動画像撮影装置2と、音声収録装置3からなる。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
<Movie and audio recording system>
FIG. 1 is a block diagram showing a configuration of a moving image and sound recording system 1 according to the embodiment of the present invention. As shown in the figure, a moving image audio recording system (hereinafter, this system) 1 according to an embodiment of the present invention includes a moving image photographing device 2 and an audio recording device 3.

動画像撮影装置2は被写体を撮影して動画像信号を取得する。音声収録装置3は音声を収録して音声信号(音声に対応する電気信号)を取得する。また、動画像撮影装置2は、自身が取得した動画像信号と、音声収録装置3が取得した音声信号とを結合して動画像音声信号を生成し、記憶する。   The moving image photographing apparatus 2 photographs a subject and acquires a moving image signal. The sound recording device 3 records sound and acquires a sound signal (an electric signal corresponding to the sound). In addition, the moving image photographing device 2 combines the moving image signal acquired by itself and the sound signal acquired by the sound recording device 3 to generate and store a moving image sound signal.

なお、音声収録装置3は、音声(人間の発声による音)を収録して音声信号を生成するだけでなく、周囲に他の音(物音、機械の動作音、騒音など)が存在するときは、それらの音に対応する電気信号も生成する。すなわち、音声収録装置3は、音声を含む全ての音を収録して、それらに対応する電気信号である音信号を生成する。したがって、厳密には「音声収録装置3」は「音収録装置3」、「動画像音声収録システム1」は「動画像音収録システム1」とすべきであるが、便宜上、本実施形態では「音声収録装置3」、「動画像音声収録システム1」とした。   The sound recording device 3 not only records a sound (sound generated by a human utterance) and generates a sound signal, but also generates a sound signal when other sounds (sound, machine operation sound, noise, etc.) are present in the surroundings. , Also generate electrical signals corresponding to those sounds. That is, the sound recording device 3 records all sounds including sound and generates a sound signal which is an electric signal corresponding to the sounds. Therefore, strictly speaking, “audio recording device 3” should be “sound recording device 3”, and “moving image / audio recording system 1” should be “moving image / sound recording system 1”. Audio recording device 3 "and" moving image audio recording system 1 ".

動画像撮影装置2は、動画像撮影手段21、基準点認識手段22、装置状態取得手段23、撮影パラメータ取得手段24、送信手段25、受信手段26、動画像音声結合手段27、および動画像音声記憶手段28を備えている。ここで、基準点認識手段22、撮影パラメータ取得手段24、および動画像音声結合手段27は、CPU、ROM、およびRAMを有する制御手段20により構成される。すなわち、ROMに記憶されている動画像音声収録プログラムなどのコンピュータプログラムをCPUがRAMを作業エリアとして処理することにより実現される機能ブロックである。   The moving image photographing device 2 includes a moving image photographing unit 21, a reference point recognizing unit 22, an apparatus state acquiring unit 23, a photographing parameter acquiring unit 24, a transmitting unit 25, a receiving unit 26, a moving image sound combining unit 27, and a moving image sound. The storage unit 28 is provided. Here, the reference point recognizing unit 22, the photographing parameter obtaining unit 24, and the moving image / sound combining unit 27 are configured by the control unit 20 having a CPU, a ROM, and a RAM. That is, it is a functional block realized by the CPU processing a computer program such as a moving image sound recording program stored in the ROM using the RAM as a work area.

また、音声収録装置3は、音声収録手段31、音声強調手段32、強調パラメータ制御手段33、受信手段34、および送信手段35を備えている。ここで、音声強調手段32および強調パラメータ制御手段33は、CPU、ROM、およびRAMを有する制御手段30により構成される。すなわち、ROMに記憶されている動画像音声収録プログラムなどのコンピュータプログラムをCPUがRAMを作業エリアとして処理することにより実現される機能ブロックである。   The voice recording device 3 includes a voice recording unit 31, a voice emphasis unit 32, an emphasis parameter control unit 33, a reception unit 34, and a transmission unit 35. Here, the voice emphasis means 32 and the emphasis parameter control means 33 are configured by the control means 30 having a CPU, a ROM, and a RAM. That is, it is a functional block realized by the CPU processing a computer program such as a moving image sound recording program stored in the ROM using the RAM as a work area.

《動画像撮影装置》
動画像撮影装置2における動画像撮影手段21は、例えばカメラであり、被写体を撮影して動画像信号を取得する。動画像撮影手段21は本発明に係る動画像取得手段として機能する。
《Moving image capturing device》
The moving image photographing unit 21 in the moving image photographing device 2 is, for example, a camera, and photographs a subject to acquire a moving image signal. The moving image photographing means 21 functions as a moving image acquiring means according to the present invention.

基準点認識手段22は、動画像音声収録システム1が動画像信号および音声信号の取得を開始するに先立ち、動画像撮影装置2と音声収録装置3とを所定の位置関係(以下、初期位置関係)に設定するための手段である。   The reference point recognition means 22 establishes a predetermined positional relationship (hereinafter referred to as an initial positional relationship) between the moving image photographing device 2 and the sound recording device 3 before the moving image sound recording system 1 starts acquiring moving image signals and sound signals. ).

より詳しくは、動画像信号により構成される画像上の音声収録装置3の位置(以下、動画像信号により構成される画像上の位置を画像座標という)が所定の位置であるか否かを認識し、その結果を基準点合致情報として出力する。基準点合致情報は、例えば音声収録装置3の画像座標が所定の位置である場合は“true”、所定の位置でない場合は“false”となる。認識には、例えばパターンマッチングなどの手法を用いる(詳細については図3を参照して後述する)。なお、基準点は複数あってもよく、その場合、全ての点がそれぞれの所定の座標にあるか否かを判定する。   More specifically, it is recognized whether or not the position of the audio recording device 3 on the image constituted by the moving image signal (hereinafter, the position on the image constituted by the moving image signal is referred to as image coordinates) is a predetermined position. Then, the result is output as reference point matching information. The reference point match information is, for example, “true” when the image coordinates of the audio recording device 3 are at a predetermined position, and “false” when the image coordinates are not at the predetermined position. For the recognition, for example, a technique such as pattern matching is used (the details will be described later with reference to FIG. 3). Note that there may be a plurality of reference points, and in that case, it is determined whether all the points are at the respective predetermined coordinates.

装置状態取得手段23は装置状態情報を取得する。装置状態情報とは、動画像撮影装置2の加速度や角加速度などである。装置状態情報は例えば、三次元空間内に設定したXYZ直交座標におけるX軸方向の加速度aX、Y軸方向の加速度aY、Z軸に対する角加速度ωZ、からなる3つの値の組(aX,aY,ωZ)で表すことができる。ここで、X軸およびY軸を含む面が水平面であり、Z軸は鉛直線である。これらの加速度や角加速度は、例えば加速度センサや角加速度センサを用いて取得することができる。 The device status obtaining means 23 obtains device status information. The device state information is an acceleration, an angular acceleration, and the like of the moving image photographing device 2. Device status information, for example, an acceleration a X of the X-axis direction in the XYZ orthogonal coordinates set in the three-dimensional space, the acceleration a Y of the Y-axis direction, angular acceleration omega Z for Z-axis, three values of sets of (a X , a Y , ω Z ). Here, a plane including the X axis and the Y axis is a horizontal plane, and the Z axis is a vertical line. These accelerations and angular accelerations can be obtained using, for example, an acceleration sensor or an angular acceleration sensor.

撮影パラメータ取得手段24は動画像撮影装置2の撮影パラメータ情報を取得する。撮影パラメータ情報とは、例えば、動画像撮影装置2が前述した初期位置関係に設定された状態を原点(位置関係を表す情報の基準値)、および0度(撮影方向を表す情報の基準値)としたときの、現在の動画像撮影装置2の座標(位置関係を表す情報)、および角度(撮影方向を表す情報)である。   The photographing parameter acquiring unit 24 acquires photographing parameter information of the moving image photographing device 2. The photographing parameter information includes, for example, the origin (the reference value of the information representing the positional relationship) and the 0 degree (the reference value of the information representing the photographing direction) when the moving image photographing device 2 is set to the initial positional relationship described above. Are the current coordinates (information indicating the positional relationship) and the angle (information indicating the shooting direction) of the moving image shooting device 2.

例えばこの情報は(X,Y,θ)の3組の値で表すことが出来る。これらは、装置状態情報と、基準点認識手段22の基準点合致情報から推定する。すなわち、装置状態情報を取得する時間間隔をΔt、前回推定した撮影パラメータ情報を(X0,Y0,θ0)とすると、現在の撮影パラメータ情報は下記の式〔1〕〜式〔3〕により算出できる。 For example, this information can be represented by three sets of values (X, Y, θ). These are estimated from the apparatus state information and the reference point matching information of the reference point recognition means 22. That is, assuming that the time interval for acquiring the apparatus state information is Δt and the imaging parameter information estimated last time is (X 0 , Y 0 , θ 0 ), the current imaging parameter information is represented by the following equations [1] to [3]. Can be calculated by

X=X0+aXΔt2…式〔1〕
Y=Y0+aYΔt2…式〔2〕
θ=θ0+ωZΔt2…式〔3〕
これらの式において、aXΔt2、aYΔt2、ωZΔt2は、それぞれ加速度aX、加速度aY、角加速度ωZの時間軸上の二重積分を表す。
X = X 0 + a X Δt 2 Equation (1)
Y = Y 0 + a Y Δt 2 Equation (2)
θ = θ 0 + ω Z Δt 2 Equation (3)
In these equations, a X Δt 2 , a Y Δt 2 , and ω Z Δt 2 represent a double integral on the time axis of the acceleration a X , the acceleration a Y , and the angular acceleration ω Z , respectively.

ここで、初めの推定時の(X0,Y0,θ0)については、基準点合致情報が“true”、かつ装置状態情報が静止、すなわち(aX,aY,ωZ)=(0,0,0)の状態を基準状態、すなわち(X0,Y0,θ0)=(0,0,0)とし、そこから推定を始めるやり方がある。この場合、基準状態から、装置状態情報(aX、aY、ωZ)の時間軸上の二重積分を算出することで、動画像撮影装置2の現在の位置および撮影方向を表す撮影パラメータ情報を取得する。 Here, regarding (X 0 , Y 0 , θ 0 ) at the time of the first estimation, the reference point matching information is “true” and the device state information is stationary, ie, (a X , a Y , ω Z ) = ( There is a method in which the state of ( 0 , 0 , 0 ) is set as a reference state, that is, (X 0 , Y 0 , θ 0 ) = ( 0 , 0 , 0), and estimation is started from there. In this case, from the reference state, device state information (a X, a Y, ω Z) by calculating the double integral on the time axis, imaging parameter representing the current position and the shooting direction of the video image photographing device 2 Get information.

図2は、撮影パラメータ情報と装置状態情報との関係について説明するための図である。ここで、図2Aは撮影パラメータ情報を示し、図2Bは装置状態情報を示す。   FIG. 2 is a diagram for explaining the relationship between the imaging parameter information and the device state information. Here, FIG. 2A shows photographing parameter information, and FIG. 2B shows apparatus state information.

図2Aにおいて、(X,Y,θ)=(0,0,0)の点101は初期位置関係における動画像撮影装置2の撮影パラメータ情報を表し、(X,Y,θ)=(X1,Y1,θ1)の点102は動画像撮影装置2の現在の撮影パラメータ情報を表す。また、矢印103は動画像撮影装置2の現在の撮影方向(θ1)を表す。また、(X,Y,θ)=(0,Yref,0)の点100は初期位置関係における音声収録装置3に対する撮影パラメータ情報を表す。すなわち、初期位置関係では、動画像撮影装置2に対して、音声収録装置3がY軸方向(=矢印103に示す撮影方向)にYref離れた位置に存在することを表す。 In FIG. 2A, a point 101 of (X, Y, θ) = (0, 0, 0) represents shooting parameter information of the moving image shooting apparatus 2 in the initial positional relationship, and (X, Y, θ) = (X 1 ). , Y 1 , θ 1 ) represents current shooting parameter information of the moving image shooting device 2. An arrow 103 indicates the current shooting direction (θ 1 ) of the moving image shooting device 2. A point 100 of (X, Y, θ) = (0, Y ref , 0) represents shooting parameter information for the audio recording device 3 in the initial positional relationship. That is, the initial positional relationship indicates that the audio recording device 3 is located at a position Y ref away from the moving image capturing device 2 in the Y-axis direction (= the capturing direction indicated by the arrow 103).

図2Bにおいて、aX,aY,ωZは、任意の点105(X,Y,θ)におけるX軸方向の加速度、Y軸方向の加速度、Z軸の周りの角加速度の向きを表す。 In FIG. 2B, a X , a Y , and ω Z represent directions of acceleration in the X-axis direction, acceleration in the Y-axis direction, and angular acceleration around the Z-axis at an arbitrary point 105 (X, Y, θ).

図1の説明に戻る。送信手段25は撮影パラメータ情報を音声収録装置3へ送信する。通信方法は有線通信でも無線通信でもよい。受信手段26は音声収録装置3で収録され、強調処理された音声信号(以下、強調音声信号)を受信する。この通信方法も有線通信でも無線通信でもよい。   Returning to the description of FIG. The transmitting unit 25 transmits the photographing parameter information to the audio recording device 3. The communication method may be wire communication or wireless communication. The receiving means 26 receives an audio signal recorded by the audio recording device 3 and subjected to enhancement processing (hereinafter, an emphasized audio signal). This communication method may be wire communication or wireless communication.

動画像音声結合手段27は、動画像撮影手段21により取得された動画像信号と、受信手段26により受信された強調音声信号とを結合し、関連付けられた動画像音声信号とする。動画像音声記憶手段28は、例えばハードディスク、ソリッドステートディスク、SDメモリなどからなり、動画像音声信号を記憶する。   The moving image sound combining unit 27 combines the moving image signal acquired by the moving image photographing unit 21 and the emphasized sound signal received by the receiving unit 26 to generate an associated moving image sound signal. The moving image sound storage means 28 is composed of, for example, a hard disk, a solid state disk, an SD memory, or the like, and stores moving image sound signals.

《音声収録装置》
本発明に係る音取得手段としての音声収録手段31は、例えばマイクアレイからなり、音声を収録して音声信号を生成する。音声強調手段32は、音声信号から、任意の方向から来た音声を強調した強調音声信号を生成する。強調方法には、例えばマイクアレイによるビームフォーミングや、指向性の向きの異なるマイクの切り替えなどを用いる。マイクアレイによるビームフォーミングについては後に詳述する。
《Sound recording device》
The sound recording means 31 as a sound acquisition means according to the present invention is composed of, for example, a microphone array, and records sound to generate a sound signal. The voice emphasizing means 32 generates, from the voice signal, an emphasized voice signal in which voice coming from an arbitrary direction is emphasized. As the emphasis method, for example, beam forming by a microphone array, switching of microphones having different directivity directions, and the like are used. The beam forming by the microphone array will be described later in detail.

受信手段34は動画像撮影装置2から撮影パラメータ情報を受信する。強調パラメータ制御手段33は、受信手段34により受信された撮影パラメータ情報に基づいて、音声強調手段32の強調パラメータを制御する。この強調パラメータについては後に詳述する。送信手段35は、音声強調手段32により生成された強調音声信号を動画像撮影装置2へ送信する。   The receiving unit 34 receives photographing parameter information from the moving image photographing device 2. The emphasis parameter control unit 33 controls the emphasis parameters of the voice emphasis unit 32 based on the imaging parameter information received by the reception unit 34. This emphasis parameter will be described later in detail. The transmission unit 35 transmits the enhanced audio signal generated by the audio enhancement unit 32 to the moving image photographing device 2.

なお、この実施形態では、動画像撮影装置2側に動画像音声記憶手段28があり、音声収録装置3からの音声信号を受信しているが、逆に、音声収録装置3側に動画像音声記憶手段を設けて、動画像撮影装置2からの動画像信号を受信するように構成することもできる。また、動画像音声記憶手段をさらに別の装置に設けてもよい。   In this embodiment, the moving image sound storage unit 28 is provided on the moving image photographing device 2 side and receives the sound signal from the sound recording device 3. A storage unit may be provided to receive a moving image signal from the moving image photographing device 2. Further, the moving image sound storage means may be provided in another device.

また、この実施形態では、動画像音声信号を最終的に記憶しているが、例えばディスプレイやスピーカなどの出力手段を設けて、そこから出力してもよいし、テレビ会議のような用途でネットワークを介して他装置へ送信してもよい。   In this embodiment, the moving image sound signal is finally stored. However, for example, an output unit such as a display or a speaker may be provided and output from the unit. May be transmitted to another device via the.

また、この実施形態では、動画像撮影装置2と音声収録装置3とが初期位置関係であることを認識した後は、音声収録装置3は動かず、動画像撮影装置2が動くことを前提としているため、装置状態取得手段23を動画像撮影装置23内に設けたが、音声収録装置3内にも装置状態取得手段を設けることで、音声収録装置3の装置状態情報を取得するように構成してもよい。このように構成すれば、音声収録装置3が動いても、動画像撮影装置2は撮影パラメータ情報を取得することができる。   Further, in this embodiment, after recognizing that the moving image photographing apparatus 2 and the sound recording apparatus 3 have the initial positional relationship, the sound recording apparatus 3 does not move and the moving image photographing apparatus 2 moves. Therefore, the device status acquisition unit 23 is provided in the moving image photographing device 23, but the device status acquisition unit is also provided in the audio recording device 3 to acquire the device status information of the audio recording device 3. May be. With this configuration, even when the audio recording device 3 moves, the moving image photographing device 2 can acquire photographing parameter information.

〈撮影パラメータ情報の基準状態の取得〉
音声収録装置3に対する動画像撮影装置2の位置、および向きを所定の状態に調整する操作の流れの一例について図3を参照して説明する。ここでは、図3Aに示すように、動画像撮影装置2をカメラ付きタブレット端末とし、音声収録装置3を動画像撮影装置2と無線通信可能なワイヤレスマイクとした。
<Acquisition of reference state of shooting parameter information>
An example of an operation flow for adjusting the position and orientation of the moving image photographing device 2 with respect to the audio recording device 3 to a predetermined state will be described with reference to FIG. Here, as shown in FIG. 3A, the moving image photographing device 2 was a tablet terminal with a camera, and the audio recording device 3 was a wireless microphone capable of wireless communication with the moving image photographing device 2.

この操作は第1〜第3の前提のもとで実行する。
第1の前提:音声収録装置3上の3点を基準点とする。ここでは、図3Aに示すように、音声収録装置3に付けた3つの十字型のマーカーPa、Pb、Pcの中心を基準点とした。
第2の前提:この3点を、所定の位置、所定の向きで動画像撮影装置2により撮影したときの画像座標をそれぞれ(xa,ya)、(xb,yb)、(xc,yc)とする。
第3の前提:そのとき、音声収録装置3は静止していなければならない。
This operation is performed under the first to third assumptions.
First assumption: three points on the audio recording device 3 are set as reference points. Here, as shown in FIG. 3A, the center of three cross-shaped markers Pa, Pb, Pc attached to the audio recording device 3 was set as a reference point.
Second premise: When these three points are photographed by the moving image photographing apparatus 2 at a predetermined position and a predetermined direction, image coordinates are (xa, ya), (xb, yb), and (xc, yc), respectively. I do.
Third premise: At that time, the audio recording device 3 must be stationary.

ユーザは撮影中の音声収録装置3の画像を見ながら、3つの基準点であるマーカーPa、Pb、Pcの中心がそれぞれ(x1,y1)、(x2,y2)、(x3,y3)に一致するように動画像撮影装置2を動かす。このとき、確認用に撮影中の画像の(x1,y1)、(x2,y2)、(x3,y3)の点にガイドを表示することが好適である。ここでは、図3Bに示すように、(x1,y1)、(x2,y2)、(x3,y3)を指示する矢印P1、P2、P3をディスプレイ200に表示した。 User while viewing the image of the speech recording device 3 in the shooting, the marker Pa is three reference points, Pb, the center of the Pc are each (x 1, y 1), (x 2, y 2), (x 3 , Y 3 ). At this time, it is preferable to display a guide at points (x 1 , y 1 ), (x 2 , y 2 ), and (x 3 , y 3 ) of the image being captured for confirmation. Here, as shown in FIG. 3B, arrows P 1 , P 2 , and P 3 indicating (x 1 , y 1 ), (x 2 , y 2 ), and (x 3 , y 3 ) are displayed on the display 200. did.

ユーザが動画像撮影装置2を動かした結果、図3Cに示すように、撮影中の画像上の3つの基準点の座標がそれぞれ(x1,y1)、(x2,y2)、(x3,y3)に一致すると、基準点認識手段22は基準点合致情報として“true”を出力する。 As a result of the user moving the moving image photographing apparatus 2, as shown in FIG. 3C, the coordinates of three reference points on the image being photographed are (x 1 , y 1 ), (x 2 , y 2 ), and ( (x 3 , y 3 ), the reference point recognition means 22 outputs “true” as reference point match information.

さらに、装置状態取得手段23は、動画像撮影装置2の加速度および角加速度をセンサから取得し、装置状態情報を出力する。動画像撮影装置2が静止していれば装置状態情報は(0,0,0)を示す。   Further, the device state acquisition unit 23 acquires the acceleration and the angular acceleration of the moving image photographing device 2 from the sensor, and outputs device state information. If the moving image photographing apparatus 2 is stationary, the apparatus state information indicates (0, 0, 0).

基準点合致情報として“true”を、装置状態情報として(0,0,0)を受け取った撮影パラメータ取得手段24は、その時点の状態を、座標、角度計算のための基準状態とする。すなわち、撮影パラメータ情報:(X,Y,θ)=(0,0,0)とし、操作を終了する。   Upon receiving “true” as the reference point match information and (0, 0, 0) as the apparatus state information, the imaging parameter acquiring unit 24 sets the state at that time as a reference state for calculating coordinates and angles. That is, the shooting parameter information: (X, Y, θ) = (0, 0, 0), and the operation ends.

図4は、動画像音声収録システム1が撮影パラメータ情報の基準状態を取得する処理の流れを示すフローチャートである。   FIG. 4 is a flowchart showing a flow of processing in which the moving image sound recording system 1 acquires the reference state of the shooting parameter information.

まず、動画像撮影手段21が動画像信号を取得する(ステップS1)。次に、取得された動画像信号により構成される動画像上の基準点の画像座標(例えば図3BにおけるマーカーPa、Pb、Pcの中心の画像座標(xa,ya)、(xb,yb)、(xc,yc))が所定の座標(例えば(x1,y1)、(x2,y2)、(x3,y3))と一致しているか否かを基準点認識手段22が判定する(ステップS2)。判定の結果、一致していれば(ステップS2:YES)、ステップS3へ進み、一致していなければ(ステップS2:NO)、ステップS1に戻る。 First, the moving image photographing means 21 acquires a moving image signal (step S1). Next, the image coordinates of the reference point on the moving image constituted by the acquired moving image signals (for example, the image coordinates (xa, ya), (xb, yb) of the center of the markers Pa, Pb, Pc in FIG. 3B), (xc, yc)) is predetermined coordinate (e.g. (x 1, y 1), (x 2, y 2), the (x 3, y 3)) the reference point recognizing means 22 whether or not consistent with the A determination is made (step S2). As a result of the determination, if they match (step S2: YES), the process proceeds to step S3, and if they do not match (step S2: NO), the process returns to step S1.

ステップS3では、装置状態取得手段23が装置状態情報(aX,aY,ωZ)を取得する。次に、この装置状態情報が、動画像撮影装置2が静止していることを示しているか否か、すなわち(aX,aY,ωZ)=(0,0,0)であるか否かを撮影パラメータ取得手段24が判定する(ステップS4)。判定の結果、静止していることを示していれば(ステップS4:YES)、ステップS5へ進み、静止していることを示していなければ(ステップS4:NO)、ステップS1に戻る。 In step S3, the device status obtaining means 23 obtains the device status information (a X , a Y , ω Z ). Next, it is determined whether or not the device status information indicates that the moving image capturing device 2 is stationary, that is, whether (a X , a Y , ω Z ) = (0, 0, 0). The photographing parameter acquisition unit 24 determines whether the operation is completed (step S4). If the result of the determination indicates that the vehicle is stationary (step S4: YES), the process proceeds to step S5. If the result does not indicate that the vehicle is stationary (step S4: NO), the process returns to step S1.

ステップS5では、撮影パラメータ取得手段24が、現在の撮影パラメータ情報を基準状態に設定する。すなわち(aX,aY,ωZ)=(0,0,0)のとき、動画像撮影装置2の撮影パラメータ情報(X,Y,θ)として、基準状態、すなわち(X0,Y0,θ0)=(0,0,0)を設定する。この結果、例えば図3のマーカーPa、Pb、Pcの中心が矢印P1、P2、P3の先端に一致し、かつ動画像撮影装置2が静止している時に、図2Aの点101における撮影パラメータ情報が設定される。 In step S5, the shooting parameter acquisition unit 24 sets the current shooting parameter information to the reference state. That is, when (a X , a Y , ω Z ) = (0, 0, 0), the shooting condition information (X, Y, θ) of the moving image shooting device 2 is set as the reference state, that is, (X 0 , Y 0) , Θ 0 ) = (0, 0 , 0 ). As a result, for example, when the centers of the markers Pa, Pb, and Pc in FIG. 3 coincide with the tips of the arrows P 1 , P 2 , and P 3 , and the moving image photographing apparatus 2 is stationary, the point 101 in FIG. The shooting parameter information is set.

〈動画像撮影装置の撮影方向と音声収録装置の指向性との関係〉
図5は、動画像音声収録システム1における動画像撮影装置2の撮影方向と音声収録装置3の指向性との対応関係について説明するための図である。
<Relationship between shooting direction of moving image shooting device and directivity of audio recording device>
FIG. 5 is a diagram for explaining the correspondence between the shooting direction of the moving image photographing device 2 and the directivity of the sound recording device 3 in the moving image sound recording system 1.

図5Aは、動画像撮影手段21の撮影方向が音声収録装置3に向かう方向111である状態を示している。この図において、p,q,r,sはマイク(音声収録手段31)を表している。すなわち、4つのマイクが正方形の頂点に配置されているといえる。   FIG. 5A shows a state in which the shooting direction of the moving image shooting means 21 is the direction 111 toward the audio recording device 3. In this figure, p, q, r, and s represent microphones (voice recording means 31). That is, it can be said that four microphones are arranged at the vertices of the square.

この状態では、音声収録装置3の指向性を、動画像撮影手段21の中心に向いている方向にピーク値を有する指向性121、およびその反対の方向にピーク値を有する指向性122からなる双極性にする。   In this state, the directivity of the audio recording device 3 is changed to a dipole comprising a directivity 121 having a peak value in the direction toward the center of the moving image photographing means 21 and a directivity 122 having a peak value in the opposite direction. Sex.

図5Bは、動画像撮影手段21の撮影方向が音声収録装置3へ向かう方向から反時計回りにθ回転した方向112に向いている状態を示している。この状態では、音声収録装置3の指向性を、動画像撮影手段21への方向から時計回りにφ回転した方向113にピーク値を有する指向性123からなる単極性にする。   FIG. 5B shows a state in which the shooting direction of the moving image shooting means 21 is oriented in a direction 112 rotated counterclockwise θ from a direction toward the audio recording device 3. In this state, the directivity of the audio recording device 3 is unipolar consisting of the directivity 123 having a peak value in the direction 113 rotated clockwise φ from the direction toward the moving image photographing means 21.

図5Cは、動画像撮影手段21の撮影方向が音声収録装置3へ向かう方向から時計回りにθ回転した方向114に向いている状態を示している。この状態では、音声収録装置3の指向性を、動画像撮影手段21への方向から反時計回りにφ回転した方向115にピーク値を有する指向性124からなる単極性にする。   FIG. 5C shows a state in which the shooting direction of the moving image shooting means 21 is oriented in the direction 114 clockwise rotated θ from the direction toward the audio recording device 3. In this state, the directivity of the audio recording device 3 is made unipolar consisting of the directivity 124 having a peak value in the direction 115 rotated counterclockwise φ from the direction toward the moving image photographing means 21.

図5A、図5B、図5Cに示すように、通常、注目している音源は動画像撮影手段21の撮影方向111、112、114に位置すると考えられるため、音声収録装置3の指向性を122、123、124のように設定することにより、音源からの音を強調することができる。これらの指向性を実現するには、音声収録装置3の強調パラメータ制御手段33が制御信号として、撮影方向情報θに応じて形成する指向性の種類(単極性か双極性か)と、その向きを示すφの値を音声強調手段32に出力し、音声強調手段32がその制御信号を基に指向性を形成することになる。   As shown in FIG. 5A, FIG. 5B, and FIG. 5C, the sound source of interest is generally considered to be located in the shooting directions 111, 112, and 114 of the moving image shooting means 21, so that the directivity of the sound recording device 3 is set to 122. , 123, and 124, the sound from the sound source can be emphasized. In order to realize these directivities, the type of directivity (unipolar or bipolar) formed by the enhancement parameter control means 33 of the audio recording device 3 as a control signal in accordance with the imaging direction information θ, and its direction Is output to the voice emphasizing means 32, and the voice emphasizing means 32 forms directivity based on the control signal.

θとφとの関係を示すテーブルの一例を下記の表1に示す。ここで、θ=0は図5Aに示されている方向111、すなわち、動画像撮影手段21の中心から音声収録装置3のマイクに向かう方向である。また、時計回りがθのプラス方向、反時計回りがθのマイナス方向である。つまり、図5Bではθはほぼ−π/4であり、図5Cではθはほぼπ/4である。   An example of a table showing the relationship between θ and φ is shown in Table 1 below. Here, θ = 0 is the direction 111 shown in FIG. 5A, that is, the direction from the center of the moving image photographing means 21 to the microphone of the audio recording device 3. The clockwise direction is the plus direction of θ, and the counterclockwise direction is the minus direction of θ. That is, in FIG. 5B, θ is approximately −π / 4, and in FIG. 5C, θ is approximately π / 4.

Figure 0006631193
Figure 0006631193

また、表1において、φ=0は音声収録装置3から動画像撮影手段21の中心に向かう方向、すなわちθ=πの方向である。また、時計回りがφのプラス方向、反時計回りがφのマイナス方向である。   In Table 1, φ = 0 is a direction from the audio recording device 3 toward the center of the moving image photographing means 21, that is, a direction of θ = π. The clockwise direction is the plus direction of φ, and the counterclockwise direction is the minus direction of φ.

したがって、図5A、図5B、図5Cと表1との関係は下記のようになる。
図5A:「−π/6<θ≦π/6」・・・「双極性、φ=0」
図5B:「7π/6<θ≦11π/6」・・・「単極性、φ=π/4」
図5C:「π/6<θ≦5π/6」・・・「単極性、φ=−π/4」
Therefore, the relationship between FIGS. 5A, 5B, and 5C and Table 1 is as follows.
FIG. 5A: “−π / 6 <θ ≦ π / 6”... “Bipolar, φ = 0”
FIG. 5B: “7π / 6 <θ ≦ 11π / 6”... “Unipolar, φ = π / 4”
FIG. 5C: “π / 6 <θ ≦ 5π / 6”... “Unipolar, φ = −π / 4”

音声信号を強調する方法としては、マイクアレイによるビームフォーミングなどを用いる。例えば、φ方向に指向性を形成する場合、遅延和ビームフォーミングでは下記の式〔4〕で強調音声信号が得られる。   As a method of emphasizing the audio signal, beamforming by a microphone array or the like is used. For example, when the directivity is formed in the φ direction, an enhanced audio signal is obtained by the following equation [4] in the delay-sum beamforming.

Y(ω)=WH(ω)z(ω) …式〔4〕
ここでωは音声信号のスペクトルの角周波数、Yは強調音声信号のスペクトル、zは入力音声信号のスペクトル、Wは強調のためのフィルタ係数、Hは複素共役転置を表す。zとWはベクトル表現になっており、それぞれ、下記の式〔5〕、〔6〕で表される。
Y (ω) = W H (ω) z (ω) Equation (4)
Here, ω is the angular frequency of the spectrum of the audio signal, Y is the spectrum of the enhanced audio signal, z is the spectrum of the input audio signal, W is the filter coefficient for enhancement, and H is the complex conjugate transpose. z and W are expressed in a vector, and are represented by the following equations [5] and [6], respectively.

z(ω)=[Z1(ω),・・・,ZM(ω)]T …式〔5〕
W(ω)=[W1(ω),・・・,WM(ω)]T …式〔6〕
ここで、Zの添え字はマイクの番号を表し、Mはマイクの個数である。また、Tは行列の転置を表す。
z (ω) = [Z 1 (ω),..., Z M (ω)] T ...
W (ω) = [W 1 (ω),..., W M (ω)] T ...
Here, the suffix of Z represents the microphone number, and M is the number of microphones. T represents transposition of a matrix.

ここでWの値は、各マイクの位置と強調したい音源の方向が同一平面状にあるとすると、次の式〔7〕のようになる。
m(ω)=exp{j(ω/c)(xmsinφ+ymcosφ)} …式〔7〕
ここで、cは音速、xm,mはマイクの座標、φは強調したい音声信号の音源の方向である。
Here, when the position of each microphone and the direction of the sound source to be emphasized are on the same plane, the value of W is as shown in the following equation [7].
W m (ω) = exp { j (ω / c) (x m sinφ + y m cosφ)} ... Equation [7]
Here, c is the sound velocity, x m, the y m coordinates of the microphone, phi is the direction of the sound source of the audio signal to be emphasized.

〈音声収録装置に対する動画像撮影装置の位置が変化する場合の音声収録装置の指向性の制御〉
図6は、音声収録装置に対する動画像撮影装置の位置が変化する場合の音声収録装置の指向性の制御について説明するための図である。
<Directivity control of the audio recording device when the position of the moving image capturing device with respect to the audio recording device changes>
FIG. 6 is a diagram for describing control of directivity of the audio recording device when the position of the moving image capturing device with respect to the audio recording device changes.

この場合は例えば、音声収録装置3から見て、360度(2π)を8分割した領域a〜hのどこに動画像撮影装置2が位置するかで制御信号を切り替える。例えば図示のように動画像撮影装置2が領域cに位置する場合、下記の表2のように撮影方向θと制御信号(指向性の種類、向きφ)を設定する。   In this case, for example, the control signal is switched depending on where the moving image photographing apparatus 2 is located in the areas a to h obtained by dividing 360 degrees (2π) into eight parts when viewed from the audio recording apparatus 3. For example, when the moving image photographing apparatus 2 is located in the area c as shown in the figure, the photographing direction θ and the control signal (the type of directivity, the direction φ) are set as shown in Table 2 below.

Figure 0006631193
Figure 0006631193

この表において、θ=0は音声収録装置3から領域eの中心に向かう方向である。また、時計回りがθのプラス方向、反時計回りがθのマイナス方向である。また、φ=0は音声収録装置3から領域aの中心に向かう方向である。また、時計回りがφのプラス方向、反時計回りがφのマイナス方向である。   In this table, θ = 0 is a direction from the audio recording device 3 toward the center of the area e. The clockwise direction is the plus direction of θ, and the counterclockwise direction is the minus direction of θ. Φ = 0 is a direction from the audio recording device 3 toward the center of the area a. The clockwise direction is the plus direction of φ, and the counterclockwise direction is the minus direction of φ.

この表に示すデータを持つテーブルを領域毎に用意することで、音声収録装置3に対する動画像撮影装置2の方向が変化しても、適切な指向性を形成することができる。なお、動画像撮影装置2が領域c以外の領域(以下、注目領域)に位置するときは、表2におけるθの範囲の値を領域cと注目領域との角度差を付加した値にすればよい。   By preparing a table having the data shown in this table for each area, an appropriate directivity can be formed even if the direction of the moving image photographing device 2 with respect to the audio recording device 3 changes. When the moving image photographing apparatus 2 is located in a region other than the region c (hereinafter, the region of interest), the value of the range of θ in Table 2 may be set to a value obtained by adding the angle difference between the region c and the region of interest. Good.

なお、ここではφの値を4段階に変化させているが、例えばθの値に応じて連続的に変化させるなど、より多くの段階に変化させてもよい。   Although the value of φ is changed in four steps here, it may be changed in more steps, for example, continuously changed according to the value of θ.

〈動画像音声収録システムの動作〉
図7は、動画像音声収録システム1の動作を示すフローチャートである。
<Operation of video and audio recording system>
FIG. 7 is a flowchart showing the operation of the moving picture audio recording system 1.

まず、動画像撮影装置2では、装置状態取得手段23が装置状態情報を取得する(ステップS11)。次に、撮影パラメータ取得手段24が、ステップS1で取得された装置状態情報から撮影パラメータ情報を推定する(ステップS12)。このときの基準状態については図4に示した処理により設定済みのものを用いる。   First, in the moving image photographing device 2, the device state obtaining means 23 obtains device state information (step S11). Next, the photographing parameter acquiring unit 24 estimates photographing parameter information from the apparatus state information acquired in step S1 (step S12). At this time, the reference state that has been set by the processing shown in FIG. 4 is used.

次いで、送信手段25が、ステップS2で推定された撮影パラメータ情報を音声収録装置3へ送信する(ステップS13)。次に、動画像撮影手段21が動画像信号を取得する(ステップS14)。   Next, the transmission unit 25 transmits the imaging parameter information estimated in step S2 to the audio recording device 3 (step S13). Next, the moving image photographing means 21 acquires a moving image signal (step S14).

音声収録装置3では、受信手段34が撮影パラメータ情報を受信し(ステップS21)、強調パラメータ制御手段33が、ステップS21で受信された撮影パラメータ情報に応じて、音声強調パラメータを制御する(ステップS22)。   In the audio recording device 3, the receiving unit 34 receives the imaging parameter information (Step S21), and the enhancement parameter control unit 33 controls the audio enhancement parameter according to the imaging parameter information received in Step S21 (Step S22). ).

次に、音声収録手段31が音声信号を取得し(ステップS23)、音声強調手段32が、ステップS23で取得された音声信号をステップS22で取得された音声強調パラメータに基づいて強調処理し、強調音声信号を取得する(ステップS24)。次に、送信手段35が、ステップS24で取得された強調音声信号を動画像撮影装置2へ送信し、音声収録装置3側の処理を終える。   Next, the voice recording unit 31 acquires a voice signal (step S23), and the voice emphasis unit 32 emphasizes the voice signal acquired in step S23 based on the voice enhancement parameter acquired in step S22, and emphasizes the voice signal. An audio signal is obtained (step S24). Next, the transmitting unit 35 transmits the emphasized audio signal acquired in step S24 to the moving image photographing device 2, and ends the processing on the audio recording device 3 side.

動画像撮影装置2では、受信手段26が強調音声信号を受信し(ステップS15)、動画像音声結合手段27が、ステップ14で取得された動画像信号と、ステップS15で受信された強調音声信号を結合して、動画像音声信号を取得する(ステップS16)。次に、動画像音声記憶手段28が、ステップS15で取得された動画像音声信号を記憶し(ステップS17)、動画像撮影装置2側の処理を終える。   In the moving image photographing apparatus 2, the receiving means 26 receives the emphasized sound signal (step S15), and the moving image and sound combining means 27 outputs the moving image signal acquired in step 14 and the emphasized sound signal received in step S15. Are combined to obtain a moving image audio signal (step S16). Next, the moving image sound storage unit 28 stores the moving image sound signal acquired in step S15 (step S17), and ends the processing on the moving image photographing apparatus 2 side.

〈動画像音声収録システムを実現するコンピュータシステム〉
図8は、動画像撮影装置2および音声収録装置3を実現するコンピュータシステムのハードウェア構成を示すブロック図である。
<Computer system that implements a video and audio recording system>
FIG. 8 is a block diagram illustrating a hardware configuration of a computer system that implements the moving image photographing device 2 and the audio recording device 3.

動画像撮影装置2および音声収録装置3は、図8に示すような汎用のコンピュータシステムにより実現することができる。このコンピュータシステムは、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、HDD(Hard Disk Drive)14、およびI/F(インタフェース)15がバス10を介して接続された構成を有し、I/F15にはLCD(Liquid Crystal Display)などの表示部16および操作部17が接続されている。   The moving image photographing device 2 and the audio recording device 3 can be realized by a general-purpose computer system as shown in FIG. In this computer system, a CPU (Central Processing Unit) 11, a ROM (Read Only Memory) 12, a RAM (Random Access Memory) 13, an HDD (Hard Disk Drive) 14, and an I / F (interface) 15 are connected via a bus 10. A display unit 16 such as an LCD (Liquid Crystal Display) and an operation unit 17 are connected to the I / F 15.

CPU11は演算手段であり、コンピュータシステム全体の動作を制御する。ROM12は、読み出し専用の不揮発性記憶媒体であり、ファームウェア等のプログラムが格納されている。RAM13は、情報の高速な読み書きが可能な揮発性の記憶媒体であり、CPU11が情報を処理する際の作業領域として用いられる。HDD14は、情報の読み書きが可能な不揮発性の記憶媒体であり、OS(Operating System)や各種の制御プログラム、アプリケーションプログラム等が格納されている。I/F15は、バスと各種のハードウェアやネットワーク等を接続し制御する。表示部16は、ユーザがコンピュータシステムの状態を確認するための視覚的ユーザインタフェースである。操作部17は、キーボードやマウス等、ユーザがコンピュータシステムに情報を入力するためのユーザインタフェースである。   The CPU 11 is an arithmetic unit, and controls the operation of the entire computer system. The ROM 12 is a read-only nonvolatile storage medium and stores programs such as firmware. The RAM 13 is a volatile storage medium capable of reading and writing information at a high speed, and is used as a work area when the CPU 11 processes information. The HDD 14 is a non-volatile storage medium that can read and write information, and stores an OS (Operating System), various control programs, application programs, and the like. The I / F 15 connects and controls a bus with various hardware and a network. The display unit 16 is a visual user interface for the user to check the state of the computer system. The operation unit 17 is a user interface such as a keyboard and a mouse for a user to input information to the computer system.

以上詳細に説明したように、本発明の実施形態に係る動画像音声収録システム1には下記(1)〜(5)の特徴がある。
(1)音声収録手段31に対する動画像撮影手段21の位置、および動画像撮影手段21の撮影方向を推定し、その推定結果に応じて、音声収録手段31へ到来する音声の方向を特定し、音声収録手段31の指向性を変化させるので、音声収録手段31と動画像撮影手段21との位置関係が変化する場合でも、良好な音声信号を取得することができる。
(2)動画像撮影手段21の撮影方向の推定結果に応じて、撮影範囲の外側から到来する音を相対的に多く抑圧することができる。
(3)動画像撮影装置2の加速度および角加速度から、動画像撮影装置2の位置および撮影方向を推定することができる。
(4)音声収録手段31に対する動画像撮影手段21の基準位置、および動画像撮影手段21の基準の撮影方向を、位置および撮影方向の推定に利用することができる。
(5)ユーザシステム利用時に、音声収録手段31に対する動画像撮影手段21の基準位置、および動画像撮影手段21の基準の撮影方向を得ることができる。
As described in detail above, the moving picture audio recording system 1 according to the embodiment of the present invention has the following features (1) to (5).
(1) The position of the moving image photographing means 21 with respect to the sound recording means 31 and the photographing direction of the moving image photographing means 21 are estimated, and the direction of the sound arriving at the sound recording means 31 is specified according to the estimation result. Since the directivity of the audio recording unit 31 is changed, a good audio signal can be obtained even when the positional relationship between the audio recording unit 31 and the moving image photographing unit 21 changes.
(2) According to the estimation result of the shooting direction of the moving image shooting means 21, sounds coming from outside the shooting range can be suppressed relatively more.
(3) From the acceleration and the angular acceleration of the moving image photographing device 2, the position and the photographing direction of the moving image photographing device 2 can be estimated.
(4) The reference position of the moving image photographing means 21 with respect to the voice recording means 31 and the reference photographing direction of the moving image photographing means 21 can be used for estimating the position and the photographing direction.
(5) When using the user system, the reference position of the moving image photographing means 21 with respect to the sound recording means 31 and the reference photographing direction of the moving image photographing means 21 can be obtained.

なお、以上説明した実施形態では、動画像撮影装置2と、音声収録装置3とが別々の装置であり、かつ動画像撮影装置2が動画像撮影手段(カメラ)21を内蔵し、音声収録装置3が音声収録手段(マイク)31を内蔵しているが、動画像撮影装置と音声収録装置とを1つの動画像音声収録装置とし、かつ動画像撮影手段、音声収録手段を装置と別に設けるように構成してもよい。   In the embodiment described above, the moving image photographing device 2 and the sound recording device 3 are separate devices, and the moving image photographing device 2 has a built-in moving image photographing means (camera) 21 and the sound recording device 3 has a built-in voice recording means (microphone) 31, but the moving image photographing apparatus and the voice recording apparatus are made into one moving picture voice recording apparatus, and the moving picture photographing means and the voice recording means are provided separately from the apparatus. May be configured.

1…動画像音声収録システム、2…動画像撮影装置、3…音声収録装置、21…動画像撮影手段、22…基準点認識手段、23…装置状態取得手段、24…撮影パラメータ取得手段、31…音声収録手段、32…音声強調手段、33…強調パラメータ制御手段。   DESCRIPTION OF SYMBOLS 1 ... Moving image sound recording system, 2 ... Moving image photographing apparatus, 3 ... Sound recording apparatus, 21 ... Moving image photographing means, 22 ... Reference point recognition means, 23 ... Device state acquisition means, 24 ... Imaging parameter acquisition means, 31 ... voice recording means, 32 ... voice emphasis means, 33 ... emphasis parameter control means.

特開2011−41096号公報JP 2011-41096 A

Claims (8)

被写体を撮影して動画像信号を取得する動画像取得手段と、
音を収録して音信号を取得する音取得手段と、
前記動画像取得手段の撮影方向を表す情報、および前記動画像取得手段と前記音取得手段との位置関係を表す情報を取得する撮影パラメータ取得手段と、
前記撮影パラメータ取得手段により取得された前記情報に基づいて、前記音取得手段により取得する前記音信号のうち、所定の方向の音信号を強調する音強調手段と、
前記動画像取得手段の動きの状態を表す情報を取得する装置状態取得手段と、
前記動画像取得手段により取得された動画像信号から、空間内の所定の基準点の座標が画像上の所定の座標と合致しているか否かを判定する基準点認識手段と、
を有し、
前記撮影パラメータ取得手段は、前記装置状態取得手段により取得された情報を用いて、前記動画像取得手段と前記音取得手段との位置関係を表す情報を取得し、前記基準点認識手段により合致していると判定され、かつ前記装置状態取得手段により生成された動きの状態を表す情報が静止を表しているとき、撮影方向を表す情報の基準値、および位置関係を表す情報の基準値を取得する、動画像音収録システム。
Moving image acquisition means for photographing a subject and acquiring a moving image signal;
Sound acquisition means for recording sound and acquiring a sound signal;
Shooting parameter obtaining means for obtaining information indicating a shooting direction of the moving image obtaining means, and information indicating a positional relationship between the moving image obtaining means and the sound obtaining means,
A sound emphasis unit that emphasizes a sound signal in a predetermined direction, among the sound signals acquired by the sound acquisition unit, based on the information acquired by the shooting parameter acquisition unit;
An apparatus state acquisition unit that acquires information representing a state of movement of the moving image acquisition unit,
From a moving image signal acquired by the moving image acquiring unit, a reference point recognizing unit that determines whether coordinates of a predetermined reference point in space match predetermined coordinates on the image,
Has,
The photographing parameter acquiring unit acquires information representing a positional relationship between the moving image acquiring unit and the sound acquiring unit using the information acquired by the device state acquiring unit, and matches information obtained by the reference point recognizing unit. And when the information indicating the state of motion generated by the apparatus state obtaining means indicates stationary, the reference value of the information indicating the shooting direction and the reference value of the information indicating the positional relationship are obtained. A video recording system.
請求項1に記載された動画像音収録システムにおいて、
前記音強調手段は、前記撮影パラメータ取得手段により取得された前記情報から推定される撮影範囲の外側から到来する音を相対的に多く抑圧する、動画像音収録システム。
The moving image sound recording system according to claim 1,
The moving image sound recording system, wherein the sound emphasizing unit suppresses a relatively large amount of sound coming from outside a photographing range estimated from the information acquired by the photographing parameter acquiring unit.
請求項1に記載された動画像音収録システムにおいて、
前記位置関係を表す情報は、前記音取得手段に対する前記動画像取得手段の位置を表す情報である、動画像音収録システム。
The moving image sound recording system according to claim 1,
The moving image sound recording system, wherein the information indicating the positional relationship is information indicating a position of the moving image obtaining unit with respect to the sound obtaining unit.
請求項1に記載された動画像音収録システムにおいて、
前記動きの状態を表す情報は、加速度および角加速度を表す情報である、動画像音収録システム。
The moving image sound recording system according to claim 1,
The moving image sound recording system, wherein the information indicating the state of the movement is information indicating acceleration and angular acceleration.
請求項1に記載された動画像音収録システムにおいて、
前記撮影パラメータ取得手段が前記撮影方向を表す情報の基準値および位置関係を表す情報の基準値を取得するまで、前記動画像取得手段の位置と向きの調整をガイドする表示を行う手段を有する、動画像音収録システム。
The moving image sound recording system according to claim 1,
Until the photographing parameter acquiring unit acquires the reference value of the information representing the photographing direction and the reference value of the information representing the positional relationship, a unit performing a display for guiding adjustment of the position and orientation of the moving image acquiring unit, Video sound recording system.
被写体を撮影して動画像信号を取得する動画像取得手段と、
音を収録して音信号を取得する音取得手段と、
前記動画像取得手段の撮影方向を表す情報、および前記動画像取得手段と前記音取得手段との位置関係を表す情報を取得する撮影パラメータ取得手段と、
前記撮影パラメータ取得手段により取得された前記情報に基づいて、前記音取得手段により取得する前記音信号のうち、所定の方向の音信号を強調する音強調手段と、
前記動画像取得手段の動きの状態を表す情報を取得する装置状態取得手段と、
前記動画像取得手段により取得された動画像信号から、空間内の所定の基準点の座標が画像上の所定の座標と合致しているか否かを判定する基準点認識手段と、
を有し、
前記撮影パラメータ取得手段は、前記装置状態取得手段により取得された情報を用いて、前記動画像取得手段と前記音取得手段との位置関係を表す情報を取得し、前記基準点認識手段により合致していると判定され、かつ前記装置状態取得手段により生成された動きの状態を表す情報が静止を表しているとき、撮影方向を表す情報の基準値、および位置関係を表す情報の基準値を取得する、動画像音収録装置。
Moving image acquisition means for photographing a subject and acquiring a moving image signal;
Sound acquisition means for recording sound and acquiring a sound signal;
Shooting parameter obtaining means for obtaining information indicating a shooting direction of the moving image obtaining means, and information indicating a positional relationship between the moving image obtaining means and the sound obtaining means,
A sound emphasis unit that emphasizes a sound signal in a predetermined direction, among the sound signals acquired by the sound acquisition unit, based on the information acquired by the shooting parameter acquisition unit;
An apparatus state acquisition unit that acquires information representing a state of movement of the moving image acquisition unit,
From a moving image signal acquired by the moving image acquiring unit, a reference point recognizing unit that determines whether coordinates of a predetermined reference point in space match predetermined coordinates on the image,
Has,
The photographing parameter acquiring unit acquires information representing a positional relationship between the moving image acquiring unit and the sound acquiring unit using the information acquired by the device state acquiring unit, and matches information obtained by the reference point recognizing unit. And when the information indicating the state of motion generated by the apparatus state obtaining means indicates stationary, the reference value of the information indicating the shooting direction and the reference value of the information indicating the positional relationship are obtained. A video sound recording device.
動画像取得手段により取得された動画像信号、および音取得手段により取得された音信号をコンピュータにより処理する動画像音収録プログラムであって、
前記コンピュータを、
前記動画像取得手段の撮影方向を表す情報、および前記動画像取得手段と前記音取得手段との位置関係を表す情報を取得する撮影パラメータ取得手段と、前記撮影パラメータ取得手段により取得された前記情報に基づいて、前記音取得手段により取得する前記音信号のうち、所定の方向の音信号を強調する音強調手段と、前記動画像取得手段の動きの状態を表す情報を取得する装置状態取得手段と、前記動画像取得手段により取得された動画像信号から、空間内の所定の基準点の座標が画像上の所定の座標と合致しているか否かを判定する基準点認識手段、として機能させるための動画像音収録プログラムであって、
前記撮影パラメータ取得手段は、前記装置状態取得手段により取得された情報を用いて、前記動画像取得手段と前記音取得手段との位置関係を表す情報を取得し、前記基準点認識手段により合致していると判定され、かつ前記装置状態取得手段により生成された動きの状態を表す情報が静止を表しているとき、撮影方向を表す情報の基準値、および位置関係を表す情報の基準値を取得する、動画像音収録プログラム。
A moving image sound recording program that processes, by a computer, a moving image signal obtained by the moving image obtaining unit and a sound signal obtained by the sound obtaining unit,
Said computer,
Information indicating a shooting direction of the moving image obtaining unit, and shooting parameter obtaining unit for obtaining information indicating a positional relationship between the moving image obtaining unit and the sound obtaining unit; and the information obtained by the shooting parameter obtaining unit. Sound emphasizing means for emphasizing a sound signal in a predetermined direction among the sound signals acquired by the sound acquiring means, and an apparatus state acquiring means for acquiring information indicating a state of movement of the moving image acquiring means. And a reference point recognizing unit that determines whether or not the coordinates of a predetermined reference point in space match the predetermined coordinates on the image from the video signal acquired by the video acquisition unit. Video recording program for
The photographing parameter acquiring unit acquires information representing a positional relationship between the moving image acquiring unit and the sound acquiring unit using the information acquired by the device state acquiring unit, and matches information obtained by the reference point recognizing unit. And when the information indicating the state of motion generated by the apparatus state obtaining means indicates stationary, the reference value of the information indicating the shooting direction and the reference value of the information indicating the positional relationship are obtained. A video and audio recording program.
動画像取得手段が被写体を撮影して動画像信号を取得する動画像取得ステップと、
音を収録して音信号を取得する音取得ステップと、
前記動画像取得ステップにおける撮影の方向を表す情報、および前記動画像取得ステップにおける撮影の位置と前記音取得ステップにおける収録の位置との関係を表す情報を取得する撮影パラメータ取得ステップと、
前記撮影パラメータ取得ステップにより取得された前記情報に基づいて、前記音取得ステップにより取得する前記音信号のうち、所定の方向の音信号を強調する音強調ステップと、
前記動画像取得手段の動きの状態を表す情報を取得する装置状態取得ステップと、
前記動画像取得ステップにより取得された動画像信号から、空間内の所定の基準点の座標が画像上の所定の座標と合致しているか否かを判定する基準点認識ステップと、
を有し、
前記撮影パラメータ取得ステップは、前記装置状態取得ステップにより取得された情報を用いて、前記動画像取得ステップと前記音取得ステップとの位置関係を表す情報を取得し、前記基準点認識ステップにより合致していると判定され、かつ前記装置状態取得ステップにより生成された動きの状態を表す情報が静止を表しているとき、撮影方向を表す情報の基準値、および位置関係を表す情報の基準値を取得する、動画像音収録方法。
A moving image obtaining step in which the moving image obtaining means obtains a moving image signal by shooting the subject;
A sound acquisition step of recording a sound and acquiring a sound signal;
A photographing parameter acquiring step of acquiring information representing a direction of photographing in the moving image acquiring step, and information representing a relationship between a photographing position in the moving image acquiring step and a recording position in the sound acquiring step;
A sound emphasizing step of emphasizing a sound signal in a predetermined direction, of the sound signals obtained in the sound obtaining step, based on the information obtained in the shooting parameter obtaining step;
An apparatus state obtaining step of obtaining information indicating a state of movement of the moving image obtaining unit,
From the moving image signal obtained by the moving image obtaining step, a reference point recognition step of determining whether the coordinates of a predetermined reference point in space match the predetermined coordinates on the image,
Has,
The photographing parameter acquiring step acquires information representing a positional relationship between the moving image acquiring step and the sound acquiring step using the information acquired in the apparatus state acquiring step, and matches the reference point recognition step. Is obtained, and when the information indicating the state of motion generated in the apparatus state obtaining step indicates stationary, the reference value of the information indicating the shooting direction and the reference value of the information indicating the positional relationship are obtained. How to record video sound.
JP2015226788A 2015-01-23 2015-11-19 Video sound recording system, video sound recording device, video sound recording program, and video sound recording method Active JP6631193B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US14/984,728 US9794685B2 (en) 2015-01-23 2015-12-30 Video audio recording system, video audio recording device, and video audio recording method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015011515 2015-01-23
JP2015011515 2015-01-23

Publications (2)

Publication Number Publication Date
JP2016140055A JP2016140055A (en) 2016-08-04
JP6631193B2 true JP6631193B2 (en) 2020-01-15

Family

ID=56559405

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015226788A Active JP6631193B2 (en) 2015-01-23 2015-11-19 Video sound recording system, video sound recording device, video sound recording program, and video sound recording method

Country Status (1)

Country Link
JP (1) JP6631193B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106331501A (en) * 2016-09-21 2017-01-11 乐视控股(北京)有限公司 Sound acquisition method and device

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5240832B2 (en) * 2008-06-04 2013-07-17 Necカシオモバイルコミュニケーションズ株式会社 Sound input device, sound input method and program
US9860439B2 (en) * 2013-02-15 2018-01-02 Panasonic Intellectual Property Management Co., Ltd. Directionality control system, calibration method, horizontal deviation angle computation method, and directionality control method

Also Published As

Publication number Publication date
JP2016140055A (en) 2016-08-04

Similar Documents

Publication Publication Date Title
US9516241B2 (en) Beamforming method and apparatus for sound signal
US9071724B2 (en) Method and apparatus for providing a video call service
JP7305249B2 (en) Method for determining motion information of image feature points, task execution method and device
CN102104767B (en) Facial pose improvement with perspective distortion correction
JP7026819B2 (en) Camera positioning method and equipment, terminals and computer programs
JP6348611B2 (en) Automatic focusing method, apparatus, program and recording medium
JP2024056955A (en) Personalized HRTF with Optical Capture
JP2016165101A (en) Device with adaptive camera array
WO2017027338A1 (en) Apparatus and method for supporting interactive augmented reality functionalities
US10565726B2 (en) Pose estimation using multiple cameras
CN109302632B (en) Method, device, terminal and storage medium for acquiring live video picture
CN113763228A (en) Image processing method, image processing device, electronic equipment and storage medium
WO2018061172A1 (en) Imaging angle adjustment system, imaging angle adjustment method and program
CN111213365A (en) Shooting control method and controller
US10147160B2 (en) Image management apparatus and system, and method for controlling display of captured image
CN112839165B (en) Method and device for realizing face tracking camera shooting, computer equipment and storage medium
JP6631193B2 (en) Video sound recording system, video sound recording device, video sound recording program, and video sound recording method
JP2016194783A (en) Image management system, communication terminal, communication system, image management method, and program
JP2016194784A (en) Image management system, communication terminal, communication system, image management method, and program
JP6711118B2 (en) Image management system, program and information terminal
JP6521675B2 (en) Signal processing apparatus, signal processing method, and program
JP6646967B2 (en) Control device, reproduction system, correction method, and computer program
US9794685B2 (en) Video audio recording system, video audio recording device, and video audio recording method
JP2018157314A (en) Information processing system, information processing method and program
CN113707165A (en) Audio processing method and device, electronic equipment and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181009

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190712

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190813

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191009

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191023

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191031

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191112

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191125

R151 Written notification of patent or utility model registration

Ref document number: 6631193

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151