JP2013005418A - Imaging apparatus and reproducer - Google Patents

Imaging apparatus and reproducer Download PDF

Info

Publication number
JP2013005418A
JP2013005418A JP2011138050A JP2011138050A JP2013005418A JP 2013005418 A JP2013005418 A JP 2013005418A JP 2011138050 A JP2011138050 A JP 2011138050A JP 2011138050 A JP2011138050 A JP 2011138050A JP 2013005418 A JP2013005418 A JP 2013005418A
Authority
JP
Japan
Prior art keywords
microphone
determined
wireless microphone
present
wireless
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011138050A
Other languages
Japanese (ja)
Other versions
JP5762168B2 (en
Inventor
Shinji Onishi
慎二 大西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2011138050A priority Critical patent/JP5762168B2/en
Publication of JP2013005418A publication Critical patent/JP2013005418A/en
Application granted granted Critical
Publication of JP5762168B2 publication Critical patent/JP5762168B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Accessories Of Cameras (AREA)
  • Studio Devices (AREA)

Abstract

PROBLEM TO BE SOLVED: To record voice from an object outside an imaged image, which is related to voice from an object inside the imaged image.SOLUTION: A CPU 106 takes in the voice of wireless microphones 200to 200into a RAM 109 in frame of the imaged image by an imaging element 102. The CPU 106 determines whether the microphone 200exists in the imaged image by an object related to the microphone. The CPU 106 detects the voice of the wireless microphone which is not in the imaged image that is the voice correlated to the voice of the wireless microphone which is in the imaged image, with respect to the voice of the wireless microphone in the imaged image. The CPU 106 records the voice of the wireless microphone in the imaged image, and the voice of the wireless microphone which is not in the imaged image that is correlated to the voice of the wireless microphone which is in the imaged image, in a recording medium 110.

Description

本発明は、撮像装置及び再生装置に関する。   The present invention relates to an imaging device and a playback device.

従来、撮像装置には、ワイヤレスマイクを接続可能であり、動画撮像中に、ワイヤレスマイクからの音声信号を記録する機能を有するものがある。特許文献1には、人物を被写体とした撮像画像から人物の顔の特徴を抽出し、予め登録されている顔特徴データとの一致度に基づいて人物認証を行う技術が記載されている。複数のワイヤレスマイクを接続可能な場合、予め登録されている人物と個々のワイヤレスマイクとを関連付け、上記人物認証を併用することで、撮像画角内外の人物のワイヤレスマイクを特定できる。   2. Description of the Related Art Conventionally, some imaging devices can be connected to a wireless microphone and have a function of recording an audio signal from a wireless microphone during moving image imaging. Japanese Patent Application Laid-Open No. 2004-228561 describes a technique for extracting a person's facial feature from a captured image of a person as a subject and performing person authentication based on the degree of coincidence with face feature data registered in advance. When a plurality of wireless microphones can be connected, a wireless microphone of a person inside and outside the imaging angle of view can be identified by associating a person registered in advance with each wireless microphone and using the person authentication together.

また、特許文献2には、撮像画像(又は撮像画角)内に存在するワイヤレスマイクを識別し、そのワイヤレスマイクからの音声を記録し、他方、撮像画像外のワイヤレスマイクの音声を記録しないようにする技術が記載されている。   Also, in Patent Document 2, a wireless microphone present in a captured image (or captured angle of view) is identified, and the sound from the wireless microphone is recorded, while the sound of the wireless microphone outside the captured image is not recorded. The technology to make is described.

特開平6−259534号公報JP-A-6-259534 特開2004−228667号公報JP 2004-228667 A

特許文献2に記載の技術では、例えば、撮像画像内に存在するワイヤレスマイクを有する被写体と撮像画像外に存在するワイヤレスマイクを有する被写体が会話中である場合、再生時に会話として成り立たない音声になってしまう。   In the technique described in Patent Document 2, for example, when a subject having a wireless microphone that exists in a captured image and a subject having a wireless microphone that exists outside the captured image are in conversation, the sound does not hold as conversation during playback. End up.

本発明は、このような不都合を解消して、撮像画像内の被写体からの音声と、撮像画像外の被写体からの音声をより適切に記録する撮像装置、及び適切に再生する再生装置を提示することを目的とする。   The present invention eliminates such inconveniences, and presents an imaging device that more appropriately records audio from a subject in a captured image and audio from a subject outside the captured image, and a playback device that appropriately reproduces the same. For the purpose.

本発明に係る撮像装置は、撮像手段及び1以上のワイヤレスマイクと通信を行う通信手段を有する撮像装置であって、前記ワイヤレスマイクのそれぞれが前記撮像手段の撮像画像内に存在するか否かを判定する判定手段と、前記撮像画像内に存在するワイヤレスマイクと前記撮像画像内に存在しないワイヤレスマイクの相関の有無を判定する相関判定手段と、前記撮像画像内に存在するワイヤレスマイクの音声と、前記相関判定手段により前記撮像画像内に存在するワイヤレスマイクと相関が有ると判定された、前記撮像画像内に存在しないワイヤレスマイクの音声を記録する記録手段とを具備することを特徴とする。   An imaging apparatus according to the present invention is an imaging apparatus having an imaging unit and a communication unit that communicates with one or more wireless microphones, and whether or not each of the wireless microphones is present in a captured image of the imaging unit. A determination unit for determining, a correlation determination unit for determining presence / absence of correlation between a wireless microphone present in the captured image and a wireless microphone not present in the captured image, and a voice of the wireless microphone present in the captured image; Recording means for recording the sound of the wireless microphone that is determined to be correlated with the wireless microphone present in the captured image by the correlation determining means and is not present in the captured image.

本発明に係る再生装置は、画像及び1以上のワイヤレスマイクの音声が記録された画像・音声データを再生する再生装置であって、前記各ワイヤレスマイクが再生画像内に存在するか否かを判定する判定手段と、前記再生画像内に存在するワイヤレスマイクと前記再生画像内に存在しないワイヤレスマイクの相関の有無を判定する相関判定手段と、前記再生画像内に存在するワイヤレスマイクの音声と、前記相関判定手段により相関があると判定された、前記再生画像内に存在しないワイヤレスマイクの音声を出力する音声出力手段とを有することを特徴とする。   The playback apparatus according to the present invention is a playback apparatus that plays back image / audio data in which an image and sound of one or more wireless microphones are recorded, and determines whether or not each wireless microphone is present in a playback image. Determining means for determining, correlation determining means for determining presence / absence of correlation between a wireless microphone present in the reproduced image and a wireless microphone not present in the reproduced image, audio of the wireless microphone present in the reproduced image, Audio output means for outputting the sound of the wireless microphone which is determined to be correlated by the correlation determination means and which does not exist in the reproduced image.

本発明によれば、撮像画像又は再生画像内のワイヤレスマイクと撮像画像外又は再生画像外のワイヤレスマイクの相関の有無に基づき、後者の音声を記録又は出力するので、適切な音声を記録再生できる。   According to the present invention, since the latter sound is recorded or output based on the presence or absence of correlation between the wireless microphone in the captured image or the reproduced image and the wireless microphone outside the captured image or the reproduced image, appropriate sound can be recorded and reproduced. .

本発明の一実施例の概略構成ブロック図である。It is a schematic block diagram of one Example of this invention. 実施例1における音声処理を示すフローチャートである。3 is a flowchart illustrating audio processing in the first embodiment. 実施例1における音声処理を示すフローチャートである。3 is a flowchart illustrating audio processing in the first embodiment. 音声信号用バッファの構成例を示す模式図である。It is a schematic diagram which shows the structural example of the buffer for audio | voice signals. マイクiの状態を示す変数の内容例である。It is an example of the content of the variable which shows the state of the microphone i. 音声検出履歴データの例を示す模式図である。It is a schematic diagram which shows the example of audio | voice detection log | history data. 音声ブロック検出処理を示すフローチャートである。It is a flowchart which shows an audio | voice block detection process. 音声ブロック検出処理を示すフローチャートである。It is a flowchart which shows an audio | voice block detection process. 相関判定処理を示すフローチャートである。It is a flowchart which shows a correlation determination process. 相関判定処理を示すフローチャートである。It is a flowchart which shows a correlation determination process. 実施例2における音声処理を示すフローチャートである。10 is a flowchart illustrating audio processing in the second embodiment. 実施例2における音声処理を示すフローチャートである。10 is a flowchart illustrating audio processing in the second embodiment. マイクiの状態を示す変数の内容例である。It is an example of the content of the variable which shows the state of the microphone i. 測位機能を有するワイヤレスマイクの概略構成ブロック図である。It is a schematic block diagram of a wireless microphone having a positioning function. 実施例3における音声処理を示すフローチャートである。12 is a flowchart illustrating audio processing in the third embodiment. 実施例3における音声処理を示すフローチャートである。12 is a flowchart illustrating audio processing in the third embodiment. 実施例3における相関判定処理を示すフローチャートである。12 is a flowchart illustrating a correlation determination process in the third embodiment. 実施例4における音声処理を示すフローチャートである。10 is a flowchart illustrating audio processing in the fourth embodiment. 実施例4における音声処理を示すフローチャートである。10 is a flowchart illustrating audio processing in the fourth embodiment.

以下、図面を参照して、本発明の実施例を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

図1は、本発明に係る撮像装置の一実施例の概略構成ブロック図を示す。図1に示す実施例は、動画及び音声を記録可能であり、記録した動画及び音声を再生可能な撮像装置、いわゆるビデオカメラ100である。ビデオカメラ100には、1以上のワイヤレスマイク200(200〜200)を接続可能である。ワイヤレスマイク200〜200は同じ構成からなる。 FIG. 1 shows a schematic block diagram of an embodiment of an imaging apparatus according to the present invention. The embodiment shown in FIG. 1 is a so-called video camera 100 that can record moving images and sounds and can reproduce the recorded moving images and sounds. One or more wireless microphones 200 (200 1 to 200 n ) can be connected to the video camera 100. The wireless microphones 200 1 to 200 n have the same configuration.

ビデオカメラ100の構成を説明する。光学系101は撮像のためのレンズ群と、そのレンズを駆動させるアクチュエータ群とからなる。光学系101は、CPU106からの指示に従い、ズームとフォーカスを変更可能である。撮像素子102は、光学系101が結像させた光学像を電気信号に変換し、得られた画像データをCPU106に供給する。   The configuration of the video camera 100 will be described. The optical system 101 includes a lens group for imaging and an actuator group that drives the lens. The optical system 101 can change zoom and focus in accordance with instructions from the CPU 106. The image sensor 102 converts the optical image formed by the optical system 101 into an electrical signal, and supplies the obtained image data to the CPU 106.

マイク部103は、ビデオカメラ100の筺体に固定されたマイクまたは有線接続されたマイクとA/D変換回路からなる。マイク部103は周囲の音声を取り込み、対応する音声データをCPU106に供給する。   The microphone unit 103 includes a microphone fixed to the housing of the video camera 100 or a wired microphone and an A / D conversion circuit. The microphone unit 103 captures surrounding sounds and supplies corresponding sound data to the CPU 106.

表示部104は、撮像した画像、及びユーザ設定のためのメニュー等を表示する。表示部104は、具体的には、液晶表示装置(LCD)などの画像を表示可能なデバイスからなる。通信部105は、ワイヤレスマイク200A,200Bと無線通信する。   The display unit 104 displays a captured image, a menu for user setting, and the like. Specifically, the display unit 104 includes a device capable of displaying an image such as a liquid crystal display (LCD). The communication unit 105 performs wireless communication with the wireless microphones 200A and 200B.

CPU106は、ビデオカメラ100全体の処理を統括する中央制御ユニットであり、基本的にROM108に格納されているブログラムとデータに基づいて動作する。操作部107は、ユーザの操作を受け付ける手段であり、具体的にはビデオカメラ100のユーザが触れることのできる部分にあるボタン、レバー及びタッチパネルなどからなる。ROM108には、ビデオカメラ100が動作するためのプログラムとパラメータなどのデータが予め書き込まれており、CPU106は基本的にROM108の内容に従って動作する。RAM109は、CPU106上で動作するプログラムと一時データを格納するのに使用される。   The CPU 106 is a central control unit that controls the entire processing of the video camera 100, and basically operates based on programs and data stored in the ROM 108. The operation unit 107 is a unit that receives a user's operation, and specifically includes buttons, levers, a touch panel, and the like that are located on a portion of the video camera 100 that can be touched by the user. A program for operating the video camera 100 and data such as parameters are written in the ROM 108 in advance, and the CPU 106 basically operates according to the contents of the ROM 108. The RAM 109 is used to store programs that run on the CPU 106 and temporary data.

記録媒体110は、動画データ及び音声データ等を記録するのに使用される。撮影時に記録媒体110に動画データ及び音声データが記録される。再生時に、記録媒体110から記録された動画データ及び音声データが読みだされる。記録媒体110は、例えば、不揮発性の半導体メモリ等からなる。   The recording medium 110 is used for recording moving image data, audio data, and the like. Moving image data and audio data are recorded on the recording medium 110 at the time of shooting. During reproduction, moving image data and audio data recorded from the recording medium 110 are read out. The recording medium 110 is composed of, for example, a nonvolatile semiconductor memory.

ワイヤレスマイク200〜200の内部構成を説明する。ワイヤレスマイク200〜200は、同じ構成からなる。マイク部201は外部の音声を取り込むマイクと、マイクの出力音声信号をデジタル信号に変換するA/D変換回路からなる。マイク部201は、取り込んだ音声データをCPU202に供給する。 The internal configuration of the wireless microphones 200 1 to 200 n will be described. The wireless microphones 200 1 to 200 n have the same configuration. The microphone unit 201 includes a microphone that captures external sound and an A / D conversion circuit that converts an output sound signal of the microphone into a digital signal. The microphone unit 201 supplies the captured audio data to the CPU 202.

CPU202は、ワイヤレスマイク200〜200の動作を全体的に統括する中央制御ユニットであり、基本的にROM203に格納されているブログラムとデータに基づいて動作する。ROM203には、ワイヤレスマイク200〜200が動作するためのプログラムとパラメータなどのデータが予め書き込まれており、CPU202は基本的にROM203の内容に従って動作する。RAM204は、CPU202上で動作するプログラムと一時データを格納するのに使用される。通信部205はビデオカメラ100の通信部105と無線通信する。 The CPU 202 is a central control unit that generally controls the operations of the wireless microphones 200 1 to 200 n and basically operates based on programs and data stored in the ROM 203. The ROM 203 is pre-programmed with data for operating the wireless microphones 200 1 to 200 n and data such as parameters, and the CPU 202 basically operates according to the contents of the ROM 203. The RAM 204 is used to store programs operating on the CPU 202 and temporary data. A communication unit 205 performs wireless communication with the communication unit 105 of the video camera 100.

図2A及び図2Bは、ビデオカメラ100の記録時の音声処理の動作フローチャートである。音声処理は、動画の記録と同期して行われるので、図2A及び図2Bに示すフローは、記録される動画のフレーム周期で繰り返し実行される。たとえば、毎秒30フレームの動画記録を行う場合、CPU106は、図2A及び図2Bに示す処理を1/30秒以内に実行し、1秒間に30回、繰り返す。ビデオカメラ100(CPU106)は、撮像画像内の人物を認識する機能と、予め登録されている人物とワイヤレスマイク200〜200とを関連付けて記憶する機能を有する。記録媒体110には、被写体となる人物を識別するために必要な特徴データが事前に登録された被写体登録手段として機能する。CPU106は、この特徴データを参照して被写体を識別する。図2A及び図2Bに示すフローでは、ワイヤレスマイク200〜200をマイクi(但し、i=1〜n)と表記する。 2A and 2B are operation flowcharts of audio processing during recording by the video camera 100. FIG. Since the audio processing is performed in synchronization with the recording of the moving image, the flow shown in FIGS. 2A and 2B is repeatedly executed at the frame period of the moving image to be recorded. For example, when recording a moving image at 30 frames per second, the CPU 106 executes the processing shown in FIGS. 2A and 2B within 1/30 seconds and repeats 30 times per second. The video camera 100 (CPU 106) has a function of recognizing a person in a captured image and a function of storing a person registered in advance and the wireless microphones 200 1 to 200 n in association with each other. The recording medium 110 functions as a subject registration unit in which feature data necessary for identifying a person as a subject is registered in advance. The CPU 106 identifies the subject with reference to the feature data. In the flow shown in FIGS. 2A and 2B, the wireless microphones 200 1 to 200 n are represented as microphones i (where i = 1 to n ).

ユーザがビデオカメラ100での記録を開始すると、CPU106は、マイク部103から動画1フレーム時間に相当する音声信号を取得し、RAM109内の音声信号用バッファに記録する(S201)。図3は、RAM109内の音声信号用バッファの構成を示す模式図である。音声信号用バッファは、数の領域に分割されている。ミックス音声領域には、マイク部103及び接続されたワイヤレスマイク200〜200の音声をミックスしたデータが最終的に格納される。内蔵マイク音声領域には、内蔵のマイク部103からの音声データが格納される。マイク[i]音声領域(但し,i=1〜n)には、ワイヤレスマイク200〜200からの音声データが格納される。CPU106はまず、マイク部103で取得した音声データをRAM109のミックス音声領域及び内蔵マイク音声領域に格納する。 When the user starts recording with the video camera 100, the CPU 106 acquires an audio signal corresponding to one frame time of the moving image from the microphone unit 103, and records it in an audio signal buffer in the RAM 109 (S201). FIG. 3 is a schematic diagram showing the configuration of the audio signal buffer in the RAM 109. The audio signal buffer is divided into a number of areas. In the mixed sound area, data obtained by mixing sounds of the microphone unit 103 and the connected wireless microphones 200 1 to 200 n is finally stored. Voice data from the built-in microphone unit 103 is stored in the built-in microphone voice area. Audio data from the wireless microphones 200 1 to 200 n is stored in the microphone [i] audio area (where i = 1 to n ). First, the CPU 106 stores the audio data acquired by the microphone unit 103 in the mixed audio area and the built-in microphone audio area of the RAM 109.

CPU106は、内部変数iに1をセットして初期化する(S202)。変数iは、ワイヤレスマイクiを特定する。CPU106は、予めビデオカメラ100に登録されているワイヤレスマイクiが通信部105を介して検出できるか否かを判定する(S203)。検出されない場合(S203)、CPU106は、内部変数Mic[i]に”0”をセットする(S204)。内部変数Mic[i]は、マイクiの状態を示す変数である。図4は、内部変数Mic[i]の値と意味の対応表を示す。   The CPU 106 initializes the internal variable i by setting 1 (S202). The variable i specifies the wireless microphone i. The CPU 106 determines whether or not the wireless microphone i registered in the video camera 100 in advance can be detected via the communication unit 105 (S203). If not detected (S203), the CPU 106 sets “0” to the internal variable Mic [i] (S204). The internal variable Mic [i] is a variable indicating the state of the microphone i. FIG. 4 shows a correspondence table between values of internal variables Mic [i] and meanings.

マイクiが検出される場合(S203)、CPU106は、通信部105を介してマイクiから動画1フレーム時間に相当する音声信号を取得し、RAM109内のマイク[i]音声領域に記録する(S205)。次に、CPU106は、マイクiが撮像画像内に存在するか否かを判定する(S206)。この判定は、マイクiが関連付けられている人物が撮像画像内に検出されているか否かで行うことができる。   When the microphone i is detected (S203), the CPU 106 acquires an audio signal corresponding to one frame time of the moving image from the microphone i via the communication unit 105, and records it in the microphone [i] audio area in the RAM 109 (S205). ). Next, the CPU 106 determines whether or not the microphone i exists in the captured image (S206). This determination can be made based on whether or not the person associated with the microphone i is detected in the captured image.

マイクiが撮像画像内に存在する場合(S207)、CPU106は、ミックス音声領域の音声データとマイク[i]音声領域の音声データを混合し、混合結果の音声データをミックス音声領域に記録する(S208)。また、CPU106は、内部変数Mic[i]にワイヤレスマイクiが検出されており、かつ撮像画像内に存在することを示す値”1”をセットする(S209)。   When the microphone i exists in the captured image (S207), the CPU 106 mixes the audio data in the mixed audio area and the audio data in the microphone [i] audio area, and records the audio data of the mixing result in the mixed audio area ( S208). Further, the CPU 106 sets a value “1” indicating that the wireless microphone i is detected and exists in the captured image in the internal variable Mic [i] (S209).

マイクiが撮像画像内に存在しない場合(S207)、CPU106は、内部変数Mic[i]にマイクiが検出されているが、撮像画像内に存在しないことを示す値”2”をセットする(S210)。   When the microphone i is not present in the captured image (S207), the CPU 106 sets a value “2” indicating that the microphone i is detected but not present in the captured image in the internal variable Mic [i] ( S210).

ステップS209又は同S210の後、CPU106は、マイク[i]音声領域に記録されている動画1フレーム時間の音声データに人物の発声による音声が含まれるかどうかを判定する(S211)。この判定には、例えば、特開2001−022367号公報に記載されるような方法が利用可能である。即ち、入力音声フレームの背景雑音レベルを判定し、この雑音レベルに対応した閾値と入力音声フレームの音量を比較する。   After step S209 or S210, the CPU 106 determines whether or not voice data of one frame of moving image recorded in the microphone [i] voice area includes voice generated by a person's voice (S211). For this determination, for example, a method as described in JP-A-2001-022367 can be used. That is, the background noise level of the input voice frame is determined, and the threshold corresponding to this noise level is compared with the volume of the input voice frame.

CPU106は、ステップS211の判定結果をマイクiに対する音声検出履歴データとしてRAM109に格納する(S212)。例えば、10秒分の音声検出履歴データを保持できるFIFOバッファに、該当フレームにおいて音声を検出した場合は音声フレームの音量値を、音声を検出していない場合はゼロをセットする。このFIFOバッファは、音声検出履歴保持手段に相当する。   The CPU 106 stores the determination result of step S211 in the RAM 109 as voice detection history data for the microphone i (S212). For example, in the FIFO buffer that can hold the voice detection history data for 10 seconds, the volume value of the voice frame is set when the voice is detected in the corresponding frame, and zero is set when the voice is not detected. The FIFO buffer corresponds to a voice detection history holding unit.

CPU106は、変数iをインクリメントする(S213)。CPU106は、変数iを接続可能なワイヤレスマイク数nと比較し、iがn以下であれば、ステップS203に戻る(S214)。iがnを越える場合(S214)、即ち、全ての接続可能なワイヤレスマイクの検出処理を終了している場合、ステップS215に進む。   The CPU 106 increments the variable i (S213). The CPU 106 compares the variable i with the number of connectable wireless microphones n. If i is equal to or less than n, the CPU 106 returns to step S203 (S214). If i exceeds n (S214), that is, if all the connectable wireless microphones have been detected, the process proceeds to step S215.

図5は、ステップS212で記録した音声検出履歴データの例を模式的に示す。図5では、接続可能なワイヤレスマイクの数nが4である場合を示している。各ワイヤレスマイクの右の欄に、音声を検出したフレームに該当する箇所にハッチングが施されている。欄の左側が時間的に過去のフレームに該当し、右端が現在処理中のフレームに該当する。また、ハッチングを施した部分の高さは、該当するフレームで検出された音声の音量を示す。例えば、ワイヤレスマイク1に関しては、現在時刻の10秒前から2秒間、音声を検出し、その後、3秒間の音声未検出、3秒間の音声検出及び2秒間の音声未検出になっている。   FIG. 5 schematically shows an example of the voice detection history data recorded in step S212. FIG. 5 shows a case where the number n of connectable wireless microphones is four. In the right column of each wireless microphone, a portion corresponding to the frame in which the voice is detected is hatched. The left side of the column corresponds to the past frame in time, and the right end corresponds to the frame currently being processed. Also, the height of the hatched portion indicates the volume of the sound detected in the corresponding frame. For example, with respect to the wireless microphone 1, the voice is detected for 2 seconds from 10 seconds before the current time, and then the voice is not detected for 3 seconds, the voice is detected for 3 seconds, and the voice is not detected for 2 seconds.

CPU106は、全ワイヤレスマイクの検出を終了した後、各ワイヤレスマイクiの出力で検出された音声をブロックとして検出する(S215)。図5に示す例では、マイク1に関しては、現在時刻の10秒前から2秒間の音声ブロックと、3秒前から3秒間の音声ブロックが、検出される。   After completing the detection of all the wireless microphones, the CPU 106 detects the sound detected by the output of each wireless microphone i as a block (S215). In the example illustrated in FIG. 5, for the microphone 1, an audio block for 2 seconds from 10 seconds before the current time and an audio block for 3 seconds from 3 seconds before are detected.

図6A及び図6Bは、音声ブロック検出処理(S215)の動作フローチャートである。図6A及び図6Bに示すフローチャートでは、音声が連続して0.5秒以上検出され、かつ、その後に音声が1秒以上未検出の場合の、検出された音声部分を音声ブロックとして検出する。   6A and 6B are operation flowcharts of the audio block detection process (S215). In the flowcharts shown in FIG. 6A and FIG. 6B, the detected voice portion is detected as a voice block when the voice is continuously detected for 0.5 seconds or longer and the voice is not detected for 1 second or longer thereafter.

CPU106は、音声ブロック検出を行うワイヤレスマイクを示す内部変数iに1をセットする(S601)。CPU106は、音声フレーム位置を示す内部変数tに1をセットし、マイクiの音声検出履歴データから検出される音声ブロック数を示す内部変数bn[i]に0をセットする(S602)。音声フレーム位置は、現在時刻から10秒前の位置のフレームに対する番号を1とし、フレーム位置が1フレーム時間分現在時刻に近付くと、番号が1増加するものとする。従って、現在時刻に対応するフレーム位置番号は秒間30フレームであるので、30(フレーム)×10(秒)=300となる。マイクiに対する内部変数tで示すフレーム位置の音声検出履歴データをpower[i][t]と表記する。power[i][t]は、マイクiから取得した音声データのフレーム位置tにおける音量を示す。   The CPU 106 sets 1 to an internal variable i indicating a wireless microphone that performs audio block detection (S601). The CPU 106 sets 1 to the internal variable t indicating the audio frame position, and sets 0 to the internal variable bn [i] indicating the number of audio blocks detected from the audio detection history data of the microphone i (S602). The audio frame position is set to 1 for a frame at a position 10 seconds before the current time, and the number increases by 1 when the frame position approaches the current time by one frame time. Accordingly, since the frame position number corresponding to the current time is 30 frames per second, 30 (frames) × 10 (seconds) = 300. The sound detection history data at the frame position indicated by the internal variable t for the microphone i is represented as power [i] [t]. power [i] [t] indicates the volume at the frame position t of the audio data acquired from the microphone i.

CPU106は、ステップS603以降の処理で、まず音声ブロックの先頭フレームを検出する。まず、CPU106は、マイクiに対するフレーム位置tの音声検出履歴データpower[i][t]から音声検出の有無を判定する(S603)。音声が未検出の場合は、CPU106は、内部変数tをカウントアップし(S604)、現在時刻に対するフレーム位置の処理が終了したか否か判定する(S605)。ステップS605中のFRの値は秒間のフレーム数を示す。ビデオカメラ100は毎秒30フレームの動画記録を行うので、FRの値は30である。   The CPU 106 first detects the first frame of the audio block in the processing after step S603. First, the CPU 106 determines the presence / absence of voice detection from the voice detection history data power [i] [t] at the frame position t with respect to the microphone i (S603). If no sound is detected, the CPU 106 counts up the internal variable t (S604), and determines whether or not the processing of the frame position with respect to the current time has ended (S605). The value of FR in step S605 indicates the number of frames per second. Since the video camera 100 records a moving image at 30 frames per second, the FR value is 30.

現在時刻に対するフレーム位置の処理が終了していない場合(S605)、CPU106は、ステップS603に戻り、次の音声フレーム位置に対する処理を行う。現在時刻に対するフレーム位置の処理が終了している場合(S605)、CPU106は、変数iをカウントアップする(S606)。そして、CPU106は、内部変数iとマイク数nの比較により、全ワイヤレスマイクに対する処理を終了したか否かを判定する(S607)。全ワイヤレスマイクに対する処理が終了していない場合(S607)、CPU106は、ステップS602に戻って、次のワイヤレスマイクに対する処理を行う。全ワイヤレスマイクに対する処理が終了している場合(S607)、CPU106は、音声ブロック検出処理を終了する。   If the processing of the frame position with respect to the current time has not ended (S605), the CPU 106 returns to step S603 and performs processing for the next audio frame position. When the processing of the frame position with respect to the current time is finished (S605), the CPU 106 counts up the variable i (S606). Then, the CPU 106 determines whether or not the processing for all wireless microphones has been completed by comparing the internal variable i with the number of microphones n (S607). If the processing for all wireless microphones has not been completed (S607), the CPU 106 returns to step S602 and performs processing for the next wireless microphone. If the processing for all wireless microphones has been completed (S607), the CPU 106 ends the audio block detection processing.

変数tで示すフレーム位置に音声が検出されている場合(S603)、CPU106は、内部変数ts,pw,pcを対応する所定値で初期化する(S608)。具体的には、音声ブロックの先頭フレーム候補位置を示す変数tsに変数tの値をセットする。音声ブロックに含まれる音量の総和を示す変数pwに現在の処理フレームの音量データの音量、即ち、power[i][t]の値をセットする。音声が検出されたフレームの総数をカウントする内部変数pcに1をセットする。変数pw,pcは、検出した音声ブロックの平均音量を算出するために使用される。   When audio is detected at the frame position indicated by the variable t (S603), the CPU 106 initializes the internal variables ts, pw, and pc with corresponding predetermined values (S608). Specifically, the value of the variable t is set to the variable ts indicating the first frame candidate position of the audio block. The volume of the volume data of the current processing frame, that is, the value of power [i] [t] is set in the variable pw indicating the total volume included in the audio block. Set 1 to an internal variable pc that counts the total number of frames in which speech was detected. The variables pw and pc are used for calculating the average sound volume of the detected audio block.

CPU106は、変数tをカウントアップし(S609)、ステップS610で、CPU106はフレーム位置tで音声が検出されているか否かを判定する(S610)。音声が検出されていない場合(S610)、CPU106は、フレーム位置tsがブロックの先頭ではないと判断して、ステップS604に進み、再度、音声ブロックの先頭フレーム候補の検出処理を行う。   The CPU 106 counts up the variable t (S609), and in step S610, the CPU 106 determines whether or not sound is detected at the frame position t (S610). If no audio has been detected (S610), the CPU 106 determines that the frame position ts is not at the head of the block, proceeds to step S604, and performs detection processing for the head frame candidate of the audio block again.

フレーム位置tに音声が検出されている場合(S610)、CPU106は、変数pwに現在の処理フレームの音量データ値をセットし、変数pcをカウントアップする(S611)。CPU106は、現在処理中のフレーム位置tが音声ブロックの先頭フレーム候補位置tsの0.5秒後であるか否か、即ちフレーム位置tsから連続して0.5秒間音声が検出されているか否かを判定する(S612)。0.5秒後ではない場合(S612)、CPU106は、ステップS609に戻って次のフレームの処理を行う。0.5秒後である場合(S612)、CPU106は、変数bn[i]をカウントアップし、変数b_start[i][bn[i]]に変数tsの値をセットする(S613)。b_start[i][bn[i]]は、マイクiに対するbn[i]番目の音声ブロックの先頭フレーム位置を示す。   When audio is detected at the frame position t (S610), the CPU 106 sets the volume data value of the current processing frame in the variable pw and counts up the variable pc (S611). The CPU 106 determines whether or not the currently processed frame position t is 0.5 seconds after the first frame candidate position ts of the audio block, that is, whether or not the audio is detected for 0.5 seconds continuously from the frame position ts. Is determined (S612). If it is not 0.5 seconds later (S612), the CPU 106 returns to step S609 to process the next frame. If 0.5 seconds later (S612), the CPU 106 counts up the variable bn [i] and sets the value of the variable ts in the variable b_start [i] [bn [i]] (S613). b_start [i] [bn [i]] indicates the start frame position of the bn [i] -th audio block for the microphone i.

ステップS608〜S613で音声ブロックの先頭フレーム位置が検出された場合、CPU106は、検出した音声ブロックの最終フレーム位置を検出する。まず、CPU106は、フレーム位置Tで音声が検出されているか否かを判定する(S614)。音声が検出されている場合(S614)、CPU106は、変数pwに現在の処理フレームの音量データ値をセットし、音声が検出されたフレームの総数をカウントする変数pcをカウントアップする(S615)。次に、CPU106は、変数tをカウントアップし(S616)、現在時刻に対するフレーム位置の処理が終了したか否か判定する(S617)。現在時刻に対するフレーム位置の処理が終了していない場合(S617)、CPU106は、ステップS614に戻って、次の音声フレーム位置に対する処理を行う。   When the first frame position of the audio block is detected in steps S608 to S613, the CPU 106 detects the final frame position of the detected audio block. First, the CPU 106 determines whether or not sound is detected at the frame position T (S614). When the voice is detected (S614), the CPU 106 sets the volume data value of the current processing frame in the variable pw, and counts up the variable pc that counts the total number of frames in which the voice is detected (S615). Next, the CPU 106 counts up the variable t (S616), and determines whether or not the processing of the frame position with respect to the current time is completed (S617). If the processing of the frame position with respect to the current time has not ended (S617), the CPU 106 returns to step S614 and performs processing for the next audio frame position.

現在時刻に達している場合(S617)、CPU106は、マイクiに対するbn[i]番目の音声ブロックの最終フレーム位置を示す変数b_end[i][bn[i]]に現在時刻を示す値をセットする(S618)。CPU106はまた、変数pwを変数pcで除算した結果を変数p_ave[i][bn[i]]にセットする(S618)。変数p_ave[i][bn[i]]は、マイクiに対するbn[i]番目の音声ブロックの平均音量を示す。CPU106は、ステップS618の処理の後、ステップS606に移行する。   When the current time has been reached (S617), the CPU 106 sets a value indicating the current time in a variable b_end [i] [bn [i]] indicating the final frame position of the bn [i] -th audio block for the microphone i. (S618). The CPU 106 also sets the result of dividing the variable pw by the variable pc to the variable p_ave [i] [bn [i]] (S618). The variable p_ave [i] [bn [i]] indicates the average volume of the bn [i] -th audio block for the microphone i. After the process of step S618, the CPU 106 proceeds to step S606.

フレーム位置tに音声が検出されていない場合(S614)、CPU106は、変数tsに音声ブロックの最終フレーム候補位置として変数tより1フレーム前の位置を示す値をセットする(S619)。CPU106は変数tをカウントアップし(S620)、フレーム位置tで音声が検出されているか否かを判定する(S621)。音声が検出されている場合(S621)、CPU106は、フレーム位置tsがブロックの最終フレームではないと判定してステップS615に進み、再度、音声ブロックの最終フレーム候補の検出処理を行う。フレーム位置tに音声が検出されていない場合(S621)、CPU106は変数tが変数tsの値の1秒後であるか否か、即ちフレーム位置tsから連続して1秒間、音声が未検出であるか否かを判定する(S622)。1秒後ではない場合(S622)、CPU106は、ステップS620に戻って次のフレームの処理を行う。1秒後である場合(S622)、CPU106は、マイクiに対するbn[i]番目の音声ブロックの最終フレーム位置を示す内部変数b_end[i][bn[i]]に変数tsの値をセットする(S623)。CPU106はまた、変数pwを変数pcで除算した結果を変数p_ave[i][bn[i]]にセットする(S623)。先に説明多様に、変数p_ave[i][bn[i]]は、マイクiに対するbn[i]番目の音声ブロックの平均音量を示す。   When no voice is detected at the frame position t (S614), the CPU 106 sets a value indicating the position one frame before the variable t as the final frame candidate position of the voice block in the variable ts (S619). The CPU 106 counts up the variable t (S620), and determines whether or not sound is detected at the frame position t (S621). If audio is detected (S621), the CPU 106 determines that the frame position ts is not the final frame of the block, proceeds to step S615, and performs detection processing of the final frame candidate of the audio block again. If no voice is detected at the frame position t (S621), the CPU 106 determines whether or not the variable t is one second after the value of the variable ts, that is, no voice is detected for one second continuously from the frame position ts. It is determined whether or not there is (S622). If it is not one second later (S622), the CPU 106 returns to step S620 to process the next frame. If one second later (S622), the CPU 106 sets the value of the variable ts to the internal variable b_end [i] [bn [i]] indicating the final frame position of the bn [i] -th audio block for the microphone i. (S623). Further, the CPU 106 sets a result obtained by dividing the variable pw by the variable pc into the variable p_ave [i] [bn [i]] (S623). As described above, the variable p_ave [i] [bn [i]] indicates the average volume of the bn [i] -th audio block with respect to the microphone i.

ステップS619〜S623で音声ブロックの最終フレーム位置を検出した場合、CPU106は、ステップS603に戻って次の音声ブロックの検出処理を継続する。   When the last frame position of the audio block is detected in steps S619 to S623, the CPU 106 returns to step S603 and continues the detection process of the next audio block.

図6A及び図6Bに示すフローチャートに従った処理を行うことで、CPU106は、各ワイヤレスマイクで取得された音声に対して、音声ブロックを検出し、各音声ブロックの平均音量を求めることができる。   By performing the processing according to the flowcharts shown in FIGS. 6A and 6B, the CPU 106 can detect an audio block for the audio acquired by each wireless microphone and obtain the average volume of each audio block.

図2A及び図2Bに戻り、ステップS216以降の処理を説明する。CPU106は、内部変数iに1をセットして初期化する(S216)。変数iは処理中のワイヤレスマイクを指定する番号を示す。CPU106は、マイクiの状態を判定する(S217)。マイクiが、ビデオカメラ100により検出されていないか、検出され、且つ撮像画像内に存在する場合(S217)、CPU106は、次のマイクの処理に移行するために変数iをカウントアップ又はインクリメントする(S221)。   Returning to FIG. 2A and FIG. 2B, the processing after step S216 will be described. The CPU 106 initializes the internal variable i by setting 1 (S216). The variable i indicates a number that designates the wireless microphone being processed. The CPU 106 determines the state of the microphone i (S217). When the microphone i is not detected by the video camera 100 or is detected and exists in the captured image (S217), the CPU 106 counts up or increments the variable i in order to shift to the next microphone processing. (S221).

マイクiが、ビデオカメラ100により検出されているが、撮像画像内に存在しない場合(S217)、CPU106は、このマイクiと、ビデオカメラ100により検出され、且つ撮像画像内に存在する他のワイヤレスマイクとの相関を判定する(S218)。CPU106は、相関がある場合にTRUEを、相関がない場合はFALSEを内部変数Resultにセットする。ステップS218の動作の詳細は後述する。   When the microphone i is detected by the video camera 100 but is not present in the captured image (S217), the CPU 106 detects this microphone i and another wireless that is detected by the video camera 100 and is present in the captured image. The correlation with the microphone is determined (S218). The CPU 106 sets TRUE to the internal variable Result when there is a correlation, and FALSE when there is no correlation. Details of the operation in step S218 will be described later.

相関がある場合(S219)、CPU106は、音声信号用バッファのミックス音声領域の音声データとマイク[i]音声領域の音声データをミックスし、ミックス処理結果の音声データをミックス音声領域に格納する(S220)。そして、CPU106は、次のマイクの処理のために変数iをカウントアップする(S221)。   When there is a correlation (S219), the CPU 106 mixes the audio data in the mixed audio area of the audio signal buffer and the audio data in the microphone [i] audio area, and stores the audio data of the mix processing result in the mixed audio area ( S220). Then, the CPU 106 counts up the variable i for the next microphone processing (S221).

相関がないと判定された場合(S219)、CPU106は、次のマイクの処理のために変数iをカウントアップする(S221)。   When it is determined that there is no correlation (S219), the CPU 106 counts up the variable i for the next microphone processing (S221).

ステップS221の後、CPU106は変数iをワイヤレスマイク数nと比較し、全ての接続可能なワイヤレスマイクの処理を終了したか否かを判定する(S222)。全ての接続可能なワイヤレスマイクの検出処理が終了していない場合、CPU106は、ステップS217に戻って次のワイヤレスマイクの処理を行う。終了している場合、CPU106は、音声信号用バッファのミックス音声領域の音声データを記録媒体に記録し(S223)、ステップS201に戻って次の記録フレームに対する処理を繰り返す。   After step S221, the CPU 106 compares the variable i with the number of wireless microphones n, and determines whether or not processing for all connectable wireless microphones has been completed (S222). If the detection process for all connectable wireless microphones has not been completed, the CPU 106 returns to step S217 to perform the process for the next wireless microphone. If completed, the CPU 106 records the audio data in the mixed audio area of the audio signal buffer on the recording medium (S223), returns to step S201, and repeats the processing for the next recording frame.

図7A及び図7Bは、相関判定処理(S218)の動作例を示すフローチャートである。図7A及び図7Bに示すフローチャートに従い、CPU106は、処理対象のマイクiが、ビデオカメラ100により検出され、かつ撮像画像内に存在する他のワイヤレスマイクのいずれかと相関があるか否かを判定する。図7A及び図7Bに示すフローチャートでは、処理の途中でいずれかのワイヤレスマイクとの相関があると判定された時点で、相関判定結果ResultにTRUEをセットして処理を終了する。全てのワイヤレスマイクとの相関判定が終了しても、いずれのワイヤレスマイクとも相関がない場合、相関判定結果Resultの値はFALSEのままで判定処理を終了する。   7A and 7B are flowcharts illustrating an example of the operation of the correlation determination process (S218). In accordance with the flowcharts shown in FIGS. 7A and 7B, the CPU 106 determines whether or not the processing target microphone i is correlated with any of the other wireless microphones detected by the video camera 100 and present in the captured image. . In the flowcharts shown in FIGS. 7A and 7B, when it is determined that there is a correlation with one of the wireless microphones during the process, TRUE is set in the correlation determination result Result, and the process ends. If there is no correlation with any wireless microphone even after the correlation determination with all wireless microphones is completed, the determination process ends with the value of the correlation determination result Result being FALSE.

CPU106は、内部変数ResultにFALSEを、内部変数jに1をセットして初期化する(S701)。内部変数jは、現在処理中のマイクiとの相関の有無を判定する対象のワイヤレスマイクを特定する番号を示す。CPU106は変数jと変数iの値が一致するか否かを判定する(S702)。変数iと変数jの値が一致する場合(S702)、CPU106は、変数jをカウントアップし(S703)、全てのワイヤレスマイクとの相関判定を終了したか否かを判定する(S704)。全てのワイヤレスマイクとの相関判定が終了していない場合(S704)、CPU106は、ステップS702に戻って、次のワイヤレスマイクとの相関判定処理を継続する。   The CPU 106 initializes the internal variable Result by setting FALSE and the internal variable j to 1 (S701). The internal variable j indicates a number that identifies a wireless microphone that is a target for determining whether or not there is a correlation with the microphone i currently being processed. The CPU 106 determines whether or not the values of the variable j and i match (S702). When the values of the variable i and the variable j match (S702), the CPU 106 counts up the variable j (S703), and determines whether or not the correlation determination with all wireless microphones is completed (S704). If the correlation determination with all wireless microphones has not been completed (S704), the CPU 106 returns to step S702 and continues the correlation determination process with the next wireless microphone.

内変数jと変数iの値が一致しない場合(S702)、CPU106は、マイクjがビデオカメラ100により検出されており、かつ撮像画像内に存在するか否かを判定する(S705)。マイクjがビデオカメラ100により検出されていないか、または、検出されていても撮像画像内に存在しない場合(S702)、CPU106は、先に説明したように、変数jをカウントアップして、次のワイヤレスマイクとの相関判定処理を行う(S703)。   When the value of the internal variable j does not match the value of the variable i (S702), the CPU 106 determines whether or not the microphone j is detected by the video camera 100 and exists in the captured image (S705). If the microphone j is not detected by the video camera 100 or if it is detected but does not exist in the captured image (S702), the CPU 106 counts up the variable j as described above, and next A correlation determination process with the wireless microphone is performed (S703).

マイクjがビデオカメラ100により検出され、かつ撮像画像内に存在する場合、CPU106は、内部変数biに1をセットし(S706)、内部変数bjに1をセットする(S707)。変数biはマイクiの音声検出履歴データから検出された音声ブロックの番号を示す。変数bjはマイクjの音声検出履歴データから検出される音声ブロックの番号を示す。以下、マイクiに対するbi番目の音声ブロックを音声ブロック(i,bi)”と記す。   When the microphone j is detected by the video camera 100 and exists in the captured image, the CPU 106 sets 1 to the internal variable bi (S706), and sets 1 to the internal variable bj (S707). The variable bi indicates the number of the voice block detected from the voice detection history data of the microphone i. A variable bj indicates the number of a voice block detected from the voice detection history data of the microphone j. Hereinafter, the bith audio block for the microphone i is referred to as an audio block (i, bi) ”.

CPU106は、変数dtに音声ブロック(i,bi)の先頭フレーム位置と音声ブロック(j、bj)の先頭フレーム位置の差分をセットし(S708)、内部変数dtの正負を判定する(S709)。変数dtが正値である場合(S709)、音声ブロック(j、bj)は、音声ブロック(i,bi)よりも先頭フレーム位置が時間的に過去の状態である。図5に示す例では、音声ブロック(i,bi)が音声ブロック502であり、音声ブロック(j,bi)が音声ブロック501である場合に対応する。他方、変数dtが負値である場合(S709)、音声ブロック(i,bi)は音声ブロック(j,bj)よりも先頭フレーム位置が時間的に過去の状態である。図5に示す例では、音声ブロック(i,bi)が音声ブロック502であり、音声ブロック(j,bi)が音声ブロック503である場合に相当する。本実施例では、処理の簡略化のため、dt=0の場合、即ち音声ブロック(i,bi)と音声ブロック(j、bj)の先頭フレーム位置が一致する場合には、dtが正値の場合と同様の処理を行う。   The CPU 106 sets the difference between the first frame position of the audio block (i, bi) and the first frame position of the audio block (j, bj) in the variable dt (S708), and determines whether the internal variable dt is positive or negative (S709). When the variable dt is a positive value (S709), the audio frame (j, bj) has a temporally past head frame position than the audio block (i, bi). In the example shown in FIG. 5, this corresponds to the case where the audio block (i, bi) is the audio block 502 and the audio block (j, bi) is the audio block 501. On the other hand, when the variable dt is a negative value (S709), the head frame position of the audio block (i, bi) is in the past in time than the audio block (j, bj). In the example shown in FIG. 5, this corresponds to the case where the audio block (i, bi) is the audio block 502 and the audio block (j, bi) is the audio block 503. In this embodiment, for simplification of processing, when dt = 0, that is, when the start frame positions of the audio block (i, bi) and the audio block (j, bj) match, dt is a positive value. The same processing as in the case is performed.

dtが正値又はゼロである場合(S709)、CPU106は、音声ブロック(i,bi)の先頭フレーム位置と音声ブロック(j、bj)の最終フレーム位置の差分値を変数dtにセットする(S710)。他方、dtが負値である場合(S709)、CPU106は、音声ブロック(j,bj)の先頭フレーム位置と音声ブロック(i,bi)の最終フレーム位置の差分値を変数dtにセットする(S711)。音声ブロック(i,bi)と音声ブロック(j,bj)が時間的に重なっている場合、dtはゼロ又は負値となり、重なっているフレーム時間数を示す。音声ブロック(i,bi)と音声ブロック(j,bj)が時間的に重なっていない場合、dtは正の値となり、音声ブロック間の隔たりフレーム時間数を示す。   When dt is a positive value or zero (S709), the CPU 106 sets a difference value between the head frame position of the audio block (i, bi) and the final frame position of the audio block (j, bj) in the variable dt (S710). ). On the other hand, when dt is a negative value (S709), the CPU 106 sets a difference value between the head frame position of the audio block (j, bj) and the final frame position of the audio block (i, bi) in the variable dt (S711). ). When the audio block (i, bi) and the audio block (j, bj) overlap with each other in time, dt is zero or a negative value, indicating the number of overlapping frame times. When the audio block (i, bi) and the audio block (j, bj) do not overlap with each other in time, dt is a positive value and indicates the distance frame time between the audio blocks.

ステップS710又はS711の後、CPU106は、変数dtの値が所定の定数T1と定数T2の範囲内にあるか否かを判定する(S712)。T1は負値であり、相関がある音声ブロック間の許容可能な重なりフレーム数を示す。T2は正値であり、相関がある音声ブロック間の許容可能な隔たりフレーム数を示す。dtがT1以下の場合、重なりフレーム数が許容可能なフレーム数を超えることになり、dtがT2以上の場合、音声ブロック間の隔たりフレーム数が許容可能なフレーム数を超えることになる。ここでは、2つのマイクの音声が隔たる間隔が所定時間よりも短いかどうか、また、音声の重なりが所定時間より長いかどうかを見ていることになる。   After step S710 or S711, the CPU 106 determines whether or not the value of the variable dt is within a range between a predetermined constant T1 and a constant T2 (S712). T1 is a negative value and indicates the allowable number of overlapping frames between correlated speech blocks. T2 is a positive value and indicates the allowable number of spaced frames between correlated speech blocks. When dt is equal to or less than T1, the number of overlapping frames exceeds the allowable number of frames. When dt is equal to or greater than T2, the number of separated frames between the audio blocks exceeds the allowable number of frames. Here, it is determined whether or not the interval between the sounds of the two microphones is shorter than the predetermined time, and whether or not the overlapping of the sounds is longer than the predetermined time.

dtがT1以下であるか、T2以上である場合(S712)、CPU106は、音声ブロック(i,bi)と音声ブロック(j、bj)との間に相関が無いと判定し、ステップS713に進む。CPU106は、ステップS713で内部変数bjをカウントアップし(S713)、マイクjの全音声ブロックと音声ブロック(i,bi)との相関判定を終了したか否かを判定する(S714)。マイクjの全音声ブロックと音声ブロック(i,bi)との相関判定を終了していない場合、CPU106は、ステップS708に戻って音声ブロック(i,bi)とマイクjの次の音声ブロックとの相関判定を行う。   If dt is equal to or less than T1 or equal to or greater than T2 (S712), the CPU 106 determines that there is no correlation between the audio block (i, bi) and the audio block (j, bj), and proceeds to step S713. . In step S713, the CPU 106 counts up the internal variable bj (S713), and determines whether or not the correlation determination between all the audio blocks of the microphone j and the audio block (i, bi) has been completed (S714). If the correlation determination between all the audio blocks of microphone j and the audio block (i, bi) has not ended, the CPU 106 returns to step S708 to return the audio block (i, bi) to the next audio block of microphone j. Perform correlation determination.

マイクjの全音声ブロックと音声ブロック(i,bi)との相関判定を終了すると(S714)、CPU106は変数biをカウントアップする(S715)。そして、CPU106は、マイクiの全音声ブロックとマイクjの全音声ブロックとの相関判定を終了したか否かを判定する(S716)。マイクiの全音声ブロックとマイクjの全音声ブロックとの相関判定を終了していない場合(S716)、CPU106は、ステップS707に戻って、マイクiの次の音声ブロックとマイクjの音声ブロックとの相関判定を行う。マイクiの全音声ブロックとマイクjの全音声ブロックとの相関判定を終了している場合(S716)、CPU106は、マイクiと次のワイヤレスマイクとの相関判定を行うために、変数jをカウントアップする(S703)。   When the correlation determination between all the audio blocks of the microphone j and the audio block (i, bi) is completed (S714), the CPU 106 counts up the variable bi (S715). Then, the CPU 106 determines whether or not the correlation determination between all the audio blocks of the microphone i and all the audio blocks of the microphone j is finished (S716). When the correlation determination between all the audio blocks of the microphone i and all the audio blocks of the microphone j has not been completed (S716), the CPU 106 returns to step S707 to return to the next audio block of the microphone i and the audio block of the microphone j. The correlation is determined. When the correlation determination between all the audio blocks of the microphone i and all the audio blocks of the microphone j has been completed (S716), the CPU 106 counts the variable j in order to determine the correlation between the microphone i and the next wireless microphone. Up (S703).

dtがT1よりも大きく、且つ、T2よりも小さい場合(S712)、CPU106は、音声ブロック(i,bi)の平均音量と音声ブロック(j、bj)の平均音量の差分絶対値を内部変数dpにセットする(S717)。CPU106は、変数dpが所定閾値Pよりも小さいか否かを判定する(S718)。変数dpが所定閾値以上である場合(S718)、音声ブロックの音量の差が大きいことを示しているので、音声ブロック間に相関がないと判断でき、CPU106は、ステップS713に移行する。   When dt is larger than T1 and smaller than T2 (S712), the CPU 106 sets the absolute value of the difference between the average volume of the audio block (i, bi) and the average volume of the audio block (j, bj) as an internal variable dp. (S717). The CPU 106 determines whether or not the variable dp is smaller than the predetermined threshold P (S718). If the variable dp is equal to or greater than the predetermined threshold value (S718), it indicates that there is a large difference in volume between the audio blocks, so it can be determined that there is no correlation between the audio blocks, and the CPU 106 proceeds to step S713.

dtが所定閾値よりも小さい場合(S718)、音声ブロックの音量の差が小さいことを示しているので、マイクiとマイクjの音声に相関があると判断できる。この場合、CPU106は、マイクiがビデオカメラ100により検出され、且つ撮像画像内の他の何れかのワイヤレスマイクと相関があることを示すTRUE値を内部変数Resultにセットして(S719)、処理を終了する。   If dt is smaller than the predetermined threshold value (S718), it indicates that the difference in volume between the audio blocks is small, so that it can be determined that there is a correlation between the sounds of the microphones i and j. In this case, the CPU 106 sets a TRUE value indicating that the microphone i is detected by the video camera 100 and is correlated with any of the other wireless microphones in the captured image to the internal variable Result (S719). Exit.

図7A及び図7Bに示すフローチャートでは、音声ブロックのタイミングの及び音量を用いて相関の判定を行っているが、ステップS708〜ステップS712の処理を行わずにステップS717以降の処理のみを行ってもよい。即ち、音声ブロックの音量のみを用いて相関の有無を判定してもよい。   In the flowcharts shown in FIGS. 7A and 7B, the correlation is determined using the timing and volume of the audio block. However, even if only the processing after step S717 is performed without performing the processing of steps S708 to S712. Good. That is, the presence or absence of correlation may be determined using only the sound block volume.

このように、本実施例では、撮像画像内に検出されるワイヤレスマイクの音声を記録できるだけでなく、この音声と相関のある、撮影画像内に検出されないワイヤレスマイクの音声も記録できる。   As described above, in this embodiment, not only the sound of the wireless microphone detected in the captured image can be recorded, but also the sound of the wireless microphone that is correlated with the sound and not detected in the captured image can be recorded.

再生時の処理で実施例1と同様の作用を実現できる。この場合、ビデオカメラ100は、記録時には、内蔵マイクの音声及び接続する全ワイヤレスマイクの音声を記録し、再生時に、記録された画像・音声データの画像を再生しつつ、音声を選択的に再生する。記録時に各マイクで取得される音声は、1つの動画ファイルに異なるトラックとして記録してもよく、またマイク別にそれぞれ独立した音声ファイルとして記録してもよい。   The same operation as that of the first embodiment can be realized by the processing at the time of reproduction. In this case, the video camera 100 records the sound of the built-in microphone and the sound of all the connected wireless microphones during recording, and selectively reproduces the sound while playing back the recorded image / audio data image during playback. To do. Audio acquired by each microphone at the time of recording may be recorded as a different track in one moving image file, or may be recorded as an independent audio file for each microphone.

図8A及び図8Bは、再生時に、撮像画像内に検出されるワイヤレスマイクの音声と、この音声と相関のある、撮影画像内に検出されないワイヤレスマイクの音声を再生する動作のフローチャートを示す。図8A及び図8Bにおいて、図2A及び図2Bと同じ処理内容のステップには同じ符号を付してある。この実施例では、ビデオカメラ100(CPU106)は、再生画像内の人物を認識する機能と、予め登録されている人物とワイヤレスマイク200〜200とを関連付けて記憶する機能を有する。従って、CPU106は、各ワイヤレスマイク200〜200に対応する音声トラックまたは音声ファイルがどの人物に対応する音声であるかを関連付けて記録しているとも言える。以下、音声トラック又は音声ファイルを音声トラックで代表する。 FIG. 8A and FIG. 8B show a flowchart of the operation of reproducing the voice of the wireless microphone detected in the captured image and the voice of the wireless microphone that is correlated with the voice and not detected in the captured image during reproduction. 8A and 8B, steps having the same processing contents as those in FIGS. 2A and 2B are denoted by the same reference numerals. In this embodiment, the video camera 100 (CPU 106) has a function of recognizing a person in a reproduced image and a function of storing a person registered in advance and the wireless microphones 200 1 to 200 n in association with each other. Therefore, it can be said that the CPU 106 records the sound track or sound file corresponding to each of the wireless microphones 200 1 to 200 n in association with the person corresponding to the sound. Hereinafter, an audio track or an audio file is represented by an audio track.

ユーザがビデオカメラ100で再生対象の動画を選択して再生を開始すると、CPU106は、記録媒体110の選択された動画ファイルをオープンして、再生処理を開始する。音声ファイルが動画ファイルとは別のファイルとして記録されている場合は、内蔵マイク部103及び各ワイヤレスマイク200〜200に対応する音声ファイルも同時にオープンして、再生処理を開始する。 When the user selects a moving image to be played with the video camera 100 and starts playback, the CPU 106 opens the selected moving image file on the recording medium 110 and starts playback processing. When the audio file is recorded as a file different from the moving image file, the audio file corresponding to the built-in microphone unit 103 and each of the wireless microphones 200 1 to 200 n is also opened at the same time, and the reproduction process is started.

CPU106は、内蔵マイク部103に対応する音声トラックから動画1フレーム時間に相当する音声データを再生して、RAM109の音声信号用バッファに格納する(S801)。内蔵マイク部103で取得された音声データは、音声信号用バッファのミックス音声領域と内蔵マイク音声領域に格納される。   The CPU 106 reproduces audio data corresponding to one frame time of the moving image from the audio track corresponding to the built-in microphone unit 103, and stores it in the audio signal buffer of the RAM 109 (S801). The sound data acquired by the built-in microphone unit 103 is stored in the mixed sound area and the built-in microphone sound area of the sound signal buffer.

CPU106は内部変数iに1をセットして初期化する(S802)。CPU106は、マイクiに対応する音声トラックから動画1フレーム時間に相当する音声データを再生し、RAM109のマイク[i]音声領域に格納する(S803)。次に、CPU106は、マイクiが再生画像内に存在するか否かを判定する(S206)。この判定は、マイクiが関連付けられている人物が再生画像内に検出されているか否かで行うことができる。   The CPU 106 initializes the internal variable i by setting 1 (S802). The CPU 106 reproduces audio data corresponding to one frame time of the moving image from the audio track corresponding to the microphone i, and stores it in the microphone [i] audio area of the RAM 109 (S803). Next, the CPU 106 determines whether or not the microphone i exists in the reproduced image (S206). This determination can be made based on whether or not a person associated with the microphone i is detected in the reproduced image.

マイクiが再生画像内に存在する場合(S205)、CPU106は、ミックス音声領域の音声データとマイク[i]音声領域の音声データを混合し、混合結果の音声データをミックス音声領域に記録する(S208)。また、CPU106は、内部変数Mic[i]にワイヤレスマイクiが再生画像内に存在することを示す値”1”をセットする(S804)。図9は、変数Mic[i]にセットされる値の例を示す。マイクiが再生画像内に存在しない場合(S207)、CPU106は、変数Mic[i]にマイクiが再生画像内に存在しないことを示す値”2”をセットする(S808)。   When the microphone i exists in the reproduced image (S205), the CPU 106 mixes the audio data in the mixed audio area and the audio data in the microphone [i] audio area, and records the audio data of the mixing result in the mixed audio area ( S208). Further, the CPU 106 sets a value “1” indicating that the wireless microphone i exists in the reproduced image in the internal variable Mic [i] (S804). FIG. 9 shows an example of values set in the variable Mic [i]. When the microphone i does not exist in the reproduced image (S207), the CPU 106 sets a value “2” indicating that the microphone i does not exist in the reproduced image to the variable Mic [i] (S808).

ステップS211以降は、実施例1で説明した処理と同様の処理を行う。最終的に、CPU106は、音声信号用バッファのミックス音声領域に格納される音声データを図示しない音声出力手段に出力し(S806)、ステップS801に戻って次の記録フレームに対する処理を繰り返す。   After step S211, processing similar to that described in the first embodiment is performed. Finally, the CPU 106 outputs the audio data stored in the mixed audio area of the audio signal buffer to an audio output unit (not shown) (S806), returns to step S801, and repeats the process for the next recording frame.

以上、説明したように、再生時に、再生画像内に検出されているワイヤレスマイクの音声と、この音声と相関のある、再生画像外のワイヤレスマイクによる音声を同時再生できる。   As described above, at the time of playback, the sound of the wireless microphone detected in the playback image and the sound of the wireless microphone outside the playback image correlated with this sound can be played back simultaneously.

ワイヤレスマイクが自身の位置座標を検出する測位機能を有する場合、マイク位置情報を利用して、個々のワイヤレスマイクが撮像画像内にあるかどうかを判定できる。この判定結果を使って、撮像画像内に検出されるワイヤレスマイクの音声と相関のある、撮影画像内に検出されないワイヤレスマイクの音声を選択的に記録できる。   When the wireless microphone has a positioning function for detecting its own position coordinates, it is possible to determine whether each wireless microphone is in the captured image using the microphone position information. Using this determination result, it is possible to selectively record the sound of the wireless microphone that is correlated with the sound of the wireless microphone detected in the captured image and that is not detected in the captured image.

図10は、測位機能を有するワイヤレスマイクの概略構成ブロック図を示す。ワイヤレスマイク1000(1000〜1000)は、ワイヤレスマイク200の機能に加えて、測位部801を具備する。この実施例では、ビデオカメラ100は、通信部105を介して最大n個のワイヤレスマイク1000〜1000から音声データと位置情報を取得し、記録できる。 FIG. 10 shows a schematic block diagram of a wireless microphone having a positioning function. The wireless microphone 1000 (1000 1 to 1000 n ) includes a positioning unit 801 in addition to the function of the wireless microphone 200. In this embodiment, the video camera 100 acquires the position information and voice data from up to n wireless microphone 1000 1 to 1000 n through the communication unit 105, can be recorded.

図11A及び図11Bは、本実施例の記録時の音声処理のフローチャートである。図11A及び図11Bにおいて、図2A及び図2Bと同じ処理には同じ符号を付してある。   11A and 11B are flowcharts of audio processing during recording according to the present embodiment. 11A and 11B, the same processes as those in FIGS. 2A and 2B are denoted by the same reference numerals.

ユーザがビデオカメラ100での記録を開始すると、CPU106は、実施例1と同様の処理を行い、ワイヤレスマイク1000の検出とワイヤレスマイク1000が撮像画像内に存在するかの判定を行う(S203〜S207)。そして、CPU106は、検出されたワイヤレスマイク1000の音声処理(S208,S209)を行った後、マイクiの位置情報(マイク位置情報)を取得する(S1101)。   When the user starts recording with the video camera 100, the CPU 106 performs the same processing as in the first embodiment, and detects the wireless microphone 1000 and determines whether the wireless microphone 1000 exists in the captured image (S203 to S207). ). The CPU 106 performs sound processing (S208, S209) of the detected wireless microphone 1000, and then acquires position information (microphone position information) of the microphone i (S1101).

CPU106は、接続可能な全ワイヤレスマイク1000の検出処理が終了すると(S214)、ステップS216以降の処理を行う。ステップS216以降の処理で、CPU106は、撮像画像内に存在しないと判定されたワイヤレスマイクの音声と、撮像画像内に存在すると判定された何れかのワイヤレスマイクの音声との相関を判定する(S1102)。CPU106は、音声信号用バッファのミックス音声領域の音声データを記録媒体に記録し(S223)、ステップS201に戻って次の記録フレームに対する処理を繰り返す。   When the detection process of all connectable wireless microphones 1000 ends (S214), the CPU 106 performs the processes after step S216. In the processing after step S216, the CPU 106 determines the correlation between the sound of the wireless microphone determined not to be present in the captured image and the sound of any wireless microphone determined to be present in the captured image (S1102). ). The CPU 106 records the audio data in the mixed audio area of the audio signal buffer on the recording medium (S223), returns to step S201, and repeats the process for the next recording frame.

図12は、相関判定処理(S1102)の詳細なフローチャートを示す。CPU106は内部変数ResultにFALSEを、内部変数jに1をセットして初期化する(S1201)。内部変数jは、現在処理中のマイクiとの相関の有無を判定する対象のワイヤレスマイクを特定する番号を示す。CPU106は、変数jと変数iの値が一致するか否かを判定する(S1202)。一致する場合(S1202)、CPU106は、変数jをカウントアップし(S1203)、全ワイヤレスマイクとの相関判定を終了したか否かを判定する(S1204)。   FIG. 12 shows a detailed flowchart of the correlation determination process (S1102). The CPU 106 initializes the internal variable Result by setting FALSE and the internal variable j to 1 (S1201). The internal variable j indicates a number that identifies a wireless microphone that is a target for determining whether or not there is a correlation with the microphone i currently being processed. The CPU 106 determines whether or not the values of the variable j and the variable i match (S1202). If they match (S1202), the CPU 106 counts up the variable j (S1203), and determines whether or not the correlation determination with all wireless microphones has been completed (S1204).

本フローチャートでは、処理の途中でいずれかのワイヤレスマイクとの相関があると判定された時点で、ResultをTRUEにセットして相関判定を終了する。全てのワイヤレスマイクとの相関判定が終了している場合は、何れのワイヤレスマイクとも相関がない状態であり、ResultはFALSEのままで判定処理を終了する。全てのワイヤレスマイクとの相関判定が終了していない場合(S1203)、CPU106は、ステップS1202に戻って、次のワイヤレスマイクとの相関判定処理を継続する。   In this flowchart, when it is determined that there is a correlation with one of the wireless microphones in the middle of the processing, Result is set to TRUE and the correlation determination ends. When the correlation determination with all the wireless microphones has been completed, there is no correlation with any wireless microphone, and the determination process ends with the Result set to FALSE. If the correlation determination with all wireless microphones has not been completed (S1203), the CPU 106 returns to step S1202 and continues the correlation determination process with the next wireless microphone.

変数jと変数iの値が一致しない場合(S1202)、CPU106は、マイクjがビデオカメラ100により検出され、かつ撮像画像内に存在するか否かを判定する(S1205)。マイクjがビデオカメラ100により検出されていないか、または、撮像画像内に存在しない場合(S1205)、CPU106は、変数jをカウントアップする(S1203)。CPU106は、次のワイヤレスマイクとの相関判定処理の要否を判断する(S1204)。   If the values of the variable j and i do not match (S1202), the CPU 106 determines whether or not the microphone j is detected by the video camera 100 and exists in the captured image (S1205). If the microphone j is not detected by the video camera 100 or does not exist in the captured image (S1205), the CPU 106 counts up the variable j (S1203). The CPU 106 determines whether or not the correlation determination process with the next wireless microphone is necessary (S1204).

マイクjがビデオカメラ100により検出され、かつ撮像画像内に存在する場合(S1205)、CPU106は、マイクiとマイクjの間の距離を算出して、変数dにセットする(S1206)。マイクiとマイクjの間の距離は、図11A及び図11BのステップS1101で取得した各マイクの位置情報を用いて、

Figure 2013005418
に示すヒュベニの距離計算式で求めることができる。 When the microphone j is detected by the video camera 100 and exists in the captured image (S1205), the CPU 106 calculates the distance between the microphone i and the microphone j and sets it to the variable d (S1206). The distance between the microphone i and the microphone j is obtained by using the position information of each microphone acquired in step S1101 of FIGS. 11A and 11B.
Figure 2013005418
It can be obtained by the Huveni distance calculation formula shown in FIG.

CPU106は、変数dが閾値DTよりも小さいか否かを判定する(S1207)。DTは、会話が成立すると想定される距離である。DTは、予め決められた固定値でよいが、ユーザが値を設定できるようにしてもよい。変数dが閾値DT以上である場合(S1207)、ワイヤレスマイクi,j間の距離が大きく、マイクiとマイクjに相関がないと見做しうる。そこで、CPU106は、変数jをカウントアップし(S1203)、全ワイヤレスマイクとの相関判定を終了したか否かを判定する(S1204)。   The CPU 106 determines whether or not the variable d is smaller than the threshold value DT (S1207). DT is a distance at which a conversation is assumed to be established. The DT may be a fixed value determined in advance, but may be set by the user. When the variable d is equal to or greater than the threshold value DT (S1207), it can be considered that the distance between the wireless microphones i and j is large and the microphone i and the microphone j are not correlated. Therefore, the CPU 106 counts up the variable j (S1203), and determines whether or not the correlation determination with all wireless microphones is completed (S1204).

変数dが閾値DTよりも小さい場合(S1207)、会話が成立する距離であるので、マイクiとマイクjに相関があると見做しうる。そこで、CPU106は、マイクiが、撮像画面内の検出された何れかのマイク(ここでは、マイクj)と相関があることを示すTRUEを内部変数Resultにセットして(S1208)、処理を終了する。   When the variable d is smaller than the threshold value DT (S1207), since the conversation is established, it can be considered that there is a correlation between the microphone i and the microphone j. Therefore, the CPU 106 sets TRUE indicating that the microphone i is correlated with any of the detected microphones (here, the microphone j) in the imaging screen to the internal variable Result (S1208), and ends the processing. To do.

このように、本実施例では、会話が成立するようなマイク間の距離を要素として、相関を判定する。これにより、撮影画像内に検出されていないマイクの中で適切なマイクの音声を、撮像画像内で検出されるマイクの音声と同時に記録することが可能になる。   Thus, in the present embodiment, the correlation is determined using the distance between the microphones where the conversation is established as an element. This makes it possible to record the sound of an appropriate microphone among the microphones not detected in the captured image at the same time as the sound of the microphone detected in the captured image.

実施例1に対する実施例2と同様に、実施例3に対して、再生時に記録音声を選択的に再生するようにしてもよい。即ち、ビデオカメラ100は、記録時には内蔵マイクの音声及び接続する全ワイヤレスマイクの音声を記録し、再生時に、記録された画像・音声データの画像を再生しつつ、音声を選択的に再生する。記録時に各マイクで取得される音声は、1つの動画ファイルに異なるトラックとして記録してもよく、またマイク別にそれぞれ独立した音声ファイルとして記録してもよい。   Similar to the second embodiment with respect to the first embodiment, the recorded sound may be selectively reproduced during reproduction with respect to the third embodiment. That is, the video camera 100 records the sound of the built-in microphone and the sound of all the connected wireless microphones during recording, and selectively reproduces the sound while reproducing the recorded image / audio data image during reproduction. Audio acquired by each microphone at the time of recording may be recorded as a different track in one moving image file, or may be recorded as an independent audio file for each microphone.

図13A及び図13Bは、再生時に、撮像画像内に検出されるワイヤレスマイクの音声と、この音声と相関のある、撮影画像内に検出されないワイヤレスマイクの音声を再生する動作のフローチャートを示す。図13A及び図13Bにおいて、図11A及び図11Bと同じ処理内容のステップには同じ符号を付してある。ビデオカメラ100(CPU106)は、予め登録されている人物とワイヤレスマイク1000〜1000とを関連付けて記憶し、各ワイヤレスマイク1000〜1000の位置情報を音声トラックまたは音声ファイルに関連付けて記録する。また、ビデオカメラ100は、予め登録されている人物を再生画像中から検出する機能を有し、動画再生時に再生画像中に登録人物が存在するか否かを検出できる。 FIG. 13A and FIG. 13B show a flowchart of the operation of reproducing the sound of the wireless microphone detected in the captured image and the sound of the wireless microphone that is correlated with the sound and not detected in the captured image during reproduction. 13A and 13B, steps having the same processing contents as those in FIGS. 11A and 11B are denoted by the same reference numerals. The video camera 100 (CPU 106) stores a person registered in advance and the wireless microphones 1000 1 to 1000 n in association with each other, and records position information of each wireless microphone 1000 1 to 1000 n in association with an audio track or an audio file. To do. In addition, the video camera 100 has a function of detecting a pre-registered person from the reproduced image, and can detect whether or not a registered person exists in the reproduced image during moving image reproduction.

ユーザがビデオカメラ100で再生対象の動画を選択して再生を開始すると、CPU106は、記録媒体110の選択された動画ファイルをオープンして、再生処理を開始する。音声ファイルが動画ファイルとは別のファイルとして記録されている場合は、内蔵マイク部103及び各ワイヤレスマイク1000〜1000に対応する音声ファイルも同時にオープンして、再生処理を開始する。 When the user selects a moving image to be played with the video camera 100 and starts playback, the CPU 106 opens the selected moving image file on the recording medium 110 and starts playback processing. When the audio file is recorded as a file different from the moving image file, the audio file corresponding to the built-in microphone unit 103 and each of the wireless microphones 1000 1 to 1000 n is opened at the same time, and the reproduction process is started.

CPU106は、内蔵マイク部103に対応する音声トラックから動画1フレーム時間に相当する音声データを再生して、RAM109の音声信号用バッファに格納する(S1301)。内蔵マイク部103で取得された音声データは、音声信号用バッファのミックス音声領域と内蔵マイク音声領域に格納される。   The CPU 106 reproduces the audio data corresponding to one frame time of the moving image from the audio track corresponding to the built-in microphone unit 103, and stores it in the audio signal buffer of the RAM 109 (S1301). The sound data acquired by the built-in microphone unit 103 is stored in the mixed sound area and the built-in microphone sound area of the sound signal buffer.

CPU106は内部変数iに1をセットして初期化する(S1302)。CPU106は、マイクiに対応する音声トラックから動画1フレーム時間に相当する音声データを再生し、RAM109のマイク[i]音声領域に格納する(S1303)。次に、CPU106は、マイクiが再生画像内に存在するか否かを判定する(S206)。この判定は、マイクiが関連付けられている人物が再生画像内に検出されているか否かで行うことができる。   The CPU 106 initializes the internal variable i by setting 1 (S1302). The CPU 106 reproduces audio data corresponding to one frame time of the moving image from the audio track corresponding to the microphone i, and stores it in the microphone [i] audio area of the RAM 109 (S1303). Next, the CPU 106 determines whether or not the microphone i exists in the reproduced image (S206). This determination can be made based on whether or not a person associated with the microphone i is detected in the reproduced image.

マイクiが再生画像内に存在する場合(S207)、CPU106は、ミックス音声領域の音声データとマイク[i]音声領域の音声データを混合し、混合結果の音声データをミックス音声領域に記録する(S208)。また、CPU106は、内部変数Mic[i]にワイヤレスマイクiが再生画像内に存在することを示す値”1”をセットする(S1304)。図9は、ここで変数Mic[i]セットされる値の例を示す。マイクiが再生画像内に存在しない場合(S207)、CPU106は、変数Mic[i]にマイクiが再生画像内に存在しないことを示す値”2”をセットする(S1305)。   When the microphone i exists in the reproduced image (S207), the CPU 106 mixes the audio data in the mixed audio area and the audio data in the microphone [i] audio area, and records the audio data of the mixing result in the mixed audio area ( S208). Further, the CPU 106 sets a value “1” indicating that the wireless microphone i exists in the reproduced image to the internal variable Mic [i] (S1304). FIG. 9 shows an example of values set here for the variable Mic [i]. When the microphone i does not exist in the reproduced image (S207), the CPU 106 sets a value “2” indicating that the microphone i does not exist in the reproduced image to the variable Mic [i] (S1305).

CPU106は、マイクiに対応する音声トラックに関連付けて記録されているマイクiの位置情報を取得する(S1306)。   The CPU 106 acquires the position information of the microphone i recorded in association with the audio track corresponding to the microphone i (S1306).

ステップS213〜S217,S1102,S219〜S222では、実施例3で説明した処理と同様の処理を行う。最終的に、CPU106は、音声信号用バッファのミックス音声領域に格納される音声データを図示しない音声出力手段に出力し(S1307)、ステップS1301に戻って次の記録フレームに対する処理を繰り返す。   In steps S213 to S217, S1102, and S219 to S222, processing similar to that described in the third embodiment is performed. Finally, the CPU 106 outputs the audio data stored in the mixed audio area of the audio signal buffer to an audio output unit (not shown) (S1307), returns to step S1301, and repeats the process for the next recording frame.

以上、説明したように、再生時に、再生画像内に検出されているワイヤレスマイクの音声と、この音声と相関のある、再生画像外のワイヤレスマイクによる音声を同時再生できる。   As described above, at the time of playback, the sound of the wireless microphone detected in the playback image and the sound of the wireless microphone outside the playback image correlated with this sound can be played back simultaneously.

(その他)
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。特に、実施例2又は実施例4に示す再生処理をコンピュータに実行させるためのプログラムによっても、本発明が実現される。
(Other)
The present invention can also be realized by executing the following processing. That is, software (program) that realizes the functions of the above-described embodiments is supplied to a system or apparatus via a network or various storage media, and a computer (or CPU, MPU, or the like) of the system or apparatus reads the program. It is a process to be executed. In particular, the present invention is also realized by a program for causing a computer to execute the reproduction process shown in the second or fourth embodiment.

本実施例では、撮像装置を例にとって説明したが、撮像機能または再生機能と、音声処理機能を有していればどのような装置であっても良い。たとえば、カメラ、ビデオ、携帯電話、スマートフォン、パソコンなどであってもよい。   In this embodiment, the image pickup apparatus has been described as an example. However, any apparatus may be used as long as it has an image pickup function or a reproduction function and a sound processing function. For example, it may be a camera, a video, a mobile phone, a smartphone, a personal computer, or the like.

また、実施例1から実施例4の機能は同時に備えられていても良い。また、各実施例を適宜組み合わせて使用しても良い。たとえば、動画及び音声を記録再生可能なビデオカメラにおいて、撮影時に全ワイヤレスマイクの音声を記録するか、実施例1又は3で示した処理を行うかの選択をユーザに可能とする。そして、全ワイヤレスマイクの音声を記録した場合は実施例2又は4で示した処理を行うように構成する。   The functions of the first to fourth embodiments may be provided at the same time. Moreover, you may use combining each Example suitably. For example, in a video camera capable of recording and reproducing moving images and audio, the user can select whether to record the audio of all wireless microphones at the time of shooting or to perform the processing described in the first or third embodiment. When the voices of all the wireless microphones are recorded, the processing shown in the second or fourth embodiment is performed.

Claims (14)

撮像手段及び1以上のワイヤレスマイクと通信を行う通信手段を有する撮像装置であって、
前記ワイヤレスマイクのそれぞれが前記撮像手段の撮像画像内に存在するか否かを判定する判定手段と、
前記撮像画像内に存在するワイヤレスマイクと前記撮像画像内に存在しないワイヤレスマイクの相関の有無を判定する相関判定手段と、
前記撮像画像内に存在するワイヤレスマイクの音声と、前記相関判定手段により前記撮像画像内に存在するワイヤレスマイクと相関が有ると判定された、前記撮像画像内に存在しないワイヤレスマイクの音声を記録する記録手段
とを具備することを特徴とする撮像装置。
An imaging apparatus having communication means for communicating with an imaging means and one or more wireless microphones,
Determining means for determining whether each of the wireless microphones is present in a captured image of the imaging means;
Correlation determining means for determining whether or not there is a correlation between a wireless microphone present in the captured image and a wireless microphone not present in the captured image;
Record the voice of the wireless microphone present in the captured image and the voice of the wireless microphone that is determined not to be correlated with the wireless microphone present in the captured image by the correlation determination unit. An image pickup apparatus comprising: a recording unit.
前記判定手段が、
前記1以上のワイヤレスマイクの一つを割り当てられている被写体を登録する被写体登録手段と、
前記撮像画像内で前記被写体登録手段に登録される被写体を認識する認識手段とを有することを特徴とする請求項1に記載の撮像装置。
The determination means is
Subject registration means for registering a subject assigned with one of the one or more wireless microphones;
The imaging apparatus according to claim 1, further comprising: a recognition unit that recognizes a subject registered in the subject registration unit in the captured image.
前記相関判定手段は、
前記各ワイヤレスマイクからの音声の有無を検出する音声検出手段と、
前記音声検出手段の結果により得られる音声検出履歴データを保持する音声検出履歴保持手段と、
前記撮像画像内に存在すると判定されたワイヤレスマイクの前記音声検出履歴データと前記撮像画像内に存在しないと判定されたワイヤレスマイクの前記音声検出履歴データとを比較し、相関の有無を判定する比較手段
とを有することを特徴とする請求項1または2に記載の撮像装置。
The correlation determination means includes
Voice detection means for detecting the presence or absence of voice from each wireless microphone;
Voice detection history holding means for holding voice detection history data obtained as a result of the voice detection means;
Comparison of determining whether or not there is a correlation by comparing the voice detection history data of the wireless microphone determined to be present in the captured image with the voice detection history data of the wireless microphone determined not to be present in the captured image The imaging apparatus according to claim 1, wherein the imaging apparatus includes: means.
前記比較手段は、前記撮像画像内に存在すると判定されたワイヤレスマイクで検出される音声と、前記撮像画像内に存在しないと判定されたワイヤレスマイクで検出される音声と比較し、これら検出される音声の間隔が所定時間よりも短い場合に相関が有ると判定することを特徴とする請求項3に記載の撮像装置。   The comparison means compares the sound detected by the wireless microphone determined to be present in the captured image with the sound detected by the wireless microphone determined not to exist in the captured image, and detects these. The imaging apparatus according to claim 3, wherein it is determined that there is a correlation when the interval between sounds is shorter than a predetermined time. 前記比較手段は、前記撮像画像内に存在すると判定されたワイヤレスマイクで検出される音声と、前記撮像画像内に存在しないと判定されたワイヤレスマイクで検出される音声と比較し、これら音声の重なりが所定時間よりも短い場合に相関が有ると判定することを特徴とする請求項3に記載の撮像装置。   The comparison means compares the sound detected by the wireless microphone determined to be present in the captured image with the sound detected by the wireless microphone determined not to be present in the captured image, and overlaps these sounds. The imaging apparatus according to claim 3, wherein it is determined that there is a correlation when is shorter than a predetermined time. 前記比較手段は、前記撮像画像内に存在すると判定されたワイヤレスマイクの音量と、前記撮像画像内に存在しないと判定されたワイヤレスマイクの音量と比較し、これら音量の差分が所定の量よりも小さい場合に相関が有ると判定することを特徴とする請求項3に記載の撮像装置。   The comparison means compares the volume of the wireless microphone determined to be present in the captured image with the volume of the wireless microphone determined not to be present in the captured image, and the difference between the volumes is greater than a predetermined amount. The imaging apparatus according to claim 3, wherein it is determined that there is a correlation when the value is small. 前記各ワイヤレスマイクは現在のマイク位置情報を取得する測位手段を有し、
前記相関判定手段は、
前記撮像画像内に存在すると判定されたワイヤレスマイクの前記測位手段による前記マイク位置情報と、前記撮像画像内に存在しないと判定されたワイヤレスマイクの前記測位手段による前記マイク位置情報から、これらワイヤレスマイクの間の距離を算出し、
算出した距離が所定の距離よりも短い場合に相関が有ると判定する
ことを特徴とする請求項1又は2に記載の撮像装置。
Each wireless microphone has positioning means for acquiring current microphone position information,
The correlation determination means includes
From the microphone position information by the positioning means of the wireless microphone determined to be present in the captured image and the microphone position information by the positioning means of the wireless microphone determined not to be present in the captured image, these wireless microphones Calculate the distance between
The imaging apparatus according to claim 1, wherein it is determined that there is a correlation when the calculated distance is shorter than a predetermined distance.
画像及び1以上のワイヤレスマイクの音声が記録された画像・音声データを再生する再生装置であって、
前記各ワイヤレスマイクが再生画像内に存在するか否かを判定する判定手段と、
前記再生画像内に存在するワイヤレスマイクと前記再生画像内に存在しないワイヤレスマイクの相関の有無を判定する相関判定手段と、
前記再生画像内に存在するワイヤレスマイクの音声と、前記相関判定手段により相関があると判定された、前記再生画像内に存在しないワイヤレスマイクの音声を出力する音声出力手段
とを有することを特徴とする再生装置。
A playback device for playing back image / audio data in which an image and sound of one or more wireless microphones are recorded,
Determining means for determining whether or not each of the wireless microphones is present in a reproduced image;
Correlation determining means for determining whether or not there is a correlation between the wireless microphone present in the reproduced image and the wireless microphone not present in the reproduced image;
Audio output means for outputting the sound of the wireless microphone present in the reproduced image and the sound of the wireless microphone not present in the reproduced image determined to be correlated by the correlation determining means; Playback device.
前記判定手段は、
前記1以上のワイヤレスマイクの一つを割り当てられている被写体を登録する被写体登録手段と、
前記再生画像内で前記被写体登録手段に登録される被写体を認識する認識手段とを有することを特徴とする請求項8に記載の再生装置。
The determination means includes
Subject registration means for registering a subject assigned with one of the one or more wireless microphones;
9. The reproduction apparatus according to claim 8, further comprising a recognition unit that recognizes a subject registered in the subject registration unit in the reproduction image.
前記相関判定手段は、
前記各ワイヤレスマイクからの音声の有無を検出する音声検出手段と、
前記音声検出手段により得られる音声検出履歴データを保持する音声検出履歴保持手段と、
前記再生画像内に存在すると判定されたワイヤレスマイクの前記音声検出履歴データと前記再生画像内に存在しないと判定されたワイヤレスマイクの前記音声検出履歴データとを比較し、相関の有無を判定する比較手段
とを有することを特徴とする請求項8又は9に記載の再生装置。
The correlation determination means includes
Voice detection means for detecting the presence or absence of voice from each wireless microphone;
Voice detection history holding means for holding voice detection history data obtained by the voice detection means;
Comparison of comparing the voice detection history data of the wireless microphone determined to be present in the reproduced image with the voice detection history data of the wireless microphone determined not to be present in the reproduced image, and determining whether or not there is a correlation The reproduction apparatus according to claim 8 or 9, further comprising: means.
前記比較手段は、前記再生画像内に存在すると判定されたワイヤレスマイクで検出される音声と、前記再生画像内に存在しないと判定されたワイヤレスマイクで検出される音声と比較し、これらの音声の間隔が所定時間よりも短い場合に相関が有ると判定することを特徴とする請求項10に記載の再生装置。   The comparison means compares the sound detected by the wireless microphone determined to be present in the reproduced image with the sound detected by the wireless microphone determined not to be present in the reproduced image, and The playback apparatus according to claim 10, wherein it is determined that there is a correlation when the interval is shorter than a predetermined time. 前記比較手段は、前記再生画像内に存在すると判定されたワイヤレスマイクで検出される音声と、前記再生画像内に存在しないと判定されたワイヤレスマイクで検出される音声と比較し、これらの音声の重なりが所定時間よりも短い場合に相関が有ると判定することを特徴とする請求項10に記載の再生装置。   The comparison means compares the sound detected by the wireless microphone determined to be present in the reproduced image with the sound detected by the wireless microphone determined not to be present in the reproduced image, and 11. The playback apparatus according to claim 10, wherein it is determined that there is a correlation when the overlap is shorter than a predetermined time. 前記比較手段は、前記再生画像内に存在すると判定されたワイヤレスマイクの音量と、前記再生画像内に存在しないと判定されたワイヤレスマイクの音量と比較し、これら音量の差分が所定の量よりも小さい場合に相関が有ると判定することを特徴とする請求項10に記載の再生装置。   The comparison means compares the volume of the wireless microphone determined to be present in the reproduced image with the volume of the wireless microphone determined not to exist in the reproduced image, and the difference between the volumes is larger than a predetermined amount. The playback apparatus according to claim 10, wherein it is determined that there is a correlation when the value is small. 前記画像・音声データは各ワイヤレスマイクの位置情報を含み、
前記相関判定手段は、前記再生画像内に存在すると判定されたワイヤレスマイクの位置情報と、前記再生画像内に存在しないと判定されたワイヤレスマイクの位置情報からこれらワイヤレスマイクの間の距離を算出し、算出した距離が所定の距離よりも短い場合に相関が有ると判定することを特徴とする請求項8又は9に記載の再生装置。
The image / sound data includes position information of each wireless microphone,
The correlation determining means calculates a distance between the wireless microphones determined from the position information of the wireless microphones determined to be present in the reproduced image and the position information of the wireless microphones determined not to be present in the reproduced image. 10. The reproducing apparatus according to claim 8, wherein it is determined that there is a correlation when the calculated distance is shorter than a predetermined distance.
JP2011138050A 2011-06-22 2011-06-22 Imaging device and playback device Expired - Fee Related JP5762168B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011138050A JP5762168B2 (en) 2011-06-22 2011-06-22 Imaging device and playback device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011138050A JP5762168B2 (en) 2011-06-22 2011-06-22 Imaging device and playback device

Publications (2)

Publication Number Publication Date
JP2013005418A true JP2013005418A (en) 2013-01-07
JP5762168B2 JP5762168B2 (en) 2015-08-12

Family

ID=47673450

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011138050A Expired - Fee Related JP5762168B2 (en) 2011-06-22 2011-06-22 Imaging device and playback device

Country Status (1)

Country Link
JP (1) JP5762168B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014168022A1 (en) 2013-04-11 2014-10-16 日本電気株式会社 Signal processing device, signal processing method, and signal processing program
JP2019062322A (en) * 2017-09-25 2019-04-18 株式会社タムラ製作所 Audio control console controllable by camera

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09219808A (en) * 1996-02-13 1997-08-19 Casio Comput Co Ltd Video camera
JP2006054567A (en) * 2004-08-10 2006-02-23 Sony Corp Video camera apparatus
JP2006314078A (en) * 2005-04-06 2006-11-16 Sony Corp Imaging apparatus, voice recording apparatus, and the voice recording method
JP2008242318A (en) * 2007-03-28 2008-10-09 Toshiba Corp Apparatus, method and program detecting interaction
JP2008271082A (en) * 2007-04-19 2008-11-06 Casio Comput Co Ltd Apparatus for recording images with sound data, and program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09219808A (en) * 1996-02-13 1997-08-19 Casio Comput Co Ltd Video camera
JP2006054567A (en) * 2004-08-10 2006-02-23 Sony Corp Video camera apparatus
JP2006314078A (en) * 2005-04-06 2006-11-16 Sony Corp Imaging apparatus, voice recording apparatus, and the voice recording method
JP2008242318A (en) * 2007-03-28 2008-10-09 Toshiba Corp Apparatus, method and program detecting interaction
JP2008271082A (en) * 2007-04-19 2008-11-06 Casio Comput Co Ltd Apparatus for recording images with sound data, and program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014168022A1 (en) 2013-04-11 2014-10-16 日本電気株式会社 Signal processing device, signal processing method, and signal processing program
US10431243B2 (en) 2013-04-11 2019-10-01 Nec Corporation Signal processing apparatus, signal processing method, signal processing program
JP2019062322A (en) * 2017-09-25 2019-04-18 株式会社タムラ製作所 Audio control console controllable by camera

Also Published As

Publication number Publication date
JP5762168B2 (en) 2015-08-12

Similar Documents

Publication Publication Date Title
JP5247384B2 (en) Imaging apparatus, information processing method, program, and storage medium
CN102006403A (en) Imaging device and playback device
JP4924442B2 (en) Playback apparatus, control method thereof, and program
CN112040115B (en) Image processing apparatus, control method thereof, and storage medium
KR20190000882A (en) Computing device, method, computer program for processing video
KR20120068078A (en) Image photographing apparatus and method for connecting audio data to image data thereof
KR20100116161A (en) Information recording apparatus
JP2010237761A (en) Electronic apparatus
RU2654160C1 (en) Audio signals reproduction method and device
JP2013239797A (en) Image processing device
US8384784B2 (en) Digital photographing apparatus and method of controlling the same
KR102004884B1 (en) Method and apparatus for controlling animated image in an electronic device
US8391544B2 (en) Image processing apparatus and method for processing image
KR20140039928A (en) Method and apparatus for photographing in portable terminal
JP5762168B2 (en) Imaging device and playback device
JP5111343B2 (en) Playback device
JP5509781B2 (en) Imaging device
JP2009260718A (en) Image reproduction system and image reproduction processing program
JP2009239349A (en) Photographing apparatus
JP2010200079A (en) Photography control device
JP5424300B2 (en) Playback apparatus and program
KR101748576B1 (en) Apparatus and method for segmenting video data in mobile communication teminal
US20240107151A1 (en) Image pickup apparatus, control method for image pickup apparatus, and storage medium capable of easily retrieving desired-state image and sound portions from image and sound after specific sound is generated through attribute information added to image and sound
JP2010021607A (en) Video camera, recording method of video camera and recording program
US11373686B1 (en) Systems and methods for removing commands from sound recordings

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140617

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150309

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150317

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150417

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150512

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150609

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D03

LAPS Cancellation because of no payment of annual fees