JP2013131871A - Editing device, remote controller, television receiver, specific audio signal, editing system, editing method, program, and recording medium - Google Patents

Editing device, remote controller, television receiver, specific audio signal, editing system, editing method, program, and recording medium Download PDF

Info

Publication number
JP2013131871A
JP2013131871A JP2011279036A JP2011279036A JP2013131871A JP 2013131871 A JP2013131871 A JP 2013131871A JP 2011279036 A JP2011279036 A JP 2011279036A JP 2011279036 A JP2011279036 A JP 2011279036A JP 2013131871 A JP2013131871 A JP 2013131871A
Authority
JP
Japan
Prior art keywords
audio
editing
video data
signal
specific
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011279036A
Other languages
Japanese (ja)
Inventor
Takeshi Shibata
健 柴田
Yasuhisa Nogami
康久 野上
Matsuo Kamei
松雄 亀井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2011279036A priority Critical patent/JP2013131871A/en
Publication of JP2013131871A publication Critical patent/JP2013131871A/en
Pending legal-status Critical Current

Links

Landscapes

  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide an editing device capable of easily editing plural pieces of audio video data.SOLUTION: An audio analysis part 15 of an editing device 10 extracts a specific audio signal embedded in the pieces of audio video data and identifies a reproduction start point on each audio video data on the basis of each extracted specific audio signal. A control part 16 performs control to reproduce each piece of audio video data from the reproduction start point.

Description

本発明は、映像音声データを編集する編集装置に関する。また、そのような編集装置を含むテレビジョン受像機、および、そのような編集装置を遠隔制御するための遠隔制御装置に関する。   The present invention relates to an editing apparatus for editing video / audio data. The present invention also relates to a television receiver including such an editing device and a remote control device for remotely controlling such an editing device.

近年、ビデオカメラのデジタル化に伴い、一般のユーザでも高画質かつ高音質のデジタル映像を手軽に撮影することができるようになってきた。また、ビデオカメラの低価格化に伴い、一般ユーザの間でも、複数のビデオカメラを用いて複数のアングルから被写体を撮影し、これら複数の音声映像データを編集することによって編集映像を作成したいというニーズが高まっている。   In recent years, with the digitalization of video cameras, it has become possible for ordinary users to easily shoot digital images with high image quality and high sound quality. In addition, along with the price reduction of video cameras, it is said that general users want to create an edited video by shooting a subject from a plurality of angles using a plurality of video cameras and editing the plurality of audio / video data. Needs are growing.

特許文献1には、複数のビデオ収録デッキを一度に制御することができるビデオカメラビデオ収録デッキ用操作装置が開示されている。   Patent Document 1 discloses an operation device for a video camera video recording deck capable of controlling a plurality of video recording decks at a time.

特開平10−271431(1998年10月9日公開)JP-A-10-271431 (released on October 9, 1998)

デジタル音声映像データの編集には、パーソナルコンピュータおよび編集用のソフトウェアなどの編集用環境が必要になる。また、一般に編集作業には、高度な知識が必要とされ、また、手間のかかる作業でもある。それゆえ、編集作業を毛嫌いするユーザも多い。   Editing digital audio / video data requires an editing environment such as a personal computer and editing software. In general, the editing work requires a high level of knowledge and is a laborious work. Therefore, many users dislike editing work.

本発明は、上記の課題を解決するためになされたものであり、その主たる目的は、複数の音声映像データの編集作業を容易に行うことができる編集装置を実現することにある。   The present invention has been made to solve the above-described problems, and a main object of the present invention is to realize an editing apparatus capable of easily editing a plurality of audio-video data.

上記の課題を解決するため、本発明に係る編集装置は、各音声映像データによって表される複数の映像を編集する編集装置であって、各音声映像データに埋め込まれた特定音声信号を抽出する抽出手段と、上記抽出手段によって抽出された各特定音声信号に基づいて、各音声映像データ上の再生開始点を特定する特定手段と、上記再生開始点から各音声映像データを再生するよう各音声映像データの頭出しを行う制御手段と、を備えていることを特徴としている。   In order to solve the above problems, an editing apparatus according to the present invention is an editing apparatus that edits a plurality of videos represented by each audio-video data, and extracts a specific audio signal embedded in each audio-video data. Extraction means, identification means for specifying a reproduction start point on each audio video data based on each specific audio signal extracted by the extraction means, and each audio so as to reproduce each audio video data from the reproduction start point And control means for cueing video data.

上記のように構成された編集装置によれば、各音声映像データに埋め込まれた特定音声信号に基づいて再生開始点を特定し、特定された再生開始点から各音声映像データを再生するよう各音声映像データの頭出しを行うので、各音声映像データの同期を容易にとることができる。したがって、ユーザは各音声映像データを同期させるために煩雑な作業を行う必要がないので、音声映像データの編集作業を容易に行うことができる。   According to the editing apparatus configured as described above, the reproduction start point is identified based on the specific audio signal embedded in each audio / video data, and each audio / video data is reproduced from the identified reproduction start point. Since the audio / video data is cued, the audio / video data can be easily synchronized. Therefore, since the user does not need to perform a complicated operation to synchronize the audio / video data, the audio / video data can be easily edited.

また、上記特定音声信号には、固定周波数からなる固定周波数信号と、段階的に変化していく可変周波数からなる可変周波数信号とが繰り返し含まれており、上記特定手段は、上記固定周波数信号と上記可変周波数信号とを参照して、上記再生開始点を特定する、ことが好ましい。   The specific audio signal includes a fixed frequency signal composed of a fixed frequency and a variable frequency signal composed of a variable frequency that changes in stages, and the identifying means includes the fixed frequency signal and the fixed frequency signal. It is preferable to specify the reproduction start point with reference to the variable frequency signal.

上記の構成によれば、上記特定手段は、上記特定音声信号に含まれる固定周波数信号と可変周波数信号とを参照して上記再生開始点を特定するので、周波数を解析するための簡易な構成によって、上記再生開始点を特定することができる。   According to the above configuration, the specifying unit specifies the reproduction start point with reference to the fixed frequency signal and the variable frequency signal included in the specific audio signal, and therefore, with a simple configuration for analyzing the frequency. The playback start point can be specified.

また、本発明に係る編集装置は、上記各音声映像データは、各外部機器から供給され、上記制御手段は、上記再生開始点から各音声映像データを再生するよう各外部機器を制御する、ことが好ましい。   In the editing apparatus according to the present invention, each audio / video data is supplied from each external device, and the control means controls each external device to reproduce each audio / video data from the reproduction start point. Is preferred.

上記のように構成された編集装置によれば、各外部機器から供給される各音声映像データに埋め込まれた特定音声信号にお基づいて再生開始点を特定し、その再生開始点から各音声映像データを再生するよう、各外部機器を制御するので、各外部機器から供給される各音声映像データの同期を容易にとることができる。したがって、ユーザは各外部機器から供給される各音声映像データを同期させるために煩雑な作業を行う必要がないので、音声映像データの編集作業を容易に行うことができる。   According to the editing apparatus configured as described above, the playback start point is specified based on the specific audio signal embedded in each audio video data supplied from each external device, and each audio video is determined from the playback start point. Since each external device is controlled so as to reproduce the data, each audio video data supplied from each external device can be easily synchronized. Therefore, the user does not need to perform a complicated operation to synchronize each audio / video data supplied from each external device, so that the audio / video data can be easily edited.

また、上記編集装置は、再生される各音声映像データのいずれかを各時刻において選択することによって編集後の音声映像データを生成する編集手段を更に備えていることが好ましい。   The editing apparatus preferably further includes editing means for generating edited audio / video data by selecting any of the audio / video data to be reproduced at each time.

上記の構成によれば、ユーザは、上記編集手段を用いることによって、各音声映像データから編集後の音声映像データを容易に生成することができる。   According to the above configuration, the user can easily generate edited audio / video data from each audio / video data by using the editing means.

また、本発明に係る遠隔制御装置は、音声映像データによって表される複数の映像を編集する編集装置を遠隔制御するための遠隔制御装置であって、上記編集装置が各音声映像データの再生開始点を特定するために参照する特定音声信号を出力する出力手段を備えている、ことを特徴としている。   The remote control device according to the present invention is a remote control device for remotely controlling an editing device that edits a plurality of videos represented by audio-video data, and the editing device starts reproduction of each audio-video data. It is characterized by comprising output means for outputting a specific audio signal that is referred to for specifying a point.

上記のように構成された遠隔制御装置によれば、上記編集装置が各音声映像データの再生開始点を特定するために参照する特定音声信号を出力する出力手段を備えているので、ユーザは、上記遠隔制御装置を用いて、各外部機器が記録する音声映像データの一部に特定音声信号を埋め込んでおくことができる。   According to the remote control device configured as described above, the editing device includes an output unit that outputs a specific audio signal that is referred to in order to specify the reproduction start point of each audio video data. Using the remote control device, a specific audio signal can be embedded in a part of audio / video data recorded by each external device.

また、そのような音声映像データを編集する編集装置は、上記特定音声信号を参照して、再生開始点を特定することができるので、ユーザは容易に編集作業を行うことができる。   In addition, since an editing apparatus that edits such audio-video data can specify the playback start point with reference to the specific audio signal, the user can easily perform editing work.

また、本発明に係る編集システムは、上記編集装置と、上記遠隔制御装置と、上記外部機器として複数のビデオカメラとを含んでいる、ことを特徴としている。   The editing system according to the present invention includes the editing device, the remote control device, and a plurality of video cameras as the external devices.

上記の構成によれば、上記編集装置は、各ビデオカメラから供給される音声映像データに埋め込まれた特定音声信号に基づいて、再生開始点を特定するので、ユーザは容易に編集作業を行うことができる。   According to the above configuration, the editing device identifies the playback start point based on the specific audio signal embedded in the audio / video data supplied from each video camera, so that the user can easily perform editing operations. Can do.

また、本発明に係るテレビジョン受像機は、上記編集装置を備えている、ことを特徴としている。   A television receiver according to the present invention includes the editing device.

上記のように構成されたテレビジョン受像機によれば、上記編集装置を備えているので、ユーザは容易に編集作業ができる。また、編集作業のためのパーソナルコンピュータや編集用ソフトウェアなどを用意する必要がないので、ユーザの利便性を高めることができる。   According to the television receiver configured as described above, since the editing device is provided, the user can easily perform editing work. In addition, since it is not necessary to prepare a personal computer or editing software for editing work, user convenience can be improved.

また、本発明に係る特定音声信号は、音声信号に埋め込まれ、当該音声信号上の特定の位置を特定するために参照される特定音声信号であって、固定周波数からなる固定周波数信号と、段階的に変化していく可変周波数からなる可変周波数信号とを繰り返し含んでおり、上記音声信号を解析する解析装置は、上記固定周波数信号と上記可変周波数信号とを参照して、上記特定の位置を特定する、ことを特徴としている。   In addition, the specific audio signal according to the present invention is a specific audio signal that is embedded in the audio signal and referred to for specifying a specific position on the audio signal, and a fixed frequency signal composed of a fixed frequency, And an analysis device that analyzes the audio signal refers to the fixed frequency signal and the variable frequency signal to determine the specific position. It is characterized by specifying.

上記のように構成された特定音声信号を解析する解析装置は、上記固定周波数信号と上記可変周波数信号とを参照して、上記特定の位置を特定するので、上記特定音声信号は、簡易な構成によって音声信号上の特定の位置を特定するために用いることができる。   The analysis device that analyzes the specific audio signal configured as described above specifies the specific position with reference to the fixed frequency signal and the variable frequency signal. Therefore, the specific audio signal has a simple configuration. Can be used to identify a specific location on the audio signal.

また、本発明に係る編集方法は、各音声映像データによって表される複数の映像を編集する編集方法であって、各音声映像データに埋め込まれた特定音声信号を抽出する抽出工程と、上記抽出工程にて抽出された各特定音声信号に基づいて、各音声映像データ上の再生開始点を特定する特定工程と、上記再生開始点から各音声映像データを再生するよう各音声映像データの頭出しを行う制御工程と、を含んでいることを特徴としている。   The editing method according to the present invention is an editing method for editing a plurality of videos represented by each audio-video data, the extraction step extracting a specific audio signal embedded in each audio-video data, and the above extraction Based on each specific audio signal extracted in the process, a specific step for specifying a reproduction start point on each audio / video data, and cueing of each audio / video data to reproduce each audio / video data from the reproduction start point And a control process for performing.

上記のように構成された編集方法によれば、上記編集装置と同様の効果を奏する。   According to the editing method configured as described above, the same effects as those of the editing apparatus can be obtained.

また、本発明に係る編集装置が備えている各手段としてコンピュータを動作させるためのプログラム、および、それらのプログラムを記録したコンピュータ読み取り可能な記録媒体についても本発明の範疇に含まれる。   Further, a program for operating a computer as each means included in the editing apparatus according to the present invention and a computer-readable recording medium on which the program is recorded are also included in the scope of the present invention.

以上のように、本発明に係る編集装置は、各音声映像データによって表される複数の映像を編集する編集装置であって、各音声映像データに埋め込まれた特定音声信号を抽出する抽出手段と、上記抽出手段によって抽出された各特定音声信号に基づいて、各音声映像データ上の再生開始点を特定する特定手段と、上記再生開始点から各音声映像データを再生するよう各音声映像データの頭出しを行う制御手段と、を備えている。   As described above, the editing apparatus according to the present invention is an editing apparatus that edits a plurality of videos represented by each audio-video data, and an extraction unit that extracts a specific audio signal embedded in each audio-video data; , Based on each specific audio signal extracted by the extraction means, specifying means for specifying a reproduction start point on each audio video data, and each audio video data to reproduce each audio video data from the reproduction start point Control means for performing cueing.

上記のように構成された編集装置によれば、ユーザは、音声映像データの編集を容易に行うことができる。   According to the editing apparatus configured as described above, the user can easily edit audio-video data.

本発明の一実施形態に係る編集装置の構成を示すブロック図である。It is a block diagram which shows the structure of the editing apparatus which concerns on one Embodiment of this invention. 本発明の一実施形態に係るリモコンの構成を示すブロック図である。It is a block diagram which shows the structure of the remote control which concerns on one Embodiment of this invention. 本発明の一実施形態に係るデジタルビデオカメラの構成を示すブロック図である。It is a block diagram which shows the structure of the digital video camera which concerns on one Embodiment of this invention. 本発明の一実施形態に係る特定音声信号の波形を示す図である。It is a figure which shows the waveform of the specific audio | voice signal which concerns on one Embodiment of this invention. 本発明の一実施形態に係る編集装置による編集開始点特定処理の流れを示すフローチャートである。It is a flowchart which shows the flow of the edit start point specific process by the editing apparatus which concerns on one Embodiment of this invention. 本発明の適用例を説明するための図であって、運動会等で用いられるトラックコースを互いに異なる複数の角度から撮影する場合を示す図である。It is a figure for demonstrating the example of application of this invention, Comprising: It is a figure which shows the case where the track course used at an athletic meet etc. is image | photographed from several different angles. 本発明の適用例を説明するための図であって、(a)は、当該適用例において用いられるデジタルビデオカメラおよび録音機を示しており、(b)は、(a)に示す各機器によって録音される特定音声信号の各波形を示している。It is a figure for demonstrating the application example of this invention, Comprising: (a) has shown the digital video camera and recording device which are used in the said application example, (b) is shown by each apparatus shown to (a). Each waveform of a specific audio signal to be recorded is shown. 本発明の適用例を説明するための図であって、実施形態に係る音声解析部によって解析される各音声データ、並びに、解析の結果算出される編集開始点までの時間的間隔を示す図である。It is a figure for demonstrating the example of application of this invention, Comprising: Each voice data analyzed by the audio | voice analysis part which concerns on embodiment, and the figure which shows the time interval to the edit start point calculated as a result of an analysis is there. 本発明の一実施形態に係る編集装置を備えるテレビジョン受像機を用いた編集作業における表示画面の一例を示す図である。It is a figure which shows an example of the display screen in the edit operation | work using the television receiver provided with the editing apparatus which concerns on one Embodiment of this invention.

(テレビジョン受像器30)
本発明の一実施形態に係るテレビジョン受像器30について、図1を参照しながら説明する。テレビジョン受像器30は、本発明の一実施形態に係る編集装置10、映像処理部31、LCDパネル32、記録部33、アンプ34、および、スピーカー35を備えている。テレビジョン受像機30は、図1に示すように、リモコン(遠隔操作装置)40によって操作される。
(Television receiver 30)
A television receiver 30 according to an embodiment of the present invention will be described with reference to FIG. The television receiver 30 includes an editing apparatus 10 according to an embodiment of the present invention, a video processing unit 31, an LCD panel 32, a recording unit 33, an amplifier 34, and a speaker 35. As shown in FIG. 1, the television receiver 30 is operated by a remote controller (remote operation device) 40.

(編集装置10の構成)
図1に示すように、編集装置10は、第1外部入出力部11a、第2外部入出力部11b、第3外部入出力部11c、USBインターフェース12a、SDカードインターフェース12b、メモリ13、復号部14、音声解析部15(抽出手段、特定手段)、制御部16(制御手段)、赤外線受光部17および編集部(編集手段)20を備えている。編集部20は、映像選択部21、音声選択部22および編集データ生成部23を備えている。
(Configuration of editing apparatus 10)
As shown in FIG. 1, the editing apparatus 10 includes a first external input / output unit 11a, a second external input / output unit 11b, a third external input / output unit 11c, a USB interface 12a, an SD card interface 12b, a memory 13, and a decoding unit. 14, a voice analysis unit 15 (extraction unit, identification unit), a control unit 16 (control unit), an infrared light receiving unit 17, and an editing unit (editing unit) 20. The editing unit 20 includes a video selection unit 21, an audio selection unit 22, and an editing data generation unit 23.

第1外部入出力部11a、第2外部入出力部11bおよび第3外部入出力部11cは、外部機器を編集装置10に接続するためのインターフェースである。当該インターフェースは、編集装置10に接続されている外部機器から音声映像データを受け付けるものであり、かつ、編集装置10に接続されている外部機器を制御可能な規格に適合しているものである。   The first external input / output unit 11a, the second external input / output unit 11b, and the third external input / output unit 11c are interfaces for connecting an external device to the editing apparatus 10. The interface accepts audio / video data from an external device connected to the editing apparatus 10 and conforms to a standard capable of controlling the external device connected to the editing apparatus 10.

上記インターフェースの規格として、例えばHDMI、HDV(IEEE1394)が挙げられる。本実施形態において、第1外部入出力部11aおよび第2外部入出力部11bはHDMIに適合したものであり、第3外部入出力部11cはHDVに適合したものとする。ただし、これは、本実施形態を限定するものではなく、後述するデジタルビデオカメラ50による音声映像データの頭出しを制御するための制御信号を伝送できるものであればよい。   Examples of the interface standard include HDMI and HDV (IEEE 1394). In the present embodiment, the first external input / output unit 11a and the second external input / output unit 11b are adapted to HDMI, and the third external input / output unit 11c is adapted to HDV. However, this is not a limitation of the present embodiment, and any signal may be used as long as it can transmit a control signal for controlling cueing of audio / video data by a digital video camera 50 described later.

USBインターフェース12aは、USB接続された外部機器からの音声映像データを取り込むためのインターフェースであり、SDカードインターフェース12bは、SDカードに記録された音声映像データを取り込むためのインターフェースである。   The USB interface 12a is an interface for taking in audio / video data from an external device connected via USB, and the SD card interface 12b is an interface for taking in audio / video data recorded on the SD card.

USBインターフェース12aおよびSDカードインターフェース12bから取り込まれた音声映像データは、メモリ13に格納される。メモリ13としては、例えば、大容量のフラッシュメモリ等を用いることができる。   The audio / video data fetched from the USB interface 12 a and the SD card interface 12 b is stored in the memory 13. As the memory 13, for example, a large-capacity flash memory can be used.

以下の説明では、第1〜第3の外部入出力部には、外部機器として、それぞれ第1〜第3のデジタルビデオカメラ50a〜50cが接続されているものとする。また、第1の外部入出力部11a、第2の外部入出力部11b、および、第3の外部入出力部11cを合わせて外部入出力部11とも表記する。   In the following description, it is assumed that first to third digital video cameras 50a to 50c are connected to the first to third external input / output units as external devices, respectively. The first external input / output unit 11a, the second external input / output unit 11b, and the third external input / output unit 11c are also collectively referred to as the external input / output unit 11.

なお、本実施形態において、編集装置10が編集する複数の音声映像データの一例として、デジタルビデオカメラ50a〜50cに記録されている各音声映像データを用いて説明する。しかし、編集装置10が編集する複数の音声映像データは、これに限定されるものではない。編集装置10は、メモリ13、または、テレビジョン受像器30が備える記録部33にあらかじめ記録された複数の音声映像データを編集することに用いることもできる。   In the present embodiment, a description will be given using audio / video data recorded in the digital video cameras 50a to 50c as an example of a plurality of audio / video data edited by the editing apparatus 10. However, the plurality of audio / video data edited by the editing apparatus 10 is not limited to this. The editing apparatus 10 can also be used to edit a plurality of audio / video data recorded in advance in the memory 13 or the recording unit 33 provided in the television receiver 30.

(復号部14)
復号部14は、第1〜第3のデジタルビデオカメラ50a〜50cから外部入出力部11を介して供給される第1〜第3の音声映像データ、並びに、メモリ13に格納された映像音声データを受け取ると共に、各音声映像データを復号することによって各音声映像信号を生成する。生成された各音声映像信号は、映像選択部21、および音声解析部15に供給される。各音声映像データは、例えば、MPEG2ストリームやMPEG4ストリームである。
(Decoding unit 14)
The decoding unit 14 includes first to third audio / video data supplied from the first to third digital video cameras 50 a to 50 c via the external input / output unit 11, and video / audio data stored in the memory 13. Each audio video signal is generated by decoding each audio video data. The generated audio / video signals are supplied to the video selection unit 21 and the audio analysis unit 15. Each audio / video data is, for example, an MPEG2 stream or an MPEG4 stream.

以下では、第1〜第3の音声映像データを復号して得られる音声映像信号を、それぞれ、第1から第3の音声映像信号とも呼称する。   Hereinafter, the audio / video signals obtained by decoding the first to third audio / video data are also referred to as first to third audio / video signals, respectively.

なお、
(音声解析部15)
音声解析部15は、復号部14によって復号された各音声信号から特定音声信号を検出および抽出すると共に、抽出した特定音声信号に基づいて各音声信号上の同期位置を特定する。また、音声解析部15は、特定した同期位置を表す同期位置情報を、制御部16に供給する。
In addition,
(Voice analysis unit 15)
The sound analysis unit 15 detects and extracts a specific sound signal from each sound signal decoded by the decoding unit 14 and specifies a synchronization position on each sound signal based on the extracted specific sound signal. Further, the voice analysis unit 15 supplies synchronization position information representing the identified synchronization position to the control unit 16.

ここで、特定音声信号とは、各音声信号に埋め込まれた特定の音声信号であり、音声解析部15は、特定音声信号を解析することによって、各音声映像データにおける同期位置を特定することができる。本実施形態において、この同期位置は、主として編集の開始点として用いられるので、以下では、この同期位置のことを編集開始点(再生開始点)Pとも呼称する。また、第1〜第3の音声映像データにおける編集開始点Pを、それぞれ編集開始点P1〜P3とも表記する。   Here, the specific audio signal is a specific audio signal embedded in each audio signal, and the audio analysis unit 15 may specify a synchronization position in each audio video data by analyzing the specific audio signal. it can. In the present embodiment, this synchronization position is mainly used as an editing start point, and therefore, this synchronization position is also referred to as an editing start point (reproduction start point) P below. The edit start points P in the first to third audio / video data are also referred to as edit start points P1 to P3, respectively.

特定音声信号に基づいて編集開始点Pを特定する具体的な処理については、後述するためここでは説明を省略する。   Since specific processing for specifying the editing start point P based on the specific audio signal will be described later, description thereof is omitted here.

(制御部16)
制御部16は、外部入出力部11、復号部14、音声解析部15、赤外線受光部17および編集部20に接続されており、これらの各部を制御する。
(Control unit 16)
The control unit 16 is connected to the external input / output unit 11, the decoding unit 14, the voice analysis unit 15, the infrared light receiving unit 17, and the editing unit 20, and controls these units.

赤外線受光部17は、ユーザが操作するリモコン40から送信される操作信号を受信し、受信した操作信号を制御部16に出力する。制御部16は、操作信号に応じて上記各部を制御する。   The infrared light receiving unit 17 receives an operation signal transmitted from the remote controller 40 operated by the user, and outputs the received operation signal to the control unit 16. The control unit 16 controls each of the above units according to the operation signal.

ユーザがリモコン40を介して行う操作は、例えば、第1〜第3の音声映像データを編集開始点Pにてスタンバイさせるための操作(スタンバイ操作)、編集を開始させるための操作(編集開始操作)、および、編集時における音声映像データを選択させるための操作(音声映像データ選択操作)などが挙げられる。制御部16は、赤外線受光部17を介して操作信号を取得することによって、ユーザがどのような動作を編集装置10に求めているのかを検知することができる。   The operation performed by the user via the remote controller 40 is, for example, an operation for putting the first to third audio / video data on standby at the editing start point P (standby operation), and an operation for starting editing (editing start operation). ), And an operation (audio / video data selection operation) for selecting audio / video data during editing. The control unit 16 can detect what operation the user is requesting from the editing apparatus 10 by acquiring an operation signal via the infrared light receiving unit 17.

制御部16は、ユーザがリモコン40を介して行う音声映像データ選択操作に基づいて、第1〜第3の映像音声信号の何れを選択すべきかを示す選択信号を生成し、映像選択部21、音声選択部22、および、映像処理部31に供給する。選択信号は、より具体的には、各時点において、第1〜第3の映像音声信号の何れを選択すべきかを示す信号である。   The control unit 16 generates a selection signal indicating which one of the first to third video / audio signals should be selected based on an audio / video data selection operation performed by the user via the remote controller 40, and the video selection unit 21, The audio selection unit 22 and the video processing unit 31 are supplied. More specifically, the selection signal is a signal indicating which of the first to third video / audio signals should be selected at each time point.

また、制御部16は、ユーザがリモコン40を介して行うスタンバイ操作に基づいて、第1〜第3外部入出力部11a〜11cを介して、第1〜第3のデジタルビデオカメラ50a〜50cに対して制御信号を供給し、各音声映像データを編集開始点Pにてスタンバイさせる。   Further, the control unit 16 controls the first to third digital video cameras 50 a to 50 c via the first to third external input / output units 11 a to 11 c based on a standby operation performed by the user via the remote controller 40. On the other hand, a control signal is supplied, and each audio / video data is put on standby at the edit start point P.

(編集部20)
編集部20は、映像選択部21、音声選択部22、および、編集データ生成部23を備えている。復号部14において復号された第1〜第3の音声映像信号のうち、それぞれの映像信号である第1〜第3の映像信号は、映像選択部21に供給される。復号部14において復号された第1〜第3の音声映像信号のうち、それぞれの音声信号である第1〜第3の音声信号は、音声選択部22に供給される。
(Editor 20)
The editing unit 20 includes a video selection unit 21, an audio selection unit 22, and an editing data generation unit 23. Among the first to third audio / video signals decoded by the decoding unit 14, the first to third video signals which are the respective video signals are supplied to the video selection unit 21. Of the first to third audio / video signals decoded by the decoding unit 14, the first to third audio signals that are respective audio signals are supplied to the audio selection unit 22.

映像選択部21は、制御部16から供給される選択信号に基づいて、第1〜第3の映像信号のいずれか1つの映像信号を選択し、編集データ生成部23に出力する。また、映像選択部21は、第1〜第3の映像信号を映像処理部31に供給する。   The video selection unit 21 selects any one of the first to third video signals based on the selection signal supplied from the control unit 16 and outputs the selected video signal to the editing data generation unit 23. Further, the video selection unit 21 supplies the first to third video signals to the video processing unit 31.

音声選択部22は、第1〜第3の音声信号のいずれか1つの音声信号を選択し、編集データ生成部23およびアンプ34に出力する。   The audio selection unit 22 selects any one of the first to third audio signals and outputs the selected audio signal to the editing data generation unit 23 and the amplifier 34.

映像処理部31は、映像選択部21から供給される第1〜第3の映像信号によって表される各映像を、LCDパネル32に表示させる。より具体的には、映像処理部31は、一画面を複数の領域に分割すると共に、各領域に、上記各映像およびユーザによって選択された映像を表示する。映像処理部31によってLCDパネル32に表示させる画面の一例を図9に示す。   The video processing unit 31 causes the LCD panel 32 to display each video represented by the first to third video signals supplied from the video selection unit 21. More specifically, the video processing unit 31 divides one screen into a plurality of areas, and displays the video and the video selected by the user in each area. An example of a screen displayed on the LCD panel 32 by the video processing unit 31 is shown in FIG.

アンプ34は、音声選択部22から供給される音声信号を増幅し、当該音声信号の示す音声を、スピーカー35を介して出力する。   The amplifier 34 amplifies the audio signal supplied from the audio selection unit 22 and outputs the audio indicated by the audio signal via the speaker 35.

ここで、音声選択部22による音声信号の選択は、制御部16から供給される選択信号に基づいて行われる。したがって、音声選択部22は、映像選択部21が選択する映像信号に対応する音声信号を選択することになる。たとえば、映像選択部21が第1映像信号を選択している際には、音声選択部22は第1音声信号を選択する。   Here, the selection of the audio signal by the audio selection unit 22 is performed based on the selection signal supplied from the control unit 16. Therefore, the audio selection unit 22 selects an audio signal corresponding to the video signal selected by the video selection unit 21. For example, when the video selection unit 21 selects the first video signal, the audio selection unit 22 selects the first audio signal.

ただし、音声選択部21における別の選択方法として、常に第1〜第3の音声信号のいずれか1つの音声信号を選択するようにしてもよい。たとえば、音声選択部21が、各音声信号の音質を比較する構成とし、第1音声信号の音質が優れている場合は、常に第1音声信号を選択する構成としてもよい。また、音声選択部21は、メモリ13に格納された音声データを選択する構成としてもよい。   However, as another selection method in the voice selection unit 21, any one of the first to third voice signals may always be selected. For example, the sound selection unit 21 may be configured to compare the sound quality of each sound signal, and may be configured to always select the first sound signal when the sound quality of the first sound signal is excellent. Further, the voice selection unit 21 may be configured to select voice data stored in the memory 13.

編集データ生成部23は、映像選択部21によって選択されている映像信号と、音声選択部22によって選択されている音声信号とを多重化することによって、編集後の音声映像データを生成する。また、生成した音声映像データを、適宜記録部33に適合した符号化方法によって符号化し、符号化後のデータを記録部33に供給する。符号化後のデータは、例えば、MPEG2ストリームやMPEG4ストリームである。   The edit data generation unit 23 generates edited audio / video data by multiplexing the video signal selected by the video selection unit 21 and the audio signal selected by the audio selection unit 22. Further, the generated audio / video data is appropriately encoded by an encoding method suitable for the recording unit 33, and the encoded data is supplied to the recording unit 33. The encoded data is, for example, an MPEG2 stream or an MPEG4 stream.

記録部33は、編集データ生成部23から供給される符号化後のデータを、記録媒体に記録する。   The recording unit 33 records the encoded data supplied from the editing data generation unit 23 on a recording medium.

記録媒体の例としては、テレビジョン受像器30に内蔵されているHD(harddisk)、テレビジョン受像器30に挿入されているBD(Blu-ray Disk)、テレビジョン受像器30に接続されているDLNA対応HDなどが挙げられる。なお、本実施形態において、記録媒体はこれらに限定されず、編集音声映像データを記録可能な記録媒体であれば、いかなる記録媒体でもよい。   As an example of the recording medium, an HD (hard disk) built in the television receiver 30, a BD (Blu-ray Disk) inserted in the television receiver 30, and the television receiver 30 are connected. DLNA compatible HD and the like. In the present embodiment, the recording medium is not limited to these, and any recording medium can be used as long as it can record the edited audio / video data.

(リモコン40)
リモコン(遠隔制御装置)40は、ユーザが選択する操作を操作信号に変換し、変換した操作信号をテレビジョン受像器30が備える赤外線受光部17に送信するものである。操作信号を送信する機能とは別の機能として、特定音声信号を発生する機能を有している。
(Remote control 40)
The remote controller (remote control device) 40 converts an operation selected by the user into an operation signal, and transmits the converted operation signal to the infrared light receiving unit 17 included in the television receiver 30. As a function different from the function of transmitting the operation signal, it has a function of generating a specific audio signal.

図2は、リモコン40の構成を示すブロック図である。図2に示すように、リモコン40は、制御部41、操作部42、赤外線送信部43、特定音声生成部44およびスピーカー45を備えている。   FIG. 2 is a block diagram showing the configuration of the remote controller 40. As shown in FIG. 2, the remote controller 40 includes a control unit 41, an operation unit 42, an infrared transmission unit 43, a specific sound generation unit 44, and a speaker 45.

ユーザがリモコン40を操作することによって行う操作の一例は、視聴するチャンネルを変更する、および、音量を変更するなど、テレビジョン受像器における操作として一般的な操作である。また、後述するように、複数のサブ画像のいずれかを選択する操作も、ユーザがリモコン40を介して行う操作の一例である。   An example of an operation performed by the user operating the remote control 40 is a general operation as an operation on the television receiver, such as changing a viewing channel and changing a volume. Further, as will be described later, an operation of selecting any of the plurality of sub-images is an example of an operation performed by the user via the remote controller 40.

一方、本実施形態に係るテレビジョン受像器30に特有な操作として、たとえば、編集開始点Pを検出する、編集開始、および、編集時における音声映像データの選択などの操作が挙げられる。   On the other hand, operations unique to the television receiver 30 according to the present embodiment include, for example, operations such as detecting the editing start point P, starting editing, and selecting audio / video data during editing.

ユーザが操作部42に対して行った操作の内容を示す操作信号は制御部41に供給される。制御部41は、供給された操作信号の示す具体的な操作を解釈すると共に、当該操作信号の示す操作がテレビジョン受像機30に対して送信すべきものである場合には、当該操作信号を赤外線送信部43に供給する。赤外線送信部43は、制御部41より供給された操作信号を赤外線信号として、リモコン40の外部へ送信する。   An operation signal indicating the content of the operation performed by the user on the operation unit 42 is supplied to the control unit 41. The control unit 41 interprets a specific operation indicated by the supplied operation signal, and when the operation indicated by the operation signal is to be transmitted to the television receiver 30, the control signal is transmitted to the infrared receiver. The data is supplied to the transmission unit 43. The infrared transmitter 43 transmits the operation signal supplied from the controller 41 to the outside of the remote controller 40 as an infrared signal.

一方、ユーザがリモコン40から特定音声信号を発生させたい場合、ユーザは、例えば、操作部42に設けられている特定音声出力ボタンを押下する。すると、操作部42は、制御部41に対して、特定音声信号を発生させる旨の操作信号を供給し、制御部41は、この操作信号を受けると、特定音声信号を発生させる旨の制御信号を特定音声生成部44に供給する。   On the other hand, when the user wants to generate a specific audio signal from the remote controller 40, the user presses a specific audio output button provided on the operation unit 42, for example. Then, the operation unit 42 supplies an operation signal for generating a specific audio signal to the control unit 41, and when the control unit 41 receives the operation signal, the control signal for generating a specific audio signal. Is supplied to the specific voice generation unit 44.

特定音声生成部44は、当該制御信号を受けると、特定音声信号を生成し、スピーカー45を介して出力する。   When receiving the control signal, the specific sound generation unit 44 generates a specific sound signal and outputs it through the speaker 45.

なお、特定音声信号の詳細については、後述するため、ここでは説明を省略する。また、特定音声生成部44が生成することができる特定音声信号は、1つの波形に限られない。たとえば、特定音声生成部44は、それぞれ波形の異なる複数の特定音声信号を生成できるように予め設定されていてもよい。このような構成の場合、リモコン40の操作部42に、特定音声信号を選択するためのボタンを備えておき、ユーザは、当該ボタンを操作することによって特定音声信号を選択することができる。   Since details of the specific audio signal will be described later, the description thereof is omitted here. Further, the specific sound signal that can be generated by the specific sound generation unit 44 is not limited to one waveform. For example, the specific sound generation unit 44 may be set in advance so as to generate a plurality of specific sound signals having different waveforms. In such a configuration, the operation unit 42 of the remote controller 40 is provided with a button for selecting a specific audio signal, and the user can select the specific audio signal by operating the button.

(デジタルビデオカメラ50)
リモコン40にから出力された特定音声信号は、第1〜第3のデジタルビデオカメラ50a〜50cによって、それぞれの映像音声データの一部として記録される。
(Digital video camera 50)
The specific audio signal output from the remote controller 40 is recorded as a part of each video / audio data by the first to third digital video cameras 50a to 50c.

テレビジョン受像器30を用いて音声映像データを編集する際、第1〜第3の外部入出力部には、それぞれ、第1〜第3のデジタルビデオカメラ50a〜50cが接続される。なお、第1〜第3のデジタルビデオカメラ50a〜50cを総称して、デジタルビデオカメラ50と呼ぶ。   When audio / video data is edited using the television receiver 30, the first to third digital video cameras 50a to 50c are connected to the first to third external input / output units, respectively. The first to third digital video cameras 50a to 50c are collectively referred to as a digital video camera 50.

デジタルビデオカメラ50としては、以下の条件を満たしていれば、汎用のデジタルビデオカメラを用いることができる。
・テレビジョン受像機30の備える外部入出力部11に接続することが可能なインターフェースを備える。
・特定音声信号を音声映像データの一部として記録可能である。
As the digital video camera 50, a general-purpose digital video camera can be used as long as the following conditions are satisfied.
An interface that can be connected to the external input / output unit 11 included in the television receiver 30 is provided.
-Specific audio signals can be recorded as part of audio-video data.

なお、外部入出力部11に接続することが可能なインターフェースとは、上述したように、例えばHDMIおよびHDVに適合しているインターフェースが挙げられるが、これらに限定されるものではなく、デジタルビデオカメラ50による音声映像データの頭出しを制御するための制御信号を伝送できるものであればよい。   As described above, the interface that can be connected to the external input / output unit 11 includes, for example, an interface that conforms to HDMI and HDV. However, the interface is not limited to these, and is a digital video camera. Any control signal may be used as long as it can transmit a control signal for controlling cueing of audio-video data by 50.

本実施形態において、後述するように、特定音声信号の周波数として20KHz以下の周波数領域を用いている。したがって、デジタルビデオカメラ50は、20KHz以下の周波数領域を音声映像データの一部として記録可能であればよい。   In the present embodiment, as will be described later, a frequency region of 20 KHz or less is used as the frequency of the specific audio signal. Therefore, the digital video camera 50 only needs to be able to record a frequency region of 20 KHz or less as part of the audio video data.

上述の2点の条件は、出願時において流通しているほとんどの汎用デジタルビデオカメラが備えている条件である。本実施形態では、テレビジョン受像器30を用いて音声映像データを編集するために特別なデジタルビデオカメラを用意する必要はない。例えば、デジタルビデオカメラ50は、他のデジタルビデオカメラとの間で、音声映像データの同期をとるための特別な通信を行う構成を備えている必要はない。   The above-mentioned two conditions are conditions that are included in most general-purpose digital video cameras distributed at the time of filing. In this embodiment, it is not necessary to prepare a special digital video camera in order to edit the audio / video data using the television receiver 30. For example, the digital video camera 50 does not need to have a configuration for performing special communication with other digital video cameras to synchronize audio / video data.

図3は、デジタルビデオカメラ50の基本的な構成を示すブロック図である。図3に示すように、デジタルビデオカメラ50は、制御部51、操作部52、撮像素子53、マイク54、外部入出力部55、および、記録媒体である記録部56を備えている。   FIG. 3 is a block diagram showing a basic configuration of the digital video camera 50. As shown in FIG. 3, the digital video camera 50 includes a control unit 51, an operation unit 52, an image sensor 53, a microphone 54, an external input / output unit 55, and a recording unit 56 that is a recording medium.

ユーザは、操作部52を介して、録画の開始および停止、画角の調整、フォーカスの調整といった操作を行う。操作部52は、ユーザが行う操作に対応した信号を制御部51に供給する。制御部51は、当該信号に応じて上記の各部を制御する。   The user performs operations such as recording start and stop, angle of view adjustment, and focus adjustment via the operation unit 52. The operation unit 52 supplies a signal corresponding to the operation performed by the user to the control unit 51. The control unit 51 controls each unit described above according to the signal.

撮像素子53は、フォーカスおよび倍率を調節する光学系から入力される光を、映像データに変換し制御部51に供給する。   The image sensor 53 converts light input from an optical system that adjusts focus and magnification into video data and supplies the video data to the controller 51.

マイク54は、デジタルビデオカメラ50の周辺環境における音声を音声データに変換し、制御部51に供給する。   The microphone 54 converts sound in the surrounding environment of the digital video camera 50 into sound data and supplies the sound data to the control unit 51.

制御部51は、撮像素子53から供給される映像データと、マイク54から供給される音声データとを多重化することによって、音声映像データを生成する。さらに、生成した音声映像データを、適宜記録部56に適合した符号化方法によって符号化し、符号化後の音声映像データを記録部56に供給する。符号化された音声映像データは、例えば、MPEG2ストリームやMPEG4ストリームである。   The control unit 51 generates audio / video data by multiplexing the video data supplied from the imaging element 53 and the audio data supplied from the microphone 54. Further, the generated audio / video data is appropriately encoded by an encoding method suitable for the recording unit 56, and the encoded audio / video data is supplied to the recording unit 56. The encoded audio / video data is, for example, an MPEG2 stream or an MPEG4 stream.

記録部56は、制御部51から供給される符号化された音声映像データを記録媒体に記録する。記録媒体の例としては、HD、SDカードまたはBDなど、音声映像データを記録可能な記録媒体であれば、いかなる記録媒体でもよい。   The recording unit 56 records the encoded audio / video data supplied from the control unit 51 on a recording medium. As an example of the recording medium, any recording medium may be used as long as it can record audio-video data such as HD, SD card, or BD.

外部入出力部55は、編集装置10が備える外部入出力部11に対応するインターフェースであればよい。たとえば、HDMI、または、HDVの規格に適合しているインターフェースであればよい。   The external input / output unit 55 may be an interface corresponding to the external input / output unit 11 included in the editing apparatus 10. For example, any interface that conforms to the HDMI or HDV standard may be used.

記録部56により記録媒体に記録された音声映像データは、外部入出力部55を介してテレビジョン受像機30に供給される。また、外部入出力部55には、テレビジョン受像機30からの制御信号が入力され、制御部51は、当該制御信号を参照して、デジタルビデオカメラ50の備える各部を制御する。   The audio / video data recorded on the recording medium by the recording unit 56 is supplied to the television receiver 30 via the external input / output unit 55. Further, a control signal from the television receiver 30 is input to the external input / output unit 55, and the control unit 51 controls each unit included in the digital video camera 50 with reference to the control signal.

例えば、テレビジョン受像機30から、音声映像データ上の所定の時間的位置でスタンバイする旨の制御信号を受けた場合、制御部50は、音声映像データ上の所定の時間的位置まで巻き戻しまたは早送りを行い、当該所定の時間的位置から再生を行うことができるようスタンバイする。   For example, when receiving a control signal from the television receiver 30 to stand by at a predetermined time position on the audio / video data, the control unit 50 rewinds to a predetermined time position on the audio / video data. Fast-forwarding is performed, and standby is performed so that playback can be performed from the predetermined time position.

(特定音声信号)
テレビジョン受像機30の備える音声解析部15によって各音声信号から抽出される特定音声信号について、図4を参照しながら説明する。特定音声信号は、リモコン40の備える特定音声生成部44によって生成され、第1〜第3の音声映像データ、およびメモリ13に格納された音声データ(または映像音声データ)のそれぞれの一部として記録されている信号である。
(Specific audio signal)
A specific audio signal extracted from each audio signal by the audio analysis unit 15 included in the television receiver 30 will be described with reference to FIG. The specific audio signal is generated by the specific audio generation unit 44 included in the remote controller 40 and recorded as a part of each of the first to third audio / video data and the audio data (or video / audio data) stored in the memory 13. Signal.

特定音声信号は、第1〜第3の音声信号データの各々に対応する音声信号、およびメモリ13に格納された音声データ(または映像音声データ)に埋め込まれている。特定音声信号は、各音声映像データにおける編集開始点Pを特定するために音声解析部15によって抽出される。   The specific audio signal is embedded in the audio signal corresponding to each of the first to third audio signal data and the audio data (or video / audio data) stored in the memory 13. The specific audio signal is extracted by the audio analysis unit 15 in order to specify the editing start point P in each audio video data.

図4は、本実施形態における特定音声信号の一例を示す波形図である。図4に示すように、特定音声信号は、固定周波数からなる固定周波数信号FFと、段階的に変化していく可変周波数からなる可変周波数信号VFとが繰り返される音声信号である。   FIG. 4 is a waveform diagram showing an example of the specific audio signal in the present embodiment. As shown in FIG. 4, the specific audio signal is an audio signal in which a fixed frequency signal FF having a fixed frequency and a variable frequency signal VF having a variable frequency that changes stepwise are repeated.

図4に示す例においては、固定周波数信号FFは17.0KHzの周波数を有している信号である。可変周波数信号VFは18.0KHzから18.9KHzまで、0.1KHz間隔で段階的に変化する信号である。図4に示すように、特定音声信号には、所定の期間連続する固定周波数信号FFと、所定の期間連続する可変周波数信号VFとが含まれている。ここで、上記所定の時間をtと表記することにする。本実施形態において、t=0.5秒である。すなわち、本実施形態に係る音声特定信号は、17.0KHz、18.0KHz、17.0KHz、18.1KHz、17.0KHz、18.2KHz、17.0KHz、18.3KHz、・・・、17.0KHz、18.8KHz、17.0KHzおよび18.9KHzの各周波数を有する各信号が、0.5秒間づつ連続している音声信号であり、、特定音声信号の長さは10秒間である。   In the example shown in FIG. 4, the fixed frequency signal FF is a signal having a frequency of 17.0 KHz. The variable frequency signal VF is a signal that gradually changes from 18.0 KHz to 18.9 KHz at intervals of 0.1 KHz. As shown in FIG. 4, the specific audio signal includes a fixed frequency signal FF that continues for a predetermined period and a variable frequency signal VF that continues for a predetermined period. Here, the predetermined time is expressed as t. In this embodiment, t = 0.5 seconds. That is, the audio specific signal according to the present embodiment is 17.0 KHz, 18.0 KHz, 17.0 KHz, 18.1 KHz, 17.0 KHz, 18.2 KHz, 17.0 KHz, 18.3 KHz,. Each signal having each frequency of 0 KHz, 18.8 KHz, 17.0 KHz, and 18.9 KHz is an audio signal continuous for 0.5 seconds, and the length of the specific audio signal is 10 seconds.

編集開始点Pの位置は、特定音声信号が終了する位置として定めてもよいし、特定音声信号が終了してから任意時間後の位置として定めてもよい。この任意時間をαと定義する。本実施形態においては、α=1秒として編集開始点Pを定めている(図4参照)。   The position of the edit start point P may be determined as a position where the specific audio signal ends, or may be determined as a position after an arbitrary time after the specific audio signal ends. This arbitrary time is defined as α. In the present embodiment, the editing start point P is determined with α = 1 second (see FIG. 4).

なお、固定周波数信号FFおよび可変周波数信号VFの繰り返し周期は、所定の時間tではなく、信号が連続する周期数によって決定してもよい。たとえば、8850周期ごとに固定周波数信号FFおよび可変周波数信号VFが繰り返されるように、特定音声信号の波形を定めてもよい。この場合、特定音声信号の長さは10秒間になる。   Note that the repetition period of the fixed frequency signal FF and the variable frequency signal VF may be determined not by the predetermined time t but by the number of periods in which the signal continues. For example, the waveform of the specific audio signal may be determined so that the fixed frequency signal FF and the variable frequency signal VF are repeated every 8850 periods. In this case, the length of the specific audio signal is 10 seconds.

(編集開始点Pの特定)
音声解析部15は、解析対象の音声信号から特定音声信号を抽出すると共に、抽出した特定音声信号を解析し編集開始点Pを特定する。音声解析部15は、特定音声信号において、固定周波数信号FFから可変周波数信号VFへ(ケース1と呼ぶ)、または、可変周波数信号VFから固定周波数信号FFへ(ケース2と呼ぶ)、周波数が変化する音声信号上の時点(周波数変化点とも呼ぶ)を検出する。この周波数変化点をTchと定義する。
(Identification of editing start point P)
The voice analysis unit 15 extracts the specific voice signal from the voice signal to be analyzed, and analyzes the extracted specific voice signal to specify the editing start point P. The sound analysis unit 15 changes the frequency of the specific sound signal from the fixed frequency signal FF to the variable frequency signal VF (referred to as case 1) or from the variable frequency signal VF to the fixed frequency signal FF (referred to as case 2). A time point (also referred to as a frequency change point) on the audio signal to be detected is detected. This frequency change point is defined as Tch .

本実施形態においてt=0.5秒なので、少なくとも1回のTchを検出するために、音声解析部15は0.5秒より長い時間の特定音声信号を解析することが好ましい。これに対応して、解析対象の音声信号には、0.5秒より長い時間の特定音声信号が含まれていることが好ましい。 Since t = 0.5 seconds in the present embodiment, it is preferable that the voice analysis unit 15 analyzes a specific voice signal for a time longer than 0.5 seconds in order to detect at least one Tch . Correspondingly, it is preferable that the audio signal to be analyzed includes a specific audio signal having a time longer than 0.5 seconds.

特定音声信号は、音声映像データを復号した音声信号に埋め込まれている音声信号であり、他の音声に埋もれている可能性もある。したがって、編集開始点Pをより正確に特定するために、音声解析部15は、複数のTchを検出し解析することが更に好ましい。このためには、音声解析部15は1.0秒より長い時間の特定音声信号を解析することが更に好ましい。これに対応して、解析対象の音声信号には、1.0秒より長い時間の特定音声信号が含まれていることが好ましい。 The specific audio signal is an audio signal embedded in an audio signal obtained by decoding audio / video data, and may be embedded in other audio. Therefore, in order to specify the edit start point P more accurately, it is more preferable that the voice analysis unit 15 detects and analyzes a plurality of Tch . For this purpose, it is more preferable that the voice analysis unit 15 analyzes a specific voice signal having a time longer than 1.0 seconds. Correspondingly, it is preferable that the audio signal to be analyzed includes a specific audio signal having a time longer than 1.0 seconds.

なお、図4に示す音声特定信号において、Tchにおける可変周波数信号VFの周波数をfVFと定義する。たとえば、特定音声信号の周波数が17.0KHzから18.3KHzに変化する場合において、fVF=18.3KHzである。特定音声信号の周波数が18.6KHzから17.0KHzに変化する場合において、fVF=18.6KHzである。また、特定音声信号において、最後の可変周波数信号VFが有する周波数をffVFと定義する。本実施形態において、ffFV=18.9KHzである。さらに、可変周波数VFの周波数が段階的に変化する際の間隔をDと定義する。本実施形態において、D=0.1KHzである。 Incidentally, in the audio specified signal shown in FIG. 4, the frequency of the variable frequency signal VF at T ch is defined as f VF. For example, when the frequency of the specific audio signal changes from 17.0 KHz to 18.3 KHz, f VF = 18.3 KHz. When the frequency of the specific audio signal changes from 18.6 KHz to 17.0 KHz, f VF = 18.6 KHz. In addition, the frequency of the last variable frequency signal VF in the specific audio signal is defined as f fVF . In the present embodiment, f fFV = 18.9 KHz. Further, an interval when the frequency of the variable frequency VF changes stepwise is defined as D. In this embodiment, D = 0.1 KHz.

以下、解析対象の音声信号が第1の音声信号であるとして、音声解析部15が、第1の編集開始点Pを特定する処理について図5を参照して説明する。なお、第2、第3の音声信号を解析し、第2、第3の編集開始点P、Pを特定する処理についても同様である。 Hereinafter, a process in which the voice analysis unit 15 specifies the first editing start point P1 on the assumption that the voice signal to be analyzed is the first voice signal will be described with reference to FIG. The same applies to the processing of analyzing the second and third audio signals and specifying the second and third editing start points P 2 and P 3 .

図5は、音声解析部15によって第1の編集開始点Pを特定する処理の流れを示すフローチャートである。 FIG. 5 is a flowchart showing a flow of processing for specifying the first editing start point P 1 by the voice analysis unit 15.

(ステップS101)
音声解析部15は、まず、復号部14より第1の音声信号を取得する。
(Step S101)
The voice analysis unit 15 first acquires a first voice signal from the decoding unit 14.

(ステップS102)
続いて、音声解析部15は、ステップS101にて取得した第1の音声信号に埋め込まれている特定音声信号を抽出する。
(Step S102)
Subsequently, the voice analysis unit 15 extracts a specific voice signal embedded in the first voice signal acquired in step S101.

(ステップS103)
続いて、音声解析部15は、ステップS102にて抽出した特定音声信号において、周波数が変化する時点であるTch1を検出する。
(Step S103)
Subsequently, the voice analysis unit 15 detects T ch1 which is a time point when the frequency changes in the specific voice signal extracted in step S102.

(ステップS104)
続いて、音声解析部15は、特定音声信号におけるTch1の前後の周波数を比較することによって、Tch1が、ケース1およびケース2のいずれに対応するものであるのかを判定する。
(Step S104)
Subsequently, the voice analysis unit 15 determines whether T ch1 corresponds to Case 1 or Case 2 by comparing frequencies before and after T ch1 in the specific voice signal.

(ステップS105)
ch1がケース1に対応するものである場合、音声解析部15は、Tch1から編集開始点Pまでの時間TP1を以下の数式(1)によって決定する。
(Step S105)
When T ch1 corresponds to Case 1, the voice analysis unit 15 determines the time T P1 from T ch1 to the editing start point P 1 by the following formula (1).

たとえば、α=1秒であり、特定音声信号の周波数が17.0KHzから18.3KHzに変化するTchの場合、音声解析部15は、TP1=7.5秒と決定する。 For example, in the case of T ch where α = 1 second and the frequency of the specific sound signal changes from 17.0 KHz to 18.3 KHz, the sound analysis unit 15 determines that T P1 = 7.5 seconds.

(ステップS106)
一方で、Tch1がケース2に対応するものである場合、音声解析部15は、TP1を以下の数式(2)によって決定する。
(Step S106)
On the other hand, when T ch1 corresponds to case 2, the voice analysis unit 15 determines TP1 by the following formula (2).

たとえば、α=1秒であり、特定音声信号の周波数が18.6KHzから17.0KHzに変化するTch1の場合、音声解析部15は、TP1=4.0秒と決定する。 For example, in the case of T ch1 where α = 1 second and the frequency of the specific sound signal changes from 18.6 KHz to 17.0 KHz, the sound analysis unit 15 determines that T P1 = 4.0 seconds.

(ステップS107)
続いて、音声解析部15は、音声信号上の時点Tch1にTP1を加算して得られる時点を編集開始点Pとして特定する。また、音声解析部15は、当該編集開始点Pを示す編集開始点情報を制御部16に供給する。
(Step S107)
Then, the voice analysis unit 15 identifies the point in time obtained by adding T P1 at time T ch1 on the voice signal as the editing start point P 1. Further, the voice analysis unit 15 supplies the editing start point information indicating the editing start point P to the control unit 16.

このように、音声解析部15は、音声特定信号の周波数が変化するタイミングであるTchを検出し、上記式を用いてTを特定することによって、特定音声信号が埋め込まれている音声信号における編集開始点Pを特定することができる。換言すれば、音声解析部15は、上記の解析を行うことによって上記音声信号に対応する音声映像データにおける編集開始点Pを特定することができる。また、上記式を用いて編集開始点Pを特定することによって、様々な波形の特定音声信号に対応することができる。すなわち、上述のパラメータt、ffVF、Dとして様々な値を有する特定音声信号によっても、編集開始点Pを特定することができる。 Thus, the voice analysis unit 15 detects a T ch is the timing to change the frequency of the audio specified signal, by identifying T P using the above equation, the audio signal specific sound signal is embedded The editing start point P can be specified. In other words, the audio analysis unit 15 can specify the editing start point P in the audio / video data corresponding to the audio signal by performing the above analysis. Further, by specifying the editing start point P using the above formula, it is possible to deal with specific audio signals having various waveforms. That is, the editing start point P can be specified also by specific audio signals having various values as the parameters t, f fVF , and D described above.

なお、パラメータt、ffVF、Dおよびαの具体的な値を、予め定められたものとして、編集装置10の備えるメモリ13に格納しておき、音声解析部15がそれらの値を読み出して上記の解析処理に用いる構成としてもよい。編集装置10がリモコン40からそれらの具体的な数値に関する情報を取得し、取得した情報に基づいて、音声解析部15がそれらの具体的な数値を決定し、上記の解析処理に用いる構成としてもよい。当該構成は、特性音声信号を複数種類用いる構成とする場合に好適である。 Note that specific values of the parameters t, f fVF , D, and α are stored in the memory 13 provided in the editing apparatus 10 as predetermined values, and the voice analysis unit 15 reads out the values and reads the above values. It is good also as a structure used for this analysis process. The editing apparatus 10 acquires information on these specific numerical values from the remote controller 40, and based on the acquired information, the voice analysis unit 15 determines those specific numerical values and uses them for the above analysis processing. Good. This configuration is suitable when a plurality of types of characteristic audio signals are used.

また、音声解析部15が編集開始点Pを特定する方法として、ルックアップテーブル(LUT)を用いる方法を採用してもよい。例えば、t、ffFV、およびαとしてそれぞれ予め定められた値を用いる場合、fVFの各値に対するTの各値を予め求めておき、音声解析部15が、これらの値を含むLUTを参照して、fVFからTを決定する構成としてもよい。このようなLUTは、例えば、編集装置10の備えるメモリ13に格納しておけばよい。LUTを用いることによって、Tの算出に伴う処理量を低減することができるので、処理速度が向上する。 Further, a method using a look-up table (LUT) may be adopted as a method for the voice analysis unit 15 to specify the editing start point P. For example, t, when using the f FFV predetermined value respectively as, and alpha, obtained in advance the values of T P for each value of f VF, the voice analysis unit 15, a LUT containing these values Referring to, it may be configured to determine T P from f VF. Such an LUT may be stored in the memory 13 provided in the editing apparatus 10, for example. By using the LUT, it is possible to reduce the processing amount due to calculation of T P, the processing speed is improved.

特定音声信号を特徴付ける固定周波数および可変周波数は、汎用のデジタルビデオカメラによって記録可能な周波数、例えば、20KHz以下であることが好ましい。また、デジタルビデオカメラが記録可能な周波数の範囲内において、特定音声信号の周波数は高い周波数帯に属することが好ましい。特定音声信号は、音声映像データにおける時間的な位置を特定するための信号である。特定音声信号の周波数が高い程、編集開始点Pをより精度よく特定することができる。   The fixed frequency and variable frequency that characterize the specific audio signal are preferably frequencies that can be recorded by a general-purpose digital video camera, for example, 20 KHz or less. Moreover, it is preferable that the frequency of the specific audio signal belongs to a high frequency band within a frequency range that can be recorded by the digital video camera. The specific audio signal is a signal for specifying a temporal position in the audio video data. As the frequency of the specific audio signal is higher, the editing start point P can be specified with higher accuracy.

(特定音声信号の変形例)
特定音声信号が連続する時間は10秒間に限られず、任意の時間に設定することが可能である。特定音声信号が連続する時間を上述の例よりも長く設定する場合、例えば、次の2つの方法を用いればよい。
(Modified example of specific audio signal)
The continuous time of the specific audio signal is not limited to 10 seconds, and can be set to an arbitrary time. When the time for which the specific audio signal continues is set longer than the above example, for example, the following two methods may be used.

1つ目の方法は、可変周波数信号VFの範囲(18.0KHzから18.9KHz)、および、周波数間隔Dは変化させずに、各固定周波数信号FFおよび各可変周波数信号VFの時間tを長くする方法である。本実施形態においてt=0.5秒であるが、t=1.0秒とすることによって、特定音声信号は20秒間になる。   The first method is to increase the time t of each fixed frequency signal FF and each variable frequency signal VF without changing the range of the variable frequency signal VF (18.0 KHz to 18.9 KHz) and the frequency interval D. It is a method to do. In this embodiment, t = 0.5 seconds, but by setting t = 1.0 seconds, the specific audio signal becomes 20 seconds.

もう1つの方法は、t=0.5秒は変化させずに、可変周波数信号VFが順次変化する回数を増やす方法である。可変周波数信号VFの周波数を18.0KHzから19.9KHzまでD=0.1KHzで変化させることによって、可変周波数信号VFの周波数は20回変化することになる。この場合も、特定音声信号は20秒間になる。   Another method is to increase the number of times that the variable frequency signal VF changes sequentially without changing t = 0.5 seconds. By changing the frequency of the variable frequency signal VF from 18.0 KHz to 19.9 KHz at D = 0.1 KHz, the frequency of the variable frequency signal VF changes 20 times. Also in this case, the specific audio signal is 20 seconds.

また、t=0.5秒であり、可変周波数信号VFの周波数範囲が18.0KHzから18.9KHzであっても、D=0.05KHzとすることによって、可変周波数信号VFの変化する回数を20回にすることができる。この場合も、特定音声信号は20秒間になる。   Further, even when t = 0.5 seconds and the frequency range of the variable frequency signal VF is 18.0 KHz to 18.9 KHz, by setting D = 0.05 KHz, the number of times the variable frequency signal VF changes can be set. Can be 20 times. Also in this case, the specific audio signal is 20 seconds.

一般に、特定音声信号の時間が長ければユーザの利便性を高めることができる。ユーザにとって使い勝手が良いように、特定音声信号の具体的な波形を定めておけばよい。   Generally, if the time of the specific audio signal is long, the convenience for the user can be improved. What is necessary is just to define the specific waveform of a specific audio | voice signal so that it may be convenient for a user.

<適用例>
編集装置10を備えるテレビジョン受像器30を用いた編集処理の特徴は、各音声映像データに埋め込まれている特定音声信号を解析することによって、複数の音声映像データの同期をとることにある。このため、テレビジョン受像器30を用いて複数の音声映像データを編集するための前工程として、各音声映像データを録画および録音する段階において、特定音声信号を各音声映像データに埋め込んでおく(録音しておく)。
<Application example>
A feature of the editing process using the television receiver 30 including the editing apparatus 10 is that a plurality of audio / video data is synchronized by analyzing a specific audio signal embedded in each audio / video data. Therefore, as a pre-process for editing a plurality of audio / video data using the television receiver 30, a specific audio signal is embedded in each audio / video data at the stage of recording and recording each audio / video data ( Record it).

以下では、図6〜図9を参照しながら、テレビジョン受像器30を用いた編集の対象となる複数の音声映像データを録画および録音する方法の一例について説明する。以下では、編集の対象となる複数の音声映像データが、同場面を異なる角度から撮影したものである場合を例にとり説明を行うが、これは本実施形態を限定するものではない。   Hereinafter, an example of a method for recording and recording a plurality of audio / video data to be edited using the television receiver 30 will be described with reference to FIGS. In the following, a case will be described as an example where a plurality of audio-video data to be edited is obtained by photographing the same scene from different angles, but this does not limit the present embodiment.

図6は、運動会等で用いられるトラックコースを互いに異なる複数の角度から撮影する場合を示す図である。   FIG. 6 is a diagram illustrating a case where a track course used in an athletic meet or the like is photographed from a plurality of different angles.

図6に示す第1のデジタルビデオカメラ50aおよび第2のデジタルビデオカメラ50bは、撮影位置が固定されているデジタルビデオカメラである。第1のデジタルビデオカメラ50aは、広い画角での撮影を行うためのものであり、運動会全体の雰囲気を中心に撮影するためのものである。一方、第2のデジタルビデオカメラ50bは、狭い画角での撮影を行うためのものである。すなわち、走者の顔をアップにして撮影したり、一人の走者に合わせてズーミングを調整しながら撮影したりするためのものである。第3のデジタルビデオカメラ50cは、ユーザの手持ちのカメラであり、撮影位置および撮影する画角は特に定められておらず、ユーザが自由に移動しながら撮影するためのものである。   The first digital video camera 50a and the second digital video camera 50b shown in FIG. 6 are digital video cameras whose shooting positions are fixed. The first digital video camera 50a is for photographing with a wide angle of view, and is for photographing mainly the atmosphere of the athletic meet. On the other hand, the second digital video camera 50b is for performing shooting at a narrow angle of view. In other words, it is for shooting with the runner's face up or shooting while adjusting the zooming according to one runner. The third digital video camera 50c is a camera held by the user, and the shooting position and the angle of view for shooting are not particularly defined. The third digital video camera 50c is for the user to move while moving freely.

また、図7(a)に示すように、第1〜第3のデジタルビデオカメラ50a〜50cに加えて、録音機60を用いて、運動会の音声を別途録音するものとする。   Further, as shown in FIG. 7A, in addition to the first to third digital video cameras 50a to 50c, the sound of the athletic meet is separately recorded using the recorder 60.

図7(b)は、リモコン40から発せられる特定音声信号、第1のデジタルビデオカメラ50aによって録音される特定音声信号、第2のデジタルビデオカメラ50bによって録音される特定音声信号、第3のデジタルビデオカメラ50cによって録音される特定音声信号、および、録音機60によって録音される特定音声信号の各波形を示す図である。   FIG. 7B shows a specific audio signal emitted from the remote controller 40, a specific audio signal recorded by the first digital video camera 50a, a specific audio signal recorded by the second digital video camera 50b, and a third digital signal. It is a figure which shows each waveform of the specific audio | voice signal recorded by the video camera 50c, and the specific audio | voice signal recorded by the recording device 60. FIG.

図7(b)に示すように、ユーザは、リモコン40を、第1〜第3のデジタルビデオカメラ50a〜50c、および録音機60の近傍に順次近づけることによって、各機器に特定音声信号の少なくとも一部分を録音させる。   As shown in FIG. 7B, the user sequentially brings the remote controller 40 closer to the vicinity of the first to third digital video cameras 50a to 50c and the recorder 60, so that at least a specific audio signal is transmitted to each device. Record a part.

ここで、各機器に録音される特定音声信号には、図7(b)に示すように、少なくとも一つの周波数変化点(上述のTch)とその前後の周波数が含まれる。 Here, as shown in FIG. 7B, the specific audio signal recorded in each device includes at least one frequency change point (the above-mentioned T ch ) and frequencies before and after that.

編集装置10の備える音声解析部15は、第1〜第3のデジタルビデオカメラ50a〜50c、および録音機60に記録された音声データを解析する。   The audio analysis unit 15 included in the editing apparatus 10 analyzes audio data recorded in the first to third digital video cameras 50 a to 50 c and the recorder 60.

図8は、音声解析部15によって解析される第1〜第3のデジタルビデオカメラ50a〜50c、および録音機60に記録された音声データ、並びに、解析の結果算出される編集開始点Pまでの時間的間隔を示す図である。   FIG. 8 shows audio data recorded in the first to third digital video cameras 50a to 50c and the recorder 60 analyzed by the audio analyzing unit 15, and up to an editing start point P calculated as a result of the analysis. It is a figure which shows a time interval.

図8に示すように、音声解析部15は、第1のデジタルビデオカメラ50aが記録した音声映像データに含まれる特定音声信号を、上述の処理によって解析し、周波数18KHzから周波数17KHzへの周波数変化点から編集開始点Pまでの時間的間隔を10秒(sec)と算出する。同様に、音声解析部15は、第2のデジタルビデオカメラ50bが記録した音声映像データに含まれる特定音声信号を、上述の処理によって解析し、周波数18.1KHzから周波数17KHzへの周波数変化点から編集開始点Pまでの時間的間隔を9秒(sec)と算出する。同様に、音声解析部15は、第3のデジタルビデオカメラ50cが記録した音声映像データに含まれる特定音声信号を、上述の処理によって解析し、周波数18.3KHzから周波数17KHzへの周波数変化点から編集開始点Pまでの時間的間隔を7秒(sec)と算出する。同様に、音声解析部15は、録音機60が記録した音声データに含まれる特定音声信号を、上述の処理によって解析し、周波数18.8KHzから周波数17KHzへの周波数変化点から編集開始点Pまでの時間的間隔を2秒(sec)と算出する。   As shown in FIG. 8, the audio analysis unit 15 analyzes the specific audio signal included in the audio video data recorded by the first digital video camera 50a by the above-described processing, and changes the frequency from the frequency 18 KHz to the frequency 17 KHz. The time interval from the point to the editing start point P is calculated as 10 seconds (sec). Similarly, the audio analysis unit 15 analyzes the specific audio signal included in the audio video data recorded by the second digital video camera 50b by the above-described processing, and starts from the frequency change point from the frequency 18.1 KHz to the frequency 17 KHz. The time interval to the edit start point P is calculated as 9 seconds (sec). Similarly, the audio analysis unit 15 analyzes the specific audio signal included in the audio video data recorded by the third digital video camera 50c by the above-described processing, and starts from the frequency change point from the frequency 18.3 KHz to the frequency 17 KHz. The time interval to the editing start point P is calculated as 7 seconds (sec). Similarly, the voice analysis unit 15 analyzes the specific voice signal included in the voice data recorded by the recorder 60 by the above-described processing, and from the frequency change point from the frequency 18.8 KHz to the frequency 17 KHz to the editing start point P. Is calculated as 2 seconds (sec).

ユーザが編集装置10に対して、リモコン40を介して、編集スタンバイを指示することによって、編集装置10の備える制御部16は、第1〜第3のデジタルビデオカメラに対して、音声解析部15によって特定された編集開始点Pの位置まで、映像音声データ(録音機60については音声データ、以下同様)を早送りまたは巻き戻しさせると共に、当該編集開始点Pの位置で、各音声映像データの再生を一時停止させることによって、各音声映像データの頭出しを行う。また、制御部16は、録音機60によって記録され、メモリ13に格納されている音声データを、編集開始点Pの位置から再生するよう頭出しを行う。   When the user instructs editing standby to the editing apparatus 10 via the remote controller 40, the control unit 16 included in the editing apparatus 10 performs the audio analysis unit 15 on the first to third digital video cameras. The video / audio data (audio data for the recorder 60, the same applies hereinafter) is fast-forwarded or rewound to the position of the editing start point P specified by the above, and each audio / video data is reproduced at the position of the editing start point P. Is paused to cue each audio-video data. In addition, the control unit 16 performs cueing so that the audio data recorded by the recording device 60 and stored in the memory 13 is reproduced from the position of the editing start point P.

ここで、上述の説明から明らかなように、編集開始点Pは、各音声映像データにおいて、同一の時点、例えば、運動会の開会式がスタートする時点を指している。   Here, as is clear from the above description, the editing start point P indicates the same time point in each audio video data, for example, the time point when the opening ceremony of the athletic meet starts.

ユーザが編集装置10に対して、リモコン40を介して、編集開始を指示することによって、制御部16は、第1〜第3のデジタルビデオカメラおよび録音機60に対して、各音声映像データを、編集開始点Pから再生させる。   When the user instructs the editing apparatus 10 to start editing via the remote controller 40, the control unit 16 sends the audio / video data to the first to third digital video cameras and the recorder 60. Then, playback is started from the editing start point P.

図9は、編集装置10を備えるテレビジョン受像機30を用いた編集作業における表示画面の一例を示す図である。図9に示すように、テレビジョン受像機30の備える第1〜第3外部入出力部11a〜11cには、それぞれ、第1〜第3のデジタルビデオカメラ50a〜50cが接続され、SDカードインターフェース12bには、録音機60によって音声データが記録されたSDカード61が接続される。   FIG. 9 is a diagram illustrating an example of a display screen in editing work using the television receiver 30 including the editing device 10. As shown in FIG. 9, first to third digital video cameras 50 a to 50 c are connected to the first to third external input / output units 11 a to 11 c included in the television receiver 30, respectively, and an SD card interface is provided. An SD card 61 on which audio data is recorded by the recorder 60 is connected to 12b.

また、図9に示すように、テレビジョン受像機30のLCDパネル32には、それぞれ第1〜第3のデジタルビデオカメラ50a〜50cからの映像データが、サブ画像として表示される。ユーザは、リモコン40を介して音声映像データ選択操作を行うことによって、サブ画像の一つを選択する。選択されたサブ画像に対応する映像データは、図9に示すように、メイン画像として表示される。図9に示す例においては、サブ画像cがメイン画像として選択されている。図9に示すように、選択中のサブ画像を枠囲みによって強調表示しておくことが好ましい。   In addition, as shown in FIG. 9, video data from the first to third digital video cameras 50a to 50c are displayed as sub-images on the LCD panel 32 of the television receiver 30, respectively. The user selects one of the sub-images by performing an audio / video data selection operation via the remote controller 40. The video data corresponding to the selected sub-image is displayed as a main image as shown in FIG. In the example shown in FIG. 9, the sub image c is selected as the main image. As shown in FIG. 9, it is preferable that the currently selected sub-image is highlighted with a frame.

また、ユーザは、任意のタイミングにて、音声映像データ選択操作を行うことによって選択画像を切り替えることができる。この場合、選択予定のサブ画像に枠囲みを付しておき、ユーザがリモコン40の決定ボタンを押下した場合にメイン画像が、当該選択予定のサブ画像に切り替わる構成とすることが好ましい。図9は、サブ画像aが選択予定である場合を示している。   Further, the user can switch the selected image by performing an audio / video data selection operation at an arbitrary timing. In this case, it is preferable that a frame is attached to the sub-image to be selected and the main image is switched to the sub-image to be selected when the user presses the determination button on the remote controller 40. FIG. 9 shows a case where the sub-image a is scheduled to be selected.

なお、選択中のサブ画像に付される枠囲みと、選択予定のサブ画像に付される枠囲みとは、例えば互いに異なる色を用いたり、枠囲みの線の太さを互いに異ならせるなどして、互いに識別できるよう表示することが好ましい。また、図9に示すように、選択中のサブ画像に付される枠囲みを実線で表示し、選択予定のサブ画像に付される枠囲み点線で表示する構成としてもよい。   Note that the frame box attached to the sub-image being selected and the frame box attached to the sub-image to be selected use different colors, for example, or the thicknesses of the frame lines are different from each other. It is preferable to display so that they can be distinguished from each other. Further, as shown in FIG. 9, the frame box attached to the selected sub-image may be displayed with a solid line, and the frame box dotted line attached to the sub-image to be selected may be displayed.

映像選択部21は、ユーザにより各時点にて選択されたサブ画面(すなわちメイン画像)に対応する映像データを選択し、編集データ生成部23は、当該各時点にて選択された映像データを、編集後の音声映像データとして出力する。なお、上述したように、編集後の音声映像データに含まれる音声データは、第1〜第3のデジタルビデオカメラ50a〜50cからの音声映像データに含まれる音声データであってもよいし、録音機60からの音声データに含まれる音声データであってもよいし、その他の音声データをBGMとして用いる構成としてもよい。   The video selection unit 21 selects video data corresponding to the sub-screen (that is, the main image) selected at each time by the user, and the edit data generation unit 23 selects the video data selected at each time. Output as edited audio / video data. As described above, the audio data included in the edited audio / video data may be audio data included in the audio / video data from the first to third digital video cameras 50a to 50c, or may be recorded. The audio data included in the audio data from the device 60 may be used, or other audio data may be used as the BGM.

以上のように、本実施形態に係る編集装置10は、複数のデジタルビデオカメラからの音声映像データの頭出しを自動的に行うことができるので、ユーザは、同期された音声映像データに基づく編集作業を容易に行うことができる。また、各デジタルビデオカメラが、同期をとるための特別な構成を有している必要がないので、余分なコストを招来しない。   As described above, the editing apparatus 10 according to the present embodiment can automatically perform cueing of audio / video data from a plurality of digital video cameras, so that the user can edit based on synchronized audio / video data. Work can be done easily. Further, since each digital video camera does not need to have a special configuration for synchronization, no extra cost is incurred.

なお、上述した例においては、編集装置10が、編集装置10に接続されている外部機器である第1〜第3のデジタルビデオカメラ50a〜50cから供給される音声映像データを直接的に用いて編集処理を行う場合について述べたが、本実施形態はこれに限定されるものではない。   In the above-described example, the editing apparatus 10 directly uses audio / video data supplied from the first to third digital video cameras 50a to 50c which are external devices connected to the editing apparatus 10. Although the case of performing the editing process has been described, the present embodiment is not limited to this.

例えば、編集装置10は、メモリ13にあらかじめ記録された複数の音声映像データを編集することに用いることもできる。また、別の例として、編集装置10は、記録部にあらかじめ記録された複数の音声映像データを編集することに用いることもできる。当該記録部は、テレビジョン受像器30が備える記録部33であってもよいし、例えばUSBインターフェース12aを介して編集装置10に接続される外部記録部であってもよい。   For example, the editing apparatus 10 can be used to edit a plurality of audio / video data recorded in advance in the memory 13. As another example, the editing apparatus 10 can be used to edit a plurality of audio-video data recorded in advance in the recording unit. The recording unit may be the recording unit 33 included in the television receiver 30, or may be an external recording unit connected to the editing apparatus 10 via the USB interface 12a, for example.

このような場合、メモリ13には、撮影日時の異なる多数の音声映像データが記録されていることもある。編集装置10は、このような多数の音声映像データを、それらの撮影日時に関連付けて記憶しておく構成とすることが好ましい。編集装置10は、これら多数の音声映像データから、それらの各々に関連付けられた撮影日時を参照して、略同一の撮影日時を有する音声映像データを探索すると共に、探索した音声映像データから特定音声信号を抽出することによって編集開始点Pを特定する構成とすればよい。また、編集装置10は、特定した編集開始点Pから各音声映像データの再生を行い、上述の編集を行う構成とすればよい。このような構成をとることによって、メモリ13、記録部33および上記外部記録部の少なくとも1つに格納された撮影日時の異なる多数の音声映像データを編集する場合にも、ユーザは容易に編集作業を行うことができる。   In such a case, the memory 13 may have a large number of audio and video data recorded with different shooting dates and times. The editing apparatus 10 is preferably configured to store such a large number of audio / video data in association with their shooting dates and times. The editing device 10 searches the audio / video data having substantially the same shooting date / time with reference to the shooting date / time associated with each of these audio / video data, and also specifies the specific audio from the searched audio / video data. What is necessary is just to set it as the structure which specifies the edit start point P by extracting a signal. The editing apparatus 10 may be configured to perform the above-described editing by playing back each audio-video data from the specified editing start point P. By adopting such a configuration, even when a large number of audio / video data having different shooting dates and times stored in at least one of the memory 13, the recording unit 33, and the external recording unit are edited, the user can easily perform editing work. It can be performed.

(付記事項1)
上記の説明では、デジタル音声映像データを例に挙げたが、これは本実施形態を限定するものではない、上記の説明から明らかなように、本実施形態に係る編集装置10による編集処理は、アナログ音声映像データに対しても適用することができる。したがって、第1〜第3のデジタルビデオカメラ50a〜50〜cに代えて、アナログビデオカメラを用いる構成としてもよい。
(Appendix 1)
In the above description, the digital audio / video data has been described as an example. However, this does not limit the present embodiment. As is clear from the above description, the editing process by the editing apparatus 10 according to the present embodiment is as follows. The present invention can also be applied to analog audio / video data. Therefore, an analog video camera may be used instead of the first to third digital video cameras 50a to 50-c.

(付記事項2)
上述した編集装置10の各ブロックは、集積回路(ICチップ)上に形成された論理回路によってハードウェア的に実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェア的に実現してもよい。
(Appendix 2)
Each block of the editing device 10 described above may be realized in hardware by a logic circuit formed on an integrated circuit (IC chip), or may be realized in software using a CPU (Central Processing Unit). Also good.

後者の場合、上記装置は、各機能を実現するプログラムの命令を実行するCPU、上記プログラムを格納したROM(Read Only Memory)、上記プログラムを展開するRAM(Random Access Memory)、上記プログラム及び各種データを格納するメモリ等の記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである上記各装置の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータ読み取り可能に記録した記録媒体を、上記装置に供給し、そのコンピュータ(またはCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。   In the latter case, the apparatus includes a CPU that executes instructions of a program that realizes each function, a ROM (Read Only Memory) that stores the program, a RAM (Random Access Memory) that expands the program, the program, and various data. A storage device (recording medium) such as a memory for storing the. An object of the present invention is to provide a recording medium on which a program code (execution format program, intermediate code program, source program) of a control program for each device, which is software for realizing the functions described above, is recorded in a computer-readable manner. This can also be achieved by supplying to the apparatus and reading and executing the program code recorded on the recording medium by the computer (or CPU or MPU).

上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ類、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD/CD−R等の光ディスクを含むディスク類、ICカード(メモリカードを含む)/光カード等のカード類、マスクROM/EPROM/EEPROM/フラッシュROM等の半導体メモリ類、あるいはPLD(Programmable logic device)やFPGA(Field Programmable Gate Array)等の論理回路類などを用いることができる。   Examples of the recording medium include tapes such as magnetic tapes and cassette tapes, magnetic disks such as floppy (registered trademark) disks / hard disks, and disks including optical disks such as CD-ROM / MO / MD / DVD / CD-R. IC cards (including memory cards) / optical cards, semiconductor memories such as mask ROM / EPROM / EEPROM / flash ROM, PLD (Programmable logic device), FPGA (Field Programmable Gate Array), etc. Logic circuits can be used.

また、上記各装置を通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークは、プログラムコードを伝送可能であればよく、特に限定されない。例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(Virtual Private Network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、この通信ネットワークを構成する伝送媒体も、プログラムコードを伝送可能な媒体であればよく、特定の構成または種類のものに限定されない。例えば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL(Asymmetric Digital Subscriber Line)回線等の有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、IEEE802.11無線、HDR(High Data Rate)、NFC(Near Field Communication)、DLNA(Digital Living Network Alliance)、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。   Further, each of the above devices may be configured to be connectable to a communication network, and the program code may be supplied via the communication network. The communication network is not particularly limited as long as it can transmit the program code. For example, the Internet, intranet, extranet, LAN, ISDN, VAN, CATV communication network, virtual private network, telephone line network, mobile communication network, satellite communication network, and the like can be used. The transmission medium constituting the communication network may be any medium that can transmit the program code, and is not limited to a specific configuration or type. For example, even with wired lines such as IEEE 1394, USB, power line carrier, cable TV line, telephone line, and ADSL (Asymmetric Digital Subscriber Line) line, infrared rays such as IrDA and remote control, Bluetooth (registered trademark), IEEE 802.11 wireless, HDR ( It can also be used by radio such as High Data Rate (NFC), Near Field Communication (NFC), Digital Living Network Alliance (DLNA), mobile phone network, satellite line, and digital terrestrial network.

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。   The present invention is not limited to the above-described embodiments, and various modifications are possible within the scope shown in the claims, and embodiments obtained by appropriately combining technical means disclosed in different embodiments. Is also included in the technical scope of the present invention.

本発明は、音声映像データを編集するための編集装置として、好適に適用することができる。   The present invention can be suitably applied as an editing apparatus for editing audio-video data.

10 編集装置
11a 第1外部入出力部
11b 第2外部入出力部
11c 第3外部入出力部
12a USBインターフェース
12b SDカードインターフェース
13 メモリ
14 復号部
15 音声解析部(抽出手段、特定手段)
16 制御部(制御手段)
17 赤外線受光部
20 編集部(編集手段)
21 映像選択部
22 音声選択部
23 編集データ生成部
30 テレビジョン受像器
31 映像処理部
32 LCDパネル
33 記録部
34 アンプ
35 スピーカー
40 リモコン(遠隔制御装置)
50a 第1のデジタルビデオカメラ(外部機器)
50b 第2のデジタルビデオカメラ(外部機器)
50c 第3のデジタルビデオカメラ(外部機器)
DESCRIPTION OF SYMBOLS 10 Editing apparatus 11a 1st external input / output part 11b 2nd external input / output part 11c 3rd external input / output part 12a USB interface 12b SD card interface 13 Memory 14 Decoding part 15 Speech analysis part (extraction means, identification means)
16 Control unit (control means)
17 Infrared light receiving unit 20 Editing unit (editing means)
DESCRIPTION OF SYMBOLS 21 Image | video selection part 22 Audio | voice selection part 23 Edit data generation part 30 Television receiver 31 Image | video processing part 32 LCD panel 33 Recording part 34 Amplifier 35 Speaker 40 Remote control (remote control device)
50a First digital video camera (external device)
50b Second digital video camera (external device)
50c Third digital video camera (external device)

Claims (11)

各音声映像データによって表される複数の映像を編集する編集装置であって、
各音声映像データに埋め込まれた特定音声信号を抽出する抽出手段と、
上記抽出手段によって抽出された各特定音声信号に基づいて、各音声映像データ上の再生開始点を特定する特定手段と、
上記再生開始点から各音声映像データを再生するよう各音声映像データの頭出しを行う制御手段と、
を備えていることを特徴とする編集装置。
An editing device for editing a plurality of videos represented by each audio-video data,
Extraction means for extracting a specific audio signal embedded in each audio video data;
Identification means for identifying a reproduction start point on each audio-video data based on each specific audio signal extracted by the extraction means;
Control means for cuing each audio-video data so as to reproduce each audio-video data from the reproduction start point;
An editing apparatus comprising:
上記特定音声信号には、固定周波数からなる固定周波数信号と、段階的に変化していく可変周波数からなる可変周波数信号とが繰り返し含まれており、
上記特定手段は、上記固定周波数信号と上記可変周波数信号とを参照して、上記再生開始点を特定する、
ことを特徴とする請求項1に記載の編集装置。
The specific audio signal repeatedly includes a fixed frequency signal composed of a fixed frequency and a variable frequency signal composed of a variable frequency that changes in stages,
The specifying means specifies the reproduction start point with reference to the fixed frequency signal and the variable frequency signal.
The editing apparatus according to claim 1.
上記各音声映像データは、各外部機器から供給され、
上記制御手段は、上記再生開始点から各音声映像データを再生するよう各外部機器を制御する、
ことを特徴とする請求項1または2に記載の編集装置。
Each audio video data is supplied from each external device,
The control means controls each external device to reproduce each audio-video data from the reproduction start point.
The editing apparatus according to claim 1 or 2, characterized in that
再生される各音声映像データのいずれかを各時刻において選択することによって編集後の音声映像データを生成する編集手段を更に備えている、
ことを特徴とする請求項1から3のいずれか1項に記載の編集装置。
Editing means for generating edited audio / video data by selecting any of the audio / video data to be reproduced at each time;
The editing apparatus according to any one of claims 1 to 3, wherein
音声映像データによって表される複数の映像を編集する編集装置を遠隔制御するための遠隔制御装置であって、
上記編集装置が各音声映像データの再生開始点を特定するために参照する特定音声信号を出力する出力手段を備えている、
ことを特徴とする遠隔制御装置。
A remote control device for remotely controlling an editing device for editing a plurality of videos represented by audio-video data,
The editing apparatus includes output means for outputting a specific audio signal referred to for specifying a reproduction start point of each audio video data.
A remote control device characterized by that.
請求項3または4に記載の編集装置と、請求項5に記載の遠隔制御装置と、上記外部機器として複数のビデオカメラとを含んでいる、
ことを特徴とする編集システム。
The editing device according to claim 3 or 4, the remote control device according to claim 5, and a plurality of video cameras as the external device,
An editing system characterized by that.
請求項1から4のいずれか1項に記載の編集装置を備えている、
ことを特徴とするテレビジョン受像機。
The editing apparatus according to claim 1 is provided.
A television receiver characterized by that.
音声信号に埋め込まれ、当該音声信号上の特定の位置を特定するために参照される特定音声信号であって、
固定周波数からなる固定周波数信号と、段階的に変化していく可変周波数からなる可変周波数信号とを繰り返し含んでおり、
上記音声信号を解析する解析装置は、上記固定周波数信号と上記可変周波数信号とを参照して、上記特定の位置を特定する、
ことを特徴とする特定音声信号。
A specific audio signal embedded in an audio signal and referred to to specify a specific position on the audio signal,
It includes a fixed frequency signal consisting of a fixed frequency and a variable frequency signal consisting of a variable frequency that changes in stages.
The analysis device for analyzing the audio signal specifies the specific position with reference to the fixed frequency signal and the variable frequency signal.
A specific audio signal characterized by that.
各音声映像データによって表される複数の映像を編集する編集方法であって、
各音声映像データに埋め込まれた特定音声信号を抽出する抽出工程と、
上記抽出工程にて抽出された各特定音声信号に基づいて、各音声映像データ上の再生開始点を特定する特定工程と、
上記再生開始点から各音声映像データを再生するよう各音声映像データの頭出しを行う制御工程と、
を含んでいることを特徴とする編集方法。
An editing method for editing a plurality of videos represented by each audio-video data,
An extraction step of extracting a specific audio signal embedded in each audio-video data;
Based on each specific audio signal extracted in the extraction step, a specific step for specifying a reproduction start point on each audio video data,
A control step of cueing each audio / video data to reproduce each audio / video data from the reproduction start point;
The editing method characterized by including.
請求項1から4のいずれか1項に記載の編集装置が備えている各手段としてコンピュータを動作させるためプログラム。   The program for operating a computer as each means with which the editing apparatus of any one of Claim 1 to 4 is provided. 請求項10に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
The computer-readable recording medium which recorded the program of Claim 10.
JP2011279036A 2011-12-20 2011-12-20 Editing device, remote controller, television receiver, specific audio signal, editing system, editing method, program, and recording medium Pending JP2013131871A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011279036A JP2013131871A (en) 2011-12-20 2011-12-20 Editing device, remote controller, television receiver, specific audio signal, editing system, editing method, program, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011279036A JP2013131871A (en) 2011-12-20 2011-12-20 Editing device, remote controller, television receiver, specific audio signal, editing system, editing method, program, and recording medium

Publications (1)

Publication Number Publication Date
JP2013131871A true JP2013131871A (en) 2013-07-04

Family

ID=48909126

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011279036A Pending JP2013131871A (en) 2011-12-20 2011-12-20 Editing device, remote controller, television receiver, specific audio signal, editing system, editing method, program, and recording medium

Country Status (1)

Country Link
JP (1) JP2013131871A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017002821A1 (en) * 2015-06-29 2017-01-05 ヤマハ株式会社 Video processing device, video processing method, and recording medium
WO2017026387A1 (en) * 2015-08-07 2017-02-16 ヤマハ株式会社 Video-processing device, video-processing method, and recording medium
JP2020512789A (en) * 2017-03-31 2020-04-23 グレースノート インコーポレイテッド Video music service
JP2022006725A (en) * 2020-06-24 2022-01-13 Kddi株式会社 Image management device, image management system, and image management method

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017002821A1 (en) * 2015-06-29 2017-01-05 ヤマハ株式会社 Video processing device, video processing method, and recording medium
JP2017017423A (en) * 2015-06-29 2017-01-19 ヤマハ株式会社 Video processing apparatus
WO2017026387A1 (en) * 2015-08-07 2017-02-16 ヤマハ株式会社 Video-processing device, video-processing method, and recording medium
JP2020512789A (en) * 2017-03-31 2020-04-23 グレースノート インコーポレイテッド Video music service
US10897644B2 (en) 2017-03-31 2021-01-19 Gracenote, Inc. Music service with motion video
JP2021122125A (en) * 2017-03-31 2021-08-26 グレースノート インコーポレイテッド Music service with motion video
US11240551B2 (en) 2017-03-31 2022-02-01 Gracenote, Inc. Music service with motion video
JP7227298B2 (en) 2017-03-31 2023-02-21 グレースノート インコーポレイテッド Video music service
US11770578B2 (en) 2017-03-31 2023-09-26 Gracenote, Inc. Music service with motion video
JP2022006725A (en) * 2020-06-24 2022-01-13 Kddi株式会社 Image management device, image management system, and image management method

Similar Documents

Publication Publication Date Title
US9124860B2 (en) Storing a video summary as metadata
US8432965B2 (en) Efficient method for assembling key video snippets to form a video summary
US8446490B2 (en) Video capture system producing a video summary
JP2006157893A (en) Imaging device
JP2010074323A (en) Recording apparatus and method, and recording and playback apparatus and method
JP2013131871A (en) Editing device, remote controller, television receiver, specific audio signal, editing system, editing method, program, and recording medium
JP2011151481A (en) Audio signal processing apparatus and audio signal processing system
JP5600405B2 (en) Image processing apparatus, image processing method, and program
JP2013016903A (en) Information processor and information processing method
US9538119B2 (en) Method of capturing moving picture and apparatus for reproducing moving picture
KR100775187B1 (en) Thumbnail recording method and terminal using the same
JP2013055440A (en) Imaging device and image sound reproduction device
JP2010263374A (en) Recording and reproducing device and recording and reproducing method
US20100129049A1 (en) Editing apparatus, control method of the editing apparatus, and image pickup apparatus
US10410674B2 (en) Imaging apparatus and control method for combining related video images with different frame rates
JP2017005559A (en) Tagging device, tagging system, tagging method, and program
JP2012253692A (en) Imaging apparatus, reproducer, data structure, control method of imaging apparatus and imaging apparatus program
JP6398694B2 (en) Portable device and recording system having wireless LAN function
KR101314565B1 (en) Photographing apparatus of providing location related information and method thereof
JP2016009961A (en) Reproducer
JP2012120128A (en) Playback system and playback method
JP5295349B2 (en) Information processing device
JP2018078459A (en) Imaging apparatus
JP2007324792A (en) Recording method and apparatus
JP2008118369A (en) Video recording and reproducing device