JP2010245856A - Video editing device - Google Patents
Video editing device Download PDFInfo
- Publication number
- JP2010245856A JP2010245856A JP2009092620A JP2009092620A JP2010245856A JP 2010245856 A JP2010245856 A JP 2010245856A JP 2009092620 A JP2009092620 A JP 2009092620A JP 2009092620 A JP2009092620 A JP 2009092620A JP 2010245856 A JP2010245856 A JP 2010245856A
- Authority
- JP
- Japan
- Prior art keywords
- scene
- video
- unit
- scenes
- attribute information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Television Signal Processing For Recording (AREA)
Abstract
Description
本発明は映像編集装置に関し、特に、映像のダイジェスト(要約)再生を可能とする映像編集装置に関する。 The present invention relates to a video editing apparatus, and more particularly to a video editing apparatus that enables video digest (summary) playback.
特許文献1は、撮影された動画像について、負担の大きい編集操作入力なしに各種の編集が施されたダイジェスト再生をさせることを可能とする電子カメラを開示する。この電子カメラは、乱数を発生させ、この乱数に基づき、撮影した動画像に対してランダムな編集処理を行う。これにより、この電子カメラによれば、ユーザからの編集操作を入力することなく、自動的にランダムな各種の編集を施して動画像をダイジェスト再生させることができる。
特許文献2には、メタデータ(属性情報)に基づいてシーンを評価し、その評価結果に基づいて、撮影した映像のシーンやクリップ数を絞り込んだダイジェスト(要約映像)を簡単に生成する映像撮影装置が開示されている。 Japanese Patent Laid-Open No. 2004-228688 evaluates a scene based on metadata (attribute information) and, based on the evaluation result, captures a scene (summary video) that narrows down the number of scenes and clips of the captured video. An apparatus is disclosed.
しかしながら、上記特許文献1は撮影された映像をランダムに編集することでダイジェスト(要約)映像を生成するものであり、抽出されるシーンの映像内容とは関係なくダイジェストが生成されるものである。
However, the above-mentioned
特許文献2は、シーンそれぞれの映像内容に基づいてダイジェストを生成するものであるが、抽出される複数のシーン間での関連性まで考慮はされていない。そのため、ズームアップのような同種のシーンばかりからなるダイジェストが生成される可能性がある。
本発明は、上記の課題を解決するものであって、ダイジェストを生成する際に、抽出される複数のシーン間での関連性も考慮することで、より好適なダイジェスト生成を可能とするものである。 The present invention solves the above-described problems, and enables more suitable digest generation by considering the relationship between a plurality of extracted scenes when generating a digest. is there.
本発明の映像編集装置は、映像をシーンに分割し、シーン毎の属性情報を生成する属性情報生成部と、前記属性情報に基づいたシーン毎の評価と、複数のシーン間の関連性により、再生するシーンを抽出するシーン解析部と、前記再生するシーンに関する情報を記録する再生情報を生成する再生情報生成部と、を備えることを特徴とするものである。 The video editing apparatus of the present invention divides a video into scenes, generates attribute information for each scene, evaluation for each scene based on the attribute information, and relevance between a plurality of scenes, A scene analysis unit for extracting a scene to be reproduced and a reproduction information generation unit for generating reproduction information for recording information related to the scene to be reproduced are provided.
これによりシーン相互間の内容(属性)に応じてシーン抽出を行うことが可能となり、より好適なダイジェスト生成が可能となる。 As a result, scene extraction can be performed according to the content (attribute) between scenes, and a more suitable digest can be generated.
さらにシーン解析部は、抽出対象となる2つのシーン間で共通の属性を持つ際には、一方のシーンのみを抽出するものであってもよい。これにより、同じ属性を持つシーンが重複して抽出され、ダイジェストが生成されることがなくなる。 Furthermore, the scene analysis unit may extract only one scene when the two scenes to be extracted have common attributes. As a result, scenes having the same attribute are not extracted and a digest is not generated.
さらに、シーン解析部は、抽出対象となる2つのシーン間で異なる属性を持つ場合であっても、この異なる属性間での関連性に基づいて、2つのシーンの抽出の要否を判断するものであってもよい。 Furthermore, the scene analysis unit determines whether or not two scenes need to be extracted based on the relationship between the different attributes even when the two scenes to be extracted have different attributes. It may be.
これにより、属性の種類によって、シーン間の関連性を判断してシーンの抽出が可能となるので、より好適なダイジェスト生成が可能となる。 As a result, it is possible to extract scenes by determining the relevance between scenes depending on the type of attribute, and thus it is possible to generate a more suitable digest.
本発明により、ダイジェストを生成する際に、抽出される複数のシーン間での関連性も考慮することで、より好適なダイジェスト生成が可能となる。 According to the present invention, when generating a digest, it is possible to generate a more suitable digest by taking into account the relevance between a plurality of extracted scenes.
(第1の実施の形態)
<1.映像編集装置の構成>
本実施の形態では、映像を編集する映像編集装置を用いて説明する。映像編集装置の例としては、例えばTV番組等を録画し、録画した番組をダイジェスト再生するTV録画機器や、映像を撮影し、撮影した映像をダイジェスト再生する機能を備えたビデオカメラ(ムービー)等がある。図1は、ビデオカメラ100の外観図である。本実施の形態では、このビデオカメラ100を映像編集装置として説明を行う。
(First embodiment)
<1. Configuration of video editing device>
In this embodiment, a description will be given using a video editing apparatus that edits video. Examples of the video editing device include, for example, a TV recording device that records a TV program and the like and digests and plays back the recorded program, a video camera (movie) that has a function of shooting video and digesting and playing back the captured video, and the like. There is. FIG. 1 is an external view of the
図1のビデオカメラ内部のハードウェア構成の概略を図2に示す。ビデオカメラ100は、レンズ群200、撮像素子201、映像ADC(Analog Digital Converter)202、映像信号変換IC203、CPU204、クロック205、レンズ制御モジュール206、姿勢検出センサ207、入力ボタン208、ディスプレイ209、スピーカー210、出力I/F(Interface)211、圧縮伸張IC212、ROM(Read Only Memory)213、RAM(Randam Access Memory)214、HDD(Hard Disk Drive)215、音声ADC(Analo Digital Converter)216、マイクロフォン217、を構成要素に持つ。
FIG. 2 shows an outline of the hardware configuration inside the video camera of FIG. The
レンズ群200は、撮像素子201上で被写体像を形成するために、被写体から入射する光を調整するものである。具体的には、焦点距離やズーム(映像の拡大倍率)を様々な特性を持つ複数のレンズ間の距離を変化させることで、調整するものである。これらの調整は、ビデオカメラの撮影者が手動で調整するものでも、後述するCPU204等からの制御により自動的に調整するものであってもよい。
The
撮像素子201は、レンズ群200を通して入射する光を電気信号に変換するものである。撮像素子にはCCDやC−MOS等を利用することが可能である。
The image sensor 201 converts light incident through the
映像ADC202は、撮像素子201が出力するアナログの電気信号をデジタル信号に変換するものである。 The video ADC 202 converts an analog electric signal output from the image sensor 201 into a digital signal.
映像信号変換IC203は、映像ADC202が出力するデジタル信号をNTSCやPALと言った所定の映像信号に変換するものである。 The video signal conversion IC 203 converts the digital signal output from the video ADC 202 into a predetermined video signal such as NTSC or PAL.
CPU204は、ビデオカメラ100全体を制御するものである。制御の種類としては、例えば、前述のレンズの焦点距離やズームの制御を、レンズ制御モジュール206を通じて撮像素子201への入射光を制御するレンズ制御、入力ボタン208や姿勢検出センサ207等からの外部入力に対する入力制御の制御、圧縮伸張IC212の動作制御等、これらの制御アルゴリズムをソフトウェア等で実行するものである。
The
クロック205は、ビデオカメラ100内で動作するCPU204等の回路に処理動作の基準となるクロック信号を出力するものである。なお、クロック205は利用する集積回路やまた扱うデータによって、単一または複数のクロックを用いることも可能である。また、ひとつの発振子のクロック信号を任意の倍数に乗じて使用してもよい。
The
レンズ制御モジュール206はレンズ群200の状態を検出するとともに、CPU204からの制御に基づいてレンズを動作させるものである。レンズ制御モジュール206は、レンズ制御用モータとレンズ位置センサを備える。レンズ位置センサはレンズ群200を構成する複数のレンズ間の距離または位置関係等を検出するものである。レンズ位置センサが検出した複数のレンズ間の位置情報等はCPU204に送信される。CPU204はレンズ位置センサからの情報、撮像素子201等の他の構成要素からの情報に基づいて、複数のレンズを適正に配置させるための信号をレンズ制御用モータに送信する。レンズ制御用モータは、CPU204から送信された制御信号に基づいてレンズを動作させるモータを駆動する。この結果、レンズ群200の複数のレンズ間の距離が変更され、レンズの焦点距離、およびズームを調整することで、レンズ群200を透過した入射光は撮像素子201上で、目的とする被写体像を結ぶ。
The
なおCPU204は上記以外にも、ビデオカメラ100で映像撮影時の手振れをレンズ位置センサや後述する姿勢検出センサ等で検出し、レンズ制御用モータを駆動する制御を行うことで、手振れ防止の動作をレンズ制御モジュール206で実行させることも可能である。
In addition to the above, the
姿勢検出センサ207は、ビデオカメラ100の姿勢の状態を検出するものである。姿勢検出センサ207は、加速度センサ、角速度センサ、仰角・俯角センサ等を備える。これらの各種センサにより、ビデオカメラ100がどのような状態で撮影を行っているかをCPU204は検出する。なお、これらのセンサは好ましくはビデオカメラ100の姿勢を詳細に検出するために、3軸方向(垂直方向、水平方向等)についてそれぞれ検出できることが望ましい。
The
入力ボタン208は、ビデオカメラ100の撮影者が使用する入力インタフェースの一つである。これにより、撮影者が撮影の開始や終了、ビデオ撮影中の映像にマーキングを挿入する等、各種要求をビデオカメラ100に伝えることが可能となる。
The
ディスプレイ209は、ビデオカメラ100が撮影した映像や映像撮影時のファインダー等として利用するため設けられている。これにより、撮影者は撮影した映像をその場で確認することが可能となる。また、それ以外にもビデオカメラ100の各種情報を表示することで、撮影情報等、機器情報等のより詳細な情報を撮影者に伝えることが可能となる。
The display 209 is provided for use as an image captured by the
スピーカー210は、撮影した映像を再生する際の音声出力に使用される。それ以外にも、ビデオカメラ100が、撮影者へ各種情報(例えば、撮影に関する情報等)を伝えるための音を出力する際にもスピーカー210を使用することが可能である。
The
出力I/F211は、ビデオカメラ100が撮影した映像を外部機器へ出力するために用いられる。具体的には、外部機器とケーブルで接続する場合のケーブルインタフェースや、撮影した映像をメモリカードに記録する場合のメモリカードインタフェース等などがある。これにより、撮影した映像をビデオカメラ100に備え付けのディスプレイ209よりも大きな外部のディスプレイを用いて視聴等することが可能となる。
The output I / F 211 is used to output video captured by the
圧縮伸張IC212は、撮影した映像または音声を所定のデジタルデータ形式にする(符号化処理する)ものである。具体的には、撮影した映像・音声データをMPEG(Moving Picture Expoerts Group)やH264等の符号化処理を行い、所定のデータ方式に変換(圧縮)する。また、撮影したデータの再生時には、圧縮伸張ICがこれら、所定のデータ形式の映像データを伸張してディスプレイ209等に表示するデータ処理をおこなうものである。
The compression /
ROM213は、CPU204が処理するソフトウェアのプログラムやプログラムを動作させるための各種データを記録するものである。
The
RAM214は、CPU204が処理するソフトウェアのプログラム実行時に使用するメモリ領域等として使用される。また、圧縮伸張IC212と共用でこのRAM214を使用してもよい。
The
HDD215は、圧縮伸張IC212が符号化した映像データを蓄積等する目的で利用される。なお、記録されるデータはこれ以外にも、後述する再生情報のデータ等を記録することも可能である。
The
音声ADC216は、マイクロフォン217が出力する音声のアナログ電気データをデジタル信号に変換処理する。
The
マイクロフォン217は、ビデオカメラ100外部の音声を電気信号に変換して出力する。
The
本実施の形態では、ビデオカメラ100のハードウェア構成の一例を上記に示したが、本発明では上記の構成に限定されるものではない。例えば、映像ADC202や映像信号変換IC203等を単一の集積回路として実現することも可能であるし、CPU204が実行するソフトウェアプログラムの一部を別途、FPGA(Field Programmable Gate Array)を用いてハードウェアとして実現することも可能である。
In the present embodiment, an example of the hardware configuration of the
図3にビデオカメラ100の機能構成図を示す。ビデオカメラ100は、機能構成として、レンズ部300、撮像部301、映像AD変換部302、信号処理部303、映像信号圧縮部304、撮像制御部305、映像解析部306、レンズ制御部307、姿勢検出部308、属性情報生成部309、多重化部310、記憶部311、シーン解析部312、再生情報生成部313、音声解析部314、音声信号圧縮部315、ダイジェスト再生部316、映像信号伸張部317、映像表示部318、音声信号伸張部319、音声出力部320、音声AD変換部321、マイク部322、外部入力部323、を備える。
FIG. 3 shows a functional configuration diagram of the
レンズ部300は、被写体から入射した光の焦点距離、ズーム倍率(映像の拡大倍率)を調整するものである。これらはレンズ制御部307からの制御により行われる。レンズ部300は、図2のレンズ群200に該当する。
The
撮像部301は、レンズ部300を透過した光を電気信号に変換する。撮像部301は、撮像制御部305の制御により、撮像素子上の任意の範囲のデータを出力する。また映像データ以外にも、3原色点の色度空間情報、白色の座標、および3原色のうち少なくとも2つのゲイン情報、色温度情報、Δuv(デルタuv)、および3原色または輝度信号のガンマ情報等の情報も出力することが可能である。この場合、これらの情報は、属性情報生成部309へ出力する。撮像部301は、図2の撮像素子201に該当する。
The
映像AD変換部302は、撮像部301からのアナログ電気信号を所定の処理内容にしたがってデジタル信号へ変換する。映像AD変換部302は、図2の映像ADC202に該当する。
The video AD conversion unit 302 converts the analog electrical signal from the
信号処理部303は、映像AD変換部302が出力したデジタル信号を所定の映像信号フォーマットに変換するものである。例えば、NTSC(National Television System Committee)で規定された水平線の数、走査線の数、フレームレートに準拠した映像信号とするものなどである。信号処理部303は、図2の映像信号変換IC203に該当する。
The
映像信号圧縮部304は、デジタル映像信号を所定の符号化変換を行い、データ量の圧縮、映像に適した符号化等の処理を行う。具体的な符号化変換としては、MPEG2、MPEG4、H264の符号化方式がある。映像信号圧縮部304は、図2の圧縮伸張IC212の圧縮機能に相当する。
The video signal compression unit 304 performs predetermined coding conversion on the digital video signal, and performs processing such as compression of data amount and coding suitable for video. Specific encoding conversion includes MPEG2, MPEG4, and H264 encoding methods. The video signal compression unit 304 corresponds to the compression function of the compression /
撮像制御部305は、撮像部301の動作を制御するものである。撮像部301に対して、撮影時の露出量や撮影(シャッター)速度、感度等を制御するものである。また、これらの制御情報は属性情報生成部309へも併せて出力する。撮像制御部305は、図2のCPU204で処理される制御アルゴリズムの一つである。
The
映像解析部306は、撮影された映像信号から映像の特徴を抽出するものである。本実施の形態では、色情報(例えば、映像に含まれる色の分布を検出する)や、ホワイトバランス、映像に人物の顔が含まれている場合には、顔検出を行う等、映像信号を解析することで、映像の特徴を抽出するものである。なお、色分布の検出は映像信号を形成するデータに含まれる色情報を確認することで実現可能である。また、顔検出については、パターンマッチング等を用いることにより実現可能である。映像解析部306は、図2のCPU204でソフトウェア処理されるアルゴリズムの一つである。
The
レンズ制御部307は、レンズ部300の動作を制御するものである。レンズ制御には、ズーム制御、フォーカス制御、また手振れ補正制御等がある。レンズ制御部307はレンズ部300を制御するとともに、これらの制御情報を属性情報生成部309へ出力する。レンズ制御部307は、図2のレンズ制御モジュール206に相当する。
The
姿勢検出部308は、ビデオカメラ100の加速度、角速度、仰角・俯角等を検出する。こられ検出された情報はビデオカメラ100の姿勢やその変化状況を属性情報として属性情報生成部309へ出力される。加速度や角速度については、垂直・水平(2方向)の3方向について検出できることが望ましい。姿勢検出部308は、図2の姿勢検出センサ207に相当する。
The
属性情報生成部309は、映像撮影時の撮影情報、外部入力情報及びその他の情報を属性情報(メタデータ)とする。属性情報の一例として以下のような情報が考えられる。
The attribute
・ 撮影開始日時(撮影開始時間)
・ 撮影終了日時(撮影終了時間)
・ 撮影時間(再生時間)
・ 焦点距離
・ ズーム倍率
・ 露出
・ 撮影速度
・ 受光感度
・ 3原色点の色空間情報
・ ホワイトバランス
・ 3原色のうち少なくとも2つのゲイン情報
・ 色温度情報
・ Δuv(デルタuv)
・ 3原色または輝度信号のガンマ情報
・ 色分布
・ 顔認識情報
・ カメラ姿勢(加速度、角速度、仰角・俯角等)
・ 撮影時刻(撮影開始時刻、終了時刻)
・ 撮影インデックス情報
・ ユーザ入力
・ フレームレート
・ サンプリング周波数
・ 特徴のある音声(特定の音の入力)
・ シーン切り替え
・ 撮影状態(三脚等を用いた固定撮影、あるいは、撮影者が手に持って撮影等)
・ 映像撮影時の手振れ状態
・ 顔検出
・ 顔認識
また、上記以外の情報でも、映像に関連する情報であれば、属性情報となる。
・ Shooting start date and time (shooting start time)
・ Shooting end date and time (shooting end time)
・ Shooting time (playback time)
-Focal length-Zoom magnification-Exposure-Shooting speed-Photosensitivity-Color space information for the three primary colors-White balance-Gain information for at least two of the three primary colors-Color temperature information-Δuv (Delta uv)
・ Gamma information of three primary colors or luminance signals ・ Color distribution ・ Face recognition information ・ Camera posture (acceleration, angular velocity, elevation angle, depression angle, etc.)
・ Shooting time (shooting start time, end time)
・ Shooting index information ・ User input ・ Frame rate ・ Sampling frequency ・ Characteristic audio (input of specific sound)
・ Scene switching ・ Shooting status (fixed shooting using a tripod, etc., or shooting by the photographer in hand)
-Camera shake during video shooting-Face detection-Face recognition Also, information other than the above is attribute information if it is information related to the video.
上記の各種情報から算出される情報(2次的情報)も属性情報に含まれる。2次的情報としては、例えば、カメラ姿勢(加速度、角速度、仰角・俯角等)の情報からビデオカメラ100が撮影時の動作として「パン」、「ティルト」等のカメラワークも属性情報となる。また、焦点距離や、ズーム倍率の情報はそのままでも、属性情報として用いることが可能である。また、それ以外にも、上記の各種情報を組み合わせ、また分析等することで新たに生成される情報も属性情報となる。属性情報生成部309は、撮影時の各種情報からシーン評価に有用な情報を抽出、算出等して属性情報を生成する。
Information (secondary information) calculated from the various types of information is also included in the attribute information. As the secondary information, for example, camera work such as “pan” and “tilt” as attribute information is also attribute information from the camera posture (acceleration, angular velocity, elevation angle, depression angle, etc.) information when the
多重化部310は、映像信号圧縮部304からの符号化映像データ、音声信号圧縮部313からの符号化音声データ、属性情報生成部309からの属性情報を多重化して出力するものである。多重化部314は、図2のCPU204で実行されるソフトウェアであってもよいし、圧縮伸張IC212で、処理されるものであってもよい。
The
記憶部311は、多重化部310から出力された符号化映像データ、符号化音声データ、属性情報が多重化されたデータを一時保持又は長期保持するものである。また、記憶部311は、再生情報生成部313が生成する再生情報についても保持するものである。記憶部315は、図2のHDD215やRAM214に該当する。
The
シーン解析部312は、属性情報生成部309が生成した属性情報に基づいて、それぞれのシーンを評価し、その結果に基づいて再生すべきシーンを選択するものである。シーンの評価や選択方法等について後に詳細に説明する。
The
再生情報生成部313は、シーン解析部312が選択した再生すべきシーンを再生情報として生成するものである。この点についても後述する。
The reproduction information generation unit 313 generates a scene to be reproduced selected by the
属性情報生成部309、シーン解析部312、再生情報生成部313は、図2のCPU204においてソフトウェアとして処理される。
The attribute
音声解析部314は、音声データから特徴のある音を抽出するものである。ここで特徴のある音とは、例えば、撮影者の声、特定の単語の発音、歓声、銃声等がある。これらの音の識別は、これらの音(音声)が持つ特有の周波数を予め登録しておき、それとの比較結果で判別するなどの方法等を用いることで、抽出が可能である。またこれ以外にも、マイクが捕捉した音の入力レベル等の特徴も検出する。音声解析部314は、図2のCPU204でソフトウェア処理されるアルゴリズムの一つである。
The
音声信号圧縮部315は、音声AD変換部321が出力した音声データを所定の符号化アルゴリズムで変換するものである。符号化にはMP3(MPEG Audio Layer−3)やAAC(Advanced Audio Coding)等の方法がある。音声信号圧縮部315は、図2の圧縮伸張IC212での圧縮機能の一つである。
The audio
ダイジェスト再生部316は、記憶部311に記録された再生情報に基づいて、同じく記憶部311に記録された多重化されたデータの映像データ、音声データを映像信号伸張部317、音声信号伸張部319でそれぞれ復号させ、映像表示部318、音声出力部320から出力する。ダイジェスト再生部316は、図2のCPU204で実行されるソフトウェア処理のアルゴリズムである。
Based on the reproduction information recorded in the
音声AD変換部321は、マイク部322が出力したアナログの音声信号をデジタル信号の音声データに変換する。音声AD変換部321は、図2の音声ADC216に相当する。
The audio
マイク部322は、周囲の音を電気信号に変化して音声信号として出力するものである。マイク部322は、図2のマイクロフォン217に相当する。
The
外部入力部323は、映像撮影時に外部から受信した各種の情報、例えば、撮影者によるボタン入力、外部から通信経由で受信した撮影インデックス情報等を出力するものである。なお、撮影インデックス情報とは、例えば、映画撮影時における、撮影場面を識別する番号や、撮影回数を示す番号等のそれぞれの撮影を識別するために用いられる識別番号などである。外部入力部323は、図2の入力ボタン208等に該当する。
The
上記の構成により、ビデオカメラ100で撮影された映像は、属性情報に基づいて、撮影された映像から好ましいシーンの抽出を自動的に行い、その部分のみを再生等することが可能となる。
With the above-described configuration, a video captured by the
なお、図2及び図3のハードウェア構成図、機能図は本実施の形態における一態様であり、これに限定されるものではない。例えば、図3において、シーン解析部312、再生情報生成部313は、記憶部311に記録されたデータを読み出して処理しているが、記憶部311に多重化データが記録される前に、圧縮された映像信号、圧縮された音声信号と、撮影時の属性情報に基づいてシーン解析、再生情報生成の処理等を行うものであっても良い。
Note that the hardware configuration diagrams and functional diagrams of FIGS. 2 and 3 are one aspect of the present embodiment, and the present invention is not limited to this. For example, in FIG. 3, the
また上記に示す、図2のハードウェア構成と図3の機能構成との関係は、本実施の形態における一態様であり、これに限定されるものではない。例えば、CPU204のソフトウェアアルゴリズムで処理される撮像制御部305の処理が、独立したハードウェアIC等で実施される場合であってもよい。
Further, the relationship between the hardware configuration of FIG. 2 and the functional configuration of FIG. 3 described above is one aspect of the present embodiment, and the present invention is not limited to this. For example, the process of the
<2.撮影したシーンの解析、再生情報の生成>
図4は、ビデオカメラ100が撮影する映像の構成を示す図である。撮影者が撮影開始を指示し、撮影の終了又は撮影の一時停止を指示するまでに撮影された映像の単位を「クリップ」とする。撮影者が撮影の開始、撮影の終了又は一時停止を何度も繰り返すと、クリップが複数生成される(図4(A))。
<2. Analysis of captured scene, generation of playback information>
FIG. 4 is a diagram illustrating a configuration of an image captured by the
一つのクリップは一つ又は複数の「シーン」から構成される。「シーン」は、時間的に連続した一続きの映像である。シーンは、任意に設定することが可能である。例えば、クリップを一つのシーンとして「1クリップ」=「1シーン」と設定してもよい。また、画面が大きく変わることを境として「シーン」を設定してもよい。この場合には、映像解析部306がフレーム間の動きベクトルを算出し、「動き」の大きさ(変化)が所定の値より大きい場合を、「シーン」の切り替え部分としてもよい。また、映像の内容にしたがって論理的なまとまりを一つの「シーン」と設定してもよい。この場合には、撮影者が入力ボタン等で論理的な区切りを入力する等で対応することで可能である。この場合に、撮影者の明確な意図で「クリップ」内の「シーン」を構成することが可能となる。それ以外にも、一定時間毎にシーンを区切っても良い(図4(B))。
One clip is composed of one or a plurality of “scenes”. A “scene” is a continuous video sequence in time. A scene can be set arbitrarily. For example, “1 clip” = “1 scene” may be set with a clip as one scene. In addition, a “scene” may be set on the boundary that the screen changes greatly. In this case, when the
「シーン」は、一つ又は複数の「フレーム」から構成される。「フレーム」は映像を構成する個々の画像である(図4(C))。 A “scene” is composed of one or more “frames”. A “frame” is an individual image constituting a video (FIG. 4C).
図5は、シーン解析部310が、クリップ内を複数のシーンに分割した場合の例を示すものである。シーン解析部310は、上述の通り属性情報等に基づいてクリップを分割する。図5では、それぞれのシーンを「開始時間」と「終了時間」で定めているが、フレーム番号等でシーンの開始と終了を定めても良い。
FIG. 5 shows an example in which the
図6は、シーン解析部312が、それぞれのシーンを評価する際に用いる属性情報と評価の関係例を示した図である。例えば、クリップイン(撮影の開始部分)やクリップアウト(撮影の終了前部分)部分については、映像の導入部分や重要部分と考えている場合は、撮影された映像が持つ論理的な意味が高いと推論される。この例では、クリップイン(A)及びクリップアウト(F)は、評価が100となっている。その他にも、撮影時のカメラワークとしてズームアップ(D)やズームダウン(G)についても、特定の被写体への注目度を高めるとの観点から評価が30として定められている。このように、シーン解析部312は予め属性情報それぞれに対する数値化された評価を持っている。図6の例では、評価点が高いほど高い評価(好ましい)として表現している。シーン解析部312は、このような図6の属性情報と評価との関係に基づいて各シーンを評価する。なお、一つのシーンに複数の属性情報が与えられている場合は、それぞれの属性情報に割り当てられている評価(評価点)を加算してもよい。また、一つのシーンに複数の属性情報が与えられている場合、その属性情報のなかから最も評価の高い属性が持つ評価(評価点)を当該シーンの評価点としてもよい。さらに、シーン内に含まれる種々の属性を考慮するのであれば、複数の属性の評価点の平均値等を評価としてもよい。さらに、より詳細に評価を行う場合には、シーンに含まれるフレーム毎に評価をしてもよい。なお、評価は好ましいシーンだけに行う必要はない。例えば、撮影時の手振れは、映像の視聴者に見づらい映像となる可能性があるので、こういった属性を持つシーンには減点(マイナス点)の評価をおこなうものであってもよい。
FIG. 6 is a diagram showing an example of the relationship between the attribute information used when the
なお、図6の属性情報と評価の関係は、一つに限定するものではない。例えば、複数の属性情報・評価の組み合わせデータをビデオカメラ100の撮影者が撮影するモード(例えば、風景の撮影、人物(ポートレート)撮影、静物撮影等)によって切り換えるものであってもよい。また、予め複数の組み合わせデータを備えておき、撮影モードによって、複数のデータを合成(それぞれの評価の値を一定の比率で加算等)したものであってもよい。この場合には、合成の比率を変えることで、動的に属性情報・評価の組み合わせデータを変更することが可能となる。
Note that the relationship between the attribute information and the evaluation in FIG. 6 is not limited to one. For example, the combination data of a plurality of attribute information / evaluation may be switched depending on a mode (for example, landscape shooting, person (portrait) shooting, still life shooting, etc.) in which the
図7はシーン解析部312が、図5のシーンに分割した映像の各シーンに図6に従って、評価(優先度)を割り当てた結果を示した図である。図7は横軸に時間(シーン)を、縦軸に各シーンの評価(優先度)を示したものである。 FIG. 7 is a diagram showing a result of assigning an evaluation (priority) according to FIG. 6 to each scene of the video divided into the scene of FIG. FIG. 7 shows time (scene) on the horizontal axis and evaluation (priority) of each scene on the vertical axis.
図7の時間0付近のAは、撮影を開始した直後であるため「クリップイン」の属性を持つ。図6に従えば、「クリップイン」の属性は評価(優先度)100を持つ。
A in the vicinity of
Bの符号が付けられているシーンは、「特定音声の抽出」の属性を持つ。特定音声の抽出は、上述の音声解析部314等により得られるものである。図6に従えば、「特定音声の抽出」の属性は評価(優先度)70を持つ。
The scene to which the symbol B is attached has an attribute of “extraction of specific sound”. The extraction of the specific voice is obtained by the above-described
Cの符号が付けられているシーンは、撮影者がカメラをパン、ティルト等のビデオカメラ100本体を動かして撮影した後に、静止して撮影することを意味する属性を示す。このような撮影は、撮影者が静止して撮影する際の被写体に非常に興味を持っている(注目している)として評価が高いと判断できることが考えられる。図6に従えば、このような属性は評価(優先度)40を持つ。
The scene with the symbol C indicates an attribute that means that the photographer shoots by moving the camera body of the
Dの符号が付けられているシーンは、ビデオカメラをズームアップして撮影しているシーンである。図6では、ズームアップでは評価(優先度)30を持つ。 A scene to which a symbol D is attached is a scene in which the video camera is zoomed up and photographed. In FIG. 6, the zoom-up has an evaluation (priority) 30.
Eの符号が付けられているシーンは、ビデオカメラをズームダウンして撮影しているシーンである。図6では、ズームダウンはズームアップと同じ評価(優先度)30を持つ。 The scene with the symbol E is a scene that is shot with the video camera zoomed down. In FIG. 6, zoom-down has the same evaluation (priority) 30 as zoom-up.
なお、ズームアップとズームダウンで評価の値をかえることも可能である。例えばズームアップをズームダウンよりも評価を高く設定することで、ズームアップで撮影されるシーン、つまり映像の拡大倍率が大きくなるシーン(拡大されて撮影される被写体があるシーン)、について高い評価(優先度)を割り当てても良い。逆に、映像の拡大倍率が小さくなるシーンについては比較的低い評価(優先度)を割り当てることも可能である。 It is also possible to change the evaluation value by zooming up and zooming down. For example, by setting the zoom-up higher than the zoom-down, the scene that is shot with the zoom-up, that is, the scene where the enlargement magnification of the video is large (the scene with the subject that is shot with the zoom) is highly evaluated ( (Priority) may be assigned. On the other hand, a relatively low evaluation (priority) can be assigned to a scene with a small video magnification.
Fの符号が付けられているシーンは、撮影終了直前のため「クリップアウト」の属性を持つ。図6に従えば、「クリップアウト」の属性は評価(優先度)100を持つ。 The scene with the symbol F has a “clipout” attribute because it is just before the end of shooting. According to FIG. 6, the attribute of “clipout” has an evaluation (priority) of 100.
Gの符号が付けられているシーンは、ビデオカメラがパン、ティルト等の動きをともなった撮影(カメラワーク)を行ったシーンである。この場合は評価(優先度)25が割り当てられる。 The scene to which G is attached is a scene in which the video camera performs shooting (camera work) with movement such as panning and tilting. In this case, evaluation (priority) 25 is assigned.
Zの不要が割り当てられているシーンは、顔検出のあるシーンである。これは、映像信号から被写体映像に人物の「顔」が検出されていることを示す。図6に従えば、顔検出は評価(優先度)80を持つ。なお、シーンの評価として顔検出をより技術的に進めた、「顔認識」をもちいても良い。顔認識は、被写体映像に複数の人物の顔がある場合に、特定の顔を識別する技術である。 A scene to which Z is not required is a scene with face detection. This indicates that a “face” of a person is detected in the subject video from the video signal. According to FIG. 6, face detection has an evaluation (priority) 80. It should be noted that “face recognition”, which is more technically advanced in face detection, may be used as a scene evaluation. Face recognition is a technique for identifying a specific face when there are a plurality of human faces in the subject video.
以上よりシーン解析部312は、各シーンについて評価(優先度)を割り当てる。なお、図7の例では、シーンを単位として評価を割り当てたが、シーン解析部312はクリップ単位、又は、フレーム単位で上記の評価割り当てをおこなってもよい。
As described above, the
シーン解析部312は、さらに、各シーンに割り当てた評価に基づいて、通常好ましいシーンのみを抽出する。簡単な例としては、各シーンに含まれる最も高い評価を代表値として採用し、その代表値が高いシーンのみを抽出する方法である。図7の例では、#1、#5、#8の部分のシーンのみを抽出することとなる。
The
なお、抽出方法については、抽出されたシーンの合計再生時間が所定の時間以内であること、又は、シーンの評価が一定以上であること等、様々な観点で抽出をすることが可能である。 As for the extraction method, extraction can be performed from various viewpoints such as that the total playback time of the extracted scenes is within a predetermined time, or that the evaluation of the scene is more than a certain level.
再生情報成部313は、シーン解析部312が抽出したシーンに従って、映像再生の手順・方法を記した再生情報を生成する。この再生情報とは、例えば、図8に示すような、再生対象となるシーンの開始時刻と終了時刻で示されるものであってもよい。この場合、各シーンの中における代表的な映像画面(シーン中における最も評価の高い映像画面等)を別途記録しておくと、参照用画面の検索にも有効である。
The reproduction information generation unit 313 generates reproduction information describing the procedure / method of video reproduction according to the scene extracted by the
なお、再生情報の形態は図8に限られず、他の形態であってもよい。例えば、フレーム番号での指定などでも可能である。また、再生情報生成部313が生成した再生情報を、MPEG等のTS(Transport Stream)として多重化部310で符号化された映像信号、音声信号と多重化する場合等には、多重化時に用いられる時刻情報(例えばPTSやDTSの時刻情報)等を用いて再生情報を記録することも可能である。H264の場合にも同様に所定の多重化時の時刻情報を用いてもよい。
Note that the form of the reproduction information is not limited to that shown in FIG. 8, but may be other forms. For example, designation by a frame number is also possible. In addition, when the reproduction information generated by the reproduction information generation unit 313 is multiplexed with a video signal or audio signal encoded by the
さらに、一部のビデオカメラのデータ記録方式として用いられているAVCHD(Advanced Video Codec High Definition)等の規格を用いて映像データを記録する場合には、PlayListファイル等に再生情報を記録する方法を用いても良い。 Furthermore, when video data is recorded using a standard such as AVCHD (Advanced Video Code High Definition), which is used as a data recording method of some video cameras, a method of recording reproduction information in a PlayList file or the like is used. It may be used.
以上により、撮影した映像からより好適にダイジェスト映像(要約された映像)を自動的に生成することが可能となる。 As described above, it is possible to automatically generate a digest video (summarized video) more appropriately from the captured video.
<3.属性情報に基づいたシーンの抽出にについて>
シーン解析部312が、撮影した映像からシーンを選択、抽出する方法として各シーンが持つ評価(優先度)の高いものから順に抽出するというのは、シンプルな方法である。しかし、この方法で抽出されたシーンのみでダイジェストを生成すると、似たようなシーンばかりで構成される可能性が高くなり、視聴者が見づらいダイジェストとなる可能性がある。
<3. About scene extraction based on attribute information>
It is a simple method that the
図7の例において、抽出するシーンの数を5つまで可能とする、上記の例では、それぞれのシーンが持つ代表値の高い順に5つ選ぶと、シーン#1、シーン#4、シーン#5、シーン#6、シーン#8が選択される。次に図7の撮影された映像をズームアップとズームダウンの観点で映像内容を見てみる。図9は、図7からズームアップ(D)とズームダウン(E)の属性情報のみを抽出した図である。これによると、シーン#2からシーン#6まではズームアップで撮影されていることが分かる。そのため、上記の方法で抽出したダイジェストでは、シーン#4、シーン#5、シーン#6の連続した部分については、ズームアップされた映像が続くこととなる。そのため、すべてのシーンがズームアップの映像であり、ダイジェスト映像は非常に見づらい内容となる可能性がある。
In the example of FIG. 7, the number of scenes to be extracted can be up to five. In the above example, if five scenes are selected in descending order of representative values,
そこで、本実施の形態のシーン解析部312では、あるシーンと他のシーンとの関係にも考慮してシーン抽出を行う。具体的には、図10に示すフローチャートに従ってシーンを抽出する。図10のシーン抽出方法を以下に説明する。
Therefore, the
S1010では、撮影した映像からダイジェストの候補となるシーンの抽出が完了されたか否かを判断する。上記の例では、シーンが5つ抽出されていれば、完了と判断され、S1030の処理へ進む。5つ未満のシーンしか抽出されていない場合は、S1020の処理へ進む。 In S1010, it is determined whether or not extraction of a scene that is a digest candidate is completed from the captured video. In the above example, if five scenes have been extracted, it is determined that the process has been completed, and the process proceeds to S1030. If less than five scenes have been extracted, the process proceeds to S1020.
S1020では、撮影した映像からダイジェストの候補となるシーンの抽出を行う。具体的には、未抽出のシーンの中で評価の高い、シーンを抽出する。S1010とS1020を必要回数繰り返すことで、ダイジェストに必要なシーンの抽出が完了する。 In step S1020, a scene that is a digest candidate is extracted from the captured video. Specifically, a scene with a high evaluation is extracted from unextracted scenes. By repeating S1010 and S1020 as many times as necessary, the extraction of the scene necessary for the digest is completed.
S1030では、抽出された複数のシーン間での関係について処理がすべて完了していれば、本フローチャートの処理を終了する。未完了の場合は、S1040以降の処理を行う。 In S1030, if all the processes are completed for the relationships between the extracted scenes, the process of this flowchart ends. If not completed, the processing from S1040 is performed.
S1040では、抽出されたシーンから第1のシーンと第2のシーンを取得する。第1のシーンの取得基準は、まだS1040〜S1060の処理において第1のシーンとして取得されていないシーンの中で最も評価の高いシーンを優先的に取得対象とする。第2のシーンの取得基準は、ダイジェスト候補として取得されたシーンの中で、第1のシーンに時間的に隣接するシーンを取得対象とするものである。 In S1040, a first scene and a second scene are acquired from the extracted scene. The acquisition criterion for the first scene is that the scene with the highest evaluation among the scenes that have not yet been acquired as the first scene in the processing of S1040 to S1060 is preferentially acquired. The second scene acquisition criterion is to acquire a scene temporally adjacent to the first scene among scenes acquired as digest candidates.
図7の例でいえば、ダイジェストの候補としてシーン#1、シーン#4、シーン#5、シーン#6、シーン#8が抽出されている。このなかで、最も高い評価をもっているのがシーン#1とシーン#8である。ここで、この場合は、第1のシーンをシーン#1とする。そうすると第1のシーンと連続するダイジェスト候補のシーンは、シーン#3となる。
In the example of FIG. 7,
S1050では、第1のシーン(ここではシーン#1)と第2のシーン(ここではシーン#3)との属性情報を取得する。具体的には、シーン#1からはクリップイン(A)の属性情報とシーン#3からは、ズームアップ(D)とパン・ティルト(G)の属性情報を取得する。
In S1050, the attribute information of the first scene (here, scene # 1) and the second scene (here, scene # 3) is acquired. Specifically, attribute information of clip-in (A) is acquired from
S1060では、取得した属性情報が同一か否かを判断する。上記の例では、シーン#1のクリップイン(A)とシーン#3のズームアップ(D)とパン・ティルト(G)はいずれも異なるので、同一ではないと判断される。この場合は、再度S1030へ処理を戻す。
In S1060, it is determined whether the acquired attribute information is the same. In the above example, the clip-in (A) of the
再度、S1030へ処理を戻し、同様に処理を行うとS1040で第1のシーンと第2のシーンを取得する。この場合、すでにシーン#1は、一度、第1のシーンとして取得されているためこの取得候補とはならない。この場合に第1のシーンとして取得されるのは、シーン#1を除いて最も評価の高いシーン#8となる。第2のシーンは、第1のシーン(ここではシーン#8)に時間的に隣接するシーン#6となる。シーン#8とシーン#6について同様にS1050、S1060の処理を行うと、同一の属性情報を持っていないので、ここでも、S1070の処理を実施されず再度S1030へ処理を戻す。
When the process is returned to S1030 again and the same process is performed, the first scene and the second scene are acquired in S1040. In this case, since
S1030に戻った処理を行うと、S1040では第1のシーンとしてシーン#5が、第2のシーンとしてシーン#4、シーン#6が取得される。この場合、S1050では、シーン#5の属性情報として静止して撮影(C)と顔検出/顔認識(Z)が、シーン#4からは特定音声の抽出(B)、静止して撮影(C)、パン・ティルト(G)が、シーン#6からは、特定音声の抽出(B)、ズームダウン(E)、パン・ティルト(G)の属性情報が取得される。
When the process returns to S1030, the
ここでズーム制御についてシーン#4、シーン#5、シーン#6について見てみると、図9に示すように、ズームアップはシーン#の後半からシーン#6の後半まで継続していることが分かる。そのため、シーン#4、シーン#5、シーン#6はすべてズームアップ(D)の属性を持っていることとなる。これを整理すると図11に示す内容となる。
Here, looking at the
この場合S1060では、第1のシーン(シーン#5)と第2のシーン(シーン#4)とでは、静止して撮影(C)とズームアップ(D)が同一の属性となる。さらに第1のシーン(シーン#5)と別の第2のシーン(シーン#6)とでは、ズームアップ(D)が同一の属性となる。そのため、S1070ではシーン#4とシーン#6をダイジェストの候補から削除する。
In this case, in S1060, the first scene (scene # 5) and the second scene (scene # 4) are stationary, and shooting (C) and zoom-up (D) have the same attributes. Further, the zoom-up (D) has the same attribute in the first scene (scene # 5) and another second scene (scene # 6). Therefore, in step S1070,
再度S1030の処理に戻っても、ダイジェストの候補として残っているシーン#1、シーン#5、シーン#8についてはすでに属性情報についてチェックが終了しているため、このフローチャートの処理を終了する。
Even if the process returns to S1030 again, the check on the attribute information has already been completed for
以上より、シーン解析部312は、ダイジェストの候補として映像から評価の高いシーンを抽出し、抽出されたシーン相互間の属性情報に基づいて、さらにダイジェストに適したシーンを選択する。
As described above, the
<4.新評価に基づく再生情報の生成について>
再生情報生成部313は、シーン解析部312がシーン毎に行った評価と、シーン相互間の関連性を考慮して抽出された、再生すべきシーンを特定する。上記の例の結果、シーン解析部312がダイジェストで再生すべきシーンを特定した例が図8となる。
<4. About generation of reproduction information based on new evaluation>
The reproduction information generation unit 313 specifies a scene to be reproduced, extracted in consideration of the evaluation performed by the
なお、再生情報生成部313が生成する再生情報は評価されたシーンのみを再生するものでなくてもよい。例えば、評価されたシーンについては、通常の速度で再生を行い、評価されなかったシーンについては高速再生を行うものであってもよい。つまり、評価されたシーン(評価の高いシーン)と評価されなかったシーン(評価の低いシーン)とで、再生方法をかえるものであってもよい。 Note that the reproduction information generated by the reproduction information generation unit 313 may not reproduce only the evaluated scene. For example, an evaluated scene may be reproduced at a normal speed, and a scene that has not been evaluated may be reproduced at a high speed. That is, the playback method may be changed between an evaluated scene (a highly evaluated scene) and a non-evaluated scene (a low evaluated scene).
以上、本実施の形態に示した構成により、ビデオカメラ100は撮影した映像からダイジェストを生成する際に、抽出される複数のシーン間での関連性も考慮することで、より好適なダイジェスト生成が可能となる。
As described above, with the configuration described in this embodiment, when the
なお、本実施の形態では、シーン解析部312でのシーン抽出方法について、一度、評価の高い順にシーンを抽出し、抽出されたシーン間での関連性を見る方法でシーン相互間の関連性を考慮したが、これに限定されるものではない。例えば、映像からシーンを抽出する段階で、他のシーンとの関連性も考慮してシーンを抽出してもよい。この場合には、最も評価の高いシーンからシーン抽出を行い、2番目以降のシーン抽出を行う際に、既に抽出されていいて、時間的に隣接する関係になるシーンとの属性情報の同一性を判断する方法を用いればよい。
In the present embodiment, with regard to the scene extraction method in the
また、本実施の形態では、属性情報が同一であるか否かを基準として判断したが、これに限定するものではない。例えば、ことなる属性情報間の関連性について予め図12に示すような関連係数を定めておき、これに基づいて隣接するシーン間での関連性を判断してもよい。図12の例では、それぞれの属性情報が同一又は他の属性情報とどれほど関連性が強いか否かを示している。係数の値が大きいほど関連性が強いことを意味する。図12の例では、隣接するシーンで両者にズームアップ(D)が含まれている場合は係数1.0と示されているので関連性が非常に強いことが示されている。反対に、ズームアップ(D)と顔検出/顔認識(Z)とでは、比較的関連性が弱いとして係数0.1が与えられている。シーン相互間での関連性を判断する際にこれらの係数を用いて数値化し、一定値以上の関連性は、ダイジェストとして採用しないなどの方法をとることも可能である
なお、本実施の形態では、隣接するシーン間を例示として説明したが、本発明はこれに限定されるものではない。例えば、ダイジェストを構成する他の全てのシーンとの関連性を考慮してダイジェストを生成するものであってもよい。この場合には、ダイジェスト全体としてシーンの抽出が行われるため、全体としてまとまりのあるダイジェストを生成することが可能となる。
In the present embodiment, the determination is made based on whether or not the attribute information is the same, but the present invention is not limited to this. For example, a relationship coefficient as shown in FIG. 12 may be determined in advance for the relationship between different attribute information, and the relationship between adjacent scenes may be determined based on this. In the example of FIG. 12, each attribute information is the same or shows how strongly related to other attribute information. The larger the coefficient value, the stronger the relationship. In the example of FIG. 12, when the zoom-in (D) is included in both of the adjacent scenes, it is indicated that the coefficient is 1.0, which indicates that the relationship is very strong. In contrast, the zoom-up (D) and the face detection / face recognition (Z) are given a coefficient of 0.1 because they are relatively weakly related. When judging the relevance between scenes, it is possible to digitize using these coefficients, and it is also possible to take a method such as not to adopt a relevance of a certain value or more as a digest. Although the description has been given by way of example between adjacent scenes, the present invention is not limited to this. For example, the digest may be generated in consideration of relevance with all other scenes constituting the digest. In this case, since the scene is extracted as the entire digest, it is possible to generate a digest that is coherent as a whole.
また、それ以外にも、本実施の形態では映像を構成するそれぞれのシーンの順番に基づいて、ダイジェスト時のシーンの順番も決定されていたが、これに限定される必要はない。上記の実施の形態の説明では、ダイジェスト生成時にシーン#1は常に先頭に配置され、シーン#5がシーン#1より先に再生されるものではなかった。しかし、シーン#5を先頭に配置し、シーン#1をシーン#5の後に再生するものであってもよい。この場合には、隣接するシーン間で属性情報が同一である場合等に、シーンを並べ替えることで、ダイジェストを見やすい内容に修正することが可能となる。
In addition, in the present embodiment, the order of scenes at the time of digest is also determined based on the order of scenes constituting the video, but it is not necessary to be limited to this. In the description of the above embodiment, the
また、複数のクリップからダイジェストを生成する場合、シーン解析部312は、夫々のクリップの撮影時間(再生時間)の長さに応じて、それぞれのクリップから抽出するシーンの数を決定してもよい。この場合には、各クリップの撮影時間(再生時間)に応じて、ダイジェストを構成するシーンが抽出されるため、複数のクリップからおよそ平準化してシーンの抽出が行われたダイジェストを生成することが可能となる。この場合に、クリップ間を跨るシーン相互間の関連性について考慮してシーン抽出を行うことで、生成されるダイジェストはより見やすい内容となる可能性がある。
Further, when generating a digest from a plurality of clips, the
以上より、本実施の形態に示したように、ダイジェスト生成時にシーン相互間の属性情報を考慮することで、より視聴しやすいダイジェストの生成が可能となる。 As described above, as shown in the present embodiment, it is possible to generate a digest that is easier to view by considering attribute information between scenes when generating a digest.
なお、本実施の形態では、ダイジェスト(要約)映像の生成における場合を例に説明したが、撮影した映像から、映像内容として盛り上がるシーンを集めたハイライト映像の場合にも同様に適用できる。この場合は、属性情報と評価の関係については、ハイライト映像生成用のものを用いることになるが、本出願でしめした他のシーンとの関連性も考慮して抽出するシーンを決定する点については同様に実施可能である。 In this embodiment, the case of generating a digest (summary) video has been described as an example. However, the present invention can be similarly applied to a highlight video obtained by collecting scenes that rise as video content from a shot video. In this case, for the relationship between the attribute information and the evaluation, the one for highlight video generation is used, but the scene to be extracted is determined in consideration of the relationship with other scenes shown in this application. Can be implemented in the same manner.
本発明は、映像を生成するビデオカメラ、カメラ、及び、これらの映像を視聴する、ビデオプレーヤ、テレビ、またこれらの映像を編集するビデオ編集機等の製品分野において利用可能である。 INDUSTRIAL APPLICABILITY The present invention can be used in product fields such as a video camera for generating video, a camera, a video player for viewing these videos, a television, and a video editor for editing these videos.
100 ビデオカメラ
200 レンズ群
201 撮像素子
202 映像ADC
203 映像信号変換IC
204 CPU
205 クロック
206 レンズ制御モジュール
207 姿勢検出センサ
208 入力ボタン
209 ディスプレイ
210 スピーカー
211 出力I/F
212 圧縮伸張IC
213 ROM
214 RAM
215 HDD
216 音声ADC
217 マイクロフォン
300 レンズ部
301 撮像部
302 映像AD変換部
303 信号処理部
304 映像信号圧縮部
305 撮像制御部
306 映像解析部
307 レンズ制御部
308 姿勢検出部
309 属性情報生成部
310 多重化部
311 記憶部
312 シーン解析部
313 再生情報生成部
314 音声解析部
315 音声信号圧縮部
316 ダイジェスト再生部
317 映像信号伸張部
318 映像表示部
319 音声信号伸張部
320 音声出力部
321 音声AD変換部
322 マイク部
DESCRIPTION OF
203 Video signal conversion IC
204 CPU
205
212 Compression / decompression IC
213 ROM
214 RAM
215 HDD
216 Audio ADC
217
Claims (3)
映像をシーンに分割し、シーン毎の属性情報を生成する属性情報生成部と、
前記属性情報に基づいたシーン毎の評価と、複数のシーン間の関連性により、再生するシーンを抽出するシーン解析部と、
前記再生するシーンに関する情報を記録する再生情報を生成する再生情報生成部と、
を備える映像編集装置。 A video editing device for editing video,
An attribute information generating unit that divides the video into scenes and generates attribute information for each scene;
A scene analysis unit for extracting a scene to be reproduced based on the evaluation for each scene based on the attribute information and the relationship between a plurality of scenes;
A reproduction information generating unit for generating reproduction information for recording information about the scene to be reproduced;
A video editing apparatus comprising:
請求項1に記載の映像編集装置。 When the scene analysis unit has common attribute information between two scenes due to the relationship between the scenes, the scene analysis unit extracts only one scene.
The video editing apparatus according to claim 1.
請求項1に記載の映像編集装置。 When the scene analysis unit has different attribute information between the two scenes due to the relationship between the scenes, the scene analysis unit determines whether it is necessary to extract the two scenes based on the relationship between the different attribute information.
The video editing apparatus according to claim 1.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009092620A JP2010245856A (en) | 2009-04-07 | 2009-04-07 | Video editing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009092620A JP2010245856A (en) | 2009-04-07 | 2009-04-07 | Video editing device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010245856A true JP2010245856A (en) | 2010-10-28 |
Family
ID=43098388
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009092620A Pending JP2010245856A (en) | 2009-04-07 | 2009-04-07 | Video editing device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010245856A (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012175175A (en) * | 2011-02-17 | 2012-09-10 | Nikon Corp | Image storage apparatus, camera and imaging system |
JP2015099958A (en) * | 2013-11-18 | 2015-05-28 | 日本電信電話株式会社 | Digest video generating apparatus, digest video generating method, and digest video generating program |
WO2015125815A1 (en) * | 2014-02-20 | 2015-08-27 | シャープ株式会社 | Video image editing apparatus |
JP2016036078A (en) * | 2014-08-01 | 2016-03-17 | 株式会社ミクシィ | Information processing apparatus, control method and control program of information processing apparatus |
JP2016181823A (en) * | 2015-03-24 | 2016-10-13 | カシオ計算機株式会社 | Image processing apparatus, image processing method and program |
JP2017163306A (en) * | 2016-03-09 | 2017-09-14 | ヤマハ株式会社 | Recording data analysis method and recording data analysis method |
-
2009
- 2009-04-07 JP JP2009092620A patent/JP2010245856A/en active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012175175A (en) * | 2011-02-17 | 2012-09-10 | Nikon Corp | Image storage apparatus, camera and imaging system |
JP2015099958A (en) * | 2013-11-18 | 2015-05-28 | 日本電信電話株式会社 | Digest video generating apparatus, digest video generating method, and digest video generating program |
WO2015125815A1 (en) * | 2014-02-20 | 2015-08-27 | シャープ株式会社 | Video image editing apparatus |
JPWO2015125815A1 (en) * | 2014-02-20 | 2017-03-30 | シャープ株式会社 | Video editing device |
JP2016036078A (en) * | 2014-08-01 | 2016-03-17 | 株式会社ミクシィ | Information processing apparatus, control method and control program of information processing apparatus |
JP2016181823A (en) * | 2015-03-24 | 2016-10-13 | カシオ計算機株式会社 | Image processing apparatus, image processing method and program |
JP2017163306A (en) * | 2016-03-09 | 2017-09-14 | ヤマハ株式会社 | Recording data analysis method and recording data analysis method |
WO2017154724A1 (en) * | 2016-03-09 | 2017-09-14 | ヤマハ株式会社 | Recording data processing method and recording data processing device |
US10504559B2 (en) | 2016-03-09 | 2019-12-10 | Yamaha Corporation | Recorded data processing method and recorded data processing device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5685732B2 (en) | Video extraction device, program, and recording medium | |
US8208792B2 (en) | Content shooting apparatus for generating scene representation metadata | |
JP5456023B2 (en) | Image photographing apparatus, image photographing method, program, and integrated circuit | |
US7502560B2 (en) | Image capturing apparatus, method for recording captured image data, and captured image data processing apparatus and method | |
US7884860B2 (en) | Content shooting apparatus | |
US8643745B2 (en) | Content shooting apparatus | |
US8400513B2 (en) | Data processing apparatus, data processing method, and data processing program | |
US8000558B2 (en) | Thumbnail generating apparatus and image shooting apparatus | |
JP2007266655A (en) | Thumbnail generating apparatus and imaging apparatus | |
JP2010245856A (en) | Video editing device | |
JP4960121B2 (en) | Content shooting device | |
JP4992639B2 (en) | Content shooting device | |
JP2007266659A (en) | Imaging reproducing apparatus | |
US20130177287A1 (en) | Reproduction apparatus, image capturing apparatus, and program | |
JP5600405B2 (en) | Image processing apparatus, image processing method, and program | |
JP2011119936A (en) | Photographing device and reproducing method | |
JP2009272921A (en) | Moving image recording apparatus, moving image reproducing apparatus, moving image recording method, moving image reproducing method, and semiconductor integrated circuit | |
JP2011119934A (en) | Image shooting device and image shooting method | |
JP2011101161A (en) | Imaging device, control method of the same, reproducing device, and program | |
JP2010263611A (en) | Video photographing apparatus | |
JP2015192227A (en) | Imaging apparatus, control method thereof, and program | |
WO2015104780A1 (en) | Image pickup apparatus | |
JP4667411B2 (en) | Content shooting device | |
JP2013214853A (en) | Reproduction apparatus, recording and reproducing apparatus, and reproduction method | |
JP2011109253A (en) | Imaging apparatus |