JP2019102852A

JP2019102852A - 情報処理装置、及びその制御方法、プログラム

Info

Publication number: JP2019102852A
Application number: JP2017228526A
Authority: JP
Inventors: 達也菅野; Tatsuya Sugano; 稔野村; Minoru Nomura
Original assignee: Canon Marketing Japan Inc
Current assignee: Canon Marketing Japan Inc
Priority date: 2017-11-29
Filing date: 2017-11-29
Publication date: 2019-06-24

Abstract

【課題】動画データに含まれる人物と、当該人物の識別情報との関連付けに係る作業を軽減可能にする仕組みを提供すること。【解決手段】人物が入れ替わり撮影された動画データの中から人物ごとの動画データを個々に分割して生成される順番に対応して、当該人物を個々に識別するための識別情報が定められた人物リストを記憶し、人物が入れ替わり撮影された動画データの中から、人物ごとの動画データを個々に順次分割して生成される動画データを、当該動画データが生成される順番に対応して定められた人物の識別情報と関連付けて登録し、当該動画データに含まれる音声又はジェスチャーに応じて、当該動画データを、後で差し替えるべき動画データとして、当該動画データが生成された順番に対応して人物リストに定められた識別情報と関連付けて登録することを特徴とする。【選択図】図４

Description

本発明は、情報処理装置、及びその制御方法、プログラムに関し、特に、動画データに含まれる人物と、当該人物の識別情報との関連付けに係る作業を軽減可能にする技術に関する。

従来、動画の中から、一部の動画を切り出すためには、ユーザが、その動画の映像を確認しながら、動画の切り出し位置を手入力して指定し、切り出し処理を行っており、その作業が煩雑であった。

特許文献１は、ユーザが、一連の動画を確認しながら、切取開始時間、切取終了時間を操作キーから手入力して指定し、動画データからの切取処理を行うことが記載されている。

特開２０１０−１７８０１０号公報

例えば、学生の卒業アルバムとしての学生毎の動画データを生成するサービスが考えられる。例えば、このようなサービスにおいて、効率的に複数の学生を撮影するために、１つのカメラが撮影を開始し、学生Ａが当該カメラの撮影範囲に入ってきて一言コメントを言い、その後、学生Ａが撮影範囲から出て、撮影を止めることなく、次の学生Ｂが当該カメラの撮影範囲に入ってきて一言コメントを言うようにして、各学生の動画を含む１つの動画ファイルを生成するケースが考えられる。

すなわち、１つのカメラが、複数の学生が入れ替わり撮影範囲に入ってきて一言コメントを言う各学生の撮影を継続して行い、各学生の動画を含む１つの動画ファイルを生成するケースが考えられる。

このようにして撮影して得られた１つの動画ファイルから、学生ごとに、当該学生が映っている動画ファイルを切り出すために、従来、ユーザは、当該１つの動画ファイルの映像を確認しながら、切取開始時間、切取終了時間を手入力して指定しなければならず、その作業が煩雑であった。また、ユーザは、その際に、複数の学生が入れ替わる際の映像（学生が映っていない映像）も確認することとなり、効率的に、切り取り作業を行うことは難しかった。

また、例えば、ある学生が撮影中に喋るコメントを忘れてしまい一時中断したいケースも考えられるが、そのような映像についても、ユーザは確認して、切取開始時間、切取終了時間を手入力して指定しなければならず、その作業が煩雑であった。

このように、従来、複数の人物が入れ替わり撮影された各人物の動画を含む１つの動画ファイルから、効率的に、人物毎に、当該人物を含む動画ファイルをそれぞれ生成することが難しかった。さらに、当該それぞれ生成された動画ファイルと人物の識別情報（氏名など）とを関連付けて登録する作業が手作業であったため、その作業負荷が高かった。

そこで、例えば、当該１つの動画ファイルの先頭から、人物ごとの動画データを個々に分割して生成し、順次生成された動画データを、当該動画データが生成された順番に対応して人物リスト（例えば、出席番号順）に定められた人物の識別情報（氏名など）と関連付けて登録する仕組みが考えられる。

しかしながら、例えば、一部の学生が撮影会に欠席した場合には、その人の分の動画の順番がずれてしまい、すなわち、分割して生成された動画データに含まれる人物と、人物リストの識別情報とが正しく関連付けられなくなってしまい、結局、手作業でその対応関係（関連付け）を正す必要があった。

そこで、本発明は、動画データに含まれる人物と、当該人物の識別情報との関連付けに係る作業を軽減可能にするための仕組みを提供することである。

本発明は、人物が入れ替わり撮影された動画データの中から人物ごとの動画データを個々に分割して生成される順番に対応して、当該人物を個々に識別するための識別情報が定められた人物リストを記憶する記憶手段を備える情報処理装置であって、人物が入れ替わり撮影された前記動画データの中から、人物ごとの動画データを個々に分割して生成する生成手段と、前記生成手段により順次生成された動画データを、当該動画データが生成された順番に対応して前記人物リストに定められた人物の識別情報と関連付けて登録する登録手段と、前記生成手段により生成される動画データに含まれる音声又はジェスチャーを検出する検出手段と、を備え、前記登録手段は、前記検出手段により検出された音声又はジェスチャーに応じて、当該音声又はジェスチャーを含む前記生成手段により生成された動画データを、後で差し替えるべき動画データとして、当該動画データが生成された順番に対応して前記人物リストに定められた識別情報と関連付けて登録することを特徴とする。

また、本発明は、人物が入れ替わり撮影された動画データの中から人物ごとの動画データを個々に分割して生成される順番に対応して、当該人物を個々に識別するための識別情報が定められた人物リストを記憶する記憶手段を備える情報処理装置における制御方法であって、人物が入れ替わり撮影された前記動画データの中から、人物ごとの動画データを個々に分割して生成する生成工程と、前記生成工程により順次生成された動画データを、当該動画データが生成された順番に対応して前記人物リストに定められた人物の識別情報と関連付けて登録する登録工程と、前記生成工程により生成される動画データに含まれる音声又はジェスチャーを検出する検出工程と、を備え、前記登録工程は、前記検出工程により検出された音声又はジェスチャーに応じて、当該音声又はジェスチャーを含む前記生成工程により生成された動画データを、後で差し替えるべき動画データとして、当該動画データが生成された順番に対応して前記人物リストに定められた識別情報と関連付けて登録することを特徴とする。

また、本発明は、当該制御方法を実行するためのプログラムであることを特徴とする。

本発明によれば、人動画データに含まれる人物と、当該人物の識別情報との関連付けに係る作業を軽減可能にすることが可能となる。

本発明の情報処理システムのシステム構成の一例を示すである。本発明の実施形態におけるＰＣ１０１に適用可能な情報処理装置のハードウェア構成の一例を示すブロック図である。動画の各フレームと、ファイル始点３０１、各ＩＮ点、各ＯＵＴ点、ファイル終点３０６との位置（時間）の関係を示す図の一例である。動画編集画面の一例を示す図である。表示領域４０９に表示される表示画面の一例である。本実施形態の動画編集に係る処理を示すフローチャートの一例である。動画のプレビュー再生を行う処理を示すフローチャートの一例を示す図である。被写体の人物リスト８０１の一例、及び、関連付リスト８０２（Ａ）、８０２（Ｂ）の一例を示す図である。動画データの各フレームと、当該フレーム（フレーム群）で検出される音声と、ＩＮ点、ＯＵＴ点の位置（時間）を説明する概念図の一例を示す図である。本実施形態の差替対象動画の差替処理を示すフローチャートの一例である。Ｓ１００３で動画が差し替えられた後の動画編集画面の一例を示す図である。複数のユーザ（例えば、学生）が入れ替わり撮影され得られた、複数の学生の動画を含む１つの動画ファイル１２０１の概念図の一例を示す図である。

以下、図面を参照して、本発明の実施形態を詳細に説明する。

図１は、本発明の情報処理システムのシステム構成の一例を示すである。

ＰＣ１０１は、本発明の情報処理装置の適用例であり、デスクトップパソコン、ノートパソコン、タブレットＰＣ等のＰＣである。

また、カメラ１０４は、動画及び写真を含む静止画を撮影することが可能なデジタルカメラ、又はデジタルビデオカメラである。カメラ１０４は、ＰＣ１０１と、有線又は無線通信により相互にデータを送受信する機能を備えている。そのため、カメラ１０４は、カメラ１０４で撮影された動画の動画ファイルを、ＰＣ１０１に、当該有線又は無線通信により送信して、ＰＣ１０１のメモリ等の記憶手段に記録することができる。

また、カメラ１０４は、ＳＤカード等の可搬型メモリ（携帯記録媒体）を装着可能であり、カメラ１０４で撮影された動画の動画ファイルを当該可搬型メモリに記録する機能を備えている。

カメラ１０４の撮像範囲（撮影範囲）は、椅子１０５に座った被写体（人物１０３）を撮影することができる撮像範囲である。

カメラ１０４は、ユーザによる撮影指示を受け付けると、カメラ１０４は、動画（映像）の撮影を開始する。また、カメラ１０４は、当該撮影された動画、及び静止画を、通信を介してＰＣ１０１の記憶手段に記憶するか、当該可搬型メモリに記録する。可搬型メモリに記憶した場合には、カメラ１０４から当該可搬型メモリを取り出して、ＰＣ１０１に当該取り出した可搬型メモリを装着して、当該可搬型メモリに記憶された動画、及び静止画を、ＰＣ１０１のメモリにコピー（展開）する。

このようにして、ＰＣ１０１は、カメラ１０４で撮影された動画、及び静止画を取得することができる。

カメラ１０４が動画の撮影を開始した後に、カメラ１０４の撮像範囲に人物（ユーザ）が入ってきて人物が椅子１０５に座る。そして、人物が、当該人物の動画の撮影の準備ができたら、「開始」という言葉を喋る。そして、当該人物が一言コメントを言う。また、当該人物が、一言コメントの途中で、例えば、コメントを忘れてしまい一時中断したい場合には、「中断」という言葉を喋る。

また、当該人物が、再度、撮影の準備ができたら、「再度開始」という言葉を喋る。そして、当該人物が、当該人物の動画の撮影が終了したい場合には、「終了」という言葉を喋る。

そして、椅子１０５に座っていた人物（ユーザ）が立ち、カメラ１０４の撮像範囲外に移動しフレームアウトすることとなる。

そして、撮影を止めることなく、次の異なる人物が、カメラ１０４の撮像範囲に入ってきて椅子１０５に座り、同様の動作を行うこととなる。このように、複数の学生が入れ替わり撮影範囲に入ってきて一言コメントを言うことで、カメラ１０４は、複数の学生の動画を含む１つの動画ファイルを生成し、当該生成された動画ファイルをＰＣ１０１の記憶手段が記憶することとなる。

図１２は、複数のユーザ（例えば、学生）が入れ替わり撮影され得られた、複数の学生の動画を含む１つの動画ファイル１２０１（動画データ）の概念図の一例を示す図である。

図１２に示すように、複数の学生の動画を含む１つの動画ファイル１２０１には、木屋野太郎さんの一言コメント付きの動画１００２が含まれており、そのあとに、木屋野次郎さんの一言コメント付きの動画１００３が含まれており、そのあとに、木屋野三郎さんの一言コメント付きの動画１００４が含まれており、そのあとに、木屋野四朗さんの一言コメント付きの動画１００５が含まれていることを示している。

また、ＰＣ１０１の記憶手段（メモリ）には、予め、被写体の人物リスト８０１（図８）が記憶されており、この人物リスト８０１（図８）に示される順番で、撮影が行われる。

図８の８０１は、被写体の人物リストの一例を示す図である。

図８の８０１に示すように、１番目には、木屋野太郎さんが示されており、２番目には、木屋野次郎さんが示されており、３番目には、木屋野三郎さんが示されており、４番目には、木屋野四朗さんが示されている。

図８の８０１は、本発明の人物リストの適用例であり、動画データに含まれる各人物を個々に識別するための識別情報が、生成手段により動画データが生成される順番に対応して定められた人物リストである。

ＰＣ１０１の記憶手段には、後述するプログラム、各種リスト、テーブルが記憶されており、当該プログラムを実行することにより、本発明にかかる機能の動作・処理を実行する。

図２は、本発明の実施形態におけるＰＣ１０１に適用可能な情報処理装置のハードウェア構成の一例を示すブロック図である。各装置ともに、同様な構成を備えるため、同一の符号を用いて説明する。

図２に示すように、情報処理装置は、システムバス２０４を介してＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２０１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２０２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２０３、入力コントローラ２０５、ビデオコントローラ２０６、メモリコントローラ２０７、および通信Ｉ／Ｆコントローラ２０８が接続される。

ＣＰＵ２０１は、システムバス２０４に接続される各デバイスやコントローラを統括的に制御する。

ＲＯＭ２０２あるいは外部メモリ２１１等の記憶装置は、ＣＰＵ２０１が実行する制御プログラムであるＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔ／ＯｕｔｐｕｔＳｙｓｔｅｍ）やＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）や、本情報処理方法を実現するためのコンピュータ読み取り実行可能なプログラムおよび必要な各種データ（データテーブルを含む）を保持している。

ＲＡＭ２０３は、ＣＰＵ２０１の主メモリ、ワークエリア等として機能する。ＣＰＵ２０１は、処理の実行に際して必要なプログラム等をＲＯＭ２０２あるいは外部メモリ２１１からＲＡＭ２０３にロードし、ロードしたプログラムを実行することで各種動作を実現する。

入力コントローラ２０５は、入力デバイス２０９からの入力を制御する。入力デバイス２０９としては、キーボード、タッチパネル、マウス等のポインティングデバイス等が挙げられる。

なお、入力デバイス２０９がタッチパネルの場合、ユーザがタッチパネルに表示されたアイコンやカーソルやボタンに合わせて押下（指等でタッチ）することにより、各種の指示を行うことができることとする。

また、タッチパネルは、マルチタッチスクリーンなどの、複数の指でタッチされた位置を検出することが可能なタッチパネルであってもよい。

ビデオコントローラ２０６は、ディスプレイ２１０などの外部出力装置への表示を制御する。ディスプレイは本体と一体になったノート型パソコンのディスプレイも含まれるものとする。なお、外部出力装置はディスプレイに限ったものははく、例えばプロジェクタであってもよい。また、前述のタッチ操作により受け付け可能な装置については、入力デバイス２０９を提供する。

なおビデオコントローラ２０６は、表示制御を行うためのビデオメモリ（ＶＲＡＭ）を制御することが可能で、ビデオメモリ領域としてＲＡＭ２０３の一部を利用することもできるし、別途専用のビデオメモリを設けることも可能である。

メモリコントローラ２０７は、外部メモリ２１１へのアクセスを制御する。外部メモリとしては、ブートプログラム、各種アプリケーション、フォントデータ、ユーザファイル、編集ファイル、および各種データ等を記憶する外部記憶装置（ハードディスク）、フレキシブルディスク（ＦＤ）、或いはＰＣＭＣＩＡカードスロットにアダプタを介して接続されるコンパクトフラッシュ（登録商標）メモリ等を利用可能である。

通信Ｉ／Ｆコントローラ２０８は、ネットワークを介して外部機器（カメラ１０４）と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、ＴＣＰ／ＩＰを用いた通信、Ｗｉ−Ｆｉ、および３Ｇ回線を用いた通信が可能である。

なお、外部メモリ２１１等の記憶装置は情報を永続的に記憶するための媒体であって、その形態をハードディスク等の記憶装置に限定するものではない。例えば、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）などの媒体であってもよい。

また本実施形態における通信端末で行われる各種処理時の一時的なメモリエリアとしても利用可能である。

尚、ＣＰＵ２０１は、例えばＲＡＭ２０３内の表示情報用領域へアウトラインフォントの展開（ラスタライズ）処理を実行することにより、ディスプレイ２１０上での表示を可能としている。また、ＣＰＵ２０１は、ディスプレイ２１０上の不図示のマウスカーソル等でのユーザ指示を可能とする。

次に、図６のフローチャートを用いて、本実施形態におけるＰＣ１０１が実行する処理について説明する。

図６は、本実施形態の動画編集に係る処理を示すフローチャートの一例である。

図６は、ＰＣ１０１のＣＰＵ２０１が所定の制御プログラムを読み出して実行する処理である。

まず、ＰＣ１０１は、まず、所定の制御プログラムを起動すると、動画編集画面をディスプレイ２１０等の表示部に表示する。

そして、ＰＣ１０１は、処理対象となる図８の８０１に示す被写体の人物リストの選択をユーザにより受け付けて読み取る（Ｓ６０１）。ＰＣ１０１は、Ｓ６０１で読み取った人物リストのうち最も順番の早い（番号が低い）氏名（被写体を識別する情報）を処理対象として特定する。

そして、ＰＣ１０１は、Ｓ６０１で選択を受け付けた人物リストに対応し、処理対象とする１つの動画ファイルの読み取り指示をユーザにより受け付け、当該動画ファイルの読み取りを開始する（Ｓ６０２）。

例えば、クラスごとの動画ファイルを生成し、例えば、図８の８０１に示すような被写体の人物リストが、学生のクラスごとに、記憶されており、どのクラスの学生の動画を処理するかを選択し、そのクラスの動画ファイルを処理対象として読み込むことができる。

Ｓ６０２における動画ファイルの読み取り処理の開始は、動画の最初のフレームから順に読み取り開始することを意味する。

まず、ＰＣ１０１は、動画（フレーム）を読み込み、当該読み込んだ動画（フレーム）を解析して、当該フレームの中に人物が含まれているか、すなわち、当該フレーム中の人物を検出できたか否かを判定する（Ｓ６０３）。

そして、ＰＣ１０１は、当該フレームの中に人物が含まれていない、すなわち、当該フレーム中の人物を検出できなかったと判定された場合には（Ｓ６０３：ＮＯ）、次のフレームを読み取り、当該読み取ったフレームに対して、Ｓ６０３の処理を実行する。

ＰＣ１０１は、当該フレームの中に人物が含まれている、すなわち、当該フレーム中の人物を検出できたと判定された場合には（Ｓ６０３：ＹＥＳ）、人物を検出できなかったフレームと、人物を検出できたと判定されたフレームとの間の位置（時間）に、ファイル始点３０１を設定する（ステップＳ６０４）。

Ｓ６０３は、本発明の特定手段の適用例であり、人物が入れ替わり撮影された動画データの中から、人物ごとにフレームインした時間又はフレームを特定する。

図３は、動画の各フレームと、ファイル始点３０１、各ＩＮ点、各ＯＵＴ点、ファイル終点３０６との位置（時間）の関係を示す図の一例である。

図３（Ａ）は、人物が検出されなくなる前に「終了」音声を検知した場合の当該関係を示す図の一例である。

図３（Ｂ）は、人物が検出され「欠席」音声を検知した場合の当該関係を示す図の一例である。

図３（Ａ）を例に説明すると、Ｓ６０４では、人物を検出できなかったフレーム３０７と、人物を検出できたと判定されたフレーム３０８との間の位置（時間）に、ファイル始点３０１を設定する。

そして、ＰＣ１０１は、次に、人物を検出できたフレーム（ファイル始点３０１からファイル終点３０６までの間のフレーム（３０８から３１３のフレーム））において、「欠席」音声を検出したか否かを判定する（Ｓ６２９）。

Ｓ６２９は、本発明の検出手段、及び判定手段の適用例であり、ここで、検出手段により検出された音声又はジェスチャーが、生成される動画データを後で差し替えるべき動画データとして登録するための所定の音声（例えば、欠席の音声）又はジェスチャー（例えば、欠席を示すジェスチャー）であるかを判定する。

そして、ＰＣ１０１は、人物を検出できたフレーム（ファイル始点３０１からファイル終点３０６までの間のフレーム（３０８から３１３のフレーム））において、「欠席」音声を検出していないと判定された場合には（Ｓ６２９：ＮＯ）、処理をＳ６０５に移行する。また、「欠席」音声を検出したと判定された場合には（Ｓ６２９：ＹＥＳ）、処理をＳ６３０に移行する。

ＰＣ１０１は、人物を検出できたフレームにおいて、「欠席」音声を検出したと判定された場合には（Ｓ６２９：ＹＥＳ）、
Ｓ６３０において、「欠席」音声を検出したと判定されたフレームの後続のフレームにおいて、人物が含まれていないか否か、すなわち、当該フレーム中の人物を検出できなかったか否かを判定する（Ｓ６３０）。

ＰＣ１０１は、フレームの中に人物が含まれている、すなわち、当該フレーム中の人物を検出できたと判定された場合には（Ｓ６３０：ＮＯ）、人物が含まれていない次のフレームまで繰り返しＳ６３０の処理を実行する。

ＰＣ１０１は、フレームの中に人物が含まれていない、すなわち、当該フレーム中の人物を検出できなかったと判定された場合には（Ｓ６３０：ＹＥＳ）、当該人物を検出できなかったと判定されたフレームと、その直前の人物を検出したフレームとの間の位置に、ファイル終点３０６を設定する（Ｓ６３１）。

そして、ＰＣ１０１は、Ｓ６０２で読み込んだ動画ファイルを、直近のＳ６０４で設定されたファイル始点３０１の位置（時間）と、Ｓ６３１で設定したファイル終点３０６位置（時間）とで、切り出して、当該切り出された動画ファイルと、現在の処理対象の氏名（被写体を識別する情報）とを対応付けて登録（設定）する。さらに、当該動画ファイルを差替対象動画として設定する（Ｓ６３２）。例えば、人物リスト８０１の「木屋野次郎」が欠席しており、他のユーザがフレームインして撮影され欠席を示す音声を発した場合には、当該他のユーザが撮影された動画ファイル２がＳ６３２で切り出され、動画ファイル２（動画ファイル名）として、「木屋野次郎」と関連付けられて関連付リスト８０２（Ａ）に登録されると共に、当該動画ファイルに対して、差替対象動画であることを示す情報「要」が、関連付リスト８０２（Ａ）の差替要否の項目に登録される（Ｓ６３２）。そして、処理をＳ６２１に移行する。

このように、Ｓ６３２は、本発明の生成手段、及び登録手段の適用例であり、人物が入れ替わり撮影された前記動画データの中から、人物ごとの動画データを個々に分割して生成し、Ｓ６２９の検出手段により検出された音声（例えば、欠席の音声）又はジェスチャー（例えば、欠席を示すジェスチャー）に応じて、当該音声又はジェスチャーを含む当該生成された動画データを、後で差し替えるべき動画データとして、当該動画データが生成された順番に対応して人物リスト（８０１）に定められた識別情報（例えば氏名など）と関連付けて登録する。

すなわち、Ｓ６３２の登録手段は、Ｓ６２９の判定手段により、Ｓ６２９の検出手段により検出された音声又はジェスチャーが、生成された動画データを後で差し替えるべき動画データとして登録するための所定の音声（例えば、欠席の音声）又はジェスチャー（例えば、欠席を示すジェスチャー）であると判定された場合に、当該所定の音声（例えば、欠席の音声）又はジェスチャー（例えば、欠席を示すジェスチャー）を含む動画データを、後で差し替えるべき動画データとして、当該動画データが生成された順番に対応して人物リストに定められた識別情報（例えば、氏名など）と関連付けて登録する。

ＰＣ１０１の記憶手段（メモリ）には、この関連付リスト８０２（Ａ、Ｂ）が記憶（登録）される。

図８の８０２（Ａ）、８０２（Ｂ）は、関連付リストの一例を示す図である。

ＰＣ１０１は、人物を検出できたフレーム（ファイル始点３０１からファイル終点３０６までの間のフレーム（３０８から３１３のフレーム））において、「欠席」音声を検出していないと判定された場合には（Ｓ６２９：ＮＯ）、Ｓ６０３で人物が検出されたフレームで「開始」という所定の音声を検出したか否かを判定する（Ｓ６０５）。そして、ＰＣ１０１は、「開始」という所定の音声を検出していないと判定されると（Ｓ６０５：ＮＯ）、次のフレームも処理対象にして、直前の過去に処理対象にしたフレーム（群）の音声も含めて、「開始」という所定の音声を検出するか否かを判定する（Ｓ６０５）。

Ｓ６０５、Ｓ６０８、Ｓ６１１、Ｓ６１５は、本発明の検出手段の適用例であり、人物が撮影された動画データに含まれる音声を検出する。

Ｓ６０５の検出手段は、イン点（３０２）を設定するための第１音声（開始）を検出し、Ｓ６０７の設定手段は、動画データの中で、Ｓ６０５の検出手段で第１音声が検出された時間又はフレームに基づき特定される位置にイン点を設定する。すなわち、Ｓ６０７の設定手段は、例えば、図９に示すように、動画データの中で、検出手段で第１音声が検出されたフレーム（３０８）と、当該フレームの後続のフレームであって第１音声が検出されなかったフレーム（３０９）との間の位置にイン点を設定する。

そして、ＰＣ１０１は、「開始」という所定の音声を検出できたと判定されると（Ｓ６０５：ＹＥＳ）、当該検出された「開始」という所定の音声の前後で継続して話が続いているか否かを判定する（Ｓ６０６）。具体的には、ＰＣ１０１は、当該「開始」という所定の音声が検出できたフレーム（フレーム群）の前後の隣接するフレーム（所定時間幅のフレーム群）を読み取り、当該検出された「開始」音声の前後で継続して話が続いているか否かを判定する（Ｓ６０６）。

そして、ＰＣ１０１は、当該検出された「開始」音声の前後で継続して話が続いていると判定された場合には（Ｓ６０６：ＹＥＳ）、次のフレームを処理対象にして、処理をＳ６０５に戻す。

また、ＰＣ１０１は、当該検出された「開始」音声の前後で継続して話が続いていないと判定された場合には（Ｓ６０６：ＮＯ）、「開始」という音声が検出されたフレームと、その直後のフレーム（「開始」という音声が検出されていないフレーム）との間の位置（時間）にＩＮ点３０２を設定する（Ｓ６０７）。

Ｓ６０７、Ｓ６１０、Ｓ６１３、Ｓ６１７、Ｓ６２７は、本発明の設定手段の適用例であり、検出手段により検出される音声に基づいて特定される位置に動画データのイン点、又はアウト点を設定する。

図３（Ａ）を例に説明すると、Ｓ６０７では、「開始」という音声が検出されたフレーム３０８と、その直後のフレーム３０９（「開始」という音声が検出されていないフレーム）との間の位置（時間）にＩＮ点３０２を設定する。

説明を簡単にするために、図３、図５に示すファイル始点３０１とＩＮ点３０２との間のフレーム３０８は１つのみを示しているが、複数のフレームが含まれていてもよい。同様に、ＩＮ点３０２とＯＵＴ点３０３との間にはフレーム３０９だけではなく複数のフレームが含まれていてもよい。また、同様に、ＯＵＴ点３０３とＩＮ点３０４との間にはフレーム３１０だけではなく複数のフレームが含まれていてもよい。また、同様に、ＩＮ点３０４とＯＵＴ点３０５との間にはフレーム３１１、３１２だけではなく３つ以上のフレームが含まれていてもよい。また、同様に、ＯＵＴ点３０５とファイル終点３０６との間にはフレーム３１３だけではなく複数のフレームが含まれていてもよい。

図９に、動画データの各フレームと、当該フレーム（フレーム群）で検出される音声と、ＩＮ点、ＯＵＴ点の位置（時間）を説明する概念図を示す。

図９は、動画データの各フレームと、当該フレーム（フレーム群）で検出される音声と、ＩＮ点、ＯＵＴ点の位置（時間）を説明する概念図の一例を示す図である。

次に、ＰＣ１０１は、ＩＮ点３０２を設定すると、次のフレームを処理対象にして、「中断」という所定の音声を検出したか否かを判定する（Ｓ６０７）。そして、ＰＣ１０１は、「中断」という所定の音声を検出していないと判定されると（Ｓ６０７：ＮＯ）、処理をＳ６１４に移行する。ＰＣ１０１は、Ｓ６１４において、現在処理対象のフレームの中に人物が含まれていないか否か、すなわち、当該フレーム中の人物を検出できなかったか否かを判定する（Ｓ６１４）。

ＰＣ１０１は、フレームの中に人物が含まれている、すなわち、当該フレーム中の人物を検出できたと判定された場合には（Ｓ６１４：ＮＯ）、処理をＳ６１５に移行して、「終了」という所定の音声を検出できたか否かを判定する（Ｓ６１５）。そして、ＰＣ１０１は、「終了」という所定の音声を検出できなかったと判定された場合には（Ｓ６１５：ＮＯ）、次のフレームも処理対象にして、直前の過去に処理対象にしたフレーム（群）の音声も含めて、「中断」という所定の音声を検出するか否かを判定する（Ｓ６０８）。

Ｓ６０８は、本発明の検出手段の適用例であり、イン点（３０２）とアウト点（３０５）との間の動画データの中で、イン点（３０２）とは別の第１イン点（３０４）を設定するための第３音声（中断）を検出する。

Ｓ６１５の検出手段は、アウト点（３０５）を設定するための第２音声を検出し、Ｓ６１７の設定手段は、動画データの中で、検出手段で第２音声が検出された時間又はフレームに基づき特定される位置にアウト点（３０５）を設定する。すなわち、Ｓ６１７の設定手段は、動画データの中で、検出手段で第２音声が検出されたフレームと、当該フレームよりも前のフレームであって第２音声が検出されなかったフレームとの間の位置にアウト点（３０５）を設定する。

そして、ＰＣ１０１は、「中断」という所定の音声を検出した場合には（Ｓ６０８：ＹＥＳ）、当該検出された「中断」という所定の音声の前後で継続して話が続いているか否かを判定する（Ｓ６０９）。具体的には、ＰＣ１０１は、当該「中断」という所定の音声が検出できたフレーム（フレーム群）の前後の隣接するフレーム（所定時間幅のフレーム群）を読み取り、当該検出された「中断」音声の前後で継続して話が続いているか否かを判定する（Ｓ６０９）。

そして、ＰＣ１０１は、当該検出された「中断」音声の前後で継続して話が続いていると判定された場合には（Ｓ６０９：ＹＥＳ）、次のフレームを処理対象にして、処理をＳ６０８に戻す。

また、ＰＣ１０１は、当該検出された「中断」音声の前後で継続して話が続いていないと判定された場合には（Ｓ６０９：ＮＯ）、例えば、図９のように、「中断」という音声が検出されたフレームと、その直前のフレーム（「中断」という音声が検出されていないフレーム）との間の位置（時間）にＯＵＴ点３０３を設定する（Ｓ６１０）。

図３（Ａ）を例に説明すると、Ｓ６１０では、「中断」という音声が検出されたフレーム３１０と、その直前のフレーム３０９（「中断」という音声が検出されていないフレーム）との間の位置（時間）にＯＵＴ点３０３を設定する。

Ｓ６１０は、本発明の設定手段の適用例であり、イン点（３０２）とアウト点（３０５）との間の動画データの中で、検出手段で第４音声（中断）が検出された時間又はフレームに基づき特定される時間に第１アウト点（３０３）を設定する。

そして、ＰＣ１０１は、ＯＵＴ点３０３を設定すると、次のフレームを処理対象にして、「再度開始」という所定の音声を検出したか否かを判定する（Ｓ６１１）。そして、ＰＣ１０１は、「再度開始」という所定の音声を検出していないと判定されると（Ｓ６１１：ＮＯ）、次のフレームも処理対象にして、直前の過去に処理対象にしたフレーム（群）の音声も含めて、「再度開始」という所定の音声を検出するか否かを判定する（Ｓ６１１）。

Ｓ６０８は、本発明の検出手段の適用例であり、イン点（３０２）とアウト点（３０５）との間の動画データの中で、アウト点（３０５）とは別の第１アウト点（３０３）を設定するための第４音声（再度開始）を検出する。

そして、ＰＣ１０１は、「再度開始」という所定の音声を検出した場合には（Ｓ６１１：ＹＥＳ）、当該検出された「再度開始」という所定の音声の前後で継続して話が続いているか否かを判定する（Ｓ６１２）。具体的には、ＰＣ１０１は、当該「再度開始」という所定の音声が検出できたフレーム（フレーム群）の前後の隣接するフレーム（所定時間幅のフレーム群）を読み取り、当該検出された「再度開始」音声の前後で継続して話が続いているか否かを判定する（Ｓ６１２）。

そして、ＰＣ１０１は、当該検出された「再度開始」音声の前後で継続して話が続いていると判定された場合には（Ｓ６１２：ＹＥＳ）、次のフレームを処理対象にして、処理をＳ６１１に戻す。

ＰＣ１０１は、当該検出された「再度開始」音声の前後で継続して話が続いていないと判定された場合には（Ｓ６１２：ＹＥＳ）、例えば、図９のように、「再度開始」という音声が検出されたフレームと、その直後のフレーム（「再度開始」という音声が検出されていないフレーム）との間の位置（時間）にＩＮ点３０４を設定する（Ｓ６１３）。

図３（Ａ）を例に説明すると、Ｓ６１３では、「再度開始」という音声が検出されたフレーム３１０と、その直後のフレーム３１１（「再度開始」という音声が検出されていないフレーム）との間の位置（時間）にＩＮ点３０４を設定する。

Ｓ６１３は、本発明の設定手段の適用例であり、イン点（３０２）とアウト点（３０５）との間の動画データの中で、検出手段で第３音声（再度開始）が検出された時間又はフレームに基づき特定される時間に第１イン点（３０４）を設定する。

このように、Ｓ６０８からＳ６１３の処理を実行することで、例えば、ある学生が撮影中に喋るコメントを忘れてしまい一時中断したい場合、その中断した映像をユーザが確認して、切取開始時間、切取終了時間を手入力して指定する作業を低減可能にすることができる。

そして、ＰＣ１０１は、ＩＮ点３０４を設定すると、次のフレームを処理対象にして、処理をＳ６１４に移行する。

ＰＣ１０１は、Ｓ６１４において、現在処理対象のフレームの中に人物が含まれていないか否か、すなわち、当該フレーム中の人物を検出できなかったか否かを判定する（Ｓ６１４）。

そして、ＰＣ１０１は、「終了」という所定の音声を検出した場合には（Ｓ６１５：ＹＥＳ）、当該検出された「終了」という所定の音声の前後で継続して話が続いているか否かを判定する（Ｓ６１６）。具体的には、ＰＣ１０１は、当該「終了」という所定の音声が検出できたフレーム（フレーム群）の前後の隣接するフレーム（所定時間幅のフレーム群）を読み取り、当該検出された「終了」音声の前後で継続して話が続いているか否かを判定する（Ｓ６１６）。

そして、ＰＣ１０１は、当該検出された「終了」音声の前後で継続して話が続いていると判定された場合には（Ｓ６１６：ＹＥＳ）、次のフレームを処理対象にして、処理をＳ６１５に戻す。

ＰＣ１０１は、当該検出された「終了」音声の前後で継続して話が続いていないと判定された場合には（Ｓ６１６：ＹＥＳ）、例えば、図９のように、「終了」という音声が検出されたフレームと、その直前のフレーム（「終了」という音声が検出されていないフレーム）との間の位置（時間）にＯＵＴ点３０５を設定する（Ｓ６１７）。

このように、Ｓ６０７で、動画データの中で、第１音声（例えば、開始）が検出されたフレームと、当該フレームの後続のフレームであって第１音声が検出されなかったフレームとの間の位置にイン点（３０２）を設定し、Ｓ６１７で、第２音声（例えば、終了）が検出されたフレームと、当該フレームよりも前のフレームであって第２音声が検出されなかったフレームとの間の位置にアウト点（３０５）を設定するため、第１音声や、第２音声が、イン点（３０２）とアウト点（３０５）との間に含まれないようなり、好適なイン点（３０２）とアウト点（３０５）の設定を効率的に行うことが可能となる。

図３（Ａ）を例に説明すると、Ｓ６１７では、「終了」という音声が検出されたフレーム３１３と、その直前のフレーム３１２（「終了」という音声が検出されていないフレーム）との間の位置（時間）にＯＵＴ点３０５を設定する。

そして、ＰＣ１０１は、ＯＵＴ点３０５を設定すると、次のフレームを処理対象にして、処理をＳ６１８に移行する。

次に、ＰＣ１０１は、Ｓ６１８において、現在処理対象のフレームの中に人物が含まれていないか否か、すなわち、当該フレーム中の人物を検出できなかったか否かを判定する（Ｓ６１８）。

ＰＣ１０１は、フレームの中に人物が含まれている、すなわち、当該フレーム中の人物を検出できたと判定された場合には（Ｓ６１８：ＮＯ）、次のフレームを処理対象にして、再度、Ｓ６１８の処理を行う。

また、ＰＣ１０１は、フレームの中に人物が含まれていない、すなわち、当該フレーム中の人物を検出できないと判定された場合には（Ｓ６１８：ＹＥＳ）、人物が含まれていないと判定されたフレームと、その直前のフレーム（人物が検出されたフレーム）との間の位置（時間）にファイル終点３０６を設定する（Ｓ６１９）。

また、ＰＣ１０１は、Ｓ６１４において、フレームの中に人物が含まれていない、すなわち、当該フレーム中の人物を検出できなかったと判定された場合には（Ｓ６１４：ＹＥＳ）、人物が含まれていないと判定されたフレームと、その直前のフレーム（人物が検出されたフレーム）との間の位置（時間）にＯＵＴ点３０５を設定する（Ｓ６２７）。

図３（Ｂ）を例に説明すると、Ｓ６２７では、人物が含まれていないと判定されたフレーム３１４と、その直前のフレーム３１３（人物が検出されたフレーム）との間の位置（時間）にＯＵＴ点３０５を設定する。

ＰＣ１０１は、Ｓ６２７でＯＵＴ点３０５が設定された位置（時間）の直前の表示するフレーム（人物が検出されたフレーム）を識別可能に表示する（強調表示する）ための識別情報を当該フレームに対して付加する（Ｓ６２８）。そして、ＰＣ１０１は、図３（Ｂ）に示すように、Ｓ６２７で設定したＯＵＴ点３０５と同じ位置（時間）にファイル終点３０６を設定する（Ｓ６１９）。

Ｓ６１８、Ｓ６１４は、本発明の特定手段の適用例であり、人物が入れ替わり撮影された動画データの中から、人物ごとにフレームアウトした時間又はフレームを特定する。

Ｓ６２７は本発明の設定手段の適用例であり、検出手段でアウト点（３０５）を設定するための第２音声（終了）を検出できずに、動画データからフレームアウトした場合には、当該フレームアウトした時間又はフレームに基づき特定される分割位置に、アウト点を設定する。

ＰＣ１０１は、Ｓ６０２で読み込んだ動画ファイルを、Ｓ６０４でファイル始点３０１が設定された位置（時間）と、Ｓ６１９でファイル終点３０６が設定された位置（時間）とで切り出して、当該切り出された動画ファイルと、現在の処理対象の氏名（被写体を識別する情報）とを対応付けて登録（設定）する（Ｓ６２０）。

例えば、現在、人物リスト８０１の「木屋野太郎」が処理対象であり、撮影された動画ファイル１がＳ６２０で切り出され、動画ファイル１（動画ファイル名）として、「木屋野太郎」と関連付けられて関連付リスト８０２（Ａ）に登録されると共に、当該動画ファイルに対して、差替対象の動画ではないことを示す情報「否」が、関連付リスト８０２（Ａ）の差替要否の項目に登録される（Ｓ６２０）。

Ｓ６２０は、本発明の生成手段の適用例であり、Ｓ６０３、Ｓ６１８、Ｓ６１４の特定手段により特定された時間又はフレームに基づき特定される分割位置で動画データを分割して人物ごとの動画データを個々に生成する。

Ｓ６２０は、本発明の登録手段の適用例であり、生成手段により動画データの先頭から順次分割され生成された動画データを、当該動画データが生成された順番に対応して人物リスト（図８）に定められた人物の識別情報と関連付けて登録する。

すなわち、この登録手段は、判定手段により、検出手段により検出された音声又はジェスチャーが、生成された動画データを後で差し替えるべき動画データとして登録するための所定の音声（例えば、欠席の音声）又はジェスチャー（例えば、欠席を示すジェスチャー）ではないと判定された場合（Ｓ６２９：ＮＯ）に、当該生成された動画データを、後で差し替えるべき動画データではない動画データ（「否」が、関連付リスト８０２（Ａ）の差替要否の項目に登録される動画データ）として、当該動画データが生成された順番に対応して人物リストに定められた人物の識別情報と関連付けて登録する。

そして、ＰＣ１０１は、Ｓ６０２で読み込んだ動画ファイルのすべてをＳ６０３からＳ６１９までの処理の処理対象にしたか否か、または、Ｓ６０１で読み取った人物リストの全ての氏名を処理対象として、Ｓ６０３からＳ６１９までの処理を実行したか否かを判定することにより、Ｓ６０２で読み込んだ動画ファイルの切り出し、ＩＮ点、ＯＵＴ点の設定の処理を終了するか否かを判定する（Ｓ６２１）。

ＰＣ１０１は、Ｓ６２１において、Ｓ６０２で読み込んだ動画ファイルのすべてをＳ６０３からＳ６１９までの処理の処理対象にした、または、Ｓ６０１で読み取った人物リストの全ての氏名を処理対象として、Ｓ６０３からＳ６１９までの処理を実行したと判定された場合には、Ｓ６０２で読み込んだ動画ファイルの切り出し、ＩＮ点、ＯＵＴ点の設定の処理を終了すると判定し（Ｓ６２１：ＹＥＳ）、処理をＳ６２２に移行する。

また、ＰＣ１０１は、Ｓ６２１において、Ｓ６０２で読み込んだ動画ファイルのすべてをＳ６０３からＳ６１９までの処理の処理対象にしていない、または、Ｓ６０１で読み取った人物リストの全ての氏名を処理対象として、Ｓ６０３からＳ６１９までの処理を実行していないと判定された場合には、Ｓ６０２で読み込んだ動画ファイルの切り出し、ＩＮ点、ＯＵＴ点の設定の処理を終了しないと判定し（Ｓ６２１：ＮＯ）、Ｓ６０１で読み取った人物リストの未処理の氏名のうち最も順番の早い（番号が低い）氏名を処理対象にすると共に、引き続き、Ｓ６０２で読み込んだ動画ファイルの次のフレームを処理対象にして、処理をＳ６０３に移行する。

Ｓ６２１は、本発明の制御手段の適用例であり、特定手段により特定されたフレームインした時間又はフレームに基づき特定される分割位置と、特定手段により特定されたフレームアウトした時間又はフレームに基づき特定される分割位置との間の動画データに対して、検出手段による検出処理、及び設定手段による設定処理を行うように制御する。

ＰＣ１０１は、Ｓ６０２で切り出された動画ファイルと、当該動画ファイルと対応付けて登録された氏名との一覧（リスト）を、動画編集画面（図４）に表示する（Ｓ６２２）。

図４に示すように、動画編集画面の「木屋野次郎」（番号：２）のタイムラインについては、グレーアウト/ブラックアウトして表示されており、そのタイムライン上に「この方は、撮影会を欠席した方です。後日、この方を撮影して動画を差し替える必要があります。」というメッセージ４１６が表示されている。これは、ＰＣ１０１が関連付リスト８０２（Ａ）を参照して、差替要否が「要」の動画ファイルについては、この差替える必要があることを示すメッセージ４１６を表示する。

このようにして、ＰＣ１０１は、差替対象の動画をユーザ（人物）（分割して生成された動画データ）ごとに識別表示する。

このように、Ｓ６２２は本発明の表示手段の適用例であり、Ｓ６３２、Ｓ６２０の登録手段により、後で差し替えるべき動画データとして識別情報と関連付けて登録された動画データと、後で差し替えるべき動画データではない動画データとして識別情報と関連付けて登録された動画データとを識別可能に表示する。

また、表示手段は、登録手段により、後で差し替えるべき動画データとして識別情報と関連付けて登録された動画データについて、当該動画データを差し替えるべき旨のメッセージ４１６を表示する。

Ｓ６２２は、本発明の表示手段の適用例であり、動画編集画面（図４）に示すように、動画データの複数のフレームの画像を時系列に表示すると共に、当該画像間の位置に設定手段により設定されたイン点に関するコントロール（５０１、５０６）、及びアウト点に関するコントロール（５０５、５０２）を表示する。

図４は、動画編集画面の一例を示す図である。

４１２は、図８に示す人物リストの順番の値であり、４０１は、氏名を示している。これらの被写体を識別する情報と対応付けてＳ６２０で登録された切り出された動画ファイルが、４０３、４０４に動画のタイムラインとして示されている。４０３は、ＩＮ点３０２とＯＵＴ点３０５との間の動画のライムラインを示しており、４０４は、ＯＵＴ点３０５とファイル終点３０６との間の動画のタイムラインが示されている。また、４０５は、ファイル終点３０６以降の動画を示している。

また、４０２は、ＩＮ点３０２とＯＵＴ点３０５との間の動画、又はＩＮ点３０２とＯＵＴ点３０３との間の動画の各フレームのうち先頭のフレームの縮小画像（例えばサムネイル画像）である。

また、４０８は、ファイル始点３０１とＩＮ点３０２との間の動画のタイムラインとして示されている。

４０７は、切り出された動画ファイルに含まれる音の波形が表示される領域である。

４０６は、Ｓ６２０において、切り出された動画ファイルと、現在の処理対象の氏名（被写体を識別する情報）とが対応付けられて登録（設定）され、ユーザの指示により、Ｓ６２６において任意にＩＮ点、ＯＵＴ点の編集（変更）の設定がなされ、当該ＩＮ点、ＯＵＴ点に基づき切り出され登録される動画ファイルの処理対象を選択するためのボタン（指示受付部）である。すなわち、誰の動画を処理対象にするにするかを選択するためのボタンである。

図４に示すように、上述の４０１、４０２、４０３、４０４、４０５、４０６、４０７、４０８、４１２は、氏名ごと（Ｓ６２０で切り出された動画ファイルごと）にそれぞれリスト表示されている。

４１１は、ファイル生成ボタンである。

４１５は、動画の差替えを行うための指示を受け付ける差替処理ボタン（差替指示受付手段）である。

図４に示すように、上述の４０１、４０２、４０３、４０４、４０５、４０６、４０７、４０８、４１２は、氏名ごと（Ｓ６２０で切り出された動画ファイルごと）にそれぞれリスト表示されているが、いずれかの動画又は氏名（被写体を識別する情報）が選択されると、当該動画のプレビュー表示を行う表示領域４１０を動画編集画面（図４）は備えている。また、４１３は、再生ボタンであり、当該いずれかの動画又は氏名（被写体を識別する情報）が選択され、再生ボタン４１３がユーザにより押下されると、当該動画のプレビューを表示領域４１０に表示する。

４０９は、リスト表示された動画又は氏名のいずれかが選択され、当該選択された動画のＩＮ点、ＯＵＴ点の編集指示をユーザにより受け付ける表示領域である。具体的には、４０９の表示領域には、例えば、図５（Ａ）あるいは図５（Ｂ）が表示される表示領域である。

ＰＣ１０１は、Ｓ６２２において、動画編集画面（図４）にリスト表示された動画、氏名のうち、選択された動画、氏名の動画が表示領域４０９に表示するが、このとき、図５（Ａ）に示すように、ファイル始点３０１からＩＮ点３０２の間の動画のフレーム３０８、ＯＵＴ点３０３からＩＮ点３０４の間の動画のフレーム３１０（中断領域：中断映像の時間帯４０８のフレーム）、ＯＵＴ点３０５からファイル終点３０６の間の動画のフレーム３１３については、ブラックアウト、又はフレームの枠の色を他のフレームの枠を変えるなどして、識別可能に表示する。

Ｓ６２８において、Ｓ６２７でＯＵＴ点３０５が設定された位置（時間）の直前の表示するフレーム（人物が検出されたフレーム）を識別可能に表示する（強調表示する）ための識別情報が、Ｓ６２８で当該フレームに対して付加されているため、当該識別情報が付加されたフレームを識別表示する。

この識別表示は、本発明の通知手段の適用例であり、ＰＣ１０１は、検出手段でアウト点を設定するための第２音声を検出できずに、動画データからフレームアウトした場合には、当該第２音声を検出できずに動画データからフレームアウトしたことをユーザに知らせるための通知を行う。

すなわち、通知手段は、検出手段でアウト点を設定するための第２音声を検出できずに、動画データからフレームアウトした場合には、当該フレームアウトしたフレームの直前の表示されるフレームを他のフレームの表示形態とは異なる形態で識別可能に表示する。

これにより、ユーザは、アウト点を設定するための第２音声を検出できずに、動画データからフレームアウトしたことを把握することができ、アウト点（３０５）のコントロール５０２の位置の調整を行う必要があることが分かり、コントロール５０２の位置調整をし忘れ難くなる。

図５は、表示領域４０９に表示される表示画面の一例である。

図５は、図３に示すファイル始点３０１からファイル終点３０６の範囲で切り出された動画の各フレームと、各ＩＮ点、各ＯＵＴ点との位置（時間）の関係を示す図の一例である。

図５（Ａ）は、人物が検出されなくなる前に「終了」音声を検出した場合の当該関係を示す図の一例である。

図５（Ｂ）は、人物が検出され「欠席」音声を検出した場合の当該関係を示す図の一例である。

図５（Ａ）に示すように、表示領域４０９には、ユーザにより選択された動画の各フレームと、各ＩＮ点、各ＯＵＴ点の編集（変更）をユーザにより受け付けることが可能なコントロール５０１、５０２、５０５、５０６とが表示される。

Ｓ６０４で設定されたファイル始点３０１と、Ｓ６０７で設定されたＩＮ点３０２との間のフレームが３０８である。

Ｓ６０７で設定されたＩＮ点３０２と、Ｓ６１０で設定されたＯＵＴ点３０３の間のフレームが３０９である。Ｓ６１０で設定されたＯＵＴ点３０３と、Ｓ６１３で設定されたＩＮ点３０４との間のフレームが３１０である。そして、この中断映像の時間帯４０８を識別可能に表示している。

また、Ｓ６１３で設定されたＩＮ点３０４と、Ｓ６１７で設定されたＯＵＴ点３０５との間のフレームが、３１１、３１２である。

また、Ｓ６１７で設定されたＯＵＴ点３０５と、Ｓ６１９で設定されたファイル終点３０６との間のフレームが３１３である（図５（A））。

図５（Ａ）に示すように、ユーザによる編集指示を受け付ける前の初期画面では、Ｓ６０７で設定されたＩＮ点３０２の位置に、ＩＮ点３０２の編集（変更）をユーザにより受け付けることが可能なコントロール５０１が表示される。

また、Ｓ６１０で設定されたＯＵＴ点３０３の位置には、ＯＵＴ点３０３の編集（変更）をユーザにより受け付けることが可能なコントロール５０５が表示される。

また、Ｓ６１３で設定されたＩＮ点３０４の位置には、ＩＮ点３０４の編集（変更）をユーザにより受け付けることが可能なコントロール５０６が表示される。

また、Ｓ６１７で設定されたＯＵＴ点３０５の位置には、ＯＵＴ点３０５の編集（変更）をユーザにより受け付けることが可能なコントロール５０２が表示される。

また、図５（Ｂ）は、図４の木屋野次郎の表示個所を選択した際に表示される画面であり、欠席の音声を検出したフレームを含む、フレーム３０８からフレーム３１３がブラックアウト/グレーアウトして表示されている。そして、図５（Ｂ）に示すように、図４の４１６と同じメッセージ５０７を表示している。このように、ＰＣ１０１は、図４の木屋野次郎の表示個所が選択された場合に、図５（Ｂ）の表示を行う。

ＰＣ１０１は、動画編集画面（図４）を介して、ユーザによる操作指示を受け付ける（Ｓ６２３）。

例えば、ＰＣ１０１は、ユーザの操作に従って、コントロール５０１、５０５、５０６、５０２を任意のフレーム間の位置に移動（変更）する。これにより、各ＩＮ点、各ＯＵＴ点の位置を任意の位置に変更することにより、動画の編集を行うことが可能なる。

また、ＰＣ１０１は、Ｓ６２２において、動画編集画面（図４）にリスト表示された動画、氏名のうち、選択された動画、氏名の動画を表示領域４０９に表示し、各動画について、同様の操作を行うことが出来る。

そして、ＰＣ１０１は、ユーザにより、動画編集画面（図４）にリスト表示された各動画、各氏名のボタン４０６（指示受付部）の選択を受け付け、ファイル生成ボタン４１１の押下を受け付ける（Ｓ６２３）。

ＰＣ１０１は、Ｓ６２３で、ユーザにより受け付けた操作内容が、ＩＮ点、又はＯＵＴ点の位置を任意の位置に変更することにより、動画の編集を行う編集指示であると判定された場合には（Ｓ６２４：編集指示）、ユーザ操作により任意にＩＮ点、又はＯＵＴ点が変更された位置を登録する編集処理を実行する（Ｓ６２６）。そして、処理をＳ６２３に戻す。

Ｓ６２３は、本発明の受付手段の適用例であり、ユーザにより、表示手段により画像（フレーム）に対してコントロールが表示された位置の変更指示を受け付ける。

また、Ｓ６２６は、本発明の変更手段の適用例であり、Ｓ６２３の受付手段により受け付けた変更指示に従って、当該画像（フレーム）に対するコントロールの表示位置の変更、及び、設定手段により設定されたイン点、又はアウト点の位置の変更を行いその結果を表示する。

また、ＰＣ１０１は、Ｓ６２３で、ユーザにより受け付けた操作内容が、リスト表示された各動画、各氏名のボタン４０６（指示受付部）の選択を受け付け、ファイル生成ボタン４１１の押下を受け付けた指示（生成指示）であると判定された場合には（Ｓ６２４：生成指示）、当該選択された動画のファイルの生成を行う（Ｓ６２５）。具体的には、現在、登録されている各ＩＮ点、及び各ＯＵＴ点の位置で、動画を切り取り、氏名（ユーザ）ごとの動画ファイルを、それぞれ生成する。すなわち、Ｓ６２６の編集処理が行われた場合には、当該編集されたＩＮ点、及び／又はＯＵＴ点の位置で、動画を切り取り、氏名（ユーザ）ごとの動画ファイルを、それぞれ生成する。

例えば、図５（Ａ）に示すように、フレーム３０８とフレーム３０９との間の位置に、ＩＮ点３０２のコントロール５０１が設定され、フレーム３０９とフレーム３１０との間の位置に、ＯＵＴ点３０３のコントロール５０５が設定され、フレーム３１０とフレーム３１１との間の位置に、ＩＮ点３０４のコントロール５０６が設定され、フレーム３１２とフレーム３１３との間の位置に、ＯＵＴ点３０５のコントロール５０２が設定されている場合、ＰＣ１０１は、Ｓ６２５において、コントロール５０１とコントロール５０５との間のフレーム（群）と、コントロール５０６とコントロール５０２との間のフレーム（群）とを切り出して、コントロール５０１とコントロール５０５との間のフレーム（群）と、コントロール５０６とコントロール５０２との間のフレーム（群）とを連結して１つの動画ファイルとして生成する。

また、ここで、コントロール５０５、及び５０６が無い場合には、コントロール５０１とコントロール５０２との間のフレーム（群）を切り出して、１つの動画ファイルとして生成する。

この処理を、Ｓ６２３でユーザにより選択された動画ごと（氏名（ユーザ）ごと）に実行し、氏名（ユーザ）ごとの動画ファイルを、それぞれ生成する（Ｓ６２５）。そして、処理を終了する。

次に、図７を用いて、動画のプレビュー再生を行う処理について説明する。

図７は、動画のプレビュー再生を行う処理を示すフローチャートの一例を示す図である。

図７に示すフローチャートは、ＰＣ１０１のＣＰＵ２０１が制御プログラムを読み出して実行する処理である。

図７に示す処理は、図６のＳ６２３で実行可能な処理である。

ＰＣ１０１は、ユーザにより、図４の動画編集画面にリスト表示された各氏名の各動画のうち１つの動画が選択され、ユーザにより、再生ボタン４１３の押下を受け付けたか否かを判定することにより、当該動画の再生指示を受け付けたか否かを判定する（Ｓ７０１）。

ここでは、Ｓ６２６の編集処理を行う前の動画、又は、Ｓ６２６の編集処理後の動画（Ｓ６２６でＩＮ点、又はＯＵＴ点の位置を任意の位置に変更された動画）についての再生指示を受け付けたか否かを判定する。

そして、ＰＣ１０１は、動画の再生指示を受け付けたと判定された場合には、当該動画の動画ファイルの読み込みを行い（Ｓ７０２）、当該動画の再生を行う（Ｓ７０３）。ここでは、コントロール５０５とコントロール５０６との間のフレーム（群）については、スキップして再生されない。また、コントロール５０１以前のフレーム（群）、コントロール５０２以後のフレーム（群）についても、同様に再生されない。

ここで再生される動画は、コントロール５０１とコントロール５０５との間のフレーム（群）と、コントロール５０６とコントロール５０２との間のフレーム（群）とが連結された動画である。

ＰＣ１０１は、当該動画の再生が終了した場合には（Ｓ７０４：ＹＥＳ）、処理をＳ７０１に戻す。また、動画の再生が終了していない場合には、引き続き、当該動画の再生を行う（Ｓ７０３）。

ＰＣ１０１は、Ｓ６０６、Ｓ６０９、Ｓ６１２、Ｓ６１６で説明した通り、検出手段により、イン点、又はアウト点を設定するための音声の直前又は直後の所定時間内に音声が続けて検出された場合には（Ｓ６０６：ＮＯ、Ｓ６０９：ＮＯ、Ｓ６１２：ＮＯ、Ｓ６１６：ＮＯ）、イン点、又はアウト点を設定するための当該音声に基づく動画データのイン点、又はアウト点の設定を行わない。

ＰＣ１０１は、Ｓ６０６、Ｓ６０９、Ｓ６１２、Ｓ６１６で説明した通り、イン点、又はアウト点を設定するための音声の直前又は直後の所定時間内に音声が続けて検出されなかった場合には（Ｓ６０６：ＹＥＳ、Ｓ６０９：ＹＥＳ、Ｓ６１２：ＹＥＳ、Ｓ６１６：ＹＥＳ）、イン点、又はアウト点を設定するための当該音声に基づく動画データのイン点、又はアウト点の設定を行う（Ｓ６０７、Ｓ６１０、Ｓ６１３、Ｓ６１７）。

図１０は、本実施形態の差替対象動画の差替処理を示すフローチャートの一例である。

図１０は、ＰＣ１０１のＣＰＵ２０１が所定の制御プログラムを読み出して実行する処理である。

図１０に示す処理は、図４に示す差替処理ボタン４１５がユーザにより押下されたときにＰＣ１０１が実行する処理である。

例えば、木屋野次郎が撮影会に欠席し撮影できなかったときに、他のユーザがフレームインして「欠席」という言葉を喋りフレームアウトした動画が撮影され、当該他のユーザの動画が、Ｓ６３２で切り出され登録され、当該動画を、図１０に示す処理で、後で撮影された木屋野次郎の動画に差し替える。

図１０において、図６に示す処理と同一の処理については、同一の符号を付しており、当該同一の処理については、説明を省略する。

まず、ＰＣ１０１は、ユーザに指示に応じて、ＰＣ１０１のメモリ等の記憶手段に記憶されている関連付リスト８０２（Ａ）を読み取り取得する（Ｓ１００１）。

Ｓ１００１は、本発明の取得手段の適用例であり、後で差し替えるべき動画データとして識別情報（例えば、氏名など）と関連付けて登録された動画データを差し替えて登録する他の動画データを取得する。

そして、ＰＣ１０１は、関連付リスト８０２（Ａ）の「差替要否」の項目が「要」のレコードを特定する（Ｓ１００２）。例えば、関連付リスト８０２（Ａ）の「差替要否」の項目が「要」のレコードとして「順番（番号）」が「２」、「氏名」が「木屋野次郎」、「動画ファイル名」が「動画ファイル２」のレコードを特定する。

そして、ＰＣ１０１は、撮影会を欠席したときよりも後に撮影された１つの動画ファイル（「木屋野次郎」が撮影された動画ファイル（動画データ））の読み取りを行う（Ｓ６０２）。そして、ＰＣ１０１は、Ｓ６０３からＳ６１９、Ｓ６２７、Ｓ６２８の処理を実行する。これらの処理については、図６で説明済みであるため、ここではその説明を省略する。

そして、Ｓ６０３からＳ６１９、Ｓ６２７、Ｓ６２８の処理によりファイル始点、ファイル終点、各イン点、各アウト点の設定がなされ、ＰＣ１０１は、当該設定されたファイル始点、及びファイル終点で動画ファイルを切り出して、当該切り出された動画ファイルを、Ｓ１００２で特定されたレコードに登録されていた動画ファイル（例えば、「動画ファイル２」）と差し替えて登録する。また、ＰＣ１０１は、当該レコードの「差替要否」の項目を「要」から「否」に変更する（Ｓ１００３）。このようにして変更された関連付リストを図８の８０２（Ｂ）に示す。そして、ＰＣ１０１は、処理をＳ６２１に移行する。

Ｓ６２１以降の処理は、図６と同様であるため、ここでは、説明を省略する。

このようにして、Ｓ１００３で動画が差し替えられ、「木屋野次郎」（氏名）と、当該木屋野次郎の動画とが正しく関連付けられて登録され、図１０のＳ６２２で表示される動画編集画面では、図１１のように表示される。

Ｓ１００３は、本発明の差替手段の適用例であり、Ｓ６３２の登録手段により、後で差し替えるべき動画データとして識別情報と関連付けて登録された動画データを、Ｓ１００１の取得手段により取得した他の動画データに差し替えて当該識別情報と関連付けて登録する。

図１１は、Ｓ１００３で動画が差し替えられた後の動画編集画面の一例を示す図である。

図１１に示すように、図４に示す４１６等のメッセージの表示は非表示となっており、「木屋野次郎」の一言メッセージの動画のタイムライン、画像などが表示されている。

上述の本実施形態では、Ｓ６０５で「開始」の音声を検出する例で説明したが、音声の代わりに被写体（人物）のジェスチャー（「開始」を示すジェスチャー）を検出するようにすることもできる。

また、同様に、Ｓ６０８で「中断」の音声を検出する例で説明したが、音声の代わりに被写体（人物）のジェスチャー（「中断」を示すジェスチャー）を検出するようにすることもできる。

また、同様に、Ｓ６１１で「再度開始」の音声を検出する例で説明したが、音声の代わりに被写体（人物）のジェスチャー（「再度開始」を示すジェスチャー）を検出するようにすることもできる。

また、同様に、Ｓ６１５で「終了」の音声を検出する例で説明したが、音声の代わりに被写体（人物）のジェスチャー（「終了」を示すジェスチャー）を検出するようにすることもできる。

Ｓ６０７、Ｓ６１３は、本発明のイン点設定手段の適用例であり、動画データの中で、検出手段で第１音声又は第１ジェスチャーが検出された時間又はフレームに基づき特定される位置にイン点を設定する。

また、イン点設定手段は、動画データの中で、検出手段で第１音声又は第１ジェスチャーが検出されたフレームと、当該フレームの後続のフレームであって第１音声又は第１ジェスチャーが検出されなかったフレームとの間の位置にイン点を設定する。

また、Ｓ６１０、Ｓ６１７、Ｓ６２７は、本発明のアウト点設定手段の適用例であり、動画データの中で、検出手段で第２音声又は第２ジェスチャーが検出された時間又はフレームに基づき特定される位置にアウト点を設定する。

また、アウト点設定手段は、動画データの中で、検出手段で第２音声又は第２ジェスチャーが検出されたフレームと、当該フレームよりも前のフレームであって第２音声又は第２ジェスチャーが検出されなかったフレームとの間の位置にアウト点を設定する。

以上、本発明によれば、動画データに含まれる人物と、当該人物の識別情報との関連付けに係る作業を軽減可能にすることができる。

また、本発明によれば、人物が撮影された動画データに含まれる音声に基づいて、動画データを編集するためのイン点、又はアウト点を効率的に設定することができる。

また、本発明によれば、複数の人物が入れ替わり撮影された各人物の動画を含む１つの動画ファイルから、効率的に、人物毎に、当該人物を含む動画ファイルをそれぞれ生成することが可能となる。

本発明は、例えば、システム、装置、方法、プログラムもしくは記録媒体等としての実施態様をとることが可能である。具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。

また、本発明におけるプログラムは、図示したフローチャートの処理方法をコンピュータが実行可能なプログラムであり、本発明の記憶媒体は当該処理方法をコンピュータが実行可能なプログラムが記憶されている。なお、本発明におけるプログラムは各装置の処理方法ごとのプログラムであってもよい。

以上のように、前述した実施形態の機能を実現するプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に格納されたプログラムを読み出し、実行することによっても本発明の目的が達成されることは言うまでもない。

この場合、記録媒体から読み出されたプログラム自体が本発明の新規な機能を実現することになり、そのプログラムを記録した記録媒体は本発明を構成することになる。

プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＤＶＤ−ＲＯＭ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＥＥＰＲＯＭ、シリコンディスク等を用いることが出来る。

また、コンピュータが読み出したプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵ等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

また、本発明は、複数の機器から構成されるシステムに適用しても、ひとつの機器から成る装置に適用しても良い。また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。

さらに、本発明を達成するためのプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。

１０１ＰＣ
１０２撮影者
１０３人物
１０４カメラ
１０５椅子

Claims

人物が入れ替わり撮影された動画データの中から人物ごとの動画データを個々に分割して生成される順番に対応して、当該人物を個々に識別するための識別情報が定められた人物リストを記憶する記憶手段を備える情報処理装置であって、
人物が入れ替わり撮影された前記動画データの中から、人物ごとの動画データを個々に分割して生成する生成手段と、
前記生成手段により順次生成された動画データを、当該動画データが生成された順番に対応して前記人物リストに定められた人物の識別情報と関連付けて登録する登録手段と、
前記生成手段により生成される動画データに含まれる音声又はジェスチャーを検出する検出手段と、
を備え、
前記登録手段は、前記検出手段により検出された音声又はジェスチャーに応じて、当該音声又はジェスチャーを含む前記生成手段により生成された動画データを、後で差し替えるべき動画データとして、当該動画データが生成された順番に対応して前記人物リストに定められた識別情報と関連付けて登録することを特徴とする情報処理装置。
人物が入れ替わり撮影された動画データの中から、人物ごとにフレームイン、及びフレームアウトした時間又はフレームを特定する特定手段を更に備え、
前記生成手段は、前記特定手段により特定された時間又はフレームに基づき特定される分割位置で前記動画データを分割して人物ごとの動画データを個々に生成することを特徴とする請求項１に記載の情報処理装置。
前記検出手段により検出された音声又はジェスチャーが、前記生成された動画データを後で差し替えるべき動画データとして登録するための所定の音声又はジェスチャーであるかを判定する判定手段を更に備え、
前記登録手段は、前記判定手段により、前記検出手段により検出された音声又はジェスチャーが、前記生成された動画データを後で差し替えるべき動画データとして登録するための所定の音声又はジェスチャーであると判定された場合に、当該所定の音声又はジェスチャーを含む前記生成手段により生成された動画データを、後で差し替えるべき動画データとして、当該動画データが生成された順番に対応して前記人物リストに定められた識別情報と関連付けて登録すること特徴とする請求項１又は２に記載の情報処理装置。
前記登録手段は、前記判定手段により、前記検出手段により検出された音声又はジェスチャーが、前記生成された動画データを後で差し替えるべき動画データとして登録するための所定の音声又はジェスチャーではないと判定された場合に、当該所定の音声又はジェスチャーを含む前記生成された動画データを、後で差し替えるべき動画データではない動画データとして、当該動画データが生成された順番に対応して前記人物リストに定められた識別情報と関連付けて登録し、
前記登録手段により、後で差し替えるべき動画データとして識別情報と関連付けて登録された動画データと、後で差し替えるべき動画データではない動画データとして識別情報と関連付けて登録された動画データとを識別可能に表示する表示手段を更に備える請求項３に記載の情報処理装置。
前記表示手段は、前記登録手段により、後で差し替えるべき動画データとして識別情報と関連付けて登録された動画データについて、当該動画データを差し替えるべき旨のメッセージを表示することを特徴とする請求項４に記載の情報処理装置。
後で差し替えるべき動画データとして前記識別情報と関連付けて登録された動画データを差し替えて登録する他の動画データを取得する取得手段と、
前記登録手段により、後で差し替えるべき動画データとして前記識別情報と関連付けて登録された動画データを、前記取得手段により取得した他の動画データに差し替えて当該識別情報と関連付けて登録する差替手段と、
を更に備えることを特徴とする請求項１乃至５の何れか１項に記載の情報処理装置。
前記検出手段は、前記生成される動画データを編集するためのイン点を設定するための第１音声又は第１ジェスチャーを検出し、
前記動画データの中で、前記検出手段で前記第１音声又は前記第１ジェスチャーが検出された時間又はフレームに基づき特定される位置に前記イン点を設定するイン点設定手段を更に備えることを特徴とする請求項１乃至６の何れか１項に記載の情報処理装置。
前記イン点設定手段は、前記動画データの中で、前記検出手段で前記第１音声又は第１ジェスチャーが検出されたフレームと、当該フレームの後続のフレームであって前記第１音声又は第１ジェスチャーが検出されなかったフレームとの間の位置に前記イン点を設定することを特徴とする請求項７に記載の情報処理装置。
前記検出手段は、前記生成される動画データを編集するためのアウト点を設定するための第２音声又は第２ジェスチャーを検出し、
前記動画データの中で、前記検出手段で前記第２音声又は第２ジェスチャーが検出された時間又はフレームに基づき特定される位置に前記アウト点を設定するアウト点設定手段を更に備えることを特徴とする請求項１乃至８のいずれか１項に記載の情報処理装置。
前記アウト点設定手段は、前記動画データの中で、前記検出手段で前記第２音声又は前記第２ジェスチャーが検出されたフレームと、当該フレームよりも前のフレームであって前記第２音声又は第２ジェスチャーが検出されなかったフレームとの間の位置に前記アウト点を設定することを特徴とする請求項９に記載の情報処理装置。
人物が入れ替わり撮影された動画データの中から人物ごとの動画データを個々に分割して生成される順番に対応して、当該人物を個々に識別するための識別情報が定められた人物リストを記憶する記憶手段を備える情報処理装置における制御方法であって、
人物が入れ替わり撮影された前記動画データの中から、人物ごとの動画データを個々に分割して生成する生成工程と、
前記生成工程により順次生成された動画データを、当該動画データが生成された順番に対応して前記人物リストに定められた人物の識別情報と関連付けて登録する登録工程と、
前記生成工程により生成される動画データに含まれる音声又はジェスチャーを検出する検出工程と、
を備え、
前記登録工程は、前記検出工程により検出された音声又はジェスチャーに応じて、当該音声又はジェスチャーを含む前記生成工程により生成された動画データを、後で差し替えるべき動画データとして、当該動画データが生成された順番に対応して前記人物リストに定められた識別情報と関連付けて登録することを特徴とする制御方法。
請求項１１に記載の制御方法を実行するためのプログラム。