JP2024038810A

JP2024038810A - 情報処理装置および方法、情報処理システム、プログラム

Info

Publication number: JP2024038810A
Application number: JP2022143103A
Authority: JP
Inventors: 光伊藤; Hikari Ito
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2022-09-08
Filing date: 2022-09-08
Publication date: 2024-03-21

Abstract

【課題】映像の区間に対応するメタデータを自動的に生成することを可能にする情報処理装置および方法、情報処理システムならびにプログラムを提供する。
【解決手段】情報処理装置、情報処理装置と接続される端末装置としての携帯端末および情報処理装置と接続される撮像装置としてのネットワークカメラを有する情報処理システムにおいて、情報処理装置は、映像から所定の人物を検出する人物検出部と、該映像から検出された所定の人物の動作が特定の条件を満たすか否かを判定するジェスチャ判定部と、特定の条件が満たされたと判定した時刻に基づいて選択された区間の映像に基づいて、当該区間の映像のメタデータを生成するメタデータ生成部と、を有する。
【選択図】図２

Description

本開示は、情報処理装置および方法、情報処理システム、プログラムに関する。

昨今、感染症の世界的流行により、従来の授業方式である、１箇所に生徒全員が集合して授業を受けることが困難になっている。この状況に対応する新しい授業方式として、授業を行っている教師をカメラで撮影して、複数の場所に分散して受講している生徒に映像を配信する方法が普及し始めている。さらに、授業の撮影と同時に録画も行い、録画した映像を学校のサーバに保存して、授業を欠席した生徒や授業を復習したい生徒等に、授業の映像を配信するサービスも行われている。

また、映像の内容に関連するキーワードを、メタデータとして映像に付与する技術が普及している。メタデータの種類として、全体メタデータと区間メタデータがある。全体メタデータは、映像タイトルや映像作製日といった映像全体に関する情報である。一方、区間メタデータは、このシーンでは２人が対談しているといった、映像内のある特定の部分（区間）に関する情報である。特許文献１では、映像再生時に、ボタンとマイクを使用して、映像に区間メタデータを付与する技術が開示されている。

特開２００７－１４０１９９号公報

上記のように、授業を欠席した生徒や授業を復習したい生徒は、個人の端末から学校のサーバにネットワークを経由して接続することで、授業後に授業の映像を見ながら自習することができる。しかしながら、生徒が授業で使用する教材と授業映像の両方を見ながら自習している時に、教材の説明に対応する授業映像内の位置を見つけるには、再生、停止、早送り、巻き戻し等の操作を繰り返し行う必要がある。このため、生徒の学習効率が低下するという課題がある。また、特許文献１により開示された方法で、教師が、教材に関するメタデータを授業映像に付与することにより、上記課題に対応することが考えられる。しかしながら、教師は、授業や試験やその他の学校行事の準備や生徒や父兄への対応等を日々行っているため、教師の業務負荷はすでに高い状態にある。よって、教師が、メタデータ付与等の映像編集を行う業務時間を確保することは困難である。

本開示は、映像の区間に対応するメタデータを自動的に生成することを可能にする技術を提供する。

本開示の一態様による情報処理装置は、以下の構成を有する。すなわち、
映像から所定の人物を検出する第１検出手段と、
前記第１検出手段により前記映像から検出された前記所定の人物の動作が特定の条件を満たすか否かを判定する判定手段と、
前記映像のうちの、前記判定手段により前記特定の条件が満たされたと判定された時刻に基づいて選択された区間の映像に基づいて、当該区間の映像のメタデータを生成する生成手段と、を有する。

本開示によれば、映像の区間に対応するメタデータを自動的に生成することが可能となる。

情報処理システムの構成例および情報処理装置のハードウェア構成例を示すブロック図。第１実施形態による情報処理装置の機能構成例を示すブロック図。第１実施形態による区間メタデータ生成処理の一例を示すフローチャート。第１実施形態における映像の一例を示す図。第１実施形態による区間メタデータの一例を示す図。第２実施形態による情報処理装置の機能構成例を示すブロック図。第２実施形態による区間メタデータ生成処理の一例を示すフローチャート。第２実施形態における映像の一例を示す図である。第２実施形態による区間メタデータの一例を示す図。映像データに付与された区間メタデータの使用例を示す図。

以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は本開示を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが本開示に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

（第１実施形態）
以下、映像から区間メタデータを生成する情報処理装置の構成を説明する。情報処理装置は、映像から所定の人物を検出し、検出された所定の人物の動作が特定の条件を満たすと判定された場合に、その判定された時刻に対応する映像の部分（区間）のメタデータを生成することにより、区間メタデータを生成する。第1実施形態では、映像から検出された所定の人物（例えば教師）の姿勢と、映像から検出された所定の物体（例えば教科書などの教材）の位置とに基づいて、所定の人物（例えば教師）の動作が特定の条件を満たすか否かを判定する。

［システム構成］
図１は、第１実施形態による情報処理システムの構成例を示す図である。情報処理システム１は、情報処理装置１００、情報処理装置１００と接続される端末装置としての携帯端末１０９、および情報処理装置と接続される撮像装置としてのネットワークカメラ１１０を有する。情報処理装置１００、携帯端末１０９、およびネットワークカメラ１１０は、ネットワーク１０８を介してデータ等を互いに送受信可能に構成されている。ネットワークカメラ１１０は、例えば、授業が行われる教室に設置されており、教師が授業を行う様子を撮影する。携帯端末１０９は、授業を受ける生徒が所持している端末であり、例えば、スマートフォン、タブレット、ＰＣ等である。携帯端末１０９は、例えば、情報処理装置１００から配信された授業の映像を表示する。情報処理装置１００の機能の詳細については、後述する。

［情報処理装置のハードウェア構成］
図１を参照して、情報処理装置１００のハードウェア構成の一例を説明する。情報処理装置１００は、ＣＰＵ１０１と、ＲＯＭ１０２と、ＲＡＭ１０３と、記憶装置１０４と、ＵＩ１０６と、ネットワークＩ／Ｆ１０７とを有している。ＣＰＵ１０１は、ＲＡＭ１０３をワークメモリとして、ＲＯＭ１０２や記憶装置１０４に記憶されたＯＳやプログラムを実行して、各種処理の演算や論理判断などを行う。さらに、ＣＰＵ１０１は、システムバス１０５に接続された各構成を制御する。なお、情報処理装置１００がＣＰＵ１０１とは異なる１又は複数の専用のハードウェアを有し、ＣＰＵ１０１による処理の少なくとも一部を専用のハードウェアが実行してもよい。専用のハードウェアの例としては、ＡＳＩＣ（特定用途向け集積回路）、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、およびＤＳＰ（デジタルシグナルプロセッサ）などがある。

ＲＯＭ１０２は、変更を必要としないプログラムなどを格納する。ＲＡＭ１０３は、ＣＰＵ１０１の主メモリ、ワークエリア等の一時記憶領域として用いられる。記憶装置１０４は、ハードディスクドライブや各種インタフェースによって接続された外部記憶装置などであり、本実施形態の各種処理に係るプログラムやデータを記憶する。ＵＩ１０６は、情報処理装置とユーザの間の入出力を媒介する装置であり、例えば、音声を出力するスピーカーや画像を表示する表示装置やユーザの入力を受け付けるキーボード等で実現され得る。ネットワークＩ／Ｆ１０７は、ネットワーク１０８を介して、携帯端末１０９やネットワークカメラ１１０等の外部装置とのデータのやり取りを中継するためのインタフェースである。

［情報処理装置の機能構成］
図２は、第１実施形態に係る情報処理装置１００の機能構成の一例を示すブロック図である。図２を参照して、本実施形態に係る情報処理装置１００の機能構成について説明する。情報処理装置１００は、映像取得部２０１と、人物検出部２０２と、物体検出部２０３と、ジェスチャ判定部２０４と、映像認識部２０５と、メタデータ生成部２０６と、メタデータ保存部２０７とを有している。これらの各機能部は、ＣＰＵ１０１が、ＲＯＭ１０２や記憶装置１０４に記憶されたプログラムをＲＡＭ１０３に展開し、後述する各フローチャートに従った処理を実行することにより実現されている。そして、ＣＰＵ１０１は、各処理の実行結果をＲＡＭ１０３に記録する。また、例えば、ＣＰＵ１０１を用いたソフトウェア処理の代替としてハードウェアを構成する場合には、ここで説明する各機能部の処理に対応させた演算部や回路を構成すればよい。

映像取得部２０１は、ネットワークカメラ１１０が撮影した映像データを、ネットワーク１０８を経由して取得する。映像データは、例えば、動画（画像）と音声を合わせたデータである。人物検出部２０２は、映像取得部２０１で取得した映像データから所定の人物を検出する。例えば、検出される人物が教師である場合、次のようにして検出される。まず、教師の画像を、記憶装置１０４に予め登録しておく。人物検出部２０２は、テンプレートマッチング手法を用いて、動画からフレーム毎に切り出されたフレーム画像（静止画）から、人物の画像を検出する。テンプレートとして、人体形状の特徴である頭から肩にかけての輪郭の特徴を示したオメガ形状を用い得る。次に、人物検出部２０２は、検出された人物の画像と、登録された教師の画像との類似度を判定し、類似度が閾値より大きい場合に、その人物を教師として検出する。

物体検出部２０３は、映像データから所定の物体を検出する。本実施形態では、物体検出部２０３は、人物検出部２０２による所定の人物の検出結果を用いて所定の物体を検出する。例えば、物体検出部２０３は、検出された所定の人物の近くにある所定の物体を検出する。これにより、検出を行う画像の範囲が限定されるため、物体の検出処理の効率が向上する。また、本実施形態では、検出される物体は、教科書や問題集等の教材である。記憶装置１０４には、特定の物体を検出するための画像として、例えば、教科書や問題集等の教材の表紙の画像が予め登録される。物体検出部２０３は、人物検出部２０２により所定の人物が検出されたフレームの画像で、所定の人物が検出された位置の近くにある矩形の物体を検出する。次に、物体検出部２０３は、検出された矩形の物体の画像と、記憶装置１０４に登録されている教科書や問題集の表紙の画像との類似度を取得する。例えば教科書の画像との類似度が所定の閾値より大きい場合、物体検出部２０３は、その矩形の物体を教科書として検出する。

ジェスチャ判定部２０４は、人物検出部２０２により映像から検出された所定の人物の動きが特定の条件を満たすか否かを判定する。本実施形態では、所定の人物が、所定の物体を所持して所定の姿勢をとった場合に、特定の条件が満たされたと判定される。具体的には、人物検出部２０２で検出された所定の人物の姿勢と、物体検出部２０３で検出された所定の物体の位置とに基づいて特定の条件が満たされたか否かが判定される。すなわち、所定の人物の姿勢と所定の物体の位置とがそれぞれに与えられた条件を満たす場合に、所定の人物の動作が特定の条件を満たしたと判定される。以下、ジェスチャ判定部２０４による判定処理の具体例を示す。

まず、ジェスチャ判定部２０４は、検出された所定の人物の姿勢が第１の条件を満たすか判定する。例えば、第１の条件とは、人物が片腕を上げた姿勢である。姿勢の判定には骨格推定技術を用いることができる。骨格情報として、片腕を上げた姿勢を記憶装置１０４に予め登録しておく。ジェスチャ判定部２０４は、検出された人物のフレーム画像に対して骨格推定を行い、この骨格推定結果と登録された姿勢の類似度を取得する。取得された類似度が閾値より大きい場合、ジェスチャ判定部２０４は、骨格推定結果と登録された姿勢が類似しており、所定の人物の姿勢が所定の条件を満たしていると判定する。

所定の人物の姿勢が第１の条件を満たしていると判定された場合、ジェスチャ判定部２０４は、物体検出部２０３により検出された所定の物体の位置が第２の条件を満たすかを判定する。第２の条件とは、所定の人物と所定の物体のとの位置関係に関する条件であり、例えば、所定の人物が上げた片腕の先端の位置と、所定の物体の位置との距離が閾値未満であることである。例えば、所定の人物が上げた片腕の先端の位置と、所定の物体の中心位置の距離が閾値より小さい場合に、ジェスチャ判定部２０４は、所定の物体の位置が第２の条件を満たしていると判定する。

第１の条件（所定の人物の姿勢）と第２の条件（所定の物体と所定の人物との位置関係）が満たされると、ジェスチャ判定部２０４は、特定の条件が満たされたと判定する。また、ジェスチャ判定部２０４は、特定の条件が満たされたと判定された時刻をＲＡＭ１０３に記憶する。ここで記憶される時刻には、映像時刻を用いることができる。映像時刻は、映像データの先頭から末尾までの経過時間を示し、時：分：秒で表される。

映像認識部２０５は、映像の画像や音声を認識し、認識結果をメタデータ生成部２０６に提供する。映像認識部２０５は、ジェスチャ判定部２０４により特定の条件が満たされたと判定された映像時刻に対応する映像（画像または音声）の認識結果をメタデータ生成部２０６に提供する。例えば、映像認識部２０５は、ジェスチャ判定部２０４により特定の条件が満たされたと判定された映像時刻からの数秒間を特定の期間とし、特定の期間の映像から得られる音声の認識結果を取得する。認識結果は、ＲＡＭ１０３に記憶される。なお、映像認識部２０５は特定の期間の映像について認識処理を実行して認識結果を得てもよいし、認識処理を常時または所定周期で実行して得られる認識結果の内から特定の期間に対応する認識結果を得るようにしてもよい。

メタデータ生成部２０６は、映像認識部２０５での認識結果に基づいて、区間メタデータを生成する。第１実施形態による区間メタデータの例を図５（ａ）～（ｄ）に示す。区間メタデータは、それぞれの区間のメタデータを特定する「ＩＤ」、区間の開始または終了の時刻を示す「映像時刻」、区間の内容に関する「詳細情報」、区間の開始か終了かを示す「状態」、を含む。詳細情報が一致する区間メタデータには同一のＩＤが付される。本例では、同一のＩＤを有するメタデータは、状態が開始のメタデータと状態が終了のメタデータとの対を構成する。映像時刻は、ジェスチャ判定部２０４により特定の条件が満たされたと判定された映像時刻である。状態は、区間メタデータの開始か終了を示す。詳細情報は、映像認識部２０５による認識結果に基づいて生成される情報である。生成された区間メタデータは、ＲＡＭ１０３に記憶される。

なお、区間メタデータの生成に関してユーザに通知を行うようにしてもよい。例えば、ジェスチャ判定部２０４により特定の条件が満たされたと判定されたとき、或いは、メタデータ生成部２０６により区間メタデータが生成されたときに、所定の通知が行われるようにしてもよい。この通知により、特定の条件が満たされたと判定されたタイミング、区間メタデータが生成されたことなどが、授業を行っている教師にフィードバックされる。通知方法は、例えばネットワークカメラ１１０の状態表示ランプを点灯することがあげられる。生成された区間メタデータの状態の開始と終了で、点灯する回数を変える、または点灯する色を変えてもよい。このような通知により、教師は、区間メタデータが生成されたことをリアルタイムで確認することができる。

なお、メタデータ生成部２０６は、区間メタデータの状態により、記憶する映像時刻を変えてもよい。例えば、状態が終了の場合は、特定の条件が満たされたと判定された映像時刻より所定時間だけ前の時刻（例えば、数秒前の時刻）を、区間メタデータの映像時刻として記憶するようにしてもよい。特定の条件が満たされたと判定された映像時刻より所定時間だけ前の時刻を記憶することで、教師が特定の条件を満たすためのジェスチャを行っている映像の期間を除外できる。このため、より適切な区間メタデータを生成することができる。

メタデータ保存部２０７は、メタデータ生成部２０６が生成した区間メタデータを映像データに関連付けて記憶装置１０４に保存する。例えば、メタデータ保存部２０７は、区間メタデータと映像データとを同一のファイルに保存する。または、例えば、メタデータ保存部２０７は、区間メタデータと映像データを別々のファイルに保存し、これら２つのファイルを関連付ける。

なお、情報処理装置１００の機能の一部または全部がネットワークカメラ１１０で行われてもよい。例えば、人物検出部２０２、物体検出部２０３、ジェスチャ判定部２０４、映像認識部２０５、メタデータ生成部２０６、メタデータ保存部２０７により行われる処理を、ネットワークカメラ１１０が行うようにしてもよい。

［情報処理装置のフローチャート］
図３は第１実施形態による区間メタデータ生成処理を示すフローチャートである。以下、図３のフローチャートを用いて、第１実施形態に係る情報処理装置１００の処理を説明する。なお、以下の説明における記号「Ｓ」は、当該フローチャートにおけるステップであることを意味し、以後のフローチャートにおいても同様とする。図３のフローチャートにより示される一連の処理は、ＣＰＵ１０１がＲＯＭ１０２に保存されたプログラムをＲＡＭ１０３に展開し実行することによって実現される。本フローチャートの開始は、ネットワークカメラ１１０の電源がＯＮになった時とする。

まず、Ｓ３０１において、映像取得部２０１は、ネットワークカメラ１１０が撮影した映像の取得を開始する。本実施形態では、ネットワークカメラ１１０は授業が行なわれている教室内の教師や黒板等を撮影しているものとする。なお、本実施形態では、ネットワークカメラ１１０により撮影された画像をリアルタイムに取得し処理する例を説明するが、本開示はこれに限られるものではない。例えば、映像取得部２０１は、ネットワークカメラ１１０により撮影を終えて、記憶装置１０４（または外部の記憶装置）に格納された映像を取得してもよい。

次に、Ｓ３０２において、人物検出部２０２は、映像取得部２０１が取得した映像から所定の人物（本例では教師）を検出する。教師が検出された場合（Ｓ３０２でＹＥＳ）、処理はＳ３０３に進む。一方、教師が検出されなかった場合（Ｓ３０２でＮＯ）、処理はＳ３０７に進む。Ｓ３０３において、物体検出部２０３は、映像取得部２０１が取得した映像データから所定の物体（本例では教科書、問題集のような教材）を検出する。教材が検出された場合（Ｓ３０３でＹＥＳ）、処理はＳ３０４に進む。一方、教材が検出されなかった場合（Ｓ３０３でＮＯ）、処理はＳ３０７に進む。

次に、Ｓ３０４において、ジェスチャ判定部２０４は、検出された教師の姿勢と物体の位置とにより、所定の人物である教師の動作が特定の条件を満たすかを判定する。特定の条件を満たす場合（Ｓ３０４でＹＥＳ）、処理はステップＳ３０５に進む。一方、特定の条件を満たさない場合（Ｓ３０４でＮＯ）、処理はステップＳ３０７に進む。

Ｓ３０５において、映像認識部２０５は、特定の期間の映像についての認識処理結果を取得する。本例では、映像認識部２０５は、特定の期間の映像の音声情報についての音声認識の結果が取得される。Ｓ３０６において、メタデータ生成部２０６は、ジェスチャ判定部２０４により特定の条件を満たすと判定された映像時刻と、Ｓ３０４で得られたＳ３０５で得られた認識結果とを用いて、区間メタデータを生成する。次に、ステップＳ３０７において、ＣＰＵ１０１は、ネットワークカメラ１１０の撮影が終了しているかを判定する。撮影が終了している場合（Ｓ３０７でＹＥＳ）、処理はＳ３０８に進む。一方、撮影が終了していない場合（Ｓ３０７でＮＯ）、処理はＳ３０２に戻る。

Ｓ３０８において、メタデータ生成部２０６は、Ｓ３０６で生成された区間メタデータを、例えば記憶装置１０４に保存する。このとき、メタデータ生成部２０６は、まず、区間メタデータの生成が完了しているか否かを確認する。例えば、同じＩＤの区間メタデータは、状態が開始の区間メタデータと状態が終了の区間メタデータとで一対となる。従って、あるＩＤの区間メタデータが一つしかない場合、区間メタデータの生成が完了していないと判定される。メタデータ生成部２０６は、区間メタデータの生成を完了するために、１つしか存在しない区間メタデータの状態が開始の場合は、同一のＩＤを有し、状態が終了である区間メタデータを生成する。この場合、映像時刻には、例えば、次のＩＤの区間メタデータに記述されている映像時刻より所定時間だけ前の時刻が用いられる。或いは、次のＩＤの区間メタデータが存在しない場合、映像時刻には、撮影の終了時刻（映像終了時刻）またはそれより所定時間だけ前の時刻が用いられる。一方、あるＩＤについて１つしか存在しない区間メタデータの状態が終了の場合は、このＩＤの区間メタデータを削除する。区間メタデータの生成の完了が確認されると、メタデータ保存部２０７は生成された区間メタデータを映像データと関連付けて保存する。そして、本フローチャートの処理を終了する。

［映像と区間メタデータの例］
図４の映像例と図５の区間メタデータの例を用いて、図３のフローチャートに示される主要なステップについて、より詳細に説明する。

まず、図４（ａ）は、教師４０２が教科書４０１を片手で掲げて、教科書、Ｐ５と発声している映像である。Ｓ３０２において、人物検出部２０２が、所定の人物として教師４０２を検出する。Ｓ３０３において、物体検出部２０３が、所定の物体として教科書４０１を検出する。Ｓ３０４において、ジェスチャ判定部２０４は、Ｓ３０２で検出された教師４０２の姿勢とＳ３０３で検出された教科書４０１の位置とが、特定の条件を満たしていると判定する。そして、ジェスチャ判定部２０４は、所定の人物の動作が特定の条件を満たすと判定された映像時刻０：００：１０を記憶する。ここで、特定の条件とは、教師の姿勢が片腕を上げていて、教科書の位置が教師の上げた腕の先端近くにあることである。

続いて、Ｓ３０５において、映像認識部２０５は、Ｓ３０４で特定の条件が満たされたと判定された映像時刻に基づいて決定される特定の期間の映像に含まれる音声についての音声認識結果を取得する。本例では、例えば映像時刻からの５秒間を特定の期間とする。ここで、音声認識結果として、「教科書、Ｐ５」が得られたとする。Ｓ３０６において、メタデータ生成部２０６は、Ｓ３０５での認識結果を用いて、区間メタデータを生成する。図５（ａ）に、Ｓ３０６で生成される区間メタデータの例を示す。映像時刻には、特定の条件が満たされた映像時刻である「０：００：１０」が記述される。詳細情報は認識結果に基づいて生成され、「教科書、Ｐ５」が記述される。詳細情報に「教科書、Ｐ５」が記述された他の区間メタデータは存在しないので、区間メタデータの状態には「開始」が設定される。ＩＤには他の区間データのＩＤと重複しない値が設定される。図示の例では、ＩＤに「１」が設定されている。状態に「開始」が設定されている区間メタデータの映像時刻は、区間の開始時刻を表す。

なお、音声認識される音声は、例えば、「それでは、教科書の５ページを開いてください」というような発声でもよい。この場合、例えば、キーワードとして教科書、問題集のような単語、ページ番号を登録しておき、さらに、ページ番号はＰと数字で表すように変換する規則を設定しておく。映像認識部２０５は、音声認識により得られた文字列を解析して、キーワードを参照することで「教科書」と「５ページ」を抽出し、「教科書、Ｐ５」を認識結果として得るようにしてもよい。このようにすれば、自由な会話音声から、所定の形式で表記された認識結果を得ることができる。

Ｓ３０７において、撮影は終了していないので、処理はＳ３０２へ戻る。処理の続きを、図４（ｂ）を用いて説明する。図４（ｂ）は、教師４０２が教科書４０１を片手で掲げて、「教科書、Ｐ６」と発声している映像である。以下、図４（ａ）との差分を説明する。Ｓ３０４において、図４（ａ）と同様に、ジェスチャ判定部２０４は、所定の人物の動作が特定の条件を満たしていると判定し、特定の条件が満たされたと判定された映像時刻０：１６：００を記憶装置１０４に記憶する。Ｓ３０５において、映像認識部２０５による音声認識結果として「教科書、Ｐ６」が得られる。Ｓ３０６において、メタデータ生成部２０６は、新たな区間メタデータを生成する。図５（ｂ）に、Ｓ３０６で生成される区間メタデータの例を示す。新たに生成される区間メタデータの映像時刻は「０：１６：００」、詳細情報は「教科書、Ｐ６」となる。詳細情報に「教科書、Ｐ６」が記述された他の区間メタデータは存在しないので、当該区間メタデータの状態は「開始」となり、ＩＤには他の区間メタデータと重複しない新規のＩＤ（本例では「２」）が設定される。

メタデータ生成部２０６は、新規のＩＤの区間メタデータを生成する際に、特定の条件を満たすと判定された映像時刻（上記ＩＤ＝２の区間メタデータの映像時刻）より前に開始された区間の終了を示す区間メタデータを生成する。より具体的には、まず、メタデータ生成部２０６は、既存の区間メタデータの状態を確認する。既存のＩＤ＝１の区間メタデータには、状態が「開始」となっている区間メタデータしか存在しないので、区間メタデータの対が完成していない。そこで、メタデータ生成部２０６は、既存のＩＤ＝１の区間メタデータをコピーし、状態に「終了」が記述された区間メタデータを生成する。また、この区間メタデータの映像時刻には、ＩＤ＝２の区間メタデータに対応する区間の開始よりも所定時間（本例では１秒とする）だけ前の時刻が設定される。結果、図５（ｂ）に示されるように、メタデータ生成部２０６は、ＩＤ＝１を有し、映像時刻に「０：１５：５９」が記述され、状態が終了である区間メタデータが生成される。状態に「終了」が設定されている区間メタデータの映像時刻は、区間の終了時刻を表す。

Ｓ３０７において、撮影は終了していないので、Ｓ３０２へ処理が進む。処理の続きを、図４（ｃ）を用いて説明する。図４（ｃ）は、教師４０２が問題集４０３を片手で掲げて、「問題集、Ｐ１０」と発声している映像である。以下、図４（ｂ）との差分を説明する。Ｓ３０４において、ジェスチャ判定部２０４は、図４（ａ）と同様に、特定の条件が満たされたと判定し、特定の条件が満たされた映像時刻０：３０：００をＲＡＭ１０３に記憶する。Ｓ３０５において、映像認識部２０５による音声認識結果は、「問題集、Ｐ１０」となる。Ｓ３０６において、メタデータ生成部２０６は、新たな区間メタデータを生成する。図５（ｃ）に示されるように、Ｓ３０６で生成される新たな区間メタデータは、映像時刻に「０：３０：００」、詳細情報に「問題集、Ｐ１０」が記述される。詳細情報として「問題集、Ｐ１０」を有する他の区間メタデータは存在しないので、他の区間メタデータのＩＤと重複しないＩＤ（本例では「３」）が設定され、状態には「開始」が設定される。

上述の様に、新規のＩＤの区間メタデータを生成する際には、既存の区間メタデータの状態が確認される。既存のＩＤ＝「２」の区間メタデータには状態が「開始」となっている区間メタデータしか存在しないため、メタデータ生成部２０６は、ＩＤ＝「２」、状態＝「終了」の区間メタデータを生成する。上述のように、この区間メタデータの映像時刻には、ＩＤ＝「３」の区間メタデータの映像時刻（０：３０：００）よりも前の時刻が設定される。図５（ｃ）では、「０：２９：５９」が設定されている。

その後、ネットワークカメラ１１０による撮影の終了が指示されると、Ｓ３０７において撮影終了と判定され、Ｓ３０８へ処理が進む。処理の続きを、図５（ｄ）を用いて説明する。図５（ｄ）は、フローチャートの図３のＳ３０７で撮影が終了したと判定され、Ｓ３０８へ処理が進んだ場合の区間メタデータの例である。Ｓ３０８において、図５（ｃ）で示すように、ＩＤ＝「３」の区間メタデータには、状態＝「開始」の区間メタデータは存在するが、状態＝「終了」の区間メタデータが存在しない。このため、メタデータ生成部２０６は、区間メタデータの生成が完了していないと判定し、図５（ｄ）で示すように、ＩＤ＝「３」，状態＝「終了」の区間メタデータを生成する。また、この区間メタデータの映像時刻には撮影が終了した時刻（本例では、「０：４５：００」）が設定される。この処理の結果、区間メタデータの生成の完了が確認され、メタデータ生成部２０６は、生成された区間メタデータを映像データと関連付けて記憶装置１０４に保存する。

［映像データに付与された区間メタデータの使用例］
次に、映像データに付与された区間メタデータの使用例を、図１０（ａ）、（ｂ）を用いて説明する。図１０（ａ）、（ｂ）共に、生徒の携帯端末１０９が有する表示制御の機能によって携帯端末１０９の表示装置に表示される画面の例である。情報処理装置１００は、記憶装置１０４から、映像データとこれに関連付けられた区間メタデータを読み出し、携帯端末１０９に提供する。なお、以下に説明される画面は、情報処理装置１００が有する表示制御の機能によって、情報処理装置１００が有する表示装置に表示されてもよい。

図１０（ａ）では、映像データのタイムライン上に、上記処理により付与された区間メタデータの該当する区間が表示された画面例である。区間メタデータの開始と終了の区間が点線の矢印で表示され、この矢印の近くに詳細情報が表示される。図１０（ａ）では、例として、教科書のＰ５、Ｐ６と問題集のＰ１０が図示されている。映像データのタイムライン上に、上記処理で付与された区間メタデータを表示することで、授業で使用された教材の説明が行われている映像位置を容易に把握することができる。よって、授業の映像を用いた自習時の学習効率が向上する。図１０（ｂ）では、映像データの説明として、付与された区間メタデータを表示する例が示されている。図１０（ｂ）では、使用した教材として、区間メタデータの詳細情報が表示される。例えば、使用した教材として、教科書のＰ５、Ｐ６と問題集のＰ１０が示されている。なお、図１０（ａ）、（ｂ）のように表示された区間メタデータの詳細情報を生徒が選択すると、対応する区間メタデータの映像が再生されるようにしてもよい。例えば、図１０（ａ）、（ｂ）の表示において、教科書のＰ５がクリックされると、教科書のＰ５を詳細情報とする区間データ（図５のＩＤ＝１）の開始の位置（映像時刻＝０：００：１０）から映像が再生される。なお、詳細情報の選択は、例えば、クリック操作により行われ得る。

以上のように、付与された区間メタデータの詳細情報を、映像データの説明として表示することで、授業で使用された教材を容易に把握することができる。さらに、表示された区間メタデータの詳細情報と対応する映像データの位置を対応付けることで、授業で使用した教材の説明が行われている映像を、容易に再生することができる。よって、授業の映像を用いた自習時の、生徒の学習効率を向上できる。

第１実施形態によれば、授業中の教師の姿勢と、授業で使用する教材の位置で構成される条件を用いることで、映像データに区間メタデータを、簡便に付与することができる。よって、教師の業務負荷を増加させずに、生徒の学習効率を向上することができる。

（第２実施形態）
以下、第２実施形態について第１実施形態と異なる部分を主として説明する。第１実施形態では、映像から検出された所定の人物が、所定の物体を所持して所定の姿勢をとった場合に、特定の条件が満たされたと判定する例を示した。第２実施形態では、映像から検出された所定の人物が特定の領域の状態を変更する動作を行った場合に、特定の条件が満たされたと判定する例を説明する。以下、具体例として、黒板の左上に特定の領域を設定し、この特定の領域内に教師が文字を書いたり消したりした場合に、特定の条件が満たされたと判定し、区間メタデータを生成する構成を説明する。なお、黒板の左上の特定領域を示す情報は、情報処理装置１００（又は情報処理システム１）に予め登録されるものとする。

図６は第２実施形態による情報処理装置１００の機能構成例を示すブロック図である。第１実施形態の物体検出部２０３に代えて領域検出部６０３が設けられている。領域検出部６０３は、映像データのフレーム画像から特定の領域を検出する。例えば、情報処理装置１００に特定の領域として黒板の左上の領域が登録されている場合、物体検出部２０３は、映像から黒板を検出し、検出された黒板の領域から特定の領域を検出する。

図７は、第２実施形態による区間メタデータ生成処理を示すフローチャートである。Ｓ３０１～Ｓ３０２、Ｓ３０５～Ｓ３０８の処理は、第１実施形態（図３）と同様の処理である。Ｓ７０３において、領域検出部６０３は、取得した映像から特定の領域を検出する。例えば、領域検出部６０３は、映像から黒板を検出し、検出した黒板の左上隅に設定されている領域を特定の領域として検出する。このように映像から所定の物体を検出し、所定の物体に設定された特定の領域を検出することで、ネットワークカメラ１１０の画角（撮影方向およびズーム）が変化しても特定の領域を正しく検出することができる。

Ｓ７０４において、ジェスチャ判定部２０４は、Ｓ３０２で検出された所定の人物（教師）の状態と、Ｓ７０３で検出された特定の領域の状態とに基づいて、特定の条件が満たされるか否かを判定する。例えば、教師の腕の先端が特定の領域内にあり、かつ特定の領域内の文字情報が変化した場合に、特定の条件が満たされたと判定される。ジェスチャ判定部２０４は、特定の条件が満たされたと判定した場合に、その映像時刻をＲＡＭ１０３に記憶する。ジェスチャ判定部２０４により特定の条件が満たされたと判定された場合（Ｓ７０４でＹＥＳ）、処理はＳ３０５へ進み、特定の条件が満たされていないと判定された場合（Ｓ７０４でＮＯ）、処理はＳ３０７に進む。

なお、ネットワークカメラ１１０の画角が固定されているのであれば、特定の領域も映像中の固定された領域に固定される。したがって、この場合、領域検出部６０３は、単に、映像からあらかじめ設定された領域を特定の領域として切り出すことになる。

次に、図８（ａ）～（ｆ）の映像例と図９（ａ）～（ｆ）の区間メタデータの例を用いて、上述したフローチャート（図７）の主要なステップをより詳細に説明する。

まず、図８（ａ）は、何も記載されていなかった特定の領域８０１内に、教師８０２が「教科書Ｐ７」と記入した映像である。この場合、Ｓ３０２において人物検出部２０２は、人物として教師８０２を検出する。Ｓ７０３において、領域検出部６０３は、黒板８０３の左上の領域を特定の領域８０１として検出する。Ｓ７０４において、ジェスチャ判定部２０４は、Ｓ３０２で検出された教師８０２の状態と、Ｓ７０３で検出された特定の領域８０１の状態とに基づいて、特定の条件が満たされたか否かを判定する。ここでは、教師８０２の上げた腕の先端が特定の領域８０１内にあり、かつ特定の領域８０１内の文字情報が変化しているので、特定の条件を満たしていると判定される。なお、文字情報は、映像認識部２０５が特定の領域８０１の画像について文字認識を行った認識結果である。特定の条件が満たされた映像時刻０：００：１０がＲＡＭ１０３に記憶される。

Ｓ３０５において、映像認識部２０５は、映像中の、Ｓ３０４で得られた映像時刻に基づいて特定されるフレーム画像（静止画）における特定の領域８０１内の文字を画像認識（文字認識）する。これにより、特定の領域８０１に教師８０２が記載した文字が認識される。例えば、Ｓ７０４では、特定の領域８０１から「教」という文字が検出された時点で特定の条件が満たされたと判定され、その時の映像時刻が取得される。Ｓ３０５において、映像認識部２０５は、Ｓ７０４で取得された映像時刻に、文字の記入に要すると見込まれる時間を加えた時刻を取得し、取得された時刻のフレーム画像の特定の領域８０１の画像について画像認識（文字認識）を行う。

本例では、画像認識結果は、「教科書」、「Ｐ７」となる。Ｓ３０６において、メタデータ生成部２０６は、Ｓ３０５の認識結果を用いて区間メタデータを生成する。図９（ａ）に、Ｓ３０６で生成される区間メタデータの例を示す。映像時刻は特定の条件が満たされたと判定された時刻であり、「０：００：１０」となる。画像認識結果に基づいて詳細情報が生成されるので、詳細情報は「教科書、Ｐ７」となる。詳細情報が「教科書、Ｐ７」である他の区間メタデータは存在しないので、状態には「開始」が設定され、ＩＤには他のＩＤと重複しないＩＤ（ここでは「１」）が設定される。

Ｓ３０７において、撮影は終了していないので、Ｓ３０２へ処理が進む。図８（ｂ）では、「教科書Ｐ７」と記載されていた特定の領域８０１内の「Ｐ７」を教師８０２が消している映像である。以下、図８（ａ）の場合との差分を説明する。Ｓ７０４において、ジェスチャ判定部２０４は、教師８０２と特定の領域８０１とに基づいて特定の条件が満たされていると判定し、特定の条件が満たされた映像時刻０：１５：５５をＲＡＭ１０３に記憶する。例えば、教師８０２が「Ｐ７」の「Ｐ」の文字から消し始めたとする。この場合、上述したように、Ｓ７０４では、特定の領域８０１から「Ｐ」という文字が検出されなくなった時点で特定の条件が満たされたと判定され、その時の映像時刻が取得される。Ｓ３０５において、映像認識部２０５は、Ｓ７０４で取得された映像時刻に、文字の消去に要すると見込まれる時間を加えた時刻を取得し、取得された時刻のフレーム画像の特定の領域８０１の画像について画像認識（文字認識）を行う。上述した、文字の記入に要すると見込まれる時間と、文字の消去に要すると見込まれる時間とは、同じであってもよいし、異なっていてもよい。

Ｓ３０５において、映像認識部２０５による画像認識結果は「教科書」となり、特定の領域８０１において「Ｐ７」が消されたことが認識される。Ｓ３０６において、メタデータ生成部２０６により生成される区間メタデータの例を、図９（ｂ）に示す。映像時刻は０：１５：５５である。Ｓ３０５でＰ７が消されたと認識されているので、メタデータ生成部２０６は、直前に開始した区間メタデータ（本例ではＩＤ＝１の区間メタデータ）の終了と判断する。従って、ＩＤと詳細情報は先に登録されたＩＤ＝１の区間メタデータのまま、映像時刻を「０：１５：５５」、状態を「終了」とした区間メタデータが生成される。このように、第２実施形態では、新たな区間の開始を表すメタデータを生成するか、既存の区間の終了を表すパラメータを生成するかが、認識結果に基づいて判定される。なお、上記例において、「Ｐ」と「７」のいずれかの文字が特定の領域８０１から検出されなくなった時点でメタデータ生成部２０６は直ちに区間の終了と判断し、ＩＤが「１」、状態が「終了」の区間メタデータを生成するようにしてもよい。また、文字の消去を検出し損なった場合に備えて、第１実施形態で説明した、「終了」の区間メタデータを生成する処理が併用されてもよい。

Ｓ３０７において、撮影は終了していないので、Ｓ３０２へ処理が進む。処理の続きを、図８（ｃ）を用いて説明する。図８（ｃ）は、「教科書」と記載されていた特定の領域８０１内に、教師８０２が「Ｐ８」を追記した映像である。図８（ｂ）との差分を説明する。Ｓ７０４において、ジェスチャ判定部２０４は、図８（ｂ）と同様に特定の条件を満たしていると判定し、特定の条件が満たされた映像時刻０：１６：００をＲＡＭ１０３に記憶する。Ｓ３０５において、映像認識部２０５の画像認識結果は「教科書」「Ｐ８」となり、特定の領域８０１に「Ｐ８」が追記されたことが認識される。Ｓ３０６においてメタデータ生成部２０６により生成される区間メタデータの例を図９（ｃ）に示す。映像時刻は０：１６：００、詳細情報は「教科書、Ｐ８」である。他の区間メタデータの詳細情報で「教科書、Ｐ８」は存在しないので、状態には「開始」が設定され、ＩＤは他のＩＤと重複しないようにＩＤ＝２が設定される。

Ｓ３０７において、撮影は終了していないので、Ｓ３０２へ処理が進む。処理の続きを、図８（ｄ）を用いて説明する。図８（ｄ）は、「教科書Ｐ８」と記載されていた特定の領域８０１内の文字を教師８０２が消したときの映像である。図８（ｃ）との差分を説明する。Ｓ７０４において、ジェスチャ判定部２０４は、図８（ｃ）と同様に特定の条件が満たされたと判定し、特定の条件が満たされた映像時刻０：２９：５５をＲＡＭ１０３に記憶する。Ｓ３０５において、画像認識結果はなしとなり、教科書、Ｐ８が消されたことが認識される。Ｓ３０６において生成される区間メタデータの例を、図９（ｄ）に示す。映像時刻は０：２９：５５である。Ｓ３０５で「教科書」と「Ｐ８」が消されたことが認識されているので、メタデータ生成部２０６は、直前に開始した区間メタデータ（本例ではＩＤ＝２の区間メタデータ）の終了と判断する。したがって、メタデータ生成部２０６は、ＩＤ＝２の区間メタデータをコピーし、映像時刻を「０：２９：５５」に、状態を「終了」に設定することで区間メタデータを生成する。

Ｓ３０７において、撮影は終了していないので、Ｓ３０２へ処理が進む。処理の続きを、図８（ｅ）を用いて説明する。図８（ｅ）は、何も記載されていない特定の領域８０１内に、教師８０２が「問題集Ｐ２０」を記載している映像である。図８（ｄ）との差分を説明する。Ｓ７０４において、図８（ｄ）と同様に、ジェスチャ判定部２０４は、特定の条件を満たしていると判定し、特定の条件が満たされた映像時刻０：３０：００をＲＡＭ１０３に記憶する。Ｓ３０５において、映像認識部２０５の画像認識結果から、「問題集」「Ｐ２０」が得られ、特定の領域８０１に「問題集」と「Ｐ２０」が記載されたことが認識される。Ｓ３０６において、メタデータ生成部２０６により生成される区間メタデータの例を図９（ｅ）に示す。映像時刻は「０：３０：００」、詳細情報は「問題集、Ｐ２０」であり、他の区間メタデータの詳細情報で「問題集、Ｐ２０」は存在しないので、状態には「開始」が設定され、ＩＤには他のＩＤと重複しないＩＤ＝３が設定される。

Ｓ３０７において、撮影は終了していないので、Ｓ３０２へ処理が進む。処理の続きを、図８（ｆ）を用いて説明する。図８（ｆ）は、「問題集Ｐ２０」と記載されていた特定の領域８０１内の文字を教師８０２が消した映像である。図８（ｅ）との差分を説明する。Ｓ７０４において、ジェスチャ判定部２０４は、図８（ｅ）と同様に特定の条件が満たされたと判定し、特定の条件が満たされた映像時刻０：４４：３０をＲＡＭ１０３に記憶する。Ｓ３０５において、映像認識部２０５による画像認識結果は「文字が無い」となり、「問題集」「Ｐ２０」が特定の領域８０１から消されたことが認識される。Ｓ３０６においてメタデータ生成部２０６により生成される区間メタデータの例を図９（ｆ）に示す。映像時刻は０：４４：３０である。Ｓ３０５で「問題集」、「Ｐ２０」が消されたことが認識されているので、メタデータ生成部２０６は、直前に開始した区間メタデータ（本例ではＩＤ＝３の区間メタデータ）の終了と判断する。メタデータ生成部２０６は、ＩＤ＝３の区間メタデータをコピーし、映像時刻を「０：４４：３０」に、状態を「終了」に設定することで区間メタデータを生成する。

その後、Ｓ３０７において撮影の終了が判定されると、処理はＳ３０８へ進む。Ｓ３０８において、図９（ｆ）に示すように、全ての同一のＩＤの状態が、開始と終了の対となっているため、区間メタデータの生成が完了している。よって、生成されたメタデータを映像データに関連付けて記憶装置１０４に保存し、処理を終了する。

以上のように第２実施形態によれば、授業を行っている教師の腕の先端の位置が特定の領域内に存在し、かつ特定の領域内の文字情報を用いることで、映像データに区間メタデータを簡便に付与することができる。

なお、特定の領域への記載内容は、「教科書、Ｐ５」のような形態に限られるものではなく、例えば、「教科書の５ページ」のような形態の記載でもよい。この場合、第１実施形態でも説明したように、キーワードとして教科書、問題集のような単語、ページ番号を登録しておき、さらに、ページ番号はＰと数字で表すように変換する規則を設定しておく。これにより、映像認識部２０５は、文字認識により「教科書」「５ページ」が取得されると「５ページ」を「Ｐ５」に変換し、「教科書、Ｐ５」という認識結果を出力する。また、特定の領域への変更の検出をジェスチャ判定部２０４による判定に使用し、認識情報を得るための映像認識処理を第１実施形態のような音声認識としてもよい。その場合、例えば、教師が領域における記載内容を変更した後に「教科書、Ｐ５」と発声することにより、区間メタデータが生成される。

（その他の実施形態）
上述の実施形態では、教科書や問題集等の教材を使用して授業を行う場合について説明したが、それ以外の場面でも本開示を適用できる。例えば、理科の実験の授業にも適用することができる。授業に使用する教材を、実験で使用する実験器具と読み替えることで、同様に区間メタデータを映像データに付与することができる。

さらに、授業だけではなく、ユーチューバーによる商品紹介やフリップを用いた番組等の動画作成にも適用することができる。授業に使用する教材を、商品紹介で使用する商品や番組で使用するフリップと読み替えることで、同様に区間メタデータを映像データに付与することができる。

また、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

以上のように、上記各実施形態によれば、授業の映像に区間メタデータを簡便に付与することができる。そして、付与された区間メタデータを参照することで、授業に使用した教材に対応する授業映像の位置を簡単に見つけることができる。よって、教師の業務負荷を増加させずに、生徒の学習効率を改善することができる。

本明細書の開示は、以下の情報処理装置、情報処理システム、情報処理方法、プログラムを含む。
（項目１）
映像から所定の人物を検出する第１検出手段と、
前記第１検出手段により前記映像から検出された前記所定の人物の動作が特定の条件を満たすか否かを判定する判定手段と、
前記映像のうちの、前記判定手段により前記特定の条件が満たされたと判定された時刻に基づいて選択された区間の映像に基づいて、当該区間の映像のメタデータを生成する生成手段と、を有することを特徴とする情報処理装置。
（項目２）
前記映像を構成する画像または音声を認識する認識手段を有し、
前記生成手段は、前記区間の映像を前記認識手段が認識することにより得られる認識結果に基づいて前記メタデータを生成すること、を特徴とする項目１に記載の情報処理装置。
（項目３）
前記メタデータは、前記映像の前記区間の開始時刻と詳細情報とを含み、
前記開始時刻は、前記判定手段により前記特定の条件が満たされたと判定された時刻に基づいて生成され、
前記詳細情報は、前記認識手段の前記認識結果に基づいて生成されること、を特徴とする項目２に記載の情報処理装置。
（項目４）
前記認識手段は、前記特定の条件が満たされたと判定された時刻に基づいて決定される特定の期間の映像に含まれる音声についての音声認識の結果を取得し、
前記生成手段は、前記認識手段により取得される前記音声認識の結果に基づいて、前記メタデータを生成することを特徴とする項目２または３に記載の情報処理装置。
（項目５）
前記認識手段は、前記映像の、前記特定の条件が満たされたと判定された時刻に基づいて特定されるフレーム画像の特定の領域の画像について文字認識を行い、
前記生成手段は、前記認識手段による前記文字認識の結果に基づいて、前記メタデータを生成することを特徴とする項目２または３に記載の情報処理装置。
（項目６）
前記生成手段は、前記区間のメタデータを生成する際に、前記特定の条件が満たされたと判定された前記時刻より前に開始された区間の終了を示すメタデータを生成することを特徴とする項目３に記載の情報処理装置。
（項目７）
前記生成手段は、前記特定の条件が満たされたと判定された場合に、前記時刻より前に開始された区間の終了を示すメタデータを生成するか、前記時刻から開始される区間のメタデータを生成するかを、前記認識結果に基づいて判定することを特徴とする項目３に記載の情報処理装置。
（項目８）
前記映像から所定の物体を検出する第２検出手段をさらに有し、
前記判定手段は、前記映像から検出された前記所定の人物の姿勢と、前記映像から検出された前記所定の物体と前記所定の人物の位置関係とに基づいて前記特定の条件が満たされたか否かを判定することを特徴とする項目１乃至７のいずれか１項に記載の情報処理装置。
（項目９）
前記判定手段は、前記映像から検出された前記所定の人物の状態と、前記映像の特定の領域の画像とに基づいて前記特定の条件が満たされたか否かを判定することを特徴とする項目１乃至７のいずれか１項に記載の情報処理装置。
（項目１０）
前記判定手段は、前記所定の人物の姿勢と前記特定の領域の画像とに基づいて、前記所定の人物により前記特定の領域の状態が変更されたことが検出された場合に前記特定の条件が満たされたと判定することを特徴とする項目９に記載の情報処理装置。
（項目１１）
前記映像から前記特定の領域を検出する第３の検出手段をさらに有することを特徴とする項目９または１０に記載の情報処理装置。
（項目１２）
前記判定手段により前記特定の条件を満たすと判定されたこと、または、前記生成手段により前記メタデータが生成されたことを、ユーザへ通知する通知手段をさらに備えることを特徴とする項目１乃至１１のいずれか１項に記載の情報処理装置。
（項目１３）
前記生成手段により生成された前記区間のメタデータを表示装置に表示する表示制御手段をさらに備えることを特徴とする項目１乃至１２のいずれか１項に記載の情報処理装置。
（項目１４）
前記表示制御手段により表示されたメタデータのうちユーザにより選択されたメタデータに対応する区間の映像を再生する再生手段をさらに備えることを特徴とする項目１３記載の情報処理装置。
（項目１５）
項目１乃至１１のいずれか１項に記載された情報処理装置と、
前記情報処理装置と接続される撮像装置と、
前記情報処理装置と接続される端末装置と、を備え、
前記情報処理装置は、前記撮像装置により撮影された映像を前記区間のメタデータとともに保存し、
前記端末装置は、前記情報処理装置に保存された前記映像と前記区間のメタデータとを表示する表示手段を備える、ことを特徴とする情報処理システム。
（項目１６）
前記撮像装置は、前記判定手段により前記特定の条件を満たすと判定されたこと、または、前記生成手段により前記メタデータが生成されたことを、ユーザへ通知する通知手段を備える、ことを特徴とする項目１５に記載の情報処理システム。
（項目１７）
前記端末装置は、前記表示手段により表示されたメタデータのうちユーザにより選択されたメタデータに対応する区間の映像を再生する再生手段を備える、ことを特徴とする項目１５または１６に記載の情報処理システム。
（項目１８）
映像から所定の人物を検出する検出工程と、
前記検出工程により前記映像から検出された前記所定の人物の動作が特定の条件が満たさすか否かを判定する判定工程と、
前記映像のうちの、前記判定工程により前記特定の条件が満たされたと判定された時刻に基づいて選択された区間の映像に基づいて、当該区間の映像のメタデータを生成する生成工程と、を有することを特徴とする情報処理方法。
（項目１９）
コンピュータを、項目１乃至１４のいずれか１項に記載された情報処理装置の各手段として機能させるプログラム。

１００：情報処理装置、１１０：ネットワークカメラ、２０１：映像取得部、２０２：人物検出部、２０３：物体検出部、２０４：ジェスチャ判定部、２０５：映像認識部、２０６：メタデータ生成部、２０７：メタデータ保存部、６０３：領域検出部

Claims

映像から所定の人物を検出する第１検出手段と、
前記第１検出手段により前記映像から検出された前記所定の人物の動作が特定の条件を満たすか否かを判定する判定手段と、
前記映像のうちの、前記判定手段により前記特定の条件が満たされたと判定された時刻に基づいて選択された区間の映像に基づいて、当該区間の映像のメタデータを生成する生成手段と、を有することを特徴とする情報処理装置。
前記映像を構成する画像または音声を認識する認識手段を有し、
前記生成手段は、前記区間の映像を前記認識手段が認識することにより得られる認識結果に基づいて前記メタデータを生成すること、を特徴とする請求項１に記載の情報処理装置。
前記メタデータは、前記映像の前記区間の開始時刻と詳細情報とを含み、
前記開始時刻は、前記判定手段により前記特定の条件が満たされたと判定された時刻に基づいて生成され、
前記詳細情報は、前記認識手段の前記認識結果に基づいて生成されること、を特徴とする請求項２に記載の情報処理装置。
前記認識手段は、前記特定の条件が満たされたと判定された時刻に基づいて決定される特定の期間の映像に含まれる音声についての音声認識の結果を取得し、
前記生成手段は、前記認識手段により取得される前記音声認識の結果に基づいて、前記メタデータを生成することを特徴とする請求項２に記載の情報処理装置。
前記認識手段は、前記映像の、前記特定の条件が満たされたと判定された時刻に基づいて特定されるフレーム画像の特定の領域の画像について文字認識を行い、
前記生成手段は、前記認識手段による前記文字認識の結果に基づいて、前記メタデータを生成することを特徴とする請求項２に記載の情報処理装置。
前記生成手段は、前記区間のメタデータを生成する際に、前記特定の条件が満たされたと判定された前記時刻より前に開始された区間の終了を示すメタデータを生成することを特徴とする請求項３に記載の情報処理装置。
前記生成手段は、前記特定の条件が満たされたと判定された場合に、前記時刻より前に開始された区間の終了を示すメタデータを生成するか、前記時刻から開始される区間のメタデータを生成するかを、前記認識結果に基づいて判定することを特徴とする請求項３に記載の情報処理装置。
前記映像から所定の物体を検出する第２検出手段をさらに有し、
前記判定手段は、前記映像から検出された前記所定の人物の姿勢と、前記映像から検出された前記所定の物体と前記所定の人物の位置関係とに基づいて前記特定の条件が満たされたか否かを判定することを特徴とする請求項１に記載の情報処理装置。
前記判定手段は、前記映像から検出された前記所定の人物の状態と、前記映像の特定の領域の画像とに基づいて前記特定の条件が満たされたか否かを判定することを特徴とする請求項１に記載の情報処理装置。
前記判定手段は、前記所定の人物の姿勢と前記特定の領域の画像とに基づいて、前記所定の人物により前記特定の領域の状態が変更されたことが検出された場合に前記特定の条件が満たされたと判定することを特徴とする請求項９に記載の情報処理装置。
前記映像から前記特定の領域を検出する第３の検出手段をさらに有することを特徴とする請求項９に記載の情報処理装置。
前記判定手段により前記特定の条件を満たすと判定されたこと、または、前記生成手段により前記メタデータが生成されたことを、ユーザへ通知する通知手段をさらに備えることを特徴とする請求項１に記載の情報処理装置。
前記生成手段により生成された前記区間のメタデータを表示装置に表示する表示制御手段をさらに備えることを特徴とする請求項１に記載の情報処理装置。
前記表示制御手段により表示されたメタデータのうちユーザにより選択されたメタデータに対応する区間の映像を再生する再生手段をさらに備えることを特徴とする請求項１３記載の情報処理装置。
請求項１乃至１１のいずれか１項に記載された情報処理装置と、
前記情報処理装置と接続される撮像装置と、
前記情報処理装置と接続される端末装置と、を備え、
前記情報処理装置は、前記撮像装置により撮影された映像を前記区間のメタデータとともに保存し、
前記端末装置は、前記情報処理装置に保存された前記映像と前記区間のメタデータとを表示する表示手段を備える、ことを特徴とする情報処理システム。
前記撮像装置は、前記判定手段により前記特定の条件を満たすと判定されたこと、または、前記生成手段により前記メタデータが生成されたことを、ユーザへ通知する通知手段を備える、ことを特徴とする請求項１５に記載の情報処理システム。
前記端末装置は、前記表示手段により表示されたメタデータのうちユーザにより選択されたメタデータに対応する区間の映像を再生する再生手段を備える、ことを特徴とする請求項１５に記載の情報処理システム。
映像から所定の人物を検出する検出工程と、
前記検出工程により前記映像から検出された前記所定の人物の動作が特定の条件が満たさすか否かを判定する判定工程と、
前記映像のうちの、前記判定工程により前記特定の条件が満たされたと判定された時刻に基づいて選択された区間の映像に基づいて、当該区間の映像のメタデータを生成する生成工程と、を有することを特徴とする情報処理方法。
コンピュータを、請求項１乃至１４のいずれか１項に記載された情報処理装置の各手段として機能させるプログラム。