JP2024038810A - 情報処理装置および方法、情報処理システム、プログラム - Google Patents
情報処理装置および方法、情報処理システム、プログラム Download PDFInfo
- Publication number
- JP2024038810A JP2024038810A JP2022143103A JP2022143103A JP2024038810A JP 2024038810 A JP2024038810 A JP 2024038810A JP 2022143103 A JP2022143103 A JP 2022143103A JP 2022143103 A JP2022143103 A JP 2022143103A JP 2024038810 A JP2024038810 A JP 2024038810A
- Authority
- JP
- Japan
- Prior art keywords
- video
- information processing
- metadata
- section
- specific condition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 102
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000001514 detection method Methods 0.000 claims abstract description 50
- 238000003384 imaging method Methods 0.000 claims abstract description 9
- 238000003672 processing method Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 39
- 239000000463 material Substances 0.000 description 19
- 238000012545 processing Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 208000035473 Communicable disease Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000037237 body shape Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Television Signal Processing For Recording (AREA)
- Studio Devices (AREA)
Abstract
【課題】映像の区間に対応するメタデータを自動的に生成することを可能にする情報処理装置および方法、情報処理システムならびにプログラムを提供する。
【解決手段】情報処理装置、情報処理装置と接続される端末装置としての携帯端末および情報処理装置と接続される撮像装置としてのネットワークカメラを有する情報処理システムにおいて、情報処理装置は、映像から所定の人物を検出する人物検出部と、該映像から検出された所定の人物の動作が特定の条件を満たすか否かを判定するジェスチャ判定部と、特定の条件が満たされたと判定した時刻に基づいて選択された区間の映像に基づいて、当該区間の映像のメタデータを生成するメタデータ生成部と、を有する。
【選択図】図2
【解決手段】情報処理装置、情報処理装置と接続される端末装置としての携帯端末および情報処理装置と接続される撮像装置としてのネットワークカメラを有する情報処理システムにおいて、情報処理装置は、映像から所定の人物を検出する人物検出部と、該映像から検出された所定の人物の動作が特定の条件を満たすか否かを判定するジェスチャ判定部と、特定の条件が満たされたと判定した時刻に基づいて選択された区間の映像に基づいて、当該区間の映像のメタデータを生成するメタデータ生成部と、を有する。
【選択図】図2
Description
本開示は、情報処理装置および方法、情報処理システム、プログラムに関する。
昨今、感染症の世界的流行により、従来の授業方式である、1箇所に生徒全員が集合して授業を受けることが困難になっている。この状況に対応する新しい授業方式として、授業を行っている教師をカメラで撮影して、複数の場所に分散して受講している生徒に映像を配信する方法が普及し始めている。さらに、授業の撮影と同時に録画も行い、録画した映像を学校のサーバに保存して、授業を欠席した生徒や授業を復習したい生徒等に、授業の映像を配信するサービスも行われている。
また、映像の内容に関連するキーワードを、メタデータとして映像に付与する技術が普及している。メタデータの種類として、全体メタデータと区間メタデータがある。全体メタデータは、映像タイトルや映像作製日といった映像全体に関する情報である。一方、区間メタデータは、このシーンでは2人が対談しているといった、映像内のある特定の部分(区間)に関する情報である。特許文献1では、映像再生時に、ボタンとマイクを使用して、映像に区間メタデータを付与する技術が開示されている。
上記のように、授業を欠席した生徒や授業を復習したい生徒は、個人の端末から学校のサーバにネットワークを経由して接続することで、授業後に授業の映像を見ながら自習することができる。しかしながら、生徒が授業で使用する教材と授業映像の両方を見ながら自習している時に、教材の説明に対応する授業映像内の位置を見つけるには、再生、停止、早送り、巻き戻し等の操作を繰り返し行う必要がある。このため、生徒の学習効率が低下するという課題がある。また、特許文献1により開示された方法で、教師が、教材に関するメタデータを授業映像に付与することにより、上記課題に対応することが考えられる。しかしながら、教師は、授業や試験やその他の学校行事の準備や生徒や父兄への対応等を日々行っているため、教師の業務負荷はすでに高い状態にある。よって、教師が、メタデータ付与等の映像編集を行う業務時間を確保することは困難である。
本開示は、映像の区間に対応するメタデータを自動的に生成することを可能にする技術を提供する。
本開示の一態様による情報処理装置は、以下の構成を有する。すなわち、
映像から所定の人物を検出する第1検出手段と、
前記第1検出手段により前記映像から検出された前記所定の人物の動作が特定の条件を満たすか否かを判定する判定手段と、
前記映像のうちの、前記判定手段により前記特定の条件が満たされたと判定された時刻に基づいて選択された区間の映像に基づいて、当該区間の映像のメタデータを生成する生成手段と、を有する。
映像から所定の人物を検出する第1検出手段と、
前記第1検出手段により前記映像から検出された前記所定の人物の動作が特定の条件を満たすか否かを判定する判定手段と、
前記映像のうちの、前記判定手段により前記特定の条件が満たされたと判定された時刻に基づいて選択された区間の映像に基づいて、当該区間の映像のメタデータを生成する生成手段と、を有する。
本開示によれば、映像の区間に対応するメタデータを自動的に生成することが可能となる。
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は本開示を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが本開示に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
(第1実施形態)
以下、映像から区間メタデータを生成する情報処理装置の構成を説明する。情報処理装置は、映像から所定の人物を検出し、検出された所定の人物の動作が特定の条件を満たすと判定された場合に、その判定された時刻に対応する映像の部分(区間)のメタデータを生成することにより、区間メタデータを生成する。第1実施形態では、映像から検出された所定の人物(例えば教師)の姿勢と、映像から検出された所定の物体(例えば教科書などの教材)の位置とに基づいて、所定の人物(例えば教師)の動作が特定の条件を満たすか否かを判定する。
以下、映像から区間メタデータを生成する情報処理装置の構成を説明する。情報処理装置は、映像から所定の人物を検出し、検出された所定の人物の動作が特定の条件を満たすと判定された場合に、その判定された時刻に対応する映像の部分(区間)のメタデータを生成することにより、区間メタデータを生成する。第1実施形態では、映像から検出された所定の人物(例えば教師)の姿勢と、映像から検出された所定の物体(例えば教科書などの教材)の位置とに基づいて、所定の人物(例えば教師)の動作が特定の条件を満たすか否かを判定する。
[システム構成]
図1は、第1実施形態による情報処理システムの構成例を示す図である。情報処理システム1は、情報処理装置100、情報処理装置100と接続される端末装置としての携帯端末109、および情報処理装置と接続される撮像装置としてのネットワークカメラ110を有する。情報処理装置100、携帯端末109、およびネットワークカメラ110は、ネットワーク108を介してデータ等を互いに送受信可能に構成されている。ネットワークカメラ110は、例えば、授業が行われる教室に設置されており、教師が授業を行う様子を撮影する。携帯端末109は、授業を受ける生徒が所持している端末であり、例えば、スマートフォン、タブレット、PC等である。携帯端末109は、例えば、情報処理装置100から配信された授業の映像を表示する。情報処理装置100の機能の詳細については、後述する。
図1は、第1実施形態による情報処理システムの構成例を示す図である。情報処理システム1は、情報処理装置100、情報処理装置100と接続される端末装置としての携帯端末109、および情報処理装置と接続される撮像装置としてのネットワークカメラ110を有する。情報処理装置100、携帯端末109、およびネットワークカメラ110は、ネットワーク108を介してデータ等を互いに送受信可能に構成されている。ネットワークカメラ110は、例えば、授業が行われる教室に設置されており、教師が授業を行う様子を撮影する。携帯端末109は、授業を受ける生徒が所持している端末であり、例えば、スマートフォン、タブレット、PC等である。携帯端末109は、例えば、情報処理装置100から配信された授業の映像を表示する。情報処理装置100の機能の詳細については、後述する。
[情報処理装置のハードウェア構成]
図1を参照して、情報処理装置100のハードウェア構成の一例を説明する。情報処理装置100は、CPU101と、ROM102と、RAM103と、記憶装置104と、UI106と、ネットワークI/F107とを有している。CPU101は、RAM103をワークメモリとして、ROM102や記憶装置104に記憶されたOSやプログラムを実行して、各種処理の演算や論理判断などを行う。さらに、CPU101は、システムバス105に接続された各構成を制御する。なお、情報処理装置100がCPU101とは異なる1又は複数の専用のハードウェアを有し、CPU101による処理の少なくとも一部を専用のハードウェアが実行してもよい。専用のハードウェアの例としては、ASIC(特定用途向け集積回路)、FPGA(フィールドプログラマブルゲートアレイ)、およびDSP(デジタルシグナルプロセッサ)などがある。
図1を参照して、情報処理装置100のハードウェア構成の一例を説明する。情報処理装置100は、CPU101と、ROM102と、RAM103と、記憶装置104と、UI106と、ネットワークI/F107とを有している。CPU101は、RAM103をワークメモリとして、ROM102や記憶装置104に記憶されたOSやプログラムを実行して、各種処理の演算や論理判断などを行う。さらに、CPU101は、システムバス105に接続された各構成を制御する。なお、情報処理装置100がCPU101とは異なる1又は複数の専用のハードウェアを有し、CPU101による処理の少なくとも一部を専用のハードウェアが実行してもよい。専用のハードウェアの例としては、ASIC(特定用途向け集積回路)、FPGA(フィールドプログラマブルゲートアレイ)、およびDSP(デジタルシグナルプロセッサ)などがある。
ROM102は、変更を必要としないプログラムなどを格納する。RAM103は、CPU101の主メモリ、ワークエリア等の一時記憶領域として用いられる。記憶装置104は、ハードディスクドライブや各種インタフェースによって接続された外部記憶装置などであり、本実施形態の各種処理に係るプログラムやデータを記憶する。UI106は、情報処理装置とユーザの間の入出力を媒介する装置であり、例えば、音声を出力するスピーカーや画像を表示する表示装置やユーザの入力を受け付けるキーボード等で実現され得る。ネットワークI/F107は、ネットワーク108を介して、携帯端末109やネットワークカメラ110等の外部装置とのデータのやり取りを中継するためのインタフェースである。
[情報処理装置の機能構成]
図2は、第1実施形態に係る情報処理装置100の機能構成の一例を示すブロック図である。図2を参照して、本実施形態に係る情報処理装置100の機能構成について説明する。情報処理装置100は、映像取得部201と、人物検出部202と、物体検出部203と、ジェスチャ判定部204と、映像認識部205と、メタデータ生成部206と、メタデータ保存部207とを有している。これらの各機能部は、CPU101が、ROM102や記憶装置104に記憶されたプログラムをRAM103に展開し、後述する各フローチャートに従った処理を実行することにより実現されている。そして、CPU101は、各処理の実行結果をRAM103に記録する。また、例えば、CPU101を用いたソフトウェア処理の代替としてハードウェアを構成する場合には、ここで説明する各機能部の処理に対応させた演算部や回路を構成すればよい。
図2は、第1実施形態に係る情報処理装置100の機能構成の一例を示すブロック図である。図2を参照して、本実施形態に係る情報処理装置100の機能構成について説明する。情報処理装置100は、映像取得部201と、人物検出部202と、物体検出部203と、ジェスチャ判定部204と、映像認識部205と、メタデータ生成部206と、メタデータ保存部207とを有している。これらの各機能部は、CPU101が、ROM102や記憶装置104に記憶されたプログラムをRAM103に展開し、後述する各フローチャートに従った処理を実行することにより実現されている。そして、CPU101は、各処理の実行結果をRAM103に記録する。また、例えば、CPU101を用いたソフトウェア処理の代替としてハードウェアを構成する場合には、ここで説明する各機能部の処理に対応させた演算部や回路を構成すればよい。
映像取得部201は、ネットワークカメラ110が撮影した映像データを、ネットワーク108を経由して取得する。映像データは、例えば、動画(画像)と音声を合わせたデータである。人物検出部202は、映像取得部201で取得した映像データから所定の人物を検出する。例えば、検出される人物が教師である場合、次のようにして検出される。まず、教師の画像を、記憶装置104に予め登録しておく。人物検出部202は、テンプレートマッチング手法を用いて、動画からフレーム毎に切り出されたフレーム画像(静止画)から、人物の画像を検出する。テンプレートとして、人体形状の特徴である頭から肩にかけての輪郭の特徴を示したオメガ形状を用い得る。次に、人物検出部202は、検出された人物の画像と、登録された教師の画像との類似度を判定し、類似度が閾値より大きい場合に、その人物を教師として検出する。
物体検出部203は、映像データから所定の物体を検出する。本実施形態では、物体検出部203は、人物検出部202による所定の人物の検出結果を用いて所定の物体を検出する。例えば、物体検出部203は、検出された所定の人物の近くにある所定の物体を検出する。これにより、検出を行う画像の範囲が限定されるため、物体の検出処理の効率が向上する。また、本実施形態では、検出される物体は、教科書や問題集等の教材である。記憶装置104には、特定の物体を検出するための画像として、例えば、教科書や問題集等の教材の表紙の画像が予め登録される。物体検出部203は、人物検出部202により所定の人物が検出されたフレームの画像で、所定の人物が検出された位置の近くにある矩形の物体を検出する。次に、物体検出部203は、検出された矩形の物体の画像と、記憶装置104に登録されている教科書や問題集の表紙の画像との類似度を取得する。例えば教科書の画像との類似度が所定の閾値より大きい場合、物体検出部203は、その矩形の物体を教科書として検出する。
ジェスチャ判定部204は、人物検出部202により映像から検出された所定の人物の動きが特定の条件を満たすか否かを判定する。本実施形態では、所定の人物が、所定の物体を所持して所定の姿勢をとった場合に、特定の条件が満たされたと判定される。具体的には、人物検出部202で検出された所定の人物の姿勢と、物体検出部203で検出された所定の物体の位置とに基づいて特定の条件が満たされたか否かが判定される。すなわち、所定の人物の姿勢と所定の物体の位置とがそれぞれに与えられた条件を満たす場合に、所定の人物の動作が特定の条件を満たしたと判定される。以下、ジェスチャ判定部204による判定処理の具体例を示す。
まず、ジェスチャ判定部204は、検出された所定の人物の姿勢が第1の条件を満たすか判定する。例えば、第1の条件とは、人物が片腕を上げた姿勢である。姿勢の判定には骨格推定技術を用いることができる。骨格情報として、片腕を上げた姿勢を記憶装置104に予め登録しておく。ジェスチャ判定部204は、検出された人物のフレーム画像に対して骨格推定を行い、この骨格推定結果と登録された姿勢の類似度を取得する。取得された類似度が閾値より大きい場合、ジェスチャ判定部204は、骨格推定結果と登録された姿勢が類似しており、所定の人物の姿勢が所定の条件を満たしていると判定する。
所定の人物の姿勢が第1の条件を満たしていると判定された場合、ジェスチャ判定部204は、物体検出部203により検出された所定の物体の位置が第2の条件を満たすかを判定する。第2の条件とは、所定の人物と所定の物体のとの位置関係に関する条件であり、例えば、所定の人物が上げた片腕の先端の位置と、所定の物体の位置との距離が閾値未満であることである。例えば、所定の人物が上げた片腕の先端の位置と、所定の物体の中心位置の距離が閾値より小さい場合に、ジェスチャ判定部204は、所定の物体の位置が第2の条件を満たしていると判定する。
第1の条件(所定の人物の姿勢)と第2の条件(所定の物体と所定の人物との位置関係)が満たされると、ジェスチャ判定部204は、特定の条件が満たされたと判定する。また、ジェスチャ判定部204は、特定の条件が満たされたと判定された時刻をRAM103に記憶する。ここで記憶される時刻には、映像時刻を用いることができる。映像時刻は、映像データの先頭から末尾までの経過時間を示し、時:分:秒で表される。
映像認識部205は、映像の画像や音声を認識し、認識結果をメタデータ生成部206に提供する。映像認識部205は、ジェスチャ判定部204により特定の条件が満たされたと判定された映像時刻に対応する映像(画像または音声)の認識結果をメタデータ生成部206に提供する。例えば、映像認識部205は、ジェスチャ判定部204により特定の条件が満たされたと判定された映像時刻からの数秒間を特定の期間とし、特定の期間の映像から得られる音声の認識結果を取得する。認識結果は、RAM103に記憶される。なお、映像認識部205は特定の期間の映像について認識処理を実行して認識結果を得てもよいし、認識処理を常時または所定周期で実行して得られる認識結果の内から特定の期間に対応する認識結果を得るようにしてもよい。
メタデータ生成部206は、映像認識部205での認識結果に基づいて、区間メタデータを生成する。第1実施形態による区間メタデータの例を図5(a)~(d)に示す。区間メタデータは、それぞれの区間のメタデータを特定する「ID」、区間の開始または終了の時刻を示す「映像時刻」、区間の内容に関する「詳細情報」、区間の開始か終了かを示す「状態」、を含む。詳細情報が一致する区間メタデータには同一のIDが付される。本例では、同一のIDを有するメタデータは、状態が開始のメタデータと状態が終了のメタデータとの対を構成する。映像時刻は、ジェスチャ判定部204により特定の条件が満たされたと判定された映像時刻である。状態は、区間メタデータの開始か終了を示す。詳細情報は、映像認識部205による認識結果に基づいて生成される情報である。生成された区間メタデータは、RAM103に記憶される。
なお、区間メタデータの生成に関してユーザに通知を行うようにしてもよい。例えば、ジェスチャ判定部204により特定の条件が満たされたと判定されたとき、或いは、メタデータ生成部206により区間メタデータが生成されたときに、所定の通知が行われるようにしてもよい。この通知により、特定の条件が満たされたと判定されたタイミング、区間メタデータが生成されたことなどが、授業を行っている教師にフィードバックされる。通知方法は、例えばネットワークカメラ110の状態表示ランプを点灯することがあげられる。生成された区間メタデータの状態の開始と終了で、点灯する回数を変える、または点灯する色を変えてもよい。このような通知により、教師は、区間メタデータが生成されたことをリアルタイムで確認することができる。
なお、メタデータ生成部206は、区間メタデータの状態により、記憶する映像時刻を変えてもよい。例えば、状態が終了の場合は、特定の条件が満たされたと判定された映像時刻より所定時間だけ前の時刻(例えば、数秒前の時刻)を、区間メタデータの映像時刻として記憶するようにしてもよい。特定の条件が満たされたと判定された映像時刻より所定時間だけ前の時刻を記憶することで、教師が特定の条件を満たすためのジェスチャを行っている映像の期間を除外できる。このため、より適切な区間メタデータを生成することができる。
メタデータ保存部207は、メタデータ生成部206が生成した区間メタデータを映像データに関連付けて記憶装置104に保存する。例えば、メタデータ保存部207は、区間メタデータと映像データとを同一のファイルに保存する。または、例えば、メタデータ保存部207は、区間メタデータと映像データを別々のファイルに保存し、これら2つのファイルを関連付ける。
なお、情報処理装置100の機能の一部または全部がネットワークカメラ110で行われてもよい。例えば、人物検出部202、物体検出部203、ジェスチャ判定部204、映像認識部205、メタデータ生成部206、メタデータ保存部207により行われる処理を、ネットワークカメラ110が行うようにしてもよい。
[情報処理装置のフローチャート]
図3は第1実施形態による区間メタデータ生成処理を示すフローチャートである。以下、図3のフローチャートを用いて、第1実施形態に係る情報処理装置100の処理を説明する。なお、以下の説明における記号「S」は、当該フローチャートにおけるステップであることを意味し、以後のフローチャートにおいても同様とする。図3のフローチャートにより示される一連の処理は、CPU101がROM102に保存されたプログラムをRAM103に展開し実行することによって実現される。本フローチャートの開始は、ネットワークカメラ110の電源がONになった時とする。
図3は第1実施形態による区間メタデータ生成処理を示すフローチャートである。以下、図3のフローチャートを用いて、第1実施形態に係る情報処理装置100の処理を説明する。なお、以下の説明における記号「S」は、当該フローチャートにおけるステップであることを意味し、以後のフローチャートにおいても同様とする。図3のフローチャートにより示される一連の処理は、CPU101がROM102に保存されたプログラムをRAM103に展開し実行することによって実現される。本フローチャートの開始は、ネットワークカメラ110の電源がONになった時とする。
まず、S301において、映像取得部201は、ネットワークカメラ110が撮影した映像の取得を開始する。本実施形態では、ネットワークカメラ110は授業が行なわれている教室内の教師や黒板等を撮影しているものとする。なお、本実施形態では、ネットワークカメラ110により撮影された画像をリアルタイムに取得し処理する例を説明するが、本開示はこれに限られるものではない。例えば、映像取得部201は、ネットワークカメラ110により撮影を終えて、記憶装置104(または外部の記憶装置)に格納された映像を取得してもよい。
次に、S302において、人物検出部202は、映像取得部201が取得した映像から所定の人物(本例では教師)を検出する。教師が検出された場合(S302でYES)、処理はS303に進む。一方、教師が検出されなかった場合(S302でNO)、処理はS307に進む。S303において、物体検出部203は、映像取得部201が取得した映像データから所定の物体(本例では教科書、問題集のような教材)を検出する。教材が検出された場合(S303でYES)、処理はS304に進む。一方、教材が検出されなかった場合(S303でNO)、処理はS307に進む。
次に、S304において、ジェスチャ判定部204は、検出された教師の姿勢と物体の位置とにより、所定の人物である教師の動作が特定の条件を満たすかを判定する。特定の条件を満たす場合(S304でYES)、処理はステップS305に進む。一方、特定の条件を満たさない場合(S304でNO)、処理はステップS307に進む。
S305において、映像認識部205は、特定の期間の映像についての認識処理結果を取得する。本例では、映像認識部205は、特定の期間の映像の音声情報についての音声認識の結果が取得される。S306において、メタデータ生成部206は、ジェスチャ判定部204により特定の条件を満たすと判定された映像時刻と、S304で得られたS305で得られた認識結果とを用いて、区間メタデータを生成する。次に、ステップS307において、CPU101は、ネットワークカメラ110の撮影が終了しているかを判定する。撮影が終了している場合(S307でYES)、処理はS308に進む。一方、撮影が終了していない場合(S307でNO)、処理はS302に戻る。
S308において、メタデータ生成部206は、S306で生成された区間メタデータを、例えば記憶装置104に保存する。このとき、メタデータ生成部206は、まず、区間メタデータの生成が完了しているか否かを確認する。例えば、同じIDの区間メタデータは、状態が開始の区間メタデータと状態が終了の区間メタデータとで一対となる。従って、あるIDの区間メタデータが一つしかない場合、区間メタデータの生成が完了していないと判定される。メタデータ生成部206は、区間メタデータの生成を完了するために、1つしか存在しない区間メタデータの状態が開始の場合は、同一のIDを有し、状態が終了である区間メタデータを生成する。この場合、映像時刻には、例えば、次のIDの区間メタデータに記述されている映像時刻より所定時間だけ前の時刻が用いられる。或いは、次のIDの区間メタデータが存在しない場合、映像時刻には、撮影の終了時刻(映像終了時刻)またはそれより所定時間だけ前の時刻が用いられる。一方、あるIDについて1つしか存在しない区間メタデータの状態が終了の場合は、このIDの区間メタデータを削除する。区間メタデータの生成の完了が確認されると、メタデータ保存部207は生成された区間メタデータを映像データと関連付けて保存する。そして、本フローチャートの処理を終了する。
[映像と区間メタデータの例]
図4の映像例と図5の区間メタデータの例を用いて、図3のフローチャートに示される主要なステップについて、より詳細に説明する。
図4の映像例と図5の区間メタデータの例を用いて、図3のフローチャートに示される主要なステップについて、より詳細に説明する。
まず、図4(a)は、教師402が教科書401を片手で掲げて、教科書、P5と発声している映像である。S302において、人物検出部202が、所定の人物として教師402を検出する。S303において、物体検出部203が、所定の物体として教科書401を検出する。S304において、ジェスチャ判定部204は、S302で検出された教師402の姿勢とS303で検出された教科書401の位置とが、特定の条件を満たしていると判定する。そして、ジェスチャ判定部204は、所定の人物の動作が特定の条件を満たすと判定された映像時刻0:00:10を記憶する。ここで、特定の条件とは、教師の姿勢が片腕を上げていて、教科書の位置が教師の上げた腕の先端近くにあることである。
続いて、S305において、映像認識部205は、S304で特定の条件が満たされたと判定された映像時刻に基づいて決定される特定の期間の映像に含まれる音声についての音声認識結果を取得する。本例では、例えば映像時刻からの5秒間を特定の期間とする。ここで、音声認識結果として、「教科書、P5」が得られたとする。S306において、メタデータ生成部206は、S305での認識結果を用いて、区間メタデータを生成する。図5(a)に、S306で生成される区間メタデータの例を示す。映像時刻には、特定の条件が満たされた映像時刻である「0:00:10」が記述される。詳細情報は認識結果に基づいて生成され、「教科書、P5」が記述される。詳細情報に「教科書、P5」が記述された他の区間メタデータは存在しないので、区間メタデータの状態には「開始」が設定される。IDには他の区間データのIDと重複しない値が設定される。図示の例では、IDに「1」が設定されている。状態に「開始」が設定されている区間メタデータの映像時刻は、区間の開始時刻を表す。
なお、音声認識される音声は、例えば、「それでは、教科書の5ページを開いてください」というような発声でもよい。この場合、例えば、キーワードとして教科書、問題集のような単語、ページ番号を登録しておき、さらに、ページ番号はPと数字で表すように変換する規則を設定しておく。映像認識部205は、音声認識により得られた文字列を解析して、キーワードを参照することで「教科書」と「5ページ」を抽出し、「教科書、P5」を認識結果として得るようにしてもよい。このようにすれば、自由な会話音声から、所定の形式で表記された認識結果を得ることができる。
S307において、撮影は終了していないので、処理はS302へ戻る。処理の続きを、図4(b)を用いて説明する。図4(b)は、教師402が教科書401を片手で掲げて、「教科書、P6」と発声している映像である。以下、図4(a)との差分を説明する。S304において、図4(a)と同様に、ジェスチャ判定部204は、所定の人物の動作が特定の条件を満たしていると判定し、特定の条件が満たされたと判定された映像時刻0:16:00を記憶装置104に記憶する。S305において、映像認識部205による音声認識結果として「教科書、P6」が得られる。S306において、メタデータ生成部206は、新たな区間メタデータを生成する。図5(b)に、S306で生成される区間メタデータの例を示す。新たに生成される区間メタデータの映像時刻は「0:16:00」、詳細情報は「教科書、P6」となる。詳細情報に「教科書、P6」が記述された他の区間メタデータは存在しないので、当該区間メタデータの状態は「開始」となり、IDには他の区間メタデータと重複しない新規のID(本例では「2」)が設定される。
メタデータ生成部206は、新規のIDの区間メタデータを生成する際に、特定の条件を満たすと判定された映像時刻(上記ID=2の区間メタデータの映像時刻)より前に開始された区間の終了を示す区間メタデータを生成する。より具体的には、まず、メタデータ生成部206は、既存の区間メタデータの状態を確認する。既存のID=1の区間メタデータには、状態が「開始」となっている区間メタデータしか存在しないので、区間メタデータの対が完成していない。そこで、メタデータ生成部206は、既存のID=1の区間メタデータをコピーし、状態に「終了」が記述された区間メタデータを生成する。また、この区間メタデータの映像時刻には、ID=2の区間メタデータに対応する区間の開始よりも所定時間(本例では1秒とする)だけ前の時刻が設定される。結果、図5(b)に示されるように、メタデータ生成部206は、ID=1を有し、映像時刻に「0:15:59」が記述され、状態が終了である区間メタデータが生成される。状態に「終了」が設定されている区間メタデータの映像時刻は、区間の終了時刻を表す。
S307において、撮影は終了していないので、S302へ処理が進む。処理の続きを、図4(c)を用いて説明する。図4(c)は、教師402が問題集403を片手で掲げて、「問題集、P10」と発声している映像である。以下、図4(b)との差分を説明する。S304において、ジェスチャ判定部204は、図4(a)と同様に、特定の条件が満たされたと判定し、特定の条件が満たされた映像時刻0:30:00をRAM103に記憶する。S305において、映像認識部205による音声認識結果は、「問題集、P10」となる。S306において、メタデータ生成部206は、新たな区間メタデータを生成する。図5(c)に示されるように、S306で生成される新たな区間メタデータは、映像時刻に「0:30:00」、詳細情報に「問題集、P10」が記述される。詳細情報として「問題集、P10」を有する他の区間メタデータは存在しないので、他の区間メタデータのIDと重複しないID(本例では「3」)が設定され、状態には「開始」が設定される。
上述の様に、新規のIDの区間メタデータを生成する際には、既存の区間メタデータの状態が確認される。既存のID=「2」の区間メタデータには状態が「開始」となっている区間メタデータしか存在しないため、メタデータ生成部206は、ID=「2」、状態=「終了」の区間メタデータを生成する。上述のように、この区間メタデータの映像時刻には、ID=「3」の区間メタデータの映像時刻(0:30:00)よりも前の時刻が設定される。図5(c)では、「0:29:59」が設定されている。
その後、ネットワークカメラ110による撮影の終了が指示されると、S307において撮影終了と判定され、S308へ処理が進む。処理の続きを、図5(d)を用いて説明する。図5(d)は、フローチャートの図3のS307で撮影が終了したと判定され、S308へ処理が進んだ場合の区間メタデータの例である。S308において、図5(c)で示すように、ID=「3」の区間メタデータには、状態=「開始」の区間メタデータは存在するが、状態=「終了」の区間メタデータが存在しない。このため、メタデータ生成部206は、区間メタデータの生成が完了していないと判定し、図5(d)で示すように、ID=「3」,状態=「終了」の区間メタデータを生成する。また、この区間メタデータの映像時刻には撮影が終了した時刻(本例では、「0:45:00」)が設定される。この処理の結果、区間メタデータの生成の完了が確認され、メタデータ生成部206は、生成された区間メタデータを映像データと関連付けて記憶装置104に保存する。
[映像データに付与された区間メタデータの使用例]
次に、映像データに付与された区間メタデータの使用例を、図10(a)、(b)を用いて説明する。図10(a)、(b)共に、生徒の携帯端末109が有する表示制御の機能によって携帯端末109の表示装置に表示される画面の例である。情報処理装置100は、記憶装置104から、映像データとこれに関連付けられた区間メタデータを読み出し、携帯端末109に提供する。なお、以下に説明される画面は、情報処理装置100が有する表示制御の機能によって、情報処理装置100が有する表示装置に表示されてもよい。
次に、映像データに付与された区間メタデータの使用例を、図10(a)、(b)を用いて説明する。図10(a)、(b)共に、生徒の携帯端末109が有する表示制御の機能によって携帯端末109の表示装置に表示される画面の例である。情報処理装置100は、記憶装置104から、映像データとこれに関連付けられた区間メタデータを読み出し、携帯端末109に提供する。なお、以下に説明される画面は、情報処理装置100が有する表示制御の機能によって、情報処理装置100が有する表示装置に表示されてもよい。
図10(a)では、映像データのタイムライン上に、上記処理により付与された区間メタデータの該当する区間が表示された画面例である。区間メタデータの開始と終了の区間が点線の矢印で表示され、この矢印の近くに詳細情報が表示される。図10(a)では、例として、教科書のP5、P6と問題集のP10が図示されている。映像データのタイムライン上に、上記処理で付与された区間メタデータを表示することで、授業で使用された教材の説明が行われている映像位置を容易に把握することができる。よって、授業の映像を用いた自習時の学習効率が向上する。図10(b)では、映像データの説明として、付与された区間メタデータを表示する例が示されている。図10(b)では、使用した教材として、区間メタデータの詳細情報が表示される。例えば、使用した教材として、教科書のP5、P6と問題集のP10が示されている。なお、図10(a)、(b)のように表示された区間メタデータの詳細情報を生徒が選択すると、対応する区間メタデータの映像が再生されるようにしてもよい。例えば、図10(a)、(b)の表示において、教科書のP5がクリックされると、教科書のP5を詳細情報とする区間データ(図5のID=1)の開始の位置(映像時刻=0:00:10)から映像が再生される。なお、詳細情報の選択は、例えば、クリック操作により行われ得る。
以上のように、付与された区間メタデータの詳細情報を、映像データの説明として表示することで、授業で使用された教材を容易に把握することができる。さらに、表示された区間メタデータの詳細情報と対応する映像データの位置を対応付けることで、授業で使用した教材の説明が行われている映像を、容易に再生することができる。よって、授業の映像を用いた自習時の、生徒の学習効率を向上できる。
第1実施形態によれば、授業中の教師の姿勢と、授業で使用する教材の位置で構成される条件を用いることで、映像データに区間メタデータを、簡便に付与することができる。よって、教師の業務負荷を増加させずに、生徒の学習効率を向上することができる。
(第2実施形態)
以下、第2実施形態について第1実施形態と異なる部分を主として説明する。第1実施形態では、映像から検出された所定の人物が、所定の物体を所持して所定の姿勢をとった場合に、特定の条件が満たされたと判定する例を示した。第2実施形態では、映像から検出された所定の人物が特定の領域の状態を変更する動作を行った場合に、特定の条件が満たされたと判定する例を説明する。以下、具体例として、黒板の左上に特定の領域を設定し、この特定の領域内に教師が文字を書いたり消したりした場合に、特定の条件が満たされたと判定し、区間メタデータを生成する構成を説明する。なお、黒板の左上の特定領域を示す情報は、情報処理装置100(又は情報処理システム1)に予め登録されるものとする。
以下、第2実施形態について第1実施形態と異なる部分を主として説明する。第1実施形態では、映像から検出された所定の人物が、所定の物体を所持して所定の姿勢をとった場合に、特定の条件が満たされたと判定する例を示した。第2実施形態では、映像から検出された所定の人物が特定の領域の状態を変更する動作を行った場合に、特定の条件が満たされたと判定する例を説明する。以下、具体例として、黒板の左上に特定の領域を設定し、この特定の領域内に教師が文字を書いたり消したりした場合に、特定の条件が満たされたと判定し、区間メタデータを生成する構成を説明する。なお、黒板の左上の特定領域を示す情報は、情報処理装置100(又は情報処理システム1)に予め登録されるものとする。
図6は第2実施形態による情報処理装置100の機能構成例を示すブロック図である。第1実施形態の物体検出部203に代えて領域検出部603が設けられている。領域検出部603は、映像データのフレーム画像から特定の領域を検出する。例えば、情報処理装置100に特定の領域として黒板の左上の領域が登録されている場合、物体検出部203は、映像から黒板を検出し、検出された黒板の領域から特定の領域を検出する。
図7は、第2実施形態による区間メタデータ生成処理を示すフローチャートである。S301~S302、S305~S308の処理は、第1実施形態(図3)と同様の処理である。S703において、領域検出部603は、取得した映像から特定の領域を検出する。例えば、領域検出部603は、映像から黒板を検出し、検出した黒板の左上隅に設定されている領域を特定の領域として検出する。このように映像から所定の物体を検出し、所定の物体に設定された特定の領域を検出することで、ネットワークカメラ110の画角(撮影方向およびズーム)が変化しても特定の領域を正しく検出することができる。
S704において、ジェスチャ判定部204は、S302で検出された所定の人物(教師)の状態と、S703で検出された特定の領域の状態とに基づいて、特定の条件が満たされるか否かを判定する。例えば、教師の腕の先端が特定の領域内にあり、かつ特定の領域内の文字情報が変化した場合に、特定の条件が満たされたと判定される。ジェスチャ判定部204は、特定の条件が満たされたと判定した場合に、その映像時刻をRAM103に記憶する。ジェスチャ判定部204により特定の条件が満たされたと判定された場合(S704でYES)、処理はS305へ進み、特定の条件が満たされていないと判定された場合(S704でNO)、処理はS307に進む。
なお、ネットワークカメラ110の画角が固定されているのであれば、特定の領域も映像中の固定された領域に固定される。したがって、この場合、領域検出部603は、単に、映像からあらかじめ設定された領域を特定の領域として切り出すことになる。
次に、図8(a)~(f)の映像例と図9(a)~(f)の区間メタデータの例を用いて、上述したフローチャート(図7)の主要なステップをより詳細に説明する。
まず、図8(a)は、何も記載されていなかった特定の領域801内に、教師802が「教科書 P7」と記入した映像である。この場合、S302において人物検出部202は、人物として教師802を検出する。S703において、領域検出部603は、黒板803の左上の領域を特定の領域801として検出する。S704において、ジェスチャ判定部204は、S302で検出された教師802の状態と、S703で検出された特定の領域801の状態とに基づいて、特定の条件が満たされたか否かを判定する。ここでは、教師802の上げた腕の先端が特定の領域801内にあり、かつ特定の領域801内の文字情報が変化しているので、特定の条件を満たしていると判定される。なお、文字情報は、映像認識部205が特定の領域801の画像について文字認識を行った認識結果である。特定の条件が満たされた映像時刻0:00:10がRAM103に記憶される。
S305において、映像認識部205は、映像中の、S304で得られた映像時刻に基づいて特定されるフレーム画像(静止画)における特定の領域801内の文字を画像認識(文字認識)する。これにより、特定の領域801に教師802が記載した文字が認識される。例えば、S704では、特定の領域801から「教」という文字が検出された時点で特定の条件が満たされたと判定され、その時の映像時刻が取得される。S305において、映像認識部205は、S704で取得された映像時刻に、文字の記入に要すると見込まれる時間を加えた時刻を取得し、取得された時刻のフレーム画像の特定の領域801の画像について画像認識(文字認識)を行う。
本例では、画像認識結果は、「教科書」、「P7」となる。S306において、メタデータ生成部206は、S305の認識結果を用いて区間メタデータを生成する。図9(a)に、S306で生成される区間メタデータの例を示す。映像時刻は特定の条件が満たされたと判定された時刻であり、「0:00:10」となる。画像認識結果に基づいて詳細情報が生成されるので、詳細情報は「教科書、P7」となる。詳細情報が「教科書、P7」である他の区間メタデータは存在しないので、状態には「開始」が設定され、IDには他のIDと重複しないID(ここでは「1」)が設定される。
S307において、撮影は終了していないので、S302へ処理が進む。図8(b)では、「教科書 P7」と記載されていた特定の領域801内の「P7」を教師802が消している映像である。以下、図8(a)の場合との差分を説明する。S704において、ジェスチャ判定部204は、教師802と特定の領域801とに基づいて特定の条件が満たされていると判定し、特定の条件が満たされた映像時刻0:15:55をRAM103に記憶する。例えば、教師802が「P7」の「P」の文字から消し始めたとする。この場合、上述したように、S704では、特定の領域801から「P」という文字が検出されなくなった時点で特定の条件が満たされたと判定され、その時の映像時刻が取得される。S305において、映像認識部205は、S704で取得された映像時刻に、文字の消去に要すると見込まれる時間を加えた時刻を取得し、取得された時刻のフレーム画像の特定の領域801の画像について画像認識(文字認識)を行う。上述した、文字の記入に要すると見込まれる時間と、文字の消去に要すると見込まれる時間とは、同じであってもよいし、異なっていてもよい。
S305において、映像認識部205による画像認識結果は「教科書」となり、特定の領域801において「P7」が消されたことが認識される。S306において、メタデータ生成部206により生成される区間メタデータの例を、図9(b)に示す。映像時刻は0:15:55である。S305でP7が消されたと認識されているので、メタデータ生成部206は、直前に開始した区間メタデータ(本例ではID=1の区間メタデータ)の終了と判断する。従って、IDと詳細情報は先に登録されたID=1の区間メタデータのまま、映像時刻を「0:15:55」、状態を「終了」とした区間メタデータが生成される。このように、第2実施形態では、新たな区間の開始を表すメタデータを生成するか、既存の区間の終了を表すパラメータを生成するかが、認識結果に基づいて判定される。なお、上記例において、「P」と「7」のいずれかの文字が特定の領域801から検出されなくなった時点でメタデータ生成部206は直ちに区間の終了と判断し、IDが「1」、状態が「終了」の区間メタデータを生成するようにしてもよい。また、文字の消去を検出し損なった場合に備えて、第1実施形態で説明した、「終了」の区間メタデータを生成する処理が併用されてもよい。
S307において、撮影は終了していないので、S302へ処理が進む。処理の続きを、図8(c)を用いて説明する。図8(c)は、「教科書」と記載されていた特定の領域801内に、教師802が「P8」を追記した映像である。図8(b)との差分を説明する。S704において、ジェスチャ判定部204は、図8(b)と同様に特定の条件を満たしていると判定し、特定の条件が満たされた映像時刻0:16:00をRAM103に記憶する。S305において、映像認識部205の画像認識結果は「教科書」「P8」となり、特定の領域801に「P8」が追記されたことが認識される。S306においてメタデータ生成部206により生成される区間メタデータの例を図9(c)に示す。映像時刻は0:16:00、詳細情報は「教科書、P8」である。他の区間メタデータの詳細情報で「教科書、P8」は存在しないので、状態には「開始」が設定され、IDは他のIDと重複しないようにID=2が設定される。
S307において、撮影は終了していないので、S302へ処理が進む。処理の続きを、図8(d)を用いて説明する。図8(d)は、「教科書 P8」と記載されていた特定の領域801内の文字を教師802が消したときの映像である。図8(c)との差分を説明する。S704において、ジェスチャ判定部204は、図8(c)と同様に特定の条件が満たされたと判定し、特定の条件が満たされた映像時刻0:29:55をRAM103に記憶する。S305において、画像認識結果はなしとなり、教科書、P8が消されたことが認識される。S306において生成される区間メタデータの例を、図9(d)に示す。映像時刻は0:29:55である。S305で「教科書」と「P8」が消されたことが認識されているので、メタデータ生成部206は、直前に開始した区間メタデータ(本例ではID=2の区間メタデータ)の終了と判断する。したがって、メタデータ生成部206は、ID=2の区間メタデータをコピーし、映像時刻を「0:29:55」に、状態を「終了」に設定することで区間メタデータを生成する。
S307において、撮影は終了していないので、S302へ処理が進む。処理の続きを、図8(e)を用いて説明する。図8(e)は、何も記載されていない特定の領域801内に、教師802が「問題集 P20」を記載している映像である。図8(d)との差分を説明する。S704において、図8(d)と同様に、ジェスチャ判定部204は、特定の条件を満たしていると判定し、特定の条件が満たされた映像時刻0:30:00をRAM103に記憶する。S305において、映像認識部205の画像認識結果から、「問題集」「P20」が得られ、特定の領域801に「問題集」と「P20」が記載されたことが認識される。S306において、メタデータ生成部206により生成される区間メタデータの例を図9(e)に示す。映像時刻は「0:30:00」、詳細情報は「問題集、P20」であり、他の区間メタデータの詳細情報で「問題集、P20」は存在しないので、状態には「開始」が設定され、IDには他のIDと重複しないID=3が設定される。
S307において、撮影は終了していないので、S302へ処理が進む。処理の続きを、図8(f)を用いて説明する。図8(f)は、「問題集 P20」と記載されていた特定の領域801内の文字を教師802が消した映像である。図8(e)との差分を説明する。S704において、ジェスチャ判定部204は、図8(e)と同様に特定の条件が満たされたと判定し、特定の条件が満たされた映像時刻0:44:30をRAM103に記憶する。S305において、映像認識部205による画像認識結果は「文字が無い」となり、「問題集」「P20」が特定の領域801から消されたことが認識される。S306においてメタデータ生成部206により生成される区間メタデータの例を図9(f)に示す。映像時刻は0:44:30である。S305で「問題集」、「P20」が消されたことが認識されているので、メタデータ生成部206は、直前に開始した区間メタデータ(本例ではID=3の区間メタデータ)の終了と判断する。メタデータ生成部206は、ID=3の区間メタデータをコピーし、映像時刻を「0:44:30」に、状態を「終了」に設定することで区間メタデータを生成する。
その後、S307において撮影の終了が判定されると、処理はS308へ進む。S308において、図9(f)に示すように、全ての同一のIDの状態が、開始と終了の対となっているため、区間メタデータの生成が完了している。よって、生成されたメタデータを映像データに関連付けて記憶装置104に保存し、処理を終了する。
以上のように第2実施形態によれば、授業を行っている教師の腕の先端の位置が特定の領域内に存在し、かつ特定の領域内の文字情報を用いることで、映像データに区間メタデータを簡便に付与することができる。
なお、特定の領域への記載内容は、「教科書、P5」のような形態に限られるものではなく、例えば、「教科書の5ページ」のような形態の記載でもよい。この場合、第1実施形態でも説明したように、キーワードとして教科書、問題集のような単語、ページ番号を登録しておき、さらに、ページ番号はPと数字で表すように変換する規則を設定しておく。これにより、映像認識部205は、文字認識により「教科書」「5ページ」が取得されると「5ページ」を「P5」に変換し、「教科書、P5」という認識結果を出力する。また、特定の領域への変更の検出をジェスチャ判定部204による判定に使用し、認識情報を得るための映像認識処理を第1実施形態のような音声認識としてもよい。その場合、例えば、教師が領域における記載内容を変更した後に「教科書、P5」と発声することにより、区間メタデータが生成される。
(その他の実施形態)
上述の実施形態では、教科書や問題集等の教材を使用して授業を行う場合について説明したが、それ以外の場面でも本開示を適用できる。例えば、理科の実験の授業にも適用することができる。授業に使用する教材を、実験で使用する実験器具と読み替えることで、同様に区間メタデータを映像データに付与することができる。
上述の実施形態では、教科書や問題集等の教材を使用して授業を行う場合について説明したが、それ以外の場面でも本開示を適用できる。例えば、理科の実験の授業にも適用することができる。授業に使用する教材を、実験で使用する実験器具と読み替えることで、同様に区間メタデータを映像データに付与することができる。
さらに、授業だけではなく、ユーチューバーによる商品紹介やフリップを用いた番組等の動画作成にも適用することができる。授業に使用する教材を、商品紹介で使用する商品や番組で使用するフリップと読み替えることで、同様に区間メタデータを映像データに付与することができる。
また、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
以上のように、上記各実施形態によれば、授業の映像に区間メタデータを簡便に付与することができる。そして、付与された区間メタデータを参照することで、授業に使用した教材に対応する授業映像の位置を簡単に見つけることができる。よって、教師の業務負荷を増加させずに、生徒の学習効率を改善することができる。
本明細書の開示は、以下の情報処理装置、情報処理システム、情報処理方法、プログラムを含む。
(項目1)
映像から所定の人物を検出する第1検出手段と、
前記第1検出手段により前記映像から検出された前記所定の人物の動作が特定の条件を満たすか否かを判定する判定手段と、
前記映像のうちの、前記判定手段により前記特定の条件が満たされたと判定された時刻に基づいて選択された区間の映像に基づいて、当該区間の映像のメタデータを生成する生成手段と、を有することを特徴とする情報処理装置。
(項目2)
前記映像を構成する画像または音声を認識する認識手段を有し、
前記生成手段は、前記区間の映像を前記認識手段が認識することにより得られる認識結果に基づいて前記メタデータを生成すること、を特徴とする項目1に記載の情報処理装置。
(項目3)
前記メタデータは、前記映像の前記区間の開始時刻と詳細情報とを含み、
前記開始時刻は、前記判定手段により前記特定の条件が満たされたと判定された時刻に基づいて生成され、
前記詳細情報は、前記認識手段の前記認識結果に基づいて生成されること、を特徴とする項目2に記載の情報処理装置。
(項目4)
前記認識手段は、前記特定の条件が満たされたと判定された時刻に基づいて決定される特定の期間の映像に含まれる音声についての音声認識の結果を取得し、
前記生成手段は、前記認識手段により取得される前記音声認識の結果に基づいて、前記メタデータを生成することを特徴とする項目2または3に記載の情報処理装置。
(項目5)
前記認識手段は、前記映像の、前記特定の条件が満たされたと判定された時刻に基づいて特定されるフレーム画像の特定の領域の画像について文字認識を行い、
前記生成手段は、前記認識手段による前記文字認識の結果に基づいて、前記メタデータを生成することを特徴とする項目2または3に記載の情報処理装置。
(項目6)
前記生成手段は、前記区間のメタデータを生成する際に、前記特定の条件が満たされたと判定された前記時刻より前に開始された区間の終了を示すメタデータを生成することを特徴とする項目3に記載の情報処理装置。
(項目7)
前記生成手段は、前記特定の条件が満たされたと判定された場合に、前記時刻より前に開始された区間の終了を示すメタデータを生成するか、前記時刻から開始される区間のメタデータを生成するかを、前記認識結果に基づいて判定することを特徴とする項目3に記載の情報処理装置。
(項目8)
前記映像から所定の物体を検出する第2検出手段をさらに有し、
前記判定手段は、前記映像から検出された前記所定の人物の姿勢と、前記映像から検出された前記所定の物体と前記所定の人物の位置関係とに基づいて前記特定の条件が満たされたか否かを判定することを特徴とする項目1乃至7のいずれか1項に記載の情報処理装置。
(項目9)
前記判定手段は、前記映像から検出された前記所定の人物の状態と、前記映像の特定の領域の画像とに基づいて前記特定の条件が満たされたか否かを判定することを特徴とする項目1乃至7のいずれか1項に記載の情報処理装置。
(項目10)
前記判定手段は、前記所定の人物の姿勢と前記特定の領域の画像とに基づいて、前記所定の人物により前記特定の領域の状態が変更されたことが検出された場合に前記特定の条件が満たされたと判定することを特徴とする項目9に記載の情報処理装置。
(項目11)
前記映像から前記特定の領域を検出する第3の検出手段をさらに有することを特徴とする項目9または10に記載の情報処理装置。
(項目12)
前記判定手段により前記特定の条件を満たすと判定されたこと、または、前記生成手段により前記メタデータが生成されたことを、ユーザへ通知する通知手段をさらに備えることを特徴とする項目1乃至11のいずれか1項に記載の情報処理装置。
(項目13)
前記生成手段により生成された前記区間のメタデータを表示装置に表示する表示制御手段をさらに備えることを特徴とする項目1乃至12のいずれか1項に記載の情報処理装置。
(項目14)
前記表示制御手段により表示されたメタデータのうちユーザにより選択されたメタデータに対応する区間の映像を再生する再生手段をさらに備えることを特徴とする項目13記載の情報処理装置。
(項目15)
項目1乃至11のいずれか1項に記載された情報処理装置と、
前記情報処理装置と接続される撮像装置と、
前記情報処理装置と接続される端末装置と、を備え、
前記情報処理装置は、前記撮像装置により撮影された映像を前記区間のメタデータとともに保存し、
前記端末装置は、前記情報処理装置に保存された前記映像と前記区間のメタデータとを表示する表示手段を備える、ことを特徴とする情報処理システム。
(項目16)
前記撮像装置は、前記判定手段により前記特定の条件を満たすと判定されたこと、または、前記生成手段により前記メタデータが生成されたことを、ユーザへ通知する通知手段を備える、ことを特徴とする項目15に記載の情報処理システム。
(項目17)
前記端末装置は、前記表示手段により表示されたメタデータのうちユーザにより選択されたメタデータに対応する区間の映像を再生する再生手段を備える、ことを特徴とする項目15または16に記載の情報処理システム。
(項目18)
映像から所定の人物を検出する検出工程と、
前記検出工程により前記映像から検出された前記所定の人物の動作が特定の条件が満たさすか否かを判定する判定工程と、
前記映像のうちの、前記判定工程により前記特定の条件が満たされたと判定された時刻に基づいて選択された区間の映像に基づいて、当該区間の映像のメタデータを生成する生成工程と、を有することを特徴とする情報処理方法。
(項目19)
コンピュータを、項目1乃至14のいずれか1項に記載された情報処理装置の各手段として機能させるプログラム。
(項目1)
映像から所定の人物を検出する第1検出手段と、
前記第1検出手段により前記映像から検出された前記所定の人物の動作が特定の条件を満たすか否かを判定する判定手段と、
前記映像のうちの、前記判定手段により前記特定の条件が満たされたと判定された時刻に基づいて選択された区間の映像に基づいて、当該区間の映像のメタデータを生成する生成手段と、を有することを特徴とする情報処理装置。
(項目2)
前記映像を構成する画像または音声を認識する認識手段を有し、
前記生成手段は、前記区間の映像を前記認識手段が認識することにより得られる認識結果に基づいて前記メタデータを生成すること、を特徴とする項目1に記載の情報処理装置。
(項目3)
前記メタデータは、前記映像の前記区間の開始時刻と詳細情報とを含み、
前記開始時刻は、前記判定手段により前記特定の条件が満たされたと判定された時刻に基づいて生成され、
前記詳細情報は、前記認識手段の前記認識結果に基づいて生成されること、を特徴とする項目2に記載の情報処理装置。
(項目4)
前記認識手段は、前記特定の条件が満たされたと判定された時刻に基づいて決定される特定の期間の映像に含まれる音声についての音声認識の結果を取得し、
前記生成手段は、前記認識手段により取得される前記音声認識の結果に基づいて、前記メタデータを生成することを特徴とする項目2または3に記載の情報処理装置。
(項目5)
前記認識手段は、前記映像の、前記特定の条件が満たされたと判定された時刻に基づいて特定されるフレーム画像の特定の領域の画像について文字認識を行い、
前記生成手段は、前記認識手段による前記文字認識の結果に基づいて、前記メタデータを生成することを特徴とする項目2または3に記載の情報処理装置。
(項目6)
前記生成手段は、前記区間のメタデータを生成する際に、前記特定の条件が満たされたと判定された前記時刻より前に開始された区間の終了を示すメタデータを生成することを特徴とする項目3に記載の情報処理装置。
(項目7)
前記生成手段は、前記特定の条件が満たされたと判定された場合に、前記時刻より前に開始された区間の終了を示すメタデータを生成するか、前記時刻から開始される区間のメタデータを生成するかを、前記認識結果に基づいて判定することを特徴とする項目3に記載の情報処理装置。
(項目8)
前記映像から所定の物体を検出する第2検出手段をさらに有し、
前記判定手段は、前記映像から検出された前記所定の人物の姿勢と、前記映像から検出された前記所定の物体と前記所定の人物の位置関係とに基づいて前記特定の条件が満たされたか否かを判定することを特徴とする項目1乃至7のいずれか1項に記載の情報処理装置。
(項目9)
前記判定手段は、前記映像から検出された前記所定の人物の状態と、前記映像の特定の領域の画像とに基づいて前記特定の条件が満たされたか否かを判定することを特徴とする項目1乃至7のいずれか1項に記載の情報処理装置。
(項目10)
前記判定手段は、前記所定の人物の姿勢と前記特定の領域の画像とに基づいて、前記所定の人物により前記特定の領域の状態が変更されたことが検出された場合に前記特定の条件が満たされたと判定することを特徴とする項目9に記載の情報処理装置。
(項目11)
前記映像から前記特定の領域を検出する第3の検出手段をさらに有することを特徴とする項目9または10に記載の情報処理装置。
(項目12)
前記判定手段により前記特定の条件を満たすと判定されたこと、または、前記生成手段により前記メタデータが生成されたことを、ユーザへ通知する通知手段をさらに備えることを特徴とする項目1乃至11のいずれか1項に記載の情報処理装置。
(項目13)
前記生成手段により生成された前記区間のメタデータを表示装置に表示する表示制御手段をさらに備えることを特徴とする項目1乃至12のいずれか1項に記載の情報処理装置。
(項目14)
前記表示制御手段により表示されたメタデータのうちユーザにより選択されたメタデータに対応する区間の映像を再生する再生手段をさらに備えることを特徴とする項目13記載の情報処理装置。
(項目15)
項目1乃至11のいずれか1項に記載された情報処理装置と、
前記情報処理装置と接続される撮像装置と、
前記情報処理装置と接続される端末装置と、を備え、
前記情報処理装置は、前記撮像装置により撮影された映像を前記区間のメタデータとともに保存し、
前記端末装置は、前記情報処理装置に保存された前記映像と前記区間のメタデータとを表示する表示手段を備える、ことを特徴とする情報処理システム。
(項目16)
前記撮像装置は、前記判定手段により前記特定の条件を満たすと判定されたこと、または、前記生成手段により前記メタデータが生成されたことを、ユーザへ通知する通知手段を備える、ことを特徴とする項目15に記載の情報処理システム。
(項目17)
前記端末装置は、前記表示手段により表示されたメタデータのうちユーザにより選択されたメタデータに対応する区間の映像を再生する再生手段を備える、ことを特徴とする項目15または16に記載の情報処理システム。
(項目18)
映像から所定の人物を検出する検出工程と、
前記検出工程により前記映像から検出された前記所定の人物の動作が特定の条件が満たさすか否かを判定する判定工程と、
前記映像のうちの、前記判定工程により前記特定の条件が満たされたと判定された時刻に基づいて選択された区間の映像に基づいて、当該区間の映像のメタデータを生成する生成工程と、を有することを特徴とする情報処理方法。
(項目19)
コンピュータを、項目1乃至14のいずれか1項に記載された情報処理装置の各手段として機能させるプログラム。
100:情報処理装置、110:ネットワークカメラ、201:映像取得部、202:人物検出部、203:物体検出部、204:ジェスチャ判定部、205:映像認識部、206:メタデータ生成部、207:メタデータ保存部、603:領域検出部
Claims (19)
- 映像から所定の人物を検出する第1検出手段と、
前記第1検出手段により前記映像から検出された前記所定の人物の動作が特定の条件を満たすか否かを判定する判定手段と、
前記映像のうちの、前記判定手段により前記特定の条件が満たされたと判定された時刻に基づいて選択された区間の映像に基づいて、当該区間の映像のメタデータを生成する生成手段と、を有することを特徴とする情報処理装置。 - 前記映像を構成する画像または音声を認識する認識手段を有し、
前記生成手段は、前記区間の映像を前記認識手段が認識することにより得られる認識結果に基づいて前記メタデータを生成すること、を特徴とする請求項1に記載の情報処理装置。 - 前記メタデータは、前記映像の前記区間の開始時刻と詳細情報とを含み、
前記開始時刻は、前記判定手段により前記特定の条件が満たされたと判定された時刻に基づいて生成され、
前記詳細情報は、前記認識手段の前記認識結果に基づいて生成されること、を特徴とする請求項2に記載の情報処理装置。 - 前記認識手段は、前記特定の条件が満たされたと判定された時刻に基づいて決定される特定の期間の映像に含まれる音声についての音声認識の結果を取得し、
前記生成手段は、前記認識手段により取得される前記音声認識の結果に基づいて、前記メタデータを生成することを特徴とする請求項2に記載の情報処理装置。 - 前記認識手段は、前記映像の、前記特定の条件が満たされたと判定された時刻に基づいて特定されるフレーム画像の特定の領域の画像について文字認識を行い、
前記生成手段は、前記認識手段による前記文字認識の結果に基づいて、前記メタデータを生成することを特徴とする請求項2に記載の情報処理装置。 - 前記生成手段は、前記区間のメタデータを生成する際に、前記特定の条件が満たされたと判定された前記時刻より前に開始された区間の終了を示すメタデータを生成することを特徴とする請求項3に記載の情報処理装置。
- 前記生成手段は、前記特定の条件が満たされたと判定された場合に、前記時刻より前に開始された区間の終了を示すメタデータを生成するか、前記時刻から開始される区間のメタデータを生成するかを、前記認識結果に基づいて判定することを特徴とする請求項3に記載の情報処理装置。
- 前記映像から所定の物体を検出する第2検出手段をさらに有し、
前記判定手段は、前記映像から検出された前記所定の人物の姿勢と、前記映像から検出された前記所定の物体と前記所定の人物の位置関係とに基づいて前記特定の条件が満たされたか否かを判定することを特徴とする請求項1に記載の情報処理装置。 - 前記判定手段は、前記映像から検出された前記所定の人物の状態と、前記映像の特定の領域の画像とに基づいて前記特定の条件が満たされたか否かを判定することを特徴とする請求項1に記載の情報処理装置。
- 前記判定手段は、前記所定の人物の姿勢と前記特定の領域の画像とに基づいて、前記所定の人物により前記特定の領域の状態が変更されたことが検出された場合に前記特定の条件が満たされたと判定することを特徴とする請求項9に記載の情報処理装置。
- 前記映像から前記特定の領域を検出する第3の検出手段をさらに有することを特徴とする請求項9に記載の情報処理装置。
- 前記判定手段により前記特定の条件を満たすと判定されたこと、または、前記生成手段により前記メタデータが生成されたことを、ユーザへ通知する通知手段をさらに備えることを特徴とする請求項1に記載の情報処理装置。
- 前記生成手段により生成された前記区間のメタデータを表示装置に表示する表示制御手段をさらに備えることを特徴とする請求項1に記載の情報処理装置。
- 前記表示制御手段により表示されたメタデータのうちユーザにより選択されたメタデータに対応する区間の映像を再生する再生手段をさらに備えることを特徴とする請求項13記載の情報処理装置。
- 請求項1乃至11のいずれか1項に記載された情報処理装置と、
前記情報処理装置と接続される撮像装置と、
前記情報処理装置と接続される端末装置と、を備え、
前記情報処理装置は、前記撮像装置により撮影された映像を前記区間のメタデータとともに保存し、
前記端末装置は、前記情報処理装置に保存された前記映像と前記区間のメタデータとを表示する表示手段を備える、ことを特徴とする情報処理システム。 - 前記撮像装置は、前記判定手段により前記特定の条件を満たすと判定されたこと、または、前記生成手段により前記メタデータが生成されたことを、ユーザへ通知する通知手段を備える、ことを特徴とする請求項15に記載の情報処理システム。
- 前記端末装置は、前記表示手段により表示されたメタデータのうちユーザにより選択されたメタデータに対応する区間の映像を再生する再生手段を備える、ことを特徴とする請求項15に記載の情報処理システム。
- 映像から所定の人物を検出する検出工程と、
前記検出工程により前記映像から検出された前記所定の人物の動作が特定の条件が満たさすか否かを判定する判定工程と、
前記映像のうちの、前記判定工程により前記特定の条件が満たされたと判定された時刻に基づいて選択された区間の映像に基づいて、当該区間の映像のメタデータを生成する生成工程と、を有することを特徴とする情報処理方法。 - コンピュータを、請求項1乃至14のいずれか1項に記載された情報処理装置の各手段として機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022143103A JP2024038810A (ja) | 2022-09-08 | 2022-09-08 | 情報処理装置および方法、情報処理システム、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022143103A JP2024038810A (ja) | 2022-09-08 | 2022-09-08 | 情報処理装置および方法、情報処理システム、プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024038810A true JP2024038810A (ja) | 2024-03-21 |
Family
ID=90308955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022143103A Pending JP2024038810A (ja) | 2022-09-08 | 2022-09-08 | 情報処理装置および方法、情報処理システム、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2024038810A (ja) |
-
2022
- 2022-09-08 JP JP2022143103A patent/JP2024038810A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11849196B2 (en) | Automatic data extraction and conversion of video/images/sound information from a slide presentation into an editable notetaking resource with optional overlay of the presenter | |
US9390171B2 (en) | Segmenting and playback of whiteboard video capture | |
Reyna | The potential of 360-degree videos for teaching, learning and research | |
US9164590B2 (en) | System and method for automated capture and compaction of instructional performances | |
US10423716B2 (en) | Creating multimedia content for animation drawings by synchronizing animation drawings to audio and textual data | |
JP5972707B2 (ja) | 学習コンテンツの構造化装置及びそれを用いた学習コンテンツ選択支援システム並びに支援方法 | |
JP5243365B2 (ja) | コンテンツ生成装置,コンテンツ生成方法およびコンテンツ生成プログラム | |
US20220208016A1 (en) | Live lecture augmentation with an augmented reality overlay | |
KR20170098617A (ko) | 디지털펜과 클라우드서버를 이용한 수준별 맞춤형 교육서비스 시스템 및 그 운용방법 | |
CN113391745A (zh) | 网络课程的重点内容处理方法、装置、设备及存储介质 | |
JP6686578B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP2024038810A (ja) | 情報処理装置および方法、情報処理システム、プログラム | |
JP7279754B2 (ja) | 学習制御方法及び学習システム | |
JP2006053696A (ja) | コンテンツ作成装置、方法、コンテンツ提供システム、プログラム、及び記録媒体 | |
JP2013146511A (ja) | 人体の動作の変移を記録、解析し、表示する電子機器 | |
JP7361612B2 (ja) | 情報処理方法、情報処理装置、およびプログラム | |
JP2009004846A (ja) | 電子黒板連携授業録画システム | |
JP2005167822A (ja) | 情報再生装置及び情報再生方法 | |
TWM607510U (zh) | 影片自動產生系統 | |
JP2002132131A (ja) | 遠隔教育方法及び遠隔教育用ホストコンピュータ並びに受講者用コンピュータ並びに画像情報合成方法 | |
Garber et al. | A two tier approach to chalkboard video lecture summary | |
WO2021235246A1 (ja) | 情報処理装置、生成方法、およびプログラム | |
JP4250983B2 (ja) | 連続データへのユーザデータ関連付け装置 | |
JP2005284490A (ja) | データ記録装置およびデータ再生装置 | |
Demyan | E-learning with Camtasia Studio |