JP7442300B2

JP7442300B2 - 再生制御装置及び再生制御プログラム

Info

Publication number: JP7442300B2
Application number: JP2019210882A
Authority: JP
Inventors: 麻樹杉本; 哲林田; 啓太郎吉田
Original assignee: Keio University
Current assignee: Keio University
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2024-03-04
Anticipated expiration: 2039-11-21
Also published as: JP2021083015A

Description

本発明は、再生制御装置及び再生制御プログラムに関する。

従来、動画を閲覧するユーザの操作に応じて、再生を制御する技術が知られている。
例えば、特許文献１には、ユーザのタッチパネルに対する接触操作の継続時間や、接触操作の押圧力に基づいて、動画の再生速度を段階的に変化させることが開示されている。これにより、ユーザは、早送りボタンやシークバー等の一般的なユーザインタフェースを操作する場合に比べて、より直感的に再生の制御をすることができる。

特許第６４８３３０５号公報

しかしながら、上述したようなユーザの操作内容に応じて再生の制御をする方法では、ユーザが再生制御のための様々な操作を行う必要があり、ユーザにとって煩雑である。また、例えば、はじめて閲覧する動画等では、ユーザは所定の場面（例えば、動画の閲覧の目的となる場面）が、動画のどの箇所に含まれているかを特定することが容易ではない。

本発明は、このような状況に鑑みてなされたものである。そして、本発明の課題は、再生に関する制御によって、より適切にユーザの閲覧を支援することである。

上記課題を解決するため、本発明の一実施形態に係る再生制御装置は、
時間的に連続した複数の画像データを取得する画像データ取得手段と、
前記複数の画像データそれぞれの画像内から所定の対象を含んだ対象領域を検出する領域検出手段と、
前記複数の画像データ間の画像の変化と、当該変化している領域が前記対象領域であるか否かと、に基づいて前記複数の画像データそれぞれから特徴量を抽出する特徴量抽出手段と、
前記特徴量を学習モデルに入力することにより、所定の場面に対応する画像データを検出する場面検出手段と、
前記場面検出手段が検出した前記所定の場面に対応する画像データを示す情報に基づいて、前記複数の画像データの再生を制御する再生制御手段と、
を備えることを特徴とする。

本発明によれば、再生に関する制御によって、より適切にユーザの閲覧を支援することができる。

本発明の一実施形態に係る再生制御システムの全体構成の一例を示すブロック図である。本発明の一実施形態に係るウェアラブルカメラの構成の一例を示すブロック図である。本発明の一実施形態に係る再生制御装置の構成の一例を示すブロック図である。本発明の一実施形態に係る再生制御装置による処理での対象領域と注視点の検出について説明する模式図である。本発明の一実施形態に係る再生制御装置による処理での注視点の移動距離について説明する模式図である。本発明の一実施形態に係る再生制御装置による処理での背景の移動量について説明する模式図である。本発明の一実施形態に係る再生制御装置による処理での動作部位の移動量について説明する模式図である。本発明の一実施形態に係る再生制御装置による処理での再生時のユーザインタフェースの一例について示す模式図である。本発明の一実施形態に係るウェアラブルカメラが実行する撮影処理の流れを説明するフローチャートである。本発明の一実施形態に係る再生制御装置が実行する学習処理の流れを説明するフローチャートである。本発明の一実施形態に係る再生制御装置が実行する再生制御処理の流れを説明するフローチャートである。

以下、添付の図面を参照して本発明の実施形態の一例について説明する。

［システム構成］
図１は、本実施形態に係る再生制御システムＳの全体構成を示すブロック図である。図１に示すように、再生制御システムＳは、ウェアラブルカメラ１０と、再生制御装置２０とを含む。また、図１には、ウェアラブルカメラ１０を装着するユーザＵも図示する。

これらウェアラブルカメラ１０と再生制御装置２０とは、相互に通信可能に接続される。この各装置の間での通信は、任意の通信方式に準拠して行われてよく、その通信方式は特に限定されない。また、通信接続は、有線接続であっても、無線接続であってもよい。更に、各装置の間での通信は、直接行われてもよいし、中継装置を含んだネットワークを介して行われてもよい。この場合、ネットワークは、例えば、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）や、インターネットや、携帯電話網といったネットワーク、或いはこれらを組み合わせたネットワークにより実現される。

ウェアラブルカメラ１０は、ユーザＵの視野に相当する空間を撮影した画像（以下、「視野画像」と称する。）を撮影する機能を備えたデバイスである。ウェアラブルカメラ１０は、例えば、眼鏡型のウェアラブルデバイスにより実現される。

また、ウェアラブルカメラ１０は、視野画像の撮影と同時に、ユーザＵが視野のなかで注視している箇所である注視点の計測も行う。更に、ウェアラブルカメラ１０は、撮影した視野画像と、計測したユーザＵの注視点の情報（例えば、注視点の位置に対応する二次元座標の座標値）とを含む画像データを生成する。更に、ウェアラブルカメラ１０は、このような画像データの生成のための処理を繰り返すことにより、ユーザＵの視野画像と注視点の変化を示す、時間的に連続した複数の画像データからなる動画を生成する。そして、ウェアラブルカメラ１０は、この複数の画像データからなる動画を再生制御装置２０に対して送信する。

再生制御装置２０は、ウェアラブルカメラ１０から受信した動画の再生を制御する装置である。再生制御装置２０は、例えば、パーソナルコンピュータやサーバ装置により実現される。
具体的な処理の内容として、再生制御装置２０は、ウェアラブルカメラ１０から、時間的に連続した複数の画像データを取得する。また、再生制御装置２０は、この複数の画像データそれぞれの画像内から所定の対象を含んだ対象領域を検出する。更に、再生制御装置２０は、この複数の画像データ間の画像の変化と、当該変化している領域が対象領域であるか否かと、に基づいてこの複数の画像データそれぞれから特徴量を抽出する。更に、再生制御装置２０は、この特徴量を学習モデルに入力することにより、所定の場面（例えば、動画の閲覧の目的となる場面）に対応する画像データを検出する。そして、再生制御装置２０は、検出した所定の場面に対応する画像データを示す情報に基づいて、複数の画像データの再生を制御する。

このように、ウェアラブルカメラ１０は、ユーザＵの視野画像や注視点の変化を示す、複数の画像データからなる動画を生成することができる。また、再生制御装置２０は、動画内の複数の画像データから抽出した特徴量と、学習モデルとに基づいて、所定の場面を検出すると共に、所定の場面であるか否かに基づいて、複数の画像データからなる動画の再生を制御することができる。
従って、本実施形態に係る再生制御システムＳによれば、再生に関する制御によって、より適切にユーザの閲覧を支援することができる。

このような閲覧の支援を行うことから、再生制御システムＳによれば、上述したような、ユーザが再生制御のための様々な操作を行う必要があり、ユーザにとって煩雑である、という問題を解消することができる。他にも、再生制御システムＳによれば、上述したような、はじめて閲覧する動画等では、ユーザは所定の場面（例えば、動画の閲覧の目的となる場面）が、動画のどの箇所に含まれているかを特定することが容易ではない、という問題を解消することができる。

このような再生制御システムＳは、様々な用途において利用することができる。以下では、再生制御システムＳの好適な用途の一例として、ユーザＵが所定の作業として手術を行う執刀医である場合を例にとって説明する。そして、この手術における、（１）ユーザＵの視線の動き、（２）ユーザＵの視野画像における背景変化、及び（３）ユーザＵの動作部位である手の動き、という３つの特徴量に基づいた機械学習をすることによって、所定の場面である切開場面を検出する用途に再生制御システムＳを用いることを想定する。

切開場面では、患部に注視した作業であるためユーザＵの視線の動きが小さく、ユーザＵが頭を動かさないので背景の変化も少なく、手先による精緻な作業であるため手の全体の動きは小さいと考えられる。すなわち、これら３つの特徴量は、切開場面との関連性が高い特徴量であるため、切開場面の検出の用途に好適と考えられる。なお、所定の作業である手術は、ユーザＵ一人で行われてもよいが、以下の説明では、ユーザＵと助手とによる協働作業として行われることを想定する。そのため、上記（３）においては、助手の動作部位である手の動きも特徴量として抽出される。

この手術の動画に再生制御システムＳを用いるという用途に関して、より詳細に説明する。医療技術を伝達する方法の１つとして手術動画を参照するという方法がある。特に若い外科医には執刀医として手術を経験する機会が限られるため、執刀医の視野に対応する一人称視点での手術動画は、手術の実践訓練を補うための教材として有益である。しかしながら、手術の動画は長時間となることが多い。例えば、乳腺外科における腫瘍摘出手術では、二時間程度の録画時間となることも少なくない。こうした長時間の動画から、動画の閲覧の目的となるような所定の場面（ここでは、一例として切開場面）を特定するには多くの時間を要してしまう。なぜならば、手術動画には準備場面や片付け場面といった、手術において本質的ではない場面も含まれているためである。

そこで、上述したように再生制御システムＳを用いることにより、長時間となりがちな手術の動画から、動画の閲覧の目的となる切開場面を検出し、この検出した切開場面を、他の場面（例えば、準備場面や片付け場面）よりも、閲覧者であるユーザにとってより見やすい態様で閲覧できるようにする。これにより、閲覧者であるユーザは、再生制御のための煩雑な操作を行うことなく、容易に切開場面を閲覧することができる。

また、繰り返しになるが、これは好適な用途の一例に過ぎず、再生制御システムＳを利用することができる用途を限定する趣旨ではない。すなわち、再生制御システムＳは、これ以外にも任意の動画の再生の制御に利用することができる。また、再生を制御する動画に作業が含まれる場合、この作業は、単独の作業者による作業であってもよく、複数の作業者による協働作業であってもよい。

なお、以下では説明を明確とするために、ウェアラブルカメラ１０を装着して手術を行うユーザ（図１のユーザＵに相当）及びその助手を「作業者」と称する。これに対して、再生制御装置２０が再生する手術の動画を閲覧するユーザを「閲覧者」と称する。

［ウェアラブルカメラの構成］
次に、ウェアラブルカメラ１０の構成について、図２のブロック図を参照して説明をする。図２に示すように、ウェアラブルカメラ１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１３と、通信部１４と、センサ部１５と、記憶部１６と、入力部１７と、撮像部１８と、アイトラッキング部１９と、を備えている。これら各部は、信号線により接続されており、相互に信号を送受する。

ＣＰＵ１１は、ＲＯＭ１２に記録されているプログラム、又は、記憶部１６からＲＡＭ１３にロードされたプログラムに従って各種の処理（例えば、後述する撮影処理）を実行する。
ＲＡＭ１３には、ＣＰＵ１１が各種の処理を実行する上において必要なデータ等も適宜記憶される。

通信部１４は、ＣＰＵ１１が、他の装置（例えば、再生制御装置２０）との間で通信を行うための通信制御を行う。
センサ部１５は、加速度センサやジャイロセンサで構成され、ウェアラブルカメラ１０を装着した作業者の動きを測定する。このようなセンサ部１５の測定結果に基づいて、ＣＰＵ１１は、キャリブレーションをした後の、撮像部１８と作業者とのズレの補正等の処理を行うことができる。

記憶部１６は、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の半導体メモリで構成され、各種データを記憶する。
入力部１７は、各種ボタン及びタッチパネル等で構成され、ユーザの指示操作に応じて各種情報を入力する。

撮像部１８は、レンズ及び撮像素子等を備えた撮像装置によって構成され、視野画像を撮像する。
アイトラッキング部１９は、ＬＥＤ（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）等の発光素子と、アイトラッキング用の撮像装置によって構成され、注視点を計測する。具体的には、アイトラッキング部１９は、発光素子を発光させることにより作業者の角膜上に光の反射点を生じさせると共に、その作業者の眼球の画像をアイトラッキング用の撮像装置で撮像する。そして、アイトラッキング部１９は、撮像された眼球の画像を解析することにより、作業者の注視点を示す情報として、注視点の位置に対応する二次元座標の座標値を算出する。

これら撮像部１８やアイトラッキング部１９は、作業者がウェアラブルカメラ１０を装着した状態において、視野画像の撮影や注視点の測定を行うのに適した位置に配置される。例えば、撮像部１８のレンズは、ウェアラブルカメラ１０における眼鏡のブリッジ部分に配置される。また、例えば、アイトラッキング部１９の発光装置やアイトラッキング用の撮像装置は、ウェアラブルカメラ１０における眼鏡のレンズ周辺に配置される。

ウェアラブルカメラ１０では、これら各部が協働することにより、「撮影処理」を行なう。
ここで、撮影処理は、ウェアラブルカメラ１０が、視野画像と注視点の位置を示す情報とに基づいて、時間的に連続した複数の複数の画像データからなる動画を生成する一連の処理である。

この撮影処理が実行される場合、図２に示すように、ＣＰＵ１１において、視野画像撮影部１１１と、注視点計測部１１２と、画像データ生成部１１３と、画像データ送信部１１４と、が機能する。
また、記憶部１６の一領域には、画像データ記憶部１６１が設けられる。
以下で特に言及しない場合も含め、これら機能ブロック間では、処理を実現するために必要なデータを、適切なタイミングで適宜送受信する。

視野画像撮影部１１１は、撮像部１８を用いて、所定の周期（すなわち、所定のフレームレート）で視野画像を撮影する。そして、視野画像撮影部１１１は、撮影により得られた視野画像を画像データ生成部１１３に対して出力する。

注視点計測部１１２は、アイトラッキング部１９を用いて、視野画像撮影部１１１による撮影と同様の所定の周期（すなわち、所定のフレームレート）で注視点の位置に対応する二次元座標の座標値を算出する。そして、注視点計測部１１２は、算出した注視点の位置に対応する座標値を画像データ生成部１１３に対して出力する。

画像データ生成部１１３は、視野画像撮影部１１１から入力された視野画像と、注視点計測部１１２から入力された注視点の位置に対応する座標値とを、フレーム単位で対応付けする（すなわち、合成する）ことにより、注視点の情報を含んだ画像データを生成する。そして、画像データ生成部１１３は、生成した画像データを画像データ記憶部１６１に記憶させる。
視野画像撮影部１１１、注視点計測部１１２、及び画像データ生成部１１３は、作業者による作業が継続している間、このような画像データの生成のための処理を繰り返すことにより、ユーザＵの視野画像と注視点の変化を示す、時間的に連続した複数の画像データを生成する。

画像データ送信部１１４は、画像データ生成部１１３により生成されて、画像データ記憶部１６１に記憶されている、時間的に連続した複数の画像データを、動画データの形式に変換して再生制御装置２０に対して送信する。なお、この複数の画像データを動画データの形式に変換する処理は、複数の画像データを受信した再生制御装置２０が行うようにしてもよい。

［再生制御装置の構成］
次に、再生制御装置２０の構成について、図３のブロック図を参照して説明をする。図３に示すように、再生制御装置２０は、ＣＰＵ２１と、ＲＯＭ２２と、ＲＡＭ２３と、通信部２４と、記憶部２５と、入力部２６と、出力部２７と、ドライブ２８と、を備えている。これら各部は、信号線により接続されており、相互に信号を送受する。

ＣＰＵ２１は、ＲＯＭ２２に記録されているプログラム、又は、記憶部２５からＲＡＭ２３にロードされたプログラムに従って各種の処理（例えば、後述する学習処理や再生制御処理）を実行する。
ＲＡＭ２３には、ＣＰＵ２１が各種の処理を実行する上において必要なデータ等も適宜記憶される。

通信部２４は、ＣＰＵ２１が、他の装置（例えば、ウェアラブルカメラ１０）との間で通信を行うための通信制御を行う。
記憶部２５は、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の半導体メモリで構成され、各種データを記憶する。

入力部２６は、各種ボタン及びタッチパネル、又はマウス及びキーボード等の外部入力装置で構成され、ユーザの指示操作に応じて各種情報を入力する。
出力部２７は、ディスプレイやスピーカ等で構成され、画像や音声を出力する。
ドライブ２８には、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリ等よりなる、リムーバブルメディア（図示を省略する。）が適宜装着される。ドライブ２８よってリムーバブルメディアから読み出されたプログラムは、必要に応じて記憶部２５にインストールされる。

再生制御装置２０では、これら各部が協働することにより、「学習処理」と、「再生制御処理」とを行なう。
ここで、学習処理は、再生制御装置２０が、ウェアラブルカメラ１０から受信した動画データから抽出される特徴量を含む入力データと、閲覧者から取得した所定の場面（ここでは、切開場面）を示すラベルとの組を教師データとして機械学習を行うことにより、学習モデルを構築（学習モデルの更新を含む）する一連の処理である。
また、再生制御処理は、再生制御装置２０が、動画内の複数の画像データから抽出した特徴量と、学習処理により構築された学習モデルとに基づいて、所定の場面を検出すると共に、所定の場面であるか否かに基づいて、複数の画像データからなる動画の再生を制御する一連の処理である。

これら学習処理や再生制御処理が実行される場合、図３に示すように、ＣＰＵ２１において、画像データ取得部２１１と、領域検出部２１２と、注視点検出部２１３と、特徴量抽出部２１４と、が機能する。
また、記憶部２５の一領域には、動画データ記憶部２５１と、学習モデル記憶部２５２と、が設けられる。
以下で特に言及しない場合も含め、これら機能ブロック間では、処理を実現するために必要なデータを、適切なタイミングで適宜送受信する。

画像データ取得部２１１は、ウェアラブルカメラ１０から複数の画像データを変換した動画データを、受信することにより取得する。そして、画像データ取得部２１１は、取得した複数の画像データを変換した動画データを動画データ記憶部２５１に記憶させる。なお、画像データを動画データの形式に変換する処理を再生制御装置２０で行うようにしてもよい点については、画像データ送信部１１４の説明において上述した通りである。

領域検出部２１２は、動画データ記憶部２５１に記憶されている動画データ内の各視野画像（すなわち、各フレーム）のそれぞれに対して、エッジ検出等の既存の手法を用いた画像認識を行うことにより、作業者の動作部位（ここでは、作業者の手）が含まれる領域である対象領域を検出する。

注視点検出部２１３は、動画データ記憶部２５１に記憶されている動画データ内の各視野画像（すなわち、各フレーム）のそれぞれから、画像データ生成部１１３が画像データ生成時に画像データに含ませた、作業者の注視点の情報（ここでは、注視点の位置を示す座標値）を検出する。

これら対象領域の検出及び注視点の情報の検出について、図４を参照して説明する。図４は、対象領域と注視点の検出について説明する模式図である。
図４に示すように、視野画像の一例である視野画像３１は、動作部位３２、動作部位３３、メス３４、及びマーキング３５といった撮影された物体の画像を含む。また、視野画像３１には、対象領域の境界３６、及び注視点３７を併せて図示する。

視野画像３１は、作業者である助手の補助のもと、作業者であるユーザＵが切開をしている場面を撮影した視野画像である。
動作部位３２は、作業者であるユーザＵ（執刀医）の動作部位の手である。一方で、動作部位３３は、作業者である助手の動作部位の手である。

メス３４は、作業者であるユーザＵ（執刀医）が患者を切開するために用いているメスである。マーキング３５は、手術部位を明確とするためにスキンマーカにより患者に引かれた線である。

対象領域の境界３６は、領域検出部２１２により検出された対象領域と、それ以外の領域である非対象領域の境界である。本例では、動作部位３２及び動作部位３３が含まれることから対象領域の境界３６の内側が対象領域として検出され、外側が非対象領域として検出されている。なお、本例では対象領域は、１つの円型形状の領域として検出されているが、本実施形態を実装する環境等に応じて、各動作部位に対応して複数の領域として検出されるようにしてもよいし、円型以外の形状の領域として検出されるようにしてもよい。

注視点３７は、領域検出部２１２により検出された注視点の位置を示す座標値に対応する点である。これは、視野画像を撮影した際に、作業者であるユーザＵ（執刀医）が実際に注視していた注視点に対応する。

領域検出部２１２及び注視点検出部２１３は、このように検出した対象領域と、注視点の情報とを、特徴量抽出部２１４に対して出力する。

特徴量抽出部２１４は、領域検出部２１２及び注視点検出部２１３の検出結果や動画データの間での変化等に基づいて、動画データ内の各動画データ（すなわち、各フレーム）それぞれの特徴量を抽出する。

第１の特徴量として、作業者であるユーザＵ（執刀医）の視線の動き（すなわち、注視点の移動）に基づいた特徴量の抽出について図５を参照して説明する。図５は、注視点の移動距離について説明する模式図である。まず、第ｎフレーム（ｎは１以上の整数値）の視野画像である視野画像４１－ｎにおいて、注視点４２－ｎとして示す位置に注視点が検出されたとする。次に、注視点が移動し、第ｍフレーム（ｍ＝ｎ＋１）の視野画像である視野画像４１－ｍにおいて、注視点４２－ｍとして示す位置に注視点が検出されたとする。この場合、注視点４２－ｎから注視点４２－ｍまでの距離が注視点の移動距離となる。この場合に、特徴量抽出部２１４は、第１の特徴量を、例えば、＜注視点の移動に基づく特徴量の算出式＞として示す以下の数式により算出することにより抽出する。

＜注視点の移動に基づく特徴量の算出式＞
ユークリッド距離／単位時間
ただし、ユークリッド距離は注視点４２－ｎ及び注視点４２－ｍの座標値の成分ごとの差分の２乗和の正の平方根であり、単位時間は視野画像の撮影時のフレームレートに対応する隣接するフレームの間隔である。

第２の特徴量として、作業者であるユーザＵ（執刀医）の視野画像における背景変化に基づいた特徴量の抽出について図６を参照して説明する。図６は、背景の移動量について説明する模式図である。まず、第ｎフレーム（ｎは１以上の整数値）の視野画像内の非対象領域（すなわち、背景）である非対象領域４３－ｎにおいて、物体４４－ｎとして示す位置に手術台が撮影されたとする。次に、作業者であるユーザＵ（執刀医）の頭部の向きが変わったことから、第ｍフレーム（ｍ＝ｎ＋１）の視野画像内容の非対象領域である非対象領域４３－ｍにおいて、物体４４－ｍとして示す位置に手術台が撮影されたとする。

この場合に、特徴量抽出部２１４は、第２の特徴量を算出するために、まずフレーム間の物体（ここでは、手術台）の動きを示す移動ベクトル（図中の矢印に相当）を算出する。この移動ベクトルの算出は、例えば、オプティカルフローのＬｕｋａｓ－Ｋａｎａｄｅ法に基づいて行うことができる。また、この場合の追跡する特徴点の検出は、例えば、コーナー検出等の既存の手法を用いることができる。ここで、本実施形態では、算出した全ての特徴点の移動ベクトルをそのまま特徴量として利用するのではなく、背景が大きく動いているか否かということを基準として特徴量とする。そこで、特徴量抽出部２１４は、第２の特徴量を、フレーム間における算出した全ての移動ベクトルの平均値を算出することにより抽出する。なお、ここでは、非対象領域におけるフレーム間における全ての移動ベクトルの平均値を第２の特徴量としているが、対象領域及び非対象領域双方におけるフレーム間における全ての移動ベクトルの平均値を第２の特徴量とするようにしてもよい。

第３の特徴量として、作業者であるユーザＵ（執刀医）の動作部位（ここでは、手）の動きに基づいた特徴量の抽出について図７を参照して説明する。図７は、動作部位の移動量について説明する模式図である。まず、第ｎフレーム（ｎは１以上の整数値）の視野画像内の対象領域である対象領域４５－ｎにおいて、動作部位－４６ｎとして示す位置に動作部位である手が撮影されたとする。次に、作業者であるユーザＵ（執刀医）の手が移動したことから、第ｍフレーム（ｍ＝ｎ＋１）の視野画像内の対象領域である対象領域４５－ｍにおいて、動作部位－４６ｍとして示す位置に動作部位である手が撮影されたとする。

この場合に、特徴量抽出部２１４は、第３の特徴量を算出するために、まずフレーム間の動作部位（ここでは、手）の動きを示す移動ベクトル（図中の矢印に相当）を算出する。この移動ベクトルの算出は、例えば、第２の特徴量と同様にして、オプティカルフローのＬｕｋａｓ－Ｋａｎａｄｅ法に基づいて行うことができる。ただし、動作部位の種類によっては、特徴点を十分に検出できない可能性がある。このような場合には、手に対応する画素全てを対象として、オプティカルフローのＧｕｎｎａｒ－Ｆａｒｎｅｂａｃｋ法に基づいて移動ベクトルを算出するようにしてもよい。何れの場合であっても、特徴量抽出部２１４は、第３の特徴量を、第２の特徴量と同様の考えで、フレーム間における移動部位について算出した全ての移動ベクトルの平均値を算出することにより抽出する。

そして、特徴量抽出部２１４は、算出することにより抽出したこれら３つの特徴量のそれぞれを出力する。出力先は、学習処理の場合には学習部２１５であり、再生制御処理の場合には場面検出部２１６である。

学習部２１５は、特徴量抽出部２１４が抽出した３つの特徴量を含む入力データと、閲覧者から取得した所定の場面（ここでは、切開場面）を示すラベルとの組を教師データとして機械学習を行うことにより、学習モデルを構築（学習モデルの更新を含む）する。
ここで、学習対象とする動画データ内の各画像データの３つの特徴量については、上述したように特徴量抽出部２１４から入力されることにより取得される。

ラベルは、予め閲覧者が学習対象とする動画を参照して、所定の場面（ここでは、切開場面）に対応する画像データに対して、ラベル付けのための操作を行うことにより生成される。例えば、切開場面であれば、メスを切り込む瞬間からメスを患部から離す瞬間までに対応する画像データに対してラベル付けを行う操作を行う。この操作に応じて、メスを切り込む瞬間からメスを患部から離す瞬間までに対応する画像データそれぞれに正解を示す情報（例えば、値「１」）を付与し、それ以外の画像データには不正解を示す情報（例えば、値「０」）を付与する。このラベル付けの処理により、学習部２１５は、各画像データのそれぞれについてラベルを取得することができる。このラベル付けの処理は、再生制御装置２０により行われてもよいし、他の装置で行われて、その結果を再生制御装置２０が取得するようにしてもよい。

学習部２１５は、このようにして取得した３つの特徴量と、対応するラベルとを組にして教師データを生成する。そして、学習部２１５は、この教師データを用いて、例えば、教師ありの機械学習を行う。この場合、学習部２１５は、例えば、パーセプトロンを組み合わせて構成したニューラルネットワークにより、機械学習を行う。具体的には、教師データに含まれる特徴量をニューラルネットワークの入力層に対して入力データとして与え、ニューラルネットワークの出力層の出力がラベルと同じとなるように、各パーセプトロンについての重み付けを変更しながら学習を繰り返す。例えば、フォワードプロパゲーション（Ｆｏｒｗａｒｄ－ｐｒｏｐａｇａｔｉｏｎ）と呼ばれる手法で出力した後に、バックプロパゲーション（Ｂａｃｋ－ｐｒｏｐａａｔｉｏｎ、誤差逆伝搬法とも呼ばれる。）という手法により各パーセプトロンの出力の誤差を小さくするように重み付け値を調整することを繰り返す。
学習部２１５は、このようにして、教師データの特徴を学習し、入力から結果を推定するための学習モデルを帰納的に獲得する。

なお、機械学習の手法は必ずしも限定されず、例えば、一般的な全結合層のみのニューラルネットワークを用いてもよいし、ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）等の再帰型ニューラルネットワークを用いてもよい。

そして、学習部２１５は、機械学習を終了する所定の条件が満たされると、構築した学習モデルを学習モデル記憶部２５２に記憶させる。機械学習を終了する所定の条件は、任意に設定することができるが、例えば、出力とラベルの誤差が所定の基準以下となることや、重み付けの調整の繰り返し回数が所定回数に達したことや、機械学習を開始してから所定時間が経過したこと等を所定の条件とすることができる。なお、学習モデルを構築するとは、新たに学習モデルを作成することのみならず、既存の学習モデルを新たな教師データにより更新することも含むものとする。

場面検出部２１６は、特徴量抽出部２１４が抽出した３つの特徴量と、学習部２１５が構築して学習モデル記憶部２５２に記憶させた学習モデルとに基づいて、所定の場面（ここでは、切開場面）を検出する。ここで、再生制御対象とする動画データ内の各画像データの３つの特徴量については、上述したように特徴量抽出部２１４から入力されることにより取得される。

場面検出部２１６は、このようにして取得した３つの特徴量を、学習モデルの入力層に対して入力データとして与え、ニューラルネットワークの出力層の出力に基づいて所定の場面（ここでは、切開場面）を検出する。例えば、場面検出部２１６は、出力層の出力が正解を示す情報（例えば、値「１」又は「所定の閾値以上の１に近い値」）であれば、その画像データは、所定の場面に対応する画像データであるとして検出する。
一方で、場面検出部２１６は、出力層の出力が不正解を示す情報（例えば、値「０」又は「所定の閾値未満の０に近い値」）であれば、その画像データは、所定の場面に対応する画像データとしては検出しない。すなわち、他の場面に対応する画像データとして検出する。

そして、場面検出部２１６は、動画データ内の全ての画像データに対して、この検出する処理を行うと共に、検出した所定の場面に対応する画像データが何れの画像データであるかを示す情報を動画データに追加する。また、場面検出部２１６は、このように情報を追加した動画データを再生制御部２１７に対して出力すると共に、動画データ記憶部２５１に記憶させる。

再生制御部２１７は、場面検出部２１６が情報を追加した動画データの再生において、場面検出部２１６が追加した情報に基づいて、再生する画像データが所定の場面に対応する画像データであるか否かを判定し、判定結果に基づいて再生に関する制御を行う。具体的に、再生制御部２１７は、動画データに含まれる、複数の画像データを連続的に再生する場合に、所定の場面に対応する画像データの再生の態様（以下、「第１の態様」と称する。）と、それ以外の画像データ（すなわち、他の場面に対応する画像データ）の再生の態様（以下、「第２の態様」と称する。）と、を異ならせる。

前提として、所定の場面は、例えば、閲覧者が閲覧の目的とする場面であるので、他の場面よりも見やすい態様でユーザに閲覧させることが望ましい。
そこで、再生制御部２１７は、例えば、第１の態様での再生速度を、第２の態様での再生速度よりも遅くする。例えば、第１の態様での再生速度を、撮影時のフレームレートに沿った等速としたり、それよりも遅い再生速度（いわゆる、スロー再生）としたりする。一方で、第２の態様での再生速度を、撮影時のフレームレートに沿った等速よりも早い再生速度（いわゆる、早送り）とする。これにより、所定の場面を、他の場面よりもじっくりと閲覧者に閲覧させることができる。

他にも、再生制御部２１７は、例えば、第１の態様で再生する場合に、所定の場面に対応する画像データの一部の領域を拡大して再生する。一方で、第２の態様で再生する場合に、特に拡大等の処理は行わない。これにより、所定の場面を、他の場面よりも事細かにユーザに閲覧させることができる。この場合に、拡大する領域としては、例えば、領域検出部２１２が検出した対象領域としたり、注視点検出部２１３が検出した注視点の周辺の領域としたり、動作部位の周辺の領域としたり、作業者が使用する道具（ここでは、メス）の周辺の領域としたりすることができる。

なお、再生制御部２１７は、このように再生速度を異ならせることと、拡大を行うことの双方を組み合わせて行うようにしてもよい。また、他にも、例えば、第１の態様として、所定の場面であることを示すテキストを表示することや、所定の場面であることを示す音を出力するようにしてもよい。更に、他にも、例えば、第１の態様として、所定の場面に対応する、説明等のテキスト（例えば、切開場面において、切開の方法について解説するテキスト等）を表示するようにしてもよい。

図８は、このような再生制御部２１７による再生の制御を伴う、再生時のユーザインタフェースの一例について示す模式図である。図８に示すように、再生画面５１は、再生領域５２、シークバー５３、スライダー５４、所定の場面箇所５５、及び操作用アイコン群５６を含む。

再生領域５２は、再生制御対象とする動画の再生画像が表示される。シークバー５３は、閲覧者の操作に応じて動画の再生位置を調整するために利用される。スライダー５４は、現在の再生箇所を示す。所定の場面箇所５５は、シークバー５３において、検出された所定の場面に対応する箇所を示す。図中では、所定の場面箇所５５をハッチングで表す。操作用アイコン群５６は、いわゆる停止ボタンや、いわゆる早送りボタンや、いわゆる巻き戻しボタンに対応するアイコンである。

閲覧者は、再生開始指示操作のみを行えば、再生領域５２を参照することによって、所定の場面か否かに応じて異なる態様で再生される動画の再生画像を閲覧することができる。また、所定の場面箇所５５が表示されていることから、閲覧者は、スライダー５４や操作用アイコン群５６を操作する場合に、所定の場面に容易に到達することができる。そのため、閲覧者は、従来のように、所定の場面に到達するために煩雑な操作を行うような必要はなくなる。すなわち、本実施形態によれば、再生に関する制御によって、より適切に閲覧者であるユーザの閲覧を支援することができる。

［撮影処理］
次に、図９を参照して、ウェアラブルカメラ１０が実行する撮影処理の流れについて説明する。図９は、ウェアラブルカメラ１０が実行する撮影処理の流れを説明するフローチャートである。撮影処理は、作業を開始する作業者等のユーザからの、撮影開始指示操作に伴い実行される。

ステップＳ１１において、視野画像撮影部１１１は、撮像部１８を用いて、所定の周期（すなわち、所定のフレームレート）で視野画像を撮影する。
ステップＳ１２において、注視点計測部１１２は、アイトラッキング部１９を用いて、視野画像撮影部１１１による撮影と同様の所定の周期（すなわち、所定のフレームレート）で注視点の位置に対応する二次元座標の座標値を算出する。

ステップＳ１３において、画像データ生成部１１３は、視野画像撮影部１１１から入力された視野画像と、注視点計測部１１２から入力された注視点の位置に対応する座標値とを、フレーム単位で対応付けする（すなわち、合成する）ことにより、注視点の情報を含んだ画像データを生成する。

ステップＳ１４において、画像データ生成部１１３は、作業を終了した作業者等のユーザからの、撮影終了指示操作があったか否かを判定する。撮影終了指示操作があった場合は、ステップＳ１４においてＹｅｓと判定され、処理はステップＳ１５に進む。一方で、撮影終了指示操作がない場合は、ステップＳ１４においてＮｏと判定され、処理はステップＳ１１から再度繰り返される。

ステップＳ１５において、画像データ送信部１１４は、画像データ生成部１１３により生成された、時間的に連続した複数の画像データを、動画データの形式に変換して再生制御装置２０に対して送信する。これにより、本処理は終了する。

［学習処理］
次に、図１０を参照して、再生制御装置２０が実行する学習処理の流れについて説明する。図１０は、再生制御装置２０が実行する学習処理の流れを説明するフローチャートである。学習処理は、閲覧者等のユーザからの、学習開始指示操作に伴い実行される。

ステップＳ２１において、画像データ取得部２１１は、ウェアラブルカメラ１０から複数の画像データを変換した動画データを、受信することにより取得する。
ステップＳ２２において、動画データ内の各視野画像（すなわち、各フレーム）のそれぞれに対して、画像認識を行うことにより、作業者の動作部位（ここでは、作業者の手）が含まれる領域である対象領域を検出する。

ステップＳ２３において、注視点検出部２１３は、動画データ内の各視野画像（すなわち、各フレーム）のそれぞれから、画像データ生成部１１３が画像データ生成時に画像データに含ませた、作業者の注視点の情報（ここでは、注視点の位置を示す座標値）を検出する。
ステップＳ２４において、特徴量抽出部２１４は、領域検出部２１２及び注視点検出部２１３の検出結果や動画データの間での変化等に基づいて、動画データ内の各動画データ（すなわち、各フレーム）それぞれの特徴量を抽出する。

ステップＳ２５において、学習部２１５は、閲覧者の操作に基づいて生成された所定の場面（ここでは、切開場面）を示すラベルを取得する。
ステップＳ２６において、学習部２１５は、特徴量と、対応するラベルとを組にして教師データを生成し、この教師データを用いて機械学習を行う。

ステップＳ２７において、学習部２１５は、機械学習を終了する所定の条件が満たされたか否かを判定する。なお、この機械学習を終了する所定の条件の具体的な内容については、学習部２１５の説明において上述した通りである。機械学習を終了する所定の条件が満たされた場合は、ステップＳ２７においてＹｅｓと判定され、処理はステップＳ２８に進む。一方で、機械学習を終了する所定の条件が満たされていない場合は、ステップＳ２７においてＮｏと判定され、処理はステップＳ２６を再度繰り返す。

ステップＳ２８において、学習部２１５は、機械学習の結果に基づいて、学習モデルを構築（学習モデルの更新を含む）する。これにより、本処理は終了する。

［再生制御処理］
次に、図１１を参照して、再生制御装置２０が実行する再生制御処理の流れについて説明する。図１１は、再生制御装置２０が実行する再生制御処理の流れを説明するフローチャートである。再生制御処理は、閲覧者等のユーザからの、再生開始指示操作に伴い実行される。

処理対象とする動画データが学習対象とする動画データから動画再生制御の対象とする動画データに代わる以外は、ステップＳ３１からステップＳ３４までの処理内容と、ステップＳ２１からステップＳ２４までの処理内容は同じであるので、重複する説明を省略する。

ステップＳ３５において、場面検出部２１６は、特徴量抽出部２１４が抽出した特徴量と、学習部２１５が構築した学習モデルとに基づいて、所定の場面（ここでは、切開場面）を検出する。そして、動画データ内の全ての画像データに対して、この検出する処理を行う。
ステップＳ３６において、場面検出部２１６は、検出した所定の場面に対応する画像データが何れの画像データであるかを示す情報を動画データに追加する。

ステップＳ３７において、再生制御部２１７は、場面検出部２１６が所定の場面に対応する画像データが何れの画像データであるかを示す情報を追加した動画データを再生する。なお、ステップＳ３６とステップＳ３７は連続して実行されてもよいが、ステップＳ３６の終了後、閲覧者等のユーザからの、再生開始指示操作に伴いステップＳ３７が実行されてもよい。

ステップＳ３８において、再生制御部２１７は、再生する動画データ内の画像データが所定の場面に対応する画像データであるか否かを判定する。所定の場面に対応する画像データである場合は、ステップＳ３８においてＹｅｓと判定され、処理はステップＳ３９に進む。一方で、所定の場面に対応する画像データでない場合（すなわち、他の場面に対応する画像データである場合）は、ステップＳ３８においてＮｏと判定され、処理はステップＳ４０に進む。

ステップＳ３９において、再生制御部２１７は、所定の場面に対応する画像データを第１の態様で再生する。
ステップＳ４０において、再生制御部２１７は、他の場面に対応する画像データを第２の態様で再生する。

ステップＳ４１において、２１８は、動画を最後まで再生したことにより動画が終了したか否かを判定する。動画が終了した場合は、ステップＳ４１においてＹｅｓと判定され、本処理は終了する。一方で、動画が終了していない場合は、ステップＳ４１においてＮｏと判定され、処理はステップＳ３８から再度繰り返される。

以上説明した、撮影処理、学習処理、及び再生制御処理によれば、再生に関する制御によって、より適切にユーザの閲覧を支援することができる。
例えば、これらの処理によれば、長時間となりがちな出術の動画から、動画の閲覧の目的となる切開場面を検出し、この検出した切開場面を、他の場面（例えば、準備場面や片付け画面）よりも、閲覧者であるユーザにとってより見やすい態様で閲覧できるようにする。これにより、閲覧者であるユーザは、再生制御のための煩雑な操作を行うことなく、容易に切開場面を閲覧することができる。また、画像データ内の自転車や人物といった、画像認識によって識別可能な汎用的な手がかりに基づいて単純に機械学習を繰り返すような場合よりも、所定の場面を検出するために適切な注視点等の特徴量に基づいて、より短期間な機械学習で所定の場面を検出することができる。

［変形例］
以上、本発明の実施形態について説明したが、この実施形態は例示に過ぎず、本発明の技術的範囲を限定するものではない。本発明は、本発明の要旨を逸脱しない範囲で、その他の様々な実施形態を取ることが可能である共に、省略及び置換等種々の変形を行うことができる。この場合に、これら実施形態及びその変形は、本明細書等に記載された発明の範囲及び要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
一例として、以上説明した本発明の実施形態を、以下の変形例のようにして変形してもよい。

＜第１の変形例＞
上述した実施形態では、手術における所定の場面（ここでは、切開場面）の特徴を適切に表していると考えられる３つの特徴量を用いて、学習モデルの構築及び所定の場面の検出を行っていた。これに限らず、検出しようとする所定の場面がどのような場面かに応じて、他の特徴量を追加して用いるようにしてもよいし、他の特徴量を代わりに用いるようにしてもよい。

例えば、上述した実施形態では、作業者の手を動作部位としていたが、指や足といった作業者の他の部位を動作部位として特徴量を抽出して、これを用いるようにしてもよい。他にも、作業者の用いる道具（例えば、メス）等を動作部位として特徴量を抽出して、これを用いるようにしてもよい。
他にも、例えば、作業が行われる場所の周辺環境や、患部の形状や色の変遷等を考慮するために、各画素が示す色情報や明度情報の変化から特徴量を抽出して、これを用いるようにしてもよい。

他にも、例えば、協働作業の場面をより精度高く検出するために、動作部位の数（例えば、手の数）を特徴量として抽出して、これを用いるようにしてもよい。協働作業においては、検出される手の数が３つ以上になる可能性が高いと考えられる。そのため、手のような動作部位の数も特徴量とすることで、より精度高く協働作業を検出することができる。また、協働作業を行う作業者それぞれにウェアラブルカメラ１０を装着し、それぞれのウェアラブルカメラ１０が撮影した各作業者の視野画像の画像データそれぞれから特徴量を抽出して、これを用いるようにしてもよい。すなわち、複数の視野画像から特徴量を抽出して、これを用いるようにしてもよい。例えば、協働作業においては、各作業者の注視点が近傍になる可能性が高いと考えられる。そのため、複数の視野画像から特徴量を抽出して、これを用いることで、より精度高く協働作業を検出することができる。また、この場合に、検出した場面に応じて各作業者の視野画像の何れを再生するべきかについて機械学習（又は設定）しておき、各作業者の視野画像の何れを再生するかを機械学習結果（又は設定内容）に基づいて切り替えるようにしてもよい。

他にも、例えば、所定の場面として検出したい場面が、複数種類（例えば、切開場面と、縫合場面）存在する場合は、それぞれの場面に応じた複数種類のラベル付けを行うようにすればよい。この場合に、複数種類の場面が所定の順番で行われることが分かっているのであれば、その所定の順番も特徴量の１つとして、これを用いるようにしてもよい。例えば、切開場面が行われた後に、縫合場面が行われることは手術計画から分かるので、この順番に基づいて、各時間帯で行わる可能性が高い作業の種類を、特徴量の１つとして用いるようにしてもよい。或いは、学習モデルの出力において、各場面それぞれについての尤度の値が出力されるような場合に、各時間帯で行わる可能性が高い作業の種類について尤度が高くなるように重み付けを行うようにしてもよい。すなわち、場面が所定の順番を示す手術計画のような情報を、特徴量としたり、出力される尤度の重み付けに利用したりしてもよい。

＜第２の変形例＞
ユーザが、抽出した各特徴量に任意の拡大倍率の重み付けを行って、学習モデルの構築及び所定の場面の検出を行えるようにしてもよい。例えば、抽出した特徴量それそれに対応したスライダー等の、重み付けの程度を調整するユーザインタフェースを用意する。そして、このユーザインタフェースを利用したユーザの操作に応じて、何れの特徴量にどの程度の重み付けを行うのかを設定する。そして、各特徴量に、設定に応じた重み付けを行って、学習モデルの構築及び所定の場面の検出を行う。重み付けを行うことができる特徴量は、例えば、上述した３つの特徴量以外にも、検出した動作部位の存在の有無、検出した動作部位のサイズ、検出した各特徴量の画面中心からの距離、検出した動作部位と注視点の距離、等であってよい。

＜第３の変形例＞
上述の実施形態では、ウェアラブルカメラ１０により撮影処理を行い、動画データを生成することを想定していた。これに限らず、他の装置により撮影処理を行い、動画データを生成するようにしてもよい。例えば、内視鏡等の医療機器により撮影処理を行い、動画データを生成するようにしてもよい。すなわち、本実施形態での再生制御の対象とする動画データを、ウェアラブルカメラ１０以外の装置による撮影で生成された動画データとしてもよい。他にも、例えば、ウェアラブルカメラ１０（或いは、撮影処理を行う他の装置）と、再生制御装置２０とを一体にして実現するようにしてもよい。

以上のように、本実施形態に係る再生制御装置２０は、画像データ取得部２１１と、領域検出部２１２と、特徴量抽出部２１４と、場面検出部２１６と、再生制御部２１７と、を備える。
画像データ取得部２１１は、時間的に連続した複数の画像データを取得する。
領域検出部２１２は、複数の画像データそれぞれの画像内から所定の対象を含んだ対象領域を検出する。
特徴量抽出部２１４は、複数の画像データ間の画像の変化と、当該変化している領域が対象領域であるか否かと、に基づいて複数の画像データそれぞれから特徴量を抽出する。
場面検出部２１６は、特徴量を学習モデルに入力することにより、所定の場面に対応する画像データを検出する。
再生制御部２１７は、場面検出部２１６が検出した所定の場面に対応する画像データを示す情報に基づいて、複数の画像データの再生を制御する。
このように、再生制御装置２０は、動画内の複数の画像データから抽出した特徴量と、学習モデルとに基づいて、所定の場面を検出すると共に、所定の場面であるか否かに基づいて、複数の画像データからなる動画の再生を制御することができる。
従って、再生制御装置２０によれば、再生に関する制御によって、より適切にユーザの閲覧を支援することができる。

再生制御部２１７は、複数の画像データを連続的に再生する場合に、場面検出部２１６が検出した所定の場面に対応する画像データの再生の態様と、それ以外の画像データの再生の態様とを異ならせる。
これにより、所定の場面を、他の場面よりも見やすい態様でユーザに閲覧させることができる。

再生制御部２１７は、複数の画像データを連続的に再生する場合に、場面検出部２１６が検出した所定の場面に対応する画像データの再生速度を、それ以外の画像データの再生速度よりも遅くする。
これにより、所定の場面を、他の場面よりもじっくりとユーザに閲覧させることができる。

再生制御部２１７は、複数の画像データを連続的に再生する場合に、場面検出部２１６が検出した所定の場面に対応する画像データの一部の領域を拡大して再生する。
これにより、所定の場面を、他の場面よりも事細かにユーザに閲覧させることができる。

所定の場面は、連続的に再生される複数の画像データの閲覧の目的となる場面であって、複数のユーザによる協働作業が行われている場面である。
所定の対象は、協働作業を行う複数のユーザそれぞれの部位である。
複数の画像データは、協働作業を行う何れかのユーザの視野に相当する空間を撮影した画像データである。
これにより、閲覧の目的となる協働作業が行われている際の、作業者を行うユーザの視野に相当する画像を、画像を閲覧するユーザに閲覧させることができる。

再生制御装置２０は、注視点検出部２１３をさらに備える。
注視点検出部２１３は、複数の画像データの撮影時に撮影対象を視認したユーザの注視点を検出する。
特徴量抽出部２１４は、複数の画像データ間の撮影対象を視認したユーザの注視点の変化に基づいて、複数の画像データそれぞれから特徴量をさらに抽出する。
これにより、ユーザの注視点の変化という指標も考慮して、精度高く所定の場面を検出することができる。

再生制御装置２０は、学習部２１５をさらに備える。
学習部２１５は、特徴量を含む入力データと、所定の場面に対応する画像データを示すラベルとの組を教師データとして機械学習を行うことにより、学習モデルを構築する
これにより、動画内の複数の画像データから抽出した特徴量に基づいて、所定の場面を検出するための学習モデルを構築することができる。

所定の場面は、所定の順番で行われる複数の場面である。
教師データには、所定の順番を示す情報も含まれる。
これにより、所定の順番を示す情報（例えば、手術の作業の順番を示す手術計画）に基づいた学習を行い、より精度高く所定の場面を検出することができる学習モデルを構築することができる。

［ハードウェアやソフトウェアによる機能の実現］
上述した実施形態による一連の処理を実行させる機能は、ハードウェアにより実現することもできるし、ソフトウェアにより実現することもできるし、これらの組み合わせにより実現することもできる。換言すると、上述した一連の処理を実行する機能が、再生制御システムＳの何れかにおいて実現されていれば足り、この機能をどのような態様で実現するのかについては、特に限定されない。

例えば、上述した一連の処理を実行する機能を、演算処理を実行するプロセッサによって実現する場合、この演算処理を実行するプロセッサは、シングルプロセッサ、マルチプロセッサ及びマルチコアプロセッサ等の各種処理装置単体によって構成されるものの他、これら各種処理装置と、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）又はＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等の処理回路とが組み合わせられたものを含む。

また、例えば、上述した一連の処理を実行する機能を、ソフトウェアにより実現する場合、そのソフトウェアを構成するプログラムは、ネットワーク又は記録媒体を介してコンピュータにインストールされる。この場合、コンピュータは、専用のハードウェアが組み込まれているコンピュータであってもよいし、プログラムをインストールすることで所定の機能を実行することが可能な汎用のコンピュータ（例えば、汎用のパーソナルコンピュータ等の電子機器一般）であってもよい。また、プログラムを記述するステップは、その順序に沿って時系列的に行われる処理のみを含んでいてもよいが、並列的或いは個別に実行される処理を含んでいてもよい。また、プログラムを記述するステップは、本発明の要旨を逸脱しない範囲内において、任意の順番に実行されてよい。

このようなプログラムを記録した記録媒体は、コンピュータ本体とは別に配布されることによりユーザに提供されてもよく、コンピュータ本体に予め組み込まれた状態でユーザに提供されてもよい。この場合、コンピュータ本体とは別に配布される記憶媒体は、例えば、磁気ディスク（フロッピディスクを含む）、光ディスク、又は光磁気ディスク等により構成される。光ディスクは、例えば、ＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃ－ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）、或いはＢｌｕ－ｒａｙ（登録商標）Ｄｉｓｃ（ブルーレイディスク）等により構成される。光磁気ディスクは、例えば、ＭＤ（ＭｉｎｉＤｉｓｃ）等により構成される。また、コンピュータ本体に予め組み込まれた状態でユーザに提供される記録媒体は、例えば、プログラムが記録されている図２のＲＯＭ１２、図３のＲＯＭ２２、図２の記憶部１６、或いは図３の記憶部２５に含まれるハードディスク等により構成される。

１０ウェアラブルカメラ、２０再生制御装置、１１，２１ＣＰＵ、１２，２２ＲＯＭ、１３，２３ＲＡＭ、１４，２４通信部、１５センサ部、１６，２５記憶部、１７，２６入力部、１８撮像部、１９アイトラッキング部、２７出力部、２８ドライブ、１１１視野画像撮影部、１１２注視点計測部、１１３画像データ生成部、１１４画像データ送信部、１６１画像データ記憶部、２１１画像データ取得部、２１２領域検出部、２１３注視点検出部、２１４特徴量抽出部、２１５学習部、２１６場面検出部、２１７再生制御部、２５１動画データ記憶部、２１７学習モデル記憶部、Ｓ再生制御システム、Ｕユーザ

Claims

時間的に連続した複数の画像データを取得する画像データ取得手段と、
前記複数の画像データそれぞれの画像内から所定の対象を含んだ対象領域を検出する領域検出手段と、
前記対象領域における前記所定の対象の動きに基づいた特徴量と、前記対象領域以外の領域である非対象領域における物体の動きに基づいた特徴量とを、前記複数の画像データそれぞれから抽出する特徴量抽出手段と、
前記特徴量を学習モデルに入力することにより、所定の場面に対応する画像データを検出する場面検出手段と、
前記場面検出手段が検出した前記所定の場面に対応する画像データを示す情報に基づいて、前記複数の画像データの再生を制御する再生制御手段と、
を備えることを特徴とする再生制御装置。
前記再生制御手段は、前記複数の画像データを連続的に再生する場合に、前記場面検出手段が検出した前記所定の場面に対応する画像データの再生の態様と、それ以外の画像データの再生の態様とを異ならせることを特徴とする請求項１に記載の再生制御装置。
前記再生制御手段は、前記複数の画像データを連続的に再生する場合に、前記場面検出手段が検出した前記所定の場面に対応する画像データの再生速度を、それ以外の画像データの再生速度よりも遅くすることを特徴とする請求項１又は２に記載の再生制御装置。
前記再生制御手段は、前記複数の画像データを連続的に再生する場合に、前記場面検出手段が検出した前記所定の場面に対応する画像データの一部の領域を拡大して再生することを特徴とする請求項１乃至３の何れか１項に記載の再生制御装置。
前記所定の場面は、連続的に再生される前記複数の画像データの閲覧の目的となる場面であって、複数のユーザによる協働作業が行われている場面であり、
前記所定の対象は、前記協働作業を行う複数のユーザそれぞれの部位であり、
前記複数の画像データは、前記協働作業を行う何れかのユーザの視野に相当する空間を撮影した画像データである、
ことを特徴とする請求項１乃至４の何れか１項に記載の再生制御装置。
前記複数の画像データの撮影時に撮影対象を視認したユーザの注視点を検出する注視点検出手段をさらに備え、
前記特徴量抽出手段は、前記複数の画像データ間の前記撮影対象を視認したユーザの注視点の変化に基づいて、前記複数の画像データそれぞれから特徴量をさらに抽出する、
ことを特徴とする請求項１乃至５の何れか１項に記載の再生制御装置。
前記特徴量を含む入力データと、前記所定の場面に対応する画像データを示すラベルとの組を教師データとして機械学習を行うことにより、前記学習モデルを構築する学習手段をさらに備えることを特徴とする請求項１乃至６の何れか１項に記載の再生制御装置。
前記所定の場面は、所定の順番で行われる複数の場面であり、
前記特徴量に、前記所定の順番を示す情報も含まれることを特徴とする請求項７に記載の再生制御装置。
時間的に連続した複数の画像データを取得する画像データ取得機能と、
前記複数の画像データそれぞれの画像内から所定の対象を含んだ対象領域を検出する領域検出機能と、
前記対象領域における前記所定の対象の動きに基づいた特徴量と、前記対象領域以外の領域である非対象領域における物体の動きに基づいた特徴量とを、前記複数の画像データそれぞれから抽出する特徴量抽出機能と、
前記特徴量を学習モデルに入力することにより、所定の場面に対応する画像データを検出する場面検出機能と、
前記場面検出機能が検出した前記所定の場面に対応する画像データを示す情報に基づいて、前記複数の画像データの再生を制御する再生制御機能と、
をコンピュータに実現させることを特徴とする再生制御プログラム。