JP2024081132A

JP2024081132A - 情報処理システム、情報処理方法及びプログラム

Info

Publication number: JP2024081132A
Application number: JP2023200990A
Authority: JP
Inventors: 亜斗夢園田; 雄太川崎
Original assignee: Lightblue
Current assignee: Lightblue
Priority date: 2022-12-05
Filing date: 2023-11-28
Publication date: 2024-06-17
Also published as: JP2024081133A

Abstract

【課題】工場の現場等において、作業の評価等を行うための学習済みモデルを、容易に作成することができる技術を提供すること。【解決手段】本発明の一態様によれば、情報処理システムが提供される。この情報処理システムは、次の各ステップを実行させるプログラムを実行可能なプロセッサを備える。表示制御ステップでは、所定の動画データにアノテーションを行うための画面を表示させる。受付ステップでは、画面を介して、動画データに含まれる少なくとも１つのフレームに対して、物体を指定する第１の入力をアノテーションとして受け付けるとともに、動画データを時系列で区切った部分に対して、動作を指定する第２の入力をアノテーションとして受け付ける。学習ステップでは、アノテーションに基づいて、物体と動作とを推定可能な学習済みモデルを生成する。【選択図】図１

Description

新規性喪失の例外適用申請有り

本発明は、情報処理システム、情報処理方法及びプログラムに関する。

工場の現場等において、人工知能を用いた作業の評価等が利用されつつある。例えば特許文献１には、アノテーションを支援することが開示されている。

この画像のアノテーションを支援するシステムは、アノテーションを付与する候補となる画像である対象画像を構成する複数の対象領域を対象画像に表れる特徴に基づいて分類した分類情報を生成する分類部と、表示装置の画面上に、分類情報を可視化した分類画像を、対象画像と対比可能に配置する制御部と、を備える。

特開２０２２－１３１９３７号公報

しかしながら、従来技術では、工場の現場等において、作業の評価等を行うための学習済みモデルを作成する場合、ユーザが容易に作成することができないという問題があった。

本発明では上記事情に鑑み、工場の現場等において、作業の評価等を行うための学習済みモデルを、容易に作成することができる技術を提供することとした。

本発明の一態様によれば、情報処理システムが提供される。この情報処理システムは、次の各ステップを実行させるプログラムを実行可能なプロセッサを備える。表示制御ステップでは、所定の動画データにアノテーションを行うための画面を表示させる。受付ステップでは、画面を介して、動画データに含まれる少なくとも１つのフレームに対して、物体を指定する第１の入力をアノテーションとして受け付けるとともに、動画データを時系列で区切った部分に対して、動作を指定する第２の入力をアノテーションとして受け付ける。学習ステップでは、アノテーションに基づいて、物体と動作とを推定可能な学習済みモデルを生成する。

本開示によれば、工場の現場等において、作業の評価等を行うための学習済みモデルを、容易に作成することができる技術を提供することができる。

本実施形態に係る情報処理システム１を表す構成図である。情報処理装置３のハードウェア構成を示すブロック図である。端末４のハードウェア構成を示すブロック図である。本実施形態に係る情報処理システム１の機能を示す機能ブロック図である。情報処理システム１により実行される処理の流れの一例を示すアクティビティ図である。物体アノテーション画面５の一例である物体アノテーション画面５ａ、５ｂを示す概要図である。物体アノテーション画面５の一例である物体アノテーション画面５ｃ、５ｄを示す概要図である。動作アノテーション画面６の一例である動作アノテーション画面６ａ、６ｂを示す概要図である。

以下、図面を用いて本開示の実施形態について説明する。以下に示す実施形態中で示した各種特徴事項は、互いに組み合わせ可能である。

ところで、本実施形態に登場するソフトウェアを実現するためのプログラムは、コンピュータが読み取り可能な非一時的な記録媒体（Ｎｏｎ－ＴｒａｎｓｉｔｏｒｙＣｏｍｐｕｔｅｒ－ＲｅａｄａｂｌｅＭｅｄｉｕｍ）として提供されてもよいし、外部のサーバからダウンロード可能に提供されてもよいし、外部のコンピュータで当該プログラムを起動させてクライアント端末でその機能を実現（いわゆるクラウドコンピューティング）するように提供されてもよい。

また、本実施形態において「部」とは、例えば、広義の回路によって実施されるハードウェア資源と、これらのハードウェア資源によって具体的に実現されうるソフトウェアの情報処理とを合わせたものも含みうる。また、本実施形態においては様々な情報を取り扱うが、これら情報は、例えば電圧・電流を表す信号値の物理的な値、０又は１で構成される２進数のビット集合体としての信号値の高低、又は量子的な重ね合わせ（いわゆる量子ビット）によって表され、広義の回路上で通信・演算が実行されうる。

また、広義の回路とは、回路（Ｃｉｒｃｕｉｔ）、回路類（Ｃｉｒｃｕｉｔｒｙ）、プロセッサ（Ｐｒｏｃｅｓｓｏｒ）、及びメモリ（Ｍｅｍｏｒｙ）等を少なくとも適当に組み合わせることによって実現される回路である。すなわち、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ：ＡＳＩＣ）、プログラマブル論理デバイス（例えば、単純プログラマブル論理デバイス（ＳｉｍｐｌｅＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ：ＳＰＬＤ）、複合プログラマブル論理デバイス（ＣｏｍｐｌｅｘＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ：ＣＰＬＤ）、及びフィールドプログラマブルゲートアレイ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ：ＦＰＧＡ））等を含むものである。

１．ハードウェア構成
本節では、ハードウェア構成について説明する。

１．１情報処理システム１
図１は、本実施形態に係る情報処理システム１を表す構成図である。情報処理システム１は、撮像装置２と、情報処理装置３、端末４とを備え、これらが汎用又は専用の通信ネットワーク１１を通じて接続されている。ここで、情報処理システム１に例示されるシステムとは、１つ又はそれ以上の装置又は構成要素からなる。したがって、情報処理装置３や端末４単体であっても情報処理システム１に例示されるシステムに含まれる。以下、情報処理システム１に含まれる各構成要素についてさらに説明する。

１．２撮像装置２
撮像装置２は、所定の作業が行われる現場等に設置され、静止画又は動画を撮像するための光学機器である。撮像装置２は、例えば、撮像素子であるＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅＤｅｖｉｃｅｓ）イメージセンサー又はＣＭＯＳ（ＣｏｍｐｌｅｔｅｌｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）イメージセンサーを備えるカメラであってよい。かかる撮像素子は、撮像装置２の有するレンズから入射された光を電気信号に変換する電子部品である。撮像装置２の撮像素子の数、大きさ等の技術仕様は、限定されない。撮像された画像は、通信ネットワーク１１を介して、情報処理装置３又は端末４に送信されるとよい。

１．３情報処理装置３
図２は、情報処理装置３のハードウェア構成を示すブロック図である。情報処理装置３は、通信部３１と、記憶部３２と、制御部３３とを有し、これらの構成要素が情報処理装置３の内部において通信バス３０を介して電気的に接続されている。各構成要素についてさらに説明する。

通信部３１は、ＵＳＢ、ＩＥＥＥ１３９４、Ｔｈｕｎｄｅｒｂｏｌｔ（登録商標）、有線ＬＡＮネットワーク通信等といった有線型の通信手段が好ましいものの、無線ＬＡＮネットワーク通信、３Ｇ／ＬＴＥ／５Ｇ等のモバイル通信、Ｂｌｕｅｔｏｏｔｈ（登録商標）通信等を必要に応じて含めてもよい。すなわち、これら複数の通信手段の集合として実施することがより好ましい。すなわち、情報処理装置３は、通信部３１及び通信ネットワーク１１を介して、外部から種々の情報を通信してもよい。

記憶部３２は、前述の記載により定義される様々な情報を記憶する。これは、例えば、制御部３３によって実行される情報処理装置３に係る種々のプログラム等を記憶するソリッドステートドライブ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ：ＳＳＤ）等のストレージデバイスとして、あるいは、プログラムの演算に係る一時的に必要な情報（引数、配列等）を記憶するランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ＲＡＭ）等のメモリとして実施されうる。記憶部３２は、制御部３３によって実行される情報処理装置３に係る種々のプログラムや変数等を記憶している。

制御部３３は、情報処理装置３に関連する全体動作の処理・制御を行う。制御部３３は、例えば不図示の中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：ＣＰＵ）である。制御部３３は、記憶部３２に記憶された所定のプログラムを読み出すことによって、情報処理装置３に係る種々の機能を実現する。すなわち、記憶部３２に記憶されているソフトウェアによる情報処理が、ハードウェアの一例である制御部３３によって具体的に実現されることで、制御部３３に含まれる各機能部として実行されうる。これらについては、次節においてさらに詳述する。なお、制御部３３は単一であることに限定されず、機能ごとに複数の制御部３３を有するように実施してもよい。またそれらの組合せであってもよい。すなわち、制御部３３は、後述の各ステップを実行させるプログラムを実行可能なプロセッサの一例である。

１．４端末４
図３は、端末４のハードウェア構成を示すブロック図である。端末４は、各店舗や各工場の管理者（例えば、店長や工場長）が操作するものであり、各店舗や各工場に設けられていることが好ましい。端末４は、スマートフォン、タブレット端末、コンピュータ、その他電気通信回線を通じて情報処理装置３にアクセス可能なものであれば、その形態は問わない。具体的には、端末４は、通信部４１と、記憶部４２と、制御部４３と、表示部４４と、入力部４５とを備え、これらの構成要素が端末４の内部において通信バス４０を介して電気的に接続されている。通信部４１、記憶部４２及び制御部４３の説明は、情報処理装置３における各部の説明と同様のため省略する。

表示部４４は、例えば、端末４の筐体に含まれるものであってもよいし、外付けされるものであってもよい。表示部４４は、ユーザが操作可能なグラフィカルユーザインターフェース（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ：ＧＵＩ）の画面を表示する。これは例えば、ＣＲＴディスプレイ、液晶ディスプレイ、有機ＥＬディスプレイ及びプラズマディスプレイ等の表示デバイスを、端末４の種類に応じて使い分けて実施することが好ましい。

入力部４５は、端末４の筐体に含まれるものであってもよいし、外付けされるものであってもよい。例えば、入力部４５は、表示部４４と一体となってタッチパネルとして実施されてもよい。タッチパネルであれば、ユーザは、タップ操作、スワイプ操作等を入力することができる。もちろん、タッチパネルに代えて、スイッチボタン、マウス、ＱＷＥＲＴＹキーボード等を採用してもよい。すなわち、入力部４５がユーザによってなされた操作入力を受け付ける。当該入力が命令信号として、通信バス４０を介して制御部４３に転送され、制御部４３が必要に応じて所定の制御や演算を実行しうる。

２．機能構成
本節では、本実施形態の機能構成について説明する。前述の通り、記憶部３２に記憶されているソフトウェアによる情報処理がハードウェアの一例である制御部３３によって具体的に実現されることで、制御部３３に含まれる各機能部が実行されうる。

図４は、本実施形態に係る情報処理システム１の機能を示す機能ブロック図である。具体的には、情報処理システム１の一例である情報処理装置３は、受付部３３１と、表示制御部３３３と、物体認識部３３５と、学習部３３７とを備える。

受付部３３１は、受付ステップとして、種々の情報を受け付けるように構成される。例えば、受付部３３１は、ユーザのアカウント情報、データ、ユーザからの入力等を、記憶部３２、又は通信ネットワーク１１を介して入力部４５若しくは他の外部装置から受け付ける。本実施形態では、受付部３３１が受け付けた種々の情報は、記憶部３２に記憶されるものとして説明する。

表示制御部３３３は、表示制御ステップとして、種々の表示処理を実行するように構成される。例えば、表示制御部３３３は、画面、静止画又は動画を含む画像、アイコン、メッセージ等の視覚で認識可能な情報を、端末４の表示部４４に表示させるように制御する。表示制御部３３３は、視覚で認識可能な情報を端末４の表示部４４に表示させるためのレンダリング情報だけを生成してもよい。詳細については、後述する。

物体認識部３３５は、物体認識ステップとして、動画データに含まれる物体を認識するように構成される。詳細については、後述する。

学習部３３７は、学習ステップとして、アノテーションに基づいて、物体と動作とを推定可能な学習済みモデルを生成するように構成される。詳細については、後述する。

３．情報処理方法
本節では、前述した情報処理システム１の情報処理方法について説明する。

３．１情報処理の概要
図５は、情報処理システム１により実行される処理の流れの一例を示すアクティビティ図である。以下、このアクティビティ図に沿って、情報処理の流れを概説する。以下では一例として、ある作業をする状況を取り上げて、教師データ及びデータセットを作成し、その後に学習済みモデルを作成することについて説明する。

まず、表示制御部３３３は、ユーザの操作に応じて、学習データを選択するための画面を端末４の表示部４４に表示させる。ユーザは、端末４の入力部４５を用いて、学習データとして任意の動画データを選択する。すなわち、受付部３３１は、画面を介したユーザの入力（例えば、クリック操作、タップ操作、スワイプ操作、選択操作等）によって、通信ネットワーク１１を介して又は記憶部３２から、選択された動画データを学習データとして受け付ける（アクティビティＡ１０１）。例えば、動画データとして、工場や店舗等における実際の作業が撮像されるとよい。以下では、作業者が作業する作業動画が学習データに選択されたものとして説明する。

次に、表示制御部３３３は、ユーザの操作に応じて、物体についてのアノテーションの実行又は人物の動作についてのアノテーションの実行の何れか一つを選択可能な画面を、端末４の表示部４４に表示させる。すなわち、アノテーションは、アクティビティＡ１０１で受け付けた作業動画に対し、物体についてのアノテーションと、人物の動作についてのアノテーションとをそれぞれ実行するように構成されている。受付部３３１は、画面を介したユーザの入力によって、選択されたアノテーションの実行を受け付ける。以下ではまず、物体についてのアノテーションの実行がユーザによって選択された場合について説明する。

物体についてのアノテーションの実行を受付部３３１が受け付けた場合には、表示制御部３３３は、選択された作業動画（所定の動画データの一例）にアノテーションを行うための画面の一例である物体アノテーション画面５（図６及び図７参照）を表示させる。受付部３３１は、画面を介したユーザの入力によって、作業動画に撮像されている所定の物体について、その物体の名称及びフレーム上におけるその物体の位置に関する情報を受け付ける（アクティビティＡ１０２）。すなわち、受付部３３１は、画面を介して、動画データ（一例として作業動画）に含まれる少なくとも１つのフレームに対して、物体を指定する第１の入力をアノテーションとして受け付ける。具体的には例えば、作業動画において工具の「ドライバ」が撮像されている場合に、受付部３３１は、物体アノテーション画面５を介したユーザの入力によって、「ドライバ」という物体名称と作業動画における「ドライバ」の位置情報（座標情報）とを、アノテーションとして受け付ける。

さらに詳細には、表示制御部３３３が、ユーザの入力に応じて、作業動画の所定のフレームに対して領域オブジェクト（一例として、バウンディングボックス）を描画させ、受付部３３１は、描画された領域オブジェクトによる入力によって、物体の位置に関する情報を受け付ける。換言すると、表示制御部３３３は、ユーザの入力に応じた領域オブジェクトを画面に表示させ、受付部３３１は、画面内での領域オブジェクトの位置に基づいて、第１の入力をアノテーションとして受け付ける。具体的には例えば、作業動画に「ドライバ」が撮像されている場合に、表示制御部３３３は、ユーザの入力に応じて「ドライバ」に重畳して領域オブジェクトを描画させ、受付部３３１は、「ドライバ」という物体名称と描画された領域オブジェクトの位置情報とを、アノテーションとして受け付ける。

また、例えば作業動画の同一のフレームにおいて複数の物体が撮像されている場合には、表示制御部３３３は、ユーザの入力に応じてそれぞれの物体に対して領域オブジェクトを描画させ、受付部３３１は、それぞれの物体に対応する入力を、アノテーションとして受け付ける。具体的には例えば「ドライバ」に加えて「製品Ｘ」が撮像されている場合には、表示制御部３３３は、ユーザの入力に応じて「製品Ｘ」に重畳するように領域オブジェクトを描画させ、受付部３３１は、「製品Ｘ」という物体名称と「製品Ｘ」の位置情報とを、アノテーションとして受け付ける。この場合において、領域オブジェクトそれぞれには、区別可能な識別情報が紐付けられるとよい。これにより複数の領域オブジェクトが描画された際に、それぞれの領域オブジェクトを視覚的に区別して把握することができる。区別可能な識別情報は、例えば、色、枠線の種類や模様等である。具体的に例えば、区別可能な識別情報は、「ドライバ」に重畳して描画される領域オブジェクトに青色の枠線と半透明の塗りつぶしを施すこと、「製品Ｘ」に重畳して描画される領域オブジェクトに緑色の枠線と半透明の塗りつぶしを施すこと等である。このような態様によれば、フレームに対する領域オブジェクトの位置に基づいて１つ又は複数の物体を指定することができるので、ユーザが容易にアノテーションを行うことができる。以下の説明では、物体についてのアノテーションが、領域オブジェクトを用いて行われた場合として記載する。

続いて、一のフレーム（第１のフレーム）についての領域オブジェクトによる入力が完了した場合には、表示制御部３３３は、ユーザの操作に応じて、その次のフレーム（第２のフレーム）を物体アノテーション画面５に表示させる（図６及び図７参照）。受付部３３１は、第２のフレームにおいても第１のフレームと同様に、アノテーションを受け付ける。具体的には例えば、ユーザは、第１のフレームにおいて撮像される「ドライバ」に領域オブジェクトを重畳して描画させ、さらに、第２のフレームにおいて撮像される「ドライバ」に領域オブジェクトを重畳して描画させる。このような態様により、複数のフレームに対して物体についてのアノテーションを効率的に行うことができる。なお、この場合における第２のフレームとは、第１のフレームから任意の再生時間後のフレームであり、任意の再生時間とは０．１秒～６０秒であり、好ましくは０．５秒～１０秒であり、さらに好ましくは１秒～３秒であり、具体的には例えば、０．１，０．２，０．３，０．４，０．５，０．６，０．７，０．８，０．９，１，１．２，１．４，１．６，１．８，２，２．２，２．４，２．６，２．８，３，３．２，３．４，３．６，３．８，４，４．２，４．４，４．６，４．８，５，６，７，８，９，１０，１５，２０，２５，３０，３５，４０，４５，５０，５５，６０秒であり、ここで例示した数値の何れか２つの間の範囲内であってもよい。

また、作業動画の第１のフレームにおいて領域オブジェクトが描画された場合に、表示制御部３３３は、第２のフレーム以降のフレームにおいて、第１のフレームで描画された領域オブジェクトの位置と同じ位置に、領域オブジェクトを自動的に描画させるとよい。換言すると、表示制御部３３３は、ユーザの入力が動画データの１つのフレーム（一例として、第１のフレーム）に対して行われた場合に、領域オブジェクトを画面に表示させるとともに、フレーム以降の後続フレーム（一例として、第２のフレーム）においても、領域オブジェクトをフレームに設定された位置に表示させる。このような態様によれば、後続フレーム（一例として、第２のフレーム）において領域オブジェクトが予め表示されるので、アノテーションを効率的に進めることができる。

以上の処理によって、物体についてのアノテーションを行うことができ、これにより、物体についての教師データが作成される。

次に、表示制御部３３３は、ユーザの操作に応じて、物体についてのデータセットを作成するための画面を端末４の表示部４４に表示させる。受付部３３１は、画面を介して、ユーザによって選択された物体についての教師データを受け付ける。この場合において、選択される物体についての教師データには、１つの教師データが選択されてもよく、複数の教師データが選択されてもよい。さらに受付部３３１は、選択された物体についての教師データに基づいて、物体についてのデータセットの作成を開始する入力を受け付ける（アクティビティＡ１０３）。そして、物体についてのデータセットの作成が完了した場合には、表示制御部３３３は、物体についてのデータセットの作成が完了したという情報を、端末４の表示部４４に表示させる。具体的には例えば、物体についてのデータセットは、作業動画から、「ドライバ」に対応するフレーム（画像データ）とそのフレームにおける「ドライバ」の位置情報とに変換することで作成される。また、教師データに複数の物体として「ドライバ」と「製品Ｘ」とを含む場合には、それぞれの物体について同様の処理を行うことで、「ドライバ」と「製品Ｘ」についてのデータセットが作成される。以下の説明では、「ドライバ」と「製品Ｘ」について一つのデータセットが作成されたものとして説明する。

さらに、表示制御部３３３は、ユーザの操作に応じて、物体検出モデルを作成するための画面を端末４の表示部４４に表示させる。物体検出モデルは、物体検出のための学習済みモデルである。受付部３３１は、画面を介して、ユーザによって選択された任意の物体についてのデータセットを受け付け、さらに、選択された物体についてのデータセットに基づいて、物体検出モデルを作成する入力を受け付ける（アクティビティＡ１０４）。すなわち、学習部３３７は、アノテーションに基づいて、物体を推定可能な学習済みモデルを生成する。具体的には例えば、受付部３３１は、ユーザに選択された「ドライバ」と「製品Ｘ」についてのデータセットを受け付け、学習部３３７は、このデータセットに基づいて物体検出モデルを生成する。すなわち、この物体検出モデルは、「ドライバ」と「製品Ｘ」とを推定可能な学習済みモデルである。また、表示制御部３３３は、ユーザの操作に応じて、物体検出モデルの作成過程をユーザが把握可能な情報を、端末４の表示部４４に表示させる。この場合に表示される情報には、学習過程の可視化として、学習の進捗状況、損失関数の値、正解率、適合率、再現率等を示す、数値又はグラフが含まれるとよい。そして、物体検出モデルの生成が完成した場合には、表示制御部３３３は、物体検出モデルの生成が完了したという情報を、端末４の表示部４４に表示させる。

このような処理によって、物体検出モデルが生成される。

次に、人物の動作についてのアノテーションの実行がユーザによって選択された場合について説明する。この場合には、表示制御部３３３は、選択された作業動画（所定の動画データの一例）にアノテーションを行うための画面の一例である動作アノテーション画面６（図８参照）を表示させる。受付部３３１は、画面を介して、動作との対応付けをする入力を受け付ける（アクティビティＡ１０５）。詳細には、動作との対応付けをする入力は、作業動画に撮像されている所定の動作に対応させるように作業動画を時系列に区切り、さらに区切った部分と動作を対応付ける入力である。換言すると、受付部３３１は、画面を介して、動画データを時系列で区切った部分に対して、動作を指定する第２の入力をアノテーションとして受け付ける。なお、この場合における動作は、動いている場合に加え、静止している場合及びほぼ動いていない場合における姿勢、状態等を含む。

また、作業動画を時系列に区切る入力は、作業動画の時系列に対応するシークバーに対し、所定の動作に対応するように、区切りを入力するとよい。すなわち、作業動画を時系列に区切る入力は、作業動画の時系列に対応するシークバーを、所定の動作に対応する領域に分ける入力である。換言すると、表示制御部３３３は、動画データの時系列に対応するシークバーを画面に表示させる。シークバーは、時系列で区切られ、これにより、動画データが時系列で区切られる。このような態様によれば、動画データが時系列で区切られていることを、視覚的に把握することができ、ユーザフレンドリーな入力する画面を提供することができる。

さらに詳細には、受付部３３１は、「待機している」、「物を移動している」、「作業をしている」等の動作名称と、所定の動作に対応する作業動画の再生時間の情報とをアノテーションとして受け付ける。動作名称それぞれには、区別可能な識別情報が紐付けられるとよい。これによりシークバーを区切った際に視覚的に動作を区別して把握することができる。区別可能な識別情報は、例えば、色、模様等である。具体的に例えば、区別可能な識別情報は、「待機している」に対応するシークバーの区切られた領域に青色の枠線と半透明の塗りつぶしとを施すこと、「物を移動している」に対応するシークバーの区切られた領域に緑色の枠線と半透明の塗りつぶしとを施すこと、「作業をしている」に対応するシークバーの区切られた領域に赤色の枠線と半透明の塗りつぶしとを施すこと等である。

以上の処理によって、動作についてのアノテーションを行うことができ、これにより、動作についての教師データが作成される。

次に、表示制御部３３３は、ユーザの操作に応じて、動作についてのデータセットを作成するための画面を端末４の表示部４４に表示させ、受付部３３１は、画面を介して、ユーザによって選択された動作についての教師データを受け付ける。この場合において、選択される動作についての教師データには、１つの教師データが選択されてもよく、複数の教師データが選択されてもよい。さらに受付部３３１は、選択された動作についての教師データに基づいて、動作についてのデータセットの作成を開始する入力を受け付ける（アクティビティＡ１０６）。そして、動作についてのデータセットの作成が完了した場合には、表示制御部３３３は、動作についてのデータセットの作成が完了したという情報を、端末４の表示部４４に表示させる。換言すると、アノテーションの情報に基づいて、動作名称と、作業者の骨格座標の時系列的な変化の情報とが関連付けられることで、データセットが作成される。この場合におけるアノテーションの情報は、動作名称と、その動作が撮像されている作業動画とを関連付けた情報を含む。具体的には例えば、アノテーションの情報は、「待機している」、「物を移動している」及び「作業をしている」の動作名称と、その動作が撮像されている作業動画（すなわち、その動作に対応する再生時間の情報によって特定される作業動画の一部）とを関連付けた情報を含む。また、作業者の骨格座標の時系列的な変化の情報とは、作業者の骨格上の特徴点について作業動画のフレーム単位で座標情報を取得し、これを時系列に把握することで得られる情報である。骨格上の特徴点とは、関節等の骨格上の特徴となる部位や点であり、例えば、目、鼻、耳等の頭部、又は肩、肘、手首、腰、膝、足首等の点である。骨格点に左右がある場合は、左右についてそれぞれ把握するとよい。また、作業者の骨格座標の時系列的な変化の情報は、作業動画に重畳して描画させることで、ユーザに視認可能に描画させるとよい。具体的には例えば、作業者の骨格座標の時系列的な変化の情報は、作業者の骨格上の特徴点と特徴点を結ぶ線とで示すとよく、また、左右を異なる色の点及び線で示すとよい。以下の説明では、「待機している」、「物を移動している」及び「作業をしている」の動作について一つのデータセットが作成されたものとして説明する。

さらに、表示制御部３３３は、動作分類モデルを作成するための画面を端末４の表示部４４に表示させる。動作分類モデルは、動作を分類するための学習済みモデルである。受付部３３１は、画面を介して、ユーザによって選択された動作についてのデータセットを受け付け、さらに、選択された動作についてのデータセットに基づいて、動作分類モデルの作成を開始する入力を受け付ける（アクティビティＡ１０７）。すなわち、学習部３３７は、アノテーションに基づいて、動作を推定可能な学習済みモデルを生成する。具体的には例えば、受付部３３１は、ユーザに選択された「待機している」、「物を移動している」及び「作業をしている」についてのデータセットを受け付け、学習部３３７は、このデータセットに基づいて動作分類モデルを生成する。すなわち、この動作分類モデルは、「待機している」、「物を移動している」及び「作業をしている」を推定可能な学習済みモデルである。また、表示制御部３３３は、ユーザの操作に応じて、動作検出モデルの作成過程をユーザが把握可能な情報を、端末４の表示部４４に表示させる。この場合に表示される情報には、学習過程の可視化として、学習の進捗状況、損失関数の値、正解率、適合率、再現率等を示す、数値又はグラフが含まれるとよい。そして、動作検出モデルの生成が完成した場合には、表示制御部３３３は、動作検出モデルの生成が完了したという情報を、端末４の表示部４４に表示させる。

このような処理によって、動作分類モデルが生成される。

以上をまとめると、本実施形態に係る情報処理システム１は、次の各ステップを実行させるプログラムを実行可能な制御部３３（プロセッサ）を備える。表示制御部３３３は、表示制御ステップとして、所定の動画データにアノテーションを行うための画面を表示させる。受付部３３１は、受付ステップとして、画面を介して、動画データに含まれる少なくとも１つのフレームに対して、物体を指定する第１の入力をアノテーションとして受け付けるとともに、動画データを時系列で区切った部分に対して、動作を指定する第２の入力をアノテーションとして受け付ける。学習部３３７は、学習ステップとして、アノテーションに基づいて、物体と動作とを推定可能な学習済みモデルを生成する。また、本実施形態に係る情報処理方法は、上記情報処理システム１の各ステップを備える。また、このプログラムは、少なくとも１つのコンピュータに、上記情報処理システム１の各ステップを実行させる。

このような態様によれば、工場の現場等において、作業の評価等を行うための学習済みモデルを、容易に作成することができる。

３．２情報処理の詳細
本節では、前節にて概説された情報処理方法の詳細部分を、図を用いて説明する。

図６は、物体アノテーション画面５の一例である物体アノテーション画面５ａ、５ｂを示す概要図である。図７は、物体アノテーション画面５の一例である物体アノテーション画面５ｃ、５ｄを示す概要図である。以下、物体についてアノテーションを行う一例について、図６及び図７を用いて説明する。

図６に示されている、物体アノテーション画面５ａ、５ｂは、動画表示領域５０１を有し、動画表示領域５０１には、学習データとしてユーザによって選択された作業動画（動画データの一例）が描画されている。この作業動画は、作業動画中の１つのフレームを静止した状態で描画されている。また、物体アノテーション画面５ａの動画表示領域５０１には、アノテーションを行う前の状態が示され、物体アノテーション画面５ｂの動画表示領域５０１には、アノテーションを行った後の状態が示されている。すなわち、物体アノテーション画面５ａ、５ｂそれぞれの動画表示領域５０１には、同じ作業動画の同じフレームが示されている。

動画表示領域５０１に描画されている作業動画中のフレームには、作業者５０２と、作業机５０３と、ドライバ５０４と、部品Ｘ５０５と、カバーＸ５０６と、製品Ｘ５０７とが撮像されている。具体的にこのフレームには、製品Ｘ５０７（カバーＸ５０６を含む）と、部品Ｘ５０５とが作業机５０３に置かれ、且つ、作業者５０２がドライバ５０４を用いて製品Ｘ５０７に対して作業をしている状況が撮像されている。すなわち、ユーザは、動画表示領域５０１に描画されている動画データから、アノテーションを行う対象である物体を把握することができる。

また、物体アノテーション画面５ａ、５ｂは、バウンディングボックス設定表示５０８ａ、５０９ａ、５１０ａ、５１１ａと、追加ボタン５１２とをさらに備えている。バウンディングボックス設定表示５０８ａ、５０９ａ、５１０ａ、５１１ａは、追加ボタン５１２がユーザによって押下されることで、それぞれ追加された設定である。また、バウンディングボックス設定表示５０８ａ、５０９ａ、５１０ａ、５１１ａそれぞれには、バウンディングボックス（領域オブジェクトの一例）に関する設定がされている。バウンディングボックス設定表示５０８ａ、５０９ａ、５１０ａ、５１１ａは、ユーザによって押下されることで、その設定に対応するバウンディングボックスを描画可能に構成されている。

バウンディングボックス設定表示５０８ａ、５０９ａ、５１０ａ、５１１ａには、描画されるバウンディングボックスとの対応付けを区別可能な識別情報が設定されている。具体的には例えば、バウンディングボックス設定表示５０８ａ、５０９ａ、５１０ａ、５１１ａには、撮像されている物体に対応するように「ドライバ」、「製品Ｘ」、「部品Ｘ」及び「カバーＸ」の名称がそれぞれ付されている。また、バウンディングボックス設定表示５０８ａ、５０９ａ、５１０ａ、５１１ａの枠線は、点線と、一点鎖線と、破線と、二点鎖線とでそれぞれ描画されている。さらにバウンディングボックス設定表示５１０ａ、５１１ａの枠線の内部には、薄い塗りつぶしと、濃い塗りつぶしとがそれぞれ施されている。なお、区別可能な識別情報は、例えば、名称、シンボル、マーク、色、枠線の太さ及び種類、模様及び塗りつぶし、これらの組合せ等であるとよい。つまり、領域オブジェクトは、バウンディングボックスと、それぞれのバウンディングボックスを区別可能な識別情報とを含むように構成されている。また、区別可能な識別情報の設定には、ユーザによって選択された設定が適用されるものであってよく、予め定まった設定が順次適用されるものであってもよい。また、バウンディングボックスを動画表示領域５０１に描画させた後に、区別可能な識別情報の設定がされるものであってもよい。以上のような構成により、複数の物体に対応するように、描画可能なバウンディングボックスを準備することができる。

次に、ユーザは、動画表示領域５０１において、フレームに撮像されている物体を目視で把握する。そして、表示制御部３３３は、ユーザの入力に応じて、その物体に重畳させるようにバウンディングボックスを描画させる。所望の物体全てに重畳するようにバウンディングボックスを描画させることによって、物体アノテーション画面５の状態は、一例として、アノテーション前である物体アノテーション画面５ａから、アノテーション後である物体アノテーション画面５ｂとなる。具体的には例えば、「ドライバ」がフレームに撮像されている場合には、ユーザは、「ドライバ」に対応するバウンディングボックスを描画させるための準備として、バウンディングボックス設定表示５０８ａを押下する。次に、ユーザは、端末４の入力部４５を用いて、動画表示領域５０１において、撮像されている「ドライバ」に重畳させるようにバウンディングボックス５０８ｂを描画させる。さらにユーザは、他の物体についても同様の操作を行うことで、「製品Ｘ」、「部品Ｘ」及び「カバーＸ」に重畳させるように、バウンディングボックス５０９ｂ、５１０ｂ、５１１ｂをそれぞれ描画させる。この場合において、バウンディングボックス５０８ｂ、５０９ｂ、５１０ｂ、５１１ｂには、バウンディングボックス設定表示５０８ａ、５０９ａ、５１０ａ、５１１ａそれぞれにおいて識別情報が設定されているので、ユーザは、これらの対応付けを区別することができる。そして、ユーザは、このような操作によって、作業動画中の１つのフレームに対し、物体のアノテーションを行うことができる。

さらに、物体アノテーション画面５ａ、５ｂは、フレーム情報領域５１３と、コマ戻しボタン５１４と、コマ送りボタン５１５と、完了ボタン５１６とを備えている。フレーム情報領域５１３には、描画されているフレームについての情報として「現在のコマ２２秒／６２秒（コマ送り時間：１秒）」が記載され、作業動画が６２秒の撮像時間であること、現在のフレームが２２秒時点であること及びフレームを１秒単位で変更することが示されている。ユーザは、コマ戻しボタン５１４又はコマ送りボタン５１５を押下することで、フレームのコマ戻し又はコマ送りをすることができる。また、ユーザは、完了ボタン５１６を押下することで、物体についてアノテーションを完了させることができる。

図７に示されている、物体アノテーション画面５ｃ、５ｄは、物体アノテーション画面５ａ、５ｂと略同じ構成の画面であり、動画表示領域５０１を有している。物体アノテーション画面５ｃ、５ｄの動画表示領域５０１には、物体アノテーション画面５ａ、５ｂに対し１秒後のフレーム、すなわち作業動画の２３秒時点のフレームが描画されている。以下の説明では、物体アノテーション画面５ｂにおいてコマ送りボタン５１５が押下されたことで、物体アノテーション画面５ｃに画面が遷移したものとして説明する。

物体アノテーション画面５ｃの動画表示領域５０１では、物体アノテーション画面５ｂの動画表示領域５０１において描画されていたバウンディングボックス５０８ｂ、５０９ｂ、５１０ｂ、５１１ｂが、フレーム上の同じ位置に描画されている。すなわち、表示制御部３３３は、２２秒時点のフレームに描画された領域オブジェクトの位置情報に基づいて、２３秒時点のフレームにおいて領域オブジェクトを自動的に描画させる。換言すると、表示制御部３３３は、ユーザの入力が動画データの１つのフレーム（一例として、２２秒時点のフレーム）に対して行われた場合に、領域オブジェクトを画面に表示させるとともに、フレーム以降の後続フレーム（一例として、２３秒時点のフレーム）においても、領域オブジェクトをフレームに設定された位置に表示させる。このような態様によれば、後続フレーム（一例として、２３秒時点のフレーム）において領域オブジェクトが予め表示されるので、アノテーションを効率的に進めることができる。

次に、ユーザは、物体アノテーション画面５ｃの動画表示領域５０１において、描画されているバウンディングボックスが対応する物体に重畳して描画されているか否かを確認する。重畳して描画されていない場合には、ユーザは、対応する物体に重畳させるように、描画されているバウンディングボックスの位置、大きさ等を変更する。つまり、ユーザは、物体の、撮像されている位置、大きさ等の変化に追従させるように、バウンディングボックスの位置、大きさ等を変更することができる。作業動画のフレームをコマ送りによって描画させているため、ユーザは、物体の撮像されている位置、大きさ等の変化を容易に追従することが可能であり、アノテーションを効率的に進めることができる。

具体的には例えば、物体アノテーション画面５ｃの動画表示領域５０１において、ドライバ５０４、カバーＸ５０６及び製品Ｘ５０７に対応するバウンディングボックスは、重畳して描画されていない。一方、部品Ｘ５０５に対応するバウンディングボックス５１０ｂは、重畳して描画されている。すなわち、ユーザは、ドライバ５０４、カバーＸ５０６及び製品Ｘ５０７に対応するバウンディングボックスの位置、大きさ等を変更する。詳細には、ドライバ５０４の場合には、ユーザは、端末４の入力部４５を用いて、描画されているバウンディングボックス５０８ｂを選択し、ドライバ５０４に重畳して描画されるようにバウンディングボックス５０８ｂの位置、大きさ等を変更することができる。さらにユーザは、カバーＸ５０６、製品Ｘ５０７についても同様の操作を行うことで、バウンディングボックス５１１ｂ、５０９ｂの位置、大きさ等を変更することができる。

さらに、物体が新たに撮像されている場合には、ユーザによる入力に応じ、表示制御部３３３がバウンディングボックスを新たに描画する。具体的には例えば、物体アノテーション画面５ｃの動画表示領域５０１において、「カバーＸ」が「製品Ｘ」から取り外されたことによって、「部品Ｘ」が新たにフレームに撮像されている。この場合には、ユーザは、「部品Ｘ」に対応するバウンディングボックスを描画させるための準備として、バウンディングボックス設定表示５１０ａを押下する。次に、表示制御部３３３は、動画表示領域５０１において、新たに撮像されている「部品Ｘ」に重畳させるように、バウンディングボックス５１０ｃを描画する。なお、フレームアウト、他の物体で隠される等によって物体が撮像されていない場合には、ユーザは、所定の入力を行うことで、バウンディングボックスを削除させることができる。

以上の操作、処理等によって、物体アノテーション画面５の状態は、アノテーション前である物体アノテーション画面５ｃから、アノテーション後である物体アノテーション画面５ｄとなる。ユーザは、このような操作によって、作業動画中の複数のフレームに対し、効率的に物体についてのアノテーションを行うことができる。

図８は、動作アノテーション画面６の一例である動作アノテーション画面６ａ、６ｂを示す概要図である。以下、動作についてのアノテーションを行う一例について、図８を用いて説明する。

図８に示されている、動作アノテーション画面６ａ、６ｂは、動画表示領域６０１を有し、動画表示領域６０１には、学習データとしてユーザによって選択された作業動画（動画データの一例）が描画されている。作業動画は、ユーザの操作に応じて、再生可能に描画されている。また、動作アノテーション画面６ａ、６ｂの動画表示領域６０１には、同じ作業動画が異なる再生時点で描画されている。具体的には、動作アノテーション画面６ａの動画表示領域６０１には、ドライバ６０４と、部品Ｘ６０５ａと、カバーＸ６０６と、製品Ｘ６０７（部品Ｘ６０５ｂを含む）とが作業机６０３に置かれ、且つ、作業者６０２が製品Ｘ６０７から部品Ｘ６０５ｂを取り外す作業をしている状況が撮像されている。また、動作アノテーション画面６ｂの動画表示領域６０１には、その後の状況として、製品Ｘ６０７から取り外された部品Ｘ６０５ｂと、製品Ｘ６０７（カバーＸ６０６を含む）とが作業机６０３に置かれ、且つ、作業者６０２がドライバ６０４を用いて製品Ｘ６０７に対し作業をしている状況が撮像されている。つまり、ユーザは、動作アノテーション画面６ａ、６ｂの動画表示領域６０１の何れにおいても、作業者が作業をしているという動作を把握することができる。すなわち、ユーザは、動画表示領域６０１に描画されている動画データから、アノテーションを行う対象である人物の動作を把握することができる。

また、動作アノテーション画面６ａ、６ｂは、タイムシークバー６０９と、早戻しボタン６１４と、再生ボタン６１５と、一時停止ボタン６１６と、早送りボタン６１７と、完了ボタン６１８とをさらに備えている。タイムシークバー６０９は、再生位置表示６０９ａと、フレーム情報領域６０９ｂとを備え、作業動画の再生状況を視認可能に描画されている。具体的には、動作アノテーション画面６ａ、６ｂのフレーム情報領域６０９ｂには、「２３秒／６２秒」と「４５秒／６２秒」とがそれぞれ記載され、すなわち、作業動画が６２秒の撮像時間であること、現在の再生時点が２３秒時点と４５秒時点とであることが示されている。再生位置表示６０９ａは、タイムシークバー６０９上を変位可能に構成され、作業動画の再生時点をユーザが視認可能に描画されている。また、ユーザは、早戻しボタン６１４、再生ボタン６１５、一時停止ボタン６１６又は早送りボタン６１７を押下することで、作業動画の早戻し、再生、一時停止又は早送りをすることができる。また、ユーザは、完了ボタン６１８を押下することで、動作についてアノテーションを完了させることができる。

さらに、動作アノテーション画面６ａ、６ｂは、タイムシークバー６０８と、動作設定表示６１０ａ、６１１ａ、６１２ａと、追加ボタン６１３とを備えている。タイムシークバー６０８は、タイムシークバー６０９の近傍に並列して描画され、タイムシークバー６０９と同様に作業動画の撮像時間に対応するように構成されている。動作設定表示６１０ａ、６１１ａ、６１２ａは、追加ボタン６１３をユーザによって押下されることで、それぞれ追加された設定である。この場合における設定とは、人物の動作と関連付ける設定であり、すなわち、動作設定表示６１０ａ、６１１ａ、６１２ａには、人物の動作と関連付ける設定がそれぞれされている。動作設定表示６１０ａ、６１１ａ、６１２ａは、ユーザによって押下されることで、その設定に対応する動作の指定を入力可能に構成されている。動作の指定は、ユーザの操作によって、タイムシークバー６０８上に示される。詳細は後述する。

また、動作設定表示６１０ａ、６１１ａ、６１２ａには、入力される動作の指定を区別可能な識別情報が設定されている。具体的には例えば、動作設定表示６１０ａ、６１１ａ、６１２ａには、撮像されている動作に対応するよう、「待機している」、「物を移動している」及び「作業をしている」の名称がそれぞれ付されている。また、動作設定表示６１０ａ、６１１ａ、６１２ａの枠線の内部には、薄い塗りつぶしと、濃い塗りつぶしと、縦縞とがそれぞれ施されている。なお、区別可能な識別情報は、例えば、名称、シンボル、マーク、色、枠線の太さ及び種類、模様及び塗りつぶし、これらの組合せ等であってもよい。また、区別可能な識別情報の設定には、ユーザによって選択された設定が適用されるものであってよく、予め定まった設定が順次適用されるものであってもよい。また、タイムシークバー６０８上に示された後に、区別可能な識別情報の設定がされるものであってもよい。以上のような構成により、複数の動作に対応するように、動作の指定を入力することができる。

次に、動作についてのアノテーションを実際に行う操作、処理等を説明する。動作についてのアノテーションは、動作との対応付けをするように作業動画を時系列に区切ることで行う。詳細には、動作についてのアノテーションは、作業動画の任意の連続するフレームに対して、動作の指定をすることで行う。また、フレームの一部の領域において撮像されている動作に対して、アノテーションを行う場合は、ユーザは、その領域を関心領域として設定してもよい。例えば、関心領域は、動画表示領域６０１の一部にバウンディングボックスが描画されることで設定されてもよい。以下の説明では、関心領域が設定されず、動画表示領域６０１に描画されているフレーム全体に撮像されている動作に対して、アノテーションを行う場合を例として説明する。

具体的には例えば、ユーザは、次の操作を行うことで、動作についてのアノテーションを行う。動画表示領域６０１に描画されている作業動画から、人物の動作を把握する。把握した動作が「待機している」である場合には、「待機している」に対応する動作設定表示６１０ａを押下する。続けて、再生ボタン６１５を押下し、作業動画を再生させる。そして、「待機している」の動作が終了する時点を把握し、その時点で一時停止ボタン６１６を押下することで、作業動画の再生を一時停止させる。次の動作が「物を移動している」である場合には、「物を移動している」に対応する動作設定表示６１１ａを押下する。続けて、再生ボタン６１５を押下し、作業動画を再生させる。そして、「物を移動している」の動作が終了する時点を把握し、その時点で一時停止ボタン６１６を押下することで、作業動画の再生を一時停止させる。なお、再生ボタン６１５の代わりに早送りボタン６１７を押下してもよく、動作の終了する時点で一時停止するために早戻しボタン６１４及び早送りボタン６１７を用いてもよい。

このような操作によって、タイムシークバー６０８には、「待機している」及び「物を移動している」の動作と、作業動画の時系列との対応を識別可能に、動作時間６１０ｂ及び動作時間６１１ｂが描画されている。換言すると、動作設定表示６１０ａ又は動作設定表示６１１ａが押下され且つ作業動画が再生されている間において、タイムシークバー６０８に対して、対応する動作時間６１０ｂ又は動作時間６１１ｂが描画される。この場合において、動作時間６１０ｂ、６１１ｂには、動作設定表示６１０ａ、６１１ａそれぞれにおいて設定されている識別情報が設定されているので、ユーザは、対応付けを区別することができる。

また、動作アノテーション画面６ａ、６ｂの動画表示領域６０１に描画されている作業動画では、前述の通り、作業者が作業している状況が示されている。この場合においては、ユーザは、「作業をしている」に対応する動作設定表示６１２ａを押下し、続けて再生ボタン６１５を押下する。この操作に応じて、タイムシークバー６０８には、作業動画の再生に対応するように、動作時間６１２ｂが描画される。詳細には、作業動画の再生状況に伴って、再生位置表示６０９ａの位置が変位し、再生位置表示６０９ａの位置に対応するように動作時間６１２ｂが描画される。具体的には、動作アノテーション画面６ａでは、作業動画の２３秒時点に再生位置表示６０９ａが位置し、同じ時点まで動作時間６１２ｂが描画されている。また、動作アノテーション画面６ｂでは、作業動画の４５秒時点に再生位置表示６０９ａが位置し、同じ時点まで動作時間６１２ｂが描画されている。その後ユーザは、「作業をしている」の動作が終了する時点で一時停止ボタン６１６を押下し、作業動画の再生を一時停止させる。

以上の操作、処理等を作業動画に対し行うことによって、作業動画の時系列に対応するタイムシークバー６０８に対し、所定の動作に対応するように区切りを入力することができる。また、ユーザは、タイムシークバー６０８に所定の動作に対応する識別情報を、色塗りをする感覚で入力することができる。このような態様により、ユーザは、効率的に人物の動作についてのアノテーションを行うことができる。

［その他］
前述の実施形態に係る情報処理システム１に関して、以下のような態様を採用してもよい。

上記の実施形態では、物体についてのアノテーションにおいて、作業動画の第１のフレームにおいて領域オブジェクトが描画された場合に、第１のフレームで描画された領域オブジェクトの位置情報に基づいて、第２のフレーム以降のフレームにおいて領域オブジェクトを自動的に描画させる場合を例に説明したがこれに限られない。例えば、作業動画の第１のフレームにおいて領域オブジェクトが描画された場合に、領域オブジェクトの内部にある物体の特徴点を追従するように、第２のフレームにおいて領域オブジェクトを自動的に描画させてもよい。換言すると、表示制御部３３３は、ユーザの入力が動画データの１つのフレーム（一例として、第１のフレーム）に対して行われた場合に、領域オブジェクトを画面に表示させる。表示制御部３３３は、フレーム以降の後続フレーム（一例として、第２のフレーム）においては、領域オブジェクトを領域オブジェクトに含まれる物体の位置に応じた位置に表示させる。このような態様によれば、後続フレーム（一例として、第２のフレーム）において領域オブジェクトが物体の移動に追従して予め表示されるので、アノテーションをさらに効率的に進めることができる。

上記の実施形態では、物体についてのアノテーションにおいて、作業動画に領域オブジェクトが描画されていない状態からアノテーションを開始する場合を例に説明したがこれに限られない。例えば、予め所定の物体を学習させた学習済みモデルを用いて所定の物体の一次認識を行い、さらに上記の実施形態で説明した物体についてのアノテーションを行ってもよい。具体的には例えば、「ドライバ」、「ペンチ」、「スパナ」等の工具を学習させた学習済みモデルを用いて、作業動画に撮像されている「ドライバ」の一次認識を行い、さらに「製品Ｘ」、「部品Ｘ」及び「カバーＸ」についてのアノテーションを行うものであってもよい。また、一次認識された物体は、アノテーションの対象とするか否かをユーザが選択可能に一覧で示されてもよい。これにより、ユーザは、一次認識された物体から所望の物体を選択することができる。換言すると、物体認識部３３５は、動画データと、予め設定された参照情報とに基づいて、動画データに含まれる少なくとも１つの物体である既知物体を認識する。受付部３３１は、画面を介して、既知物体以外の物体を指定する第１の入力をアノテーションとして受け付ける。このような態様によれば、既知物体のアノテーションを機械的に行うことができるので、ユーザの入力する量を減らすことができる。

上記の実施形態では図６及び図７に例示されたように、矩形のバウンディングボックスを描画させる場合を例に説明したがこれに限られない。例えば、物体を囲うオブジェクトであれば、多角形、丸、曲線（フリーハンド）等であってもよく、物体の外形に自動又は手動で合わせるものであってもよい。

上記の実施形態では、物体についてのアノテーション及び動作のアノテーションについて、動画データに含まれる全ての物体又は動作について行う場合を例に説明したが、これに限られない。例えば、物体についてのアノテーション及び動作のアノテーションは、動画データに含まれる一部の物体又は動作についてのみを対象に行うものであってもよい。

上記の実施形態では図８に例示されたように、タイムシークバー６０８において、動作についてのアノテーションをユーザに視認可能に描画させる場合を例に説明したが、これに加えて、例えば、動作の名称と動画データの再生時間との一覧が示されてもよい。具体的には例えば、一覧として、「待機している：０～６．５秒」、「物を移動している：６．５～１２秒」、「作業をしている：１２～５０秒」等が列記されてもよい。

また、上記の実施形態では図８に例示されたように、タイムシークバー６０８とタイムシークバー６０９とを近傍に並列して描画させる場合を例に説明したが、これに限られない。例えば、タイムシークバー６０８のみが描画されてもよい。具体的には例えば、タイムシークバー６０８は、タイムシークバー６０８上に、再生時点を把握可能に描画させてもよい。

上記の実施形態では、動画データには、作業者が製品に対し作業をする作業動画を用いて説明したがこれに限られない。例えば、建設現場、公共施設・インフラ、製造・物流、飲食・小売等における作業者、従業者等の人物の動作及び関連する物体が撮像されている動画データであってもよい。

次に記載の各態様で提供されてもよい。

（１）情報処理システムであって、次の各ステップを実行させるプログラムを実行可能なプロセッサを備え、表示制御ステップでは、所定の動画データにアノテーションを行うための画面を表示させ、受付ステップでは、前記画面を介して、前記動画データに含まれる少なくとも１つのフレームに対して、物体を指定する第１の入力を前記アノテーションとして受け付けるとともに、前記動画データを時系列で区切った部分に対して、動作を指定する第２の入力を前記アノテーションとして受け付け、学習ステップでは、前記アノテーションに基づいて、前記物体と前記動作とを推定可能な学習済みモデルを生成する、システム。

（２）上記（１）に記載の情報処理システムにおいて、前記表示制御ステップでは、ユーザの入力に応じた領域オブジェクトを前記画面に表示させ、前記受付ステップでは、前記画面内での前記領域オブジェクトの位置に基づいて、前記第１の入力を前記アノテーションとして受け付ける、システム。

このような態様によれば、フレームに対する領域オブジェクトの位置に基づいて物体を指定できるので、容易にアノテーションをすることができる。

（３）上記（２）に記載の情報処理システムにおいて、前記表示制御ステップでは、前記ユーザの入力が前記動画データの１つのフレームに対して行われた場合に、前記領域オブジェクトを前記画面に表示させるとともに、前記フレーム以降の後続フレームにおいても、前記領域オブジェクトを前記フレームに設定された位置に表示させる、システム。

このような態様によれば、後続フレームにおいて領域オブジェクトが予め表示されるので、アノテーションを効率的に進めることができる。

（４）上記（２）に記載の情報処理システムにおいて、前記表示制御ステップでは、前記ユーザの入力が前記動画データの１つのフレームに対して行われた場合に、前記領域オブジェクトを前記画面に表示させ、前記フレーム以降の後続フレームにおいては、前記領域オブジェクトを前記領域オブジェクトに含まれる物体の位置に応じた位置に表示させる、システム。

このような態様によれば、後続フレームにおいて領域オブジェクトが物体の移動に追従して予め表示されるので、アノテーションをさらに効率的に進めることができる。

（５）上記（１）～（４）の何れか１つに記載の情報処理システムにおいて、さらに、物体認識ステップでは、前記動画データと、予め設定された参照情報とに基づいて、前記動画データに含まれる少なくとも１つの物体である既知物体を認識し、前記受付ステップでは、前記画面を介して、前記既知物体以外の物体を指定する第１の入力を前記アノテーションとして受け付ける、システム。

このような態様によれば、既知物体のアノテーションを機械的に行うことができるので、ユーザの入力する量を減らすことができる。

（６）上記（１）～（５）の何れか１つに記載の情報処理システムにおいて、前記表示制御ステップでは、前記動画データの時系列に対応するシークバーを前記画面に表示させ、ここで前記シークバーは、時系列で区切られ、これにより、前記動画データが時系列で区切られる、システム。

このような態様によれば、動画データが時系列で区切られていることを、視覚的に把握することができ、ユーザフレンドリーな入力する画面を提供することができる。

（７）情報処理システムであって、次の各ステップを実行させるプログラムを実行可能なプロセッサを備え、取得ステップでは、作業が行われている態様が撮像された画像データを取得し、推定ステップでは、前記画像データと、学習済みモデルとに基づいて、前記画像データに含まれる、複数の、物体及び動作からなる群より選ばれる要素を推定し、ここで前記学習済みモデルは、教師用画像データに含まれる物体及び動作を予め機械学習させたモデルであり、特定ステップでは、推定された前記要素と、少なくとも１つの、前記要素の組合せを規定したルールとに基づいて、前記画像データに含まれる作業を特定する、システム。

このような態様によれば、画像データ内において特定される作業について、要素の組合せを予め選択することで、複雑な作業であっても特定することができる。

（８）上記（７）に記載の情報処理システムにおいて、前記画像データは、動画データであり、前記特定ステップでは、前記動画データに含まれる、少なくとも１つの前記作業を時系列に特定する、システム。

このような態様によれば、作業の移り変わりを時系列として把握することができる。

（９）上記（７）～（８）の何れか１つに記載の情報処理システムにおいて、前記ルールに含まれる、前記要素の組合せそれぞれには、異なる優先度が設定され、前記特定ステップでは、前記画像データに対して、複数の前記要素の組合せが該当する場合、前記優先度に応じて、前記作業を特定する、システム。

このような態様によれば、画像データ内において特定される作業に複数の候補がある場合、優先度に応じて、作業の特定をすることができる。

（１０）上記（９）に記載の情報処理システムにおいて、前記特定ステップでは、前記画像データに対して、複数の前記要素の組合せが該当する場合、前記優先度が最も高い組合せに基づいて、前記作業を特定する、システム。

このような態様によれば、画像データ内において特定される作業に複数の候補がある場合、最優度が最も高い候補を作業として特定することができる。

（１１）上記（７）～（１０）の何れか１つに記載の情報処理システムにおいて、さらに、管理ステップでは、予め設定された、複数の前記要素と、前記ルールとを管理し、ユーザに選択された前記要素の組合せを新たな前記作業として前記ルールに追加することで、前記ルールを更新する、システム。

このような態様によれば、新たに特定したい作業に対応したルールを追加できるので、ユーザの意向を適宜に反映することができる。

（１２）上記（１１）に記載の情報処理システムにおいて、さらに、第１の表示制御ステップでは、前記画像データに対し、前記ユーザの入力に応じたバウンディングボックスを重畳して表示させ、前記要素が、前記バウンディングボックスに関連付けられ、前記バウンディングボックスを用いて前記ユーザが前記要素の組合せを選択可能とする、システム。

このような態様によれば、画像データ内における物体及び動作以外の要素を用いて作業を特定することができ、作業を特定する精度の向上を図ることができる。

（１３）上記（７）～（１２）の何れか１つに記載の情報処理システムにおいて、さらに、第２の表示制御ステップでは、特定された前記作業を一覧可能な視覚情報を表示させる、システム。

このような態様によれば、画像データ内において特定された作業について、ひと目で確認することができる。

（１４）上記（１３）に記載の情報処理システムにおいて、前記視覚情報は、前記画像データに含まれる、すべての前記作業に対する、特定された前記作業それぞれが占める割合を示す情報である、システム。

このような態様によれば、画像データ内において特定されたすべての作業に対する、作業それぞれが占める割合を把握することができる。

（１５）上記（１４）に記載の情報処理システムにおいて、前記視覚情報は、特定された前記作業それぞれを異なる色で識別可能に示す情報である、システム。

このような態様によれば、複数の特定された作業それぞれについて、色によって識別することができる。

（１６）情報処理方法であって、上記（１）～（１５）の何れか１つに記載の情報処理システムの各ステップを備える、方法。

（１７）プログラムであって、コンピュータに、上記（１）～（１５）の何れか１つに記載の情報処理システムの各ステップを実行させる、プログラム。

このような態様によれば、工場の現場等において、作業の評価等を行うための学習済みモデルを、容易に作成することができる。
もちろん、この限りではない。

最後に、本開示に係る種々の実施形態を説明したが、これらは、例として提示したものであり、発明の範囲を限定することは意図していない。当該新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。当該実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１：情報処理システム
１１：通信ネットワーク
２：撮像装置
３：情報処理装置
３０：通信バス
３１：通信部
３２：記憶部
３３：制御部
３３１：受付部
３３３：表示制御部
３３５：物体認識部
３３７：学習部
４：端末
４０：通信バス
４１：通信部
４２：記憶部
４３：制御部
４４：表示部
４５：入力部
５：物体アノテーション画面
５ａ：物体アノテーション画面
５ｂ：物体アノテーション画面
５ｃ：物体アノテーション画面
５ｄ：物体アノテーション画面
５０１：動画表示領域
５０２：作業者
５０３：作業机
５０４：ドライバ
５０５：部品Ｘ
５０６：カバーＸ
５０７：製品Ｘ
５０８ａ：バウンディングボックス設定表示
５０８ｂ：バウンディングボックス
５０９ａ：バウンディングボックス設定表示
５０９ｂ：バウンディングボックス
５１０ａ：バウンディングボックス設定表示
５１０ｂ：バウンディングボックス
５１０ｃ：バウンディングボックス
５１１ａ：バウンディングボックス設定表示
５１１ｂ：バウンディングボックス
５１２：追加ボタン
５１３：フレーム情報領域
５１４：コマ戻しボタン
５１５：コマ送りボタン
５１６：完了ボタン
６：動作アノテーション画面
６ａ：動作アノテーション画面
６ｂ：動作アノテーション画面
６０１：動画表示領域
６０２：作業者
６０３：作業机
６０４：ドライバ
６０５ａ：部品Ｘ
６０５ｂ：部品Ｘ
６０６：カバーＸ
６０７：製品Ｘ
６０８：タイムシークバー
６０９：タイムシークバー
６０９ａ：再生位置表示
６０９ｂ：フレーム情報領域
６１０ａ：動作設定表示
６１０ｂ：動作時間
６１１ａ：動作設定表示
６１１ｂ：動作時間
６１２ａ：動作設定表示
６１２ｂ：動作時間
６１３：追加ボタン
６１４：早戻しボタン
６１５：再生ボタン
６１６：一時停止ボタン
６１７：早送りボタン
６１８：完了ボタン

Claims

情報処理システムであって、
次の各ステップを実行させるプログラムを実行可能なプロセッサを備え、
表示制御ステップでは、所定の動画データにアノテーションを行うための画面を表示させ、
受付ステップでは、前記画面を介して、
前記動画データに含まれる少なくとも１つのフレームに対して、物体を指定する第１の入力を前記アノテーションとして受け付けるとともに、
前記動画データを時系列で区切った部分に対して、動作を指定する第２の入力を前記アノテーションとして受け付け、
学習ステップでは、前記アノテーションに基づいて、前記物体と前記動作とを推定可能な学習済みモデルを生成する、システム。
請求項１に記載の情報処理システムにおいて、
前記表示制御ステップでは、ユーザの入力に応じた領域オブジェクトを前記画面に表示させ、
前記受付ステップでは、前記画面内での前記領域オブジェクトの位置に基づいて、前記第１の入力を前記アノテーションとして受け付ける、システム。
請求項２に記載の情報処理システムにおいて、
前記表示制御ステップでは、
前記ユーザの入力が前記動画データの１つのフレームに対して行われた場合に、前記領域オブジェクトを前記画面に表示させるとともに、
前記フレーム以降の後続フレームにおいても、前記領域オブジェクトを前記フレームに設定された位置に表示させる、システム。
請求項２に記載の情報処理システムにおいて、
前記表示制御ステップでは、
前記ユーザの入力が前記動画データの１つのフレームに対して行われた場合に、前記領域オブジェクトを前記画面に表示させ、
前記フレーム以降の後続フレームにおいては、前記領域オブジェクトを前記領域オブジェクトに含まれる物体の位置に応じた位置に表示させる、システム。
請求項１に記載の情報処理システムにおいて、
さらに、物体認識ステップでは、前記動画データと、予め設定された参照情報とに基づいて、前記動画データに含まれる少なくとも１つの物体である既知物体を認識し、
前記受付ステップでは、前記画面を介して、前記既知物体以外の物体を指定する第１の入力を前記アノテーションとして受け付ける、システム。
請求項１に記載の情報処理システムにおいて、
前記表示制御ステップでは、前記動画データの時系列に対応するシークバーを前記画面に表示させ、ここで前記シークバーは、時系列で区切られ、これにより、前記動画データが時系列で区切られる、システム。
情報処理方法であって、
請求項１～請求項６の何れか１つに記載の情報処理システムの各ステップを備える、方法。
プログラムであって、
コンピュータに、請求項１～請求項６の何れか１つに記載の情報処理システムの各ステップを実行させる、プログラム。