JP2024081132A - 情報処理システム、情報処理方法及びプログラム - Google Patents

情報処理システム、情報処理方法及びプログラム Download PDF

Info

Publication number
JP2024081132A
JP2024081132A JP2023200990A JP2023200990A JP2024081132A JP 2024081132 A JP2024081132 A JP 2024081132A JP 2023200990 A JP2023200990 A JP 2023200990A JP 2023200990 A JP2023200990 A JP 2023200990A JP 2024081132 A JP2024081132 A JP 2024081132A
Authority
JP
Japan
Prior art keywords
annotation
information processing
screen
frame
video data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023200990A
Other languages
English (en)
Inventor
亜斗夢 園田
雄太 川崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lightblue
Original Assignee
Lightblue
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lightblue filed Critical Lightblue
Publication of JP2024081132A publication Critical patent/JP2024081132A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)
  • Studio Devices (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

【課題】工場の現場等において、作業の評価等を行うための学習済みモデルを、容易に作成することができる技術を提供すること。【解決手段】本発明の一態様によれば、情報処理システムが提供される。この情報処理システムは、次の各ステップを実行させるプログラムを実行可能なプロセッサを備える。表示制御ステップでは、所定の動画データにアノテーションを行うための画面を表示させる。受付ステップでは、画面を介して、動画データに含まれる少なくとも1つのフレームに対して、物体を指定する第1の入力をアノテーションとして受け付けるとともに、動画データを時系列で区切った部分に対して、動作を指定する第2の入力をアノテーションとして受け付ける。学習ステップでは、アノテーションに基づいて、物体と動作とを推定可能な学習済みモデルを生成する。【選択図】図1

Description

新規性喪失の例外適用申請有り
本発明は、情報処理システム、情報処理方法及びプログラムに関する。
工場の現場等において、人工知能を用いた作業の評価等が利用されつつある。例えば特許文献1には、アノテーションを支援することが開示されている。
この画像のアノテーションを支援するシステムは、アノテーションを付与する候補となる画像である対象画像を構成する複数の対象領域を対象画像に表れる特徴に基づいて分類した分類情報を生成する分類部と、表示装置の画面上に、分類情報を可視化した分類画像を、対象画像と対比可能に配置する制御部と、を備える。
特開2022-131937号公報
しかしながら、従来技術では、工場の現場等において、作業の評価等を行うための学習済みモデルを作成する場合、ユーザが容易に作成することができないという問題があった。
本発明では上記事情に鑑み、工場の現場等において、作業の評価等を行うための学習済みモデルを、容易に作成することができる技術を提供することとした。
本発明の一態様によれば、情報処理システムが提供される。この情報処理システムは、次の各ステップを実行させるプログラムを実行可能なプロセッサを備える。表示制御ステップでは、所定の動画データにアノテーションを行うための画面を表示させる。受付ステップでは、画面を介して、動画データに含まれる少なくとも1つのフレームに対して、物体を指定する第1の入力をアノテーションとして受け付けるとともに、動画データを時系列で区切った部分に対して、動作を指定する第2の入力をアノテーションとして受け付ける。学習ステップでは、アノテーションに基づいて、物体と動作とを推定可能な学習済みモデルを生成する。
本開示によれば、工場の現場等において、作業の評価等を行うための学習済みモデルを、容易に作成することができる技術を提供することができる。
本実施形態に係る情報処理システム1を表す構成図である。 情報処理装置3のハードウェア構成を示すブロック図である。 端末4のハードウェア構成を示すブロック図である。 本実施形態に係る情報処理システム1の機能を示す機能ブロック図である。 情報処理システム1により実行される処理の流れの一例を示すアクティビティ図である。 物体アノテーション画面5の一例である物体アノテーション画面5a、5bを示す概要図である。 物体アノテーション画面5の一例である物体アノテーション画面5c、5dを示す概要図である。 動作アノテーション画面6の一例である動作アノテーション画面6a、6bを示す概要図である。
以下、図面を用いて本開示の実施形態について説明する。以下に示す実施形態中で示した各種特徴事項は、互いに組み合わせ可能である。
ところで、本実施形態に登場するソフトウェアを実現するためのプログラムは、コンピュータが読み取り可能な非一時的な記録媒体(Non-Transitory Computer-Readable Medium)として提供されてもよいし、外部のサーバからダウンロード可能に提供されてもよいし、外部のコンピュータで当該プログラムを起動させてクライアント端末でその機能を実現(いわゆるクラウドコンピューティング)するように提供されてもよい。
また、本実施形態において「部」とは、例えば、広義の回路によって実施されるハードウェア資源と、これらのハードウェア資源によって具体的に実現されうるソフトウェアの情報処理とを合わせたものも含みうる。また、本実施形態においては様々な情報を取り扱うが、これら情報は、例えば電圧・電流を表す信号値の物理的な値、0又は1で構成される2進数のビット集合体としての信号値の高低、又は量子的な重ね合わせ(いわゆる量子ビット)によって表され、広義の回路上で通信・演算が実行されうる。
また、広義の回路とは、回路(Circuit)、回路類(Circuitry)、プロセッサ(Processor)、及びメモリ(Memory)等を少なくとも適当に組み合わせることによって実現される回路である。すなわち、特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)、プログラマブル論理デバイス(例えば、単純プログラマブル論理デバイス(Simple Programmable Logic Device:SPLD)、複合プログラマブル論理デバイス(Complex Programmable Logic Device:CPLD)、及びフィールドプログラマブルゲートアレイ(Field Programmable Gate Array:FPGA))等を含むものである。
1.ハードウェア構成
本節では、ハードウェア構成について説明する。
1.1 情報処理システム1
図1は、本実施形態に係る情報処理システム1を表す構成図である。情報処理システム1は、撮像装置2と、情報処理装置3、端末4とを備え、これらが汎用又は専用の通信ネットワーク11を通じて接続されている。ここで、情報処理システム1に例示されるシステムとは、1つ又はそれ以上の装置又は構成要素からなる。したがって、情報処理装置3や端末4単体であっても情報処理システム1に例示されるシステムに含まれる。以下、情報処理システム1に含まれる各構成要素についてさらに説明する。
1.2 撮像装置2
撮像装置2は、所定の作業が行われる現場等に設置され、静止画又は動画を撮像するための光学機器である。撮像装置2は、例えば、撮像素子であるCCD(Charge Couple Devices)イメージセンサー又はCMOS(Completely Metal Oxide Semiconductor)イメージセンサーを備えるカメラであってよい。かかる撮像素子は、撮像装置2の有するレンズから入射された光を電気信号に変換する電子部品である。撮像装置2の撮像素子の数、大きさ等の技術仕様は、限定されない。撮像された画像は、通信ネットワーク11を介して、情報処理装置3又は端末4に送信されるとよい。
1.3 情報処理装置3
図2は、情報処理装置3のハードウェア構成を示すブロック図である。情報処理装置3は、通信部31と、記憶部32と、制御部33とを有し、これらの構成要素が情報処理装置3の内部において通信バス30を介して電気的に接続されている。各構成要素についてさらに説明する。
通信部31は、USB、IEEE1394、Thunderbolt(登録商標)、有線LANネットワーク通信等といった有線型の通信手段が好ましいものの、無線LANネットワーク通信、3G/LTE/5G等のモバイル通信、Bluetooth(登録商標)通信等を必要に応じて含めてもよい。すなわち、これら複数の通信手段の集合として実施することがより好ましい。すなわち、情報処理装置3は、通信部31及び通信ネットワーク11を介して、外部から種々の情報を通信してもよい。
記憶部32は、前述の記載により定義される様々な情報を記憶する。これは、例えば、制御部33によって実行される情報処理装置3に係る種々のプログラム等を記憶するソリッドステートドライブ(Solid State Drive:SSD)等のストレージデバイスとして、あるいは、プログラムの演算に係る一時的に必要な情報(引数、配列等)を記憶するランダムアクセスメモリ(Random Access Memory:RAM)等のメモリとして実施されうる。記憶部32は、制御部33によって実行される情報処理装置3に係る種々のプログラムや変数等を記憶している。
制御部33は、情報処理装置3に関連する全体動作の処理・制御を行う。制御部33は、例えば不図示の中央処理装置(Central Processing Unit:CPU)である。制御部33は、記憶部32に記憶された所定のプログラムを読み出すことによって、情報処理装置3に係る種々の機能を実現する。すなわち、記憶部32に記憶されているソフトウェアによる情報処理が、ハードウェアの一例である制御部33によって具体的に実現されることで、制御部33に含まれる各機能部として実行されうる。これらについては、次節においてさらに詳述する。なお、制御部33は単一であることに限定されず、機能ごとに複数の制御部33を有するように実施してもよい。またそれらの組合せであってもよい。すなわち、制御部33は、後述の各ステップを実行させるプログラムを実行可能なプロセッサの一例である。
1.4 端末4
図3は、端末4のハードウェア構成を示すブロック図である。端末4は、各店舗や各工場の管理者(例えば、店長や工場長)が操作するものであり、各店舗や各工場に設けられていることが好ましい。端末4は、スマートフォン、タブレット端末、コンピュータ、その他電気通信回線を通じて情報処理装置3にアクセス可能なものであれば、その形態は問わない。具体的には、端末4は、通信部41と、記憶部42と、制御部43と、表示部44と、入力部45とを備え、これらの構成要素が端末4の内部において通信バス40を介して電気的に接続されている。通信部41、記憶部42及び制御部43の説明は、情報処理装置3における各部の説明と同様のため省略する。
表示部44は、例えば、端末4の筐体に含まれるものであってもよいし、外付けされるものであってもよい。表示部44は、ユーザが操作可能なグラフィカルユーザインターフェース(Graphical User Interface:GUI)の画面を表示する。これは例えば、CRTディスプレイ、液晶ディスプレイ、有機ELディスプレイ及びプラズマディスプレイ等の表示デバイスを、端末4の種類に応じて使い分けて実施することが好ましい。
入力部45は、端末4の筐体に含まれるものであってもよいし、外付けされるものであってもよい。例えば、入力部45は、表示部44と一体となってタッチパネルとして実施されてもよい。タッチパネルであれば、ユーザは、タップ操作、スワイプ操作等を入力することができる。もちろん、タッチパネルに代えて、スイッチボタン、マウス、QWERTYキーボード等を採用してもよい。すなわち、入力部45がユーザによってなされた操作入力を受け付ける。当該入力が命令信号として、通信バス40を介して制御部43に転送され、制御部43が必要に応じて所定の制御や演算を実行しうる。
2.機能構成
本節では、本実施形態の機能構成について説明する。前述の通り、記憶部32に記憶されているソフトウェアによる情報処理がハードウェアの一例である制御部33によって具体的に実現されることで、制御部33に含まれる各機能部が実行されうる。
図4は、本実施形態に係る情報処理システム1の機能を示す機能ブロック図である。具体的には、情報処理システム1の一例である情報処理装置3は、受付部331と、表示制御部333と、物体認識部335と、学習部337とを備える。
受付部331は、受付ステップとして、種々の情報を受け付けるように構成される。例えば、受付部331は、ユーザのアカウント情報、データ、ユーザからの入力等を、記憶部32、又は通信ネットワーク11を介して入力部45若しくは他の外部装置から受け付ける。本実施形態では、受付部331が受け付けた種々の情報は、記憶部32に記憶されるものとして説明する。
表示制御部333は、表示制御ステップとして、種々の表示処理を実行するように構成される。例えば、表示制御部333は、画面、静止画又は動画を含む画像、アイコン、メッセージ等の視覚で認識可能な情報を、端末4の表示部44に表示させるように制御する。表示制御部333は、視覚で認識可能な情報を端末4の表示部44に表示させるためのレンダリング情報だけを生成してもよい。詳細については、後述する。
物体認識部335は、物体認識ステップとして、動画データに含まれる物体を認識するように構成される。詳細については、後述する。
学習部337は、学習ステップとして、アノテーションに基づいて、物体と動作とを推定可能な学習済みモデルを生成するように構成される。詳細については、後述する。
3.情報処理方法
本節では、前述した情報処理システム1の情報処理方法について説明する。
3.1 情報処理の概要
図5は、情報処理システム1により実行される処理の流れの一例を示すアクティビティ図である。以下、このアクティビティ図に沿って、情報処理の流れを概説する。以下では一例として、ある作業をする状況を取り上げて、教師データ及びデータセットを作成し、その後に学習済みモデルを作成することについて説明する。
まず、表示制御部333は、ユーザの操作に応じて、学習データを選択するための画面を端末4の表示部44に表示させる。ユーザは、端末4の入力部45を用いて、学習データとして任意の動画データを選択する。すなわち、受付部331は、画面を介したユーザの入力(例えば、クリック操作、タップ操作、スワイプ操作、選択操作等)によって、通信ネットワーク11を介して又は記憶部32から、選択された動画データを学習データとして受け付ける(アクティビティA101)。例えば、動画データとして、工場や店舗等における実際の作業が撮像されるとよい。以下では、作業者が作業する作業動画が学習データに選択されたものとして説明する。
次に、表示制御部333は、ユーザの操作に応じて、物体についてのアノテーションの実行又は人物の動作についてのアノテーションの実行の何れか一つを選択可能な画面を、端末4の表示部44に表示させる。すなわち、アノテーションは、アクティビティA101で受け付けた作業動画に対し、物体についてのアノテーションと、人物の動作についてのアノテーションとをそれぞれ実行するように構成されている。受付部331は、画面を介したユーザの入力によって、選択されたアノテーションの実行を受け付ける。以下ではまず、物体についてのアノテーションの実行がユーザによって選択された場合について説明する。
物体についてのアノテーションの実行を受付部331が受け付けた場合には、表示制御部333は、選択された作業動画(所定の動画データの一例)にアノテーションを行うための画面の一例である物体アノテーション画面5(図6及び図7参照)を表示させる。受付部331は、画面を介したユーザの入力によって、作業動画に撮像されている所定の物体について、その物体の名称及びフレーム上におけるその物体の位置に関する情報を受け付ける(アクティビティA102)。すなわち、受付部331は、画面を介して、動画データ(一例として作業動画)に含まれる少なくとも1つのフレームに対して、物体を指定する第1の入力をアノテーションとして受け付ける。具体的には例えば、作業動画において工具の「ドライバ」が撮像されている場合に、受付部331は、物体アノテーション画面5を介したユーザの入力によって、「ドライバ」という物体名称と作業動画における「ドライバ」の位置情報(座標情報)とを、アノテーションとして受け付ける。
さらに詳細には、表示制御部333が、ユーザの入力に応じて、作業動画の所定のフレームに対して領域オブジェクト(一例として、バウンディングボックス)を描画させ、受付部331は、描画された領域オブジェクトによる入力によって、物体の位置に関する情報を受け付ける。換言すると、表示制御部333は、ユーザの入力に応じた領域オブジェクトを画面に表示させ、受付部331は、画面内での領域オブジェクトの位置に基づいて、第1の入力をアノテーションとして受け付ける。具体的には例えば、作業動画に「ドライバ」が撮像されている場合に、表示制御部333は、ユーザの入力に応じて「ドライバ」に重畳して領域オブジェクトを描画させ、受付部331は、「ドライバ」という物体名称と描画された領域オブジェクトの位置情報とを、アノテーションとして受け付ける。
また、例えば作業動画の同一のフレームにおいて複数の物体が撮像されている場合には、表示制御部333は、ユーザの入力に応じてそれぞれの物体に対して領域オブジェクトを描画させ、受付部331は、それぞれの物体に対応する入力を、アノテーションとして受け付ける。具体的には例えば「ドライバ」に加えて「製品X」が撮像されている場合には、表示制御部333は、ユーザの入力に応じて「製品X」に重畳するように領域オブジェクトを描画させ、受付部331は、「製品X」という物体名称と「製品X」の位置情報とを、アノテーションとして受け付ける。この場合において、領域オブジェクトそれぞれには、区別可能な識別情報が紐付けられるとよい。これにより複数の領域オブジェクトが描画された際に、それぞれの領域オブジェクトを視覚的に区別して把握することができる。区別可能な識別情報は、例えば、色、枠線の種類や模様等である。具体的に例えば、区別可能な識別情報は、「ドライバ」に重畳して描画される領域オブジェクトに青色の枠線と半透明の塗りつぶしを施すこと、「製品X」に重畳して描画される領域オブジェクトに緑色の枠線と半透明の塗りつぶしを施すこと等である。このような態様によれば、フレームに対する領域オブジェクトの位置に基づいて1つ又は複数の物体を指定することができるので、ユーザが容易にアノテーションを行うことができる。以下の説明では、物体についてのアノテーションが、領域オブジェクトを用いて行われた場合として記載する。
続いて、一のフレーム(第1のフレーム)についての領域オブジェクトによる入力が完了した場合には、表示制御部333は、ユーザの操作に応じて、その次のフレーム(第2のフレーム)を物体アノテーション画面5に表示させる(図6及び図7参照)。受付部331は、第2のフレームにおいても第1のフレームと同様に、アノテーションを受け付ける。具体的には例えば、ユーザは、第1のフレームにおいて撮像される「ドライバ」に領域オブジェクトを重畳して描画させ、さらに、第2のフレームにおいて撮像される「ドライバ」に領域オブジェクトを重畳して描画させる。このような態様により、複数のフレームに対して物体についてのアノテーションを効率的に行うことができる。なお、この場合における第2のフレームとは、第1のフレームから任意の再生時間後のフレームであり、任意の再生時間とは0.1秒~60秒であり、好ましくは0.5秒~10秒であり、さらに好ましくは1秒~3秒であり、具体的には例えば、0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1,1.2,1.4,1.6,1.8,2,2.2,2.4,2.6,2.8,3,3.2,3.4,3.6,3.8,4,4.2,4.4,4.6,4.8,5,6,7,8,9,10,15,20,25,30,35,40,45,50,55,60秒であり、ここで例示した数値の何れか2つの間の範囲内であってもよい。
また、作業動画の第1のフレームにおいて領域オブジェクトが描画された場合に、表示制御部333は、第2のフレーム以降のフレームにおいて、第1のフレームで描画された領域オブジェクトの位置と同じ位置に、領域オブジェクトを自動的に描画させるとよい。換言すると、表示制御部333は、ユーザの入力が動画データの1つのフレーム(一例として、第1のフレーム)に対して行われた場合に、領域オブジェクトを画面に表示させるとともに、フレーム以降の後続フレーム(一例として、第2のフレーム)においても、領域オブジェクトをフレームに設定された位置に表示させる。このような態様によれば、後続フレーム(一例として、第2のフレーム)において領域オブジェクトが予め表示されるので、アノテーションを効率的に進めることができる。
以上の処理によって、物体についてのアノテーションを行うことができ、これにより、物体についての教師データが作成される。
次に、表示制御部333は、ユーザの操作に応じて、物体についてのデータセットを作成するための画面を端末4の表示部44に表示させる。受付部331は、画面を介して、ユーザによって選択された物体についての教師データを受け付ける。この場合において、選択される物体についての教師データには、1つの教師データが選択されてもよく、複数の教師データが選択されてもよい。さらに受付部331は、選択された物体についての教師データに基づいて、物体についてのデータセットの作成を開始する入力を受け付ける(アクティビティA103)。そして、物体についてのデータセットの作成が完了した場合には、表示制御部333は、物体についてのデータセットの作成が完了したという情報を、端末4の表示部44に表示させる。具体的には例えば、物体についてのデータセットは、作業動画から、「ドライバ」に対応するフレーム(画像データ)とそのフレームにおける「ドライバ」の位置情報とに変換することで作成される。また、教師データに複数の物体として「ドライバ」と「製品X」とを含む場合には、それぞれの物体について同様の処理を行うことで、「ドライバ」と「製品X」についてのデータセットが作成される。以下の説明では、「ドライバ」と「製品X」について一つのデータセットが作成されたものとして説明する。
さらに、表示制御部333は、ユーザの操作に応じて、物体検出モデルを作成するための画面を端末4の表示部44に表示させる。物体検出モデルは、物体検出のための学習済みモデルである。受付部331は、画面を介して、ユーザによって選択された任意の物体についてのデータセットを受け付け、さらに、選択された物体についてのデータセットに基づいて、物体検出モデルを作成する入力を受け付ける(アクティビティA104)。すなわち、学習部337は、アノテーションに基づいて、物体を推定可能な学習済みモデルを生成する。具体的には例えば、受付部331は、ユーザに選択された「ドライバ」と「製品X」についてのデータセットを受け付け、学習部337は、このデータセットに基づいて物体検出モデルを生成する。すなわち、この物体検出モデルは、「ドライバ」と「製品X」とを推定可能な学習済みモデルである。また、表示制御部333は、ユーザの操作に応じて、物体検出モデルの作成過程をユーザが把握可能な情報を、端末4の表示部44に表示させる。この場合に表示される情報には、学習過程の可視化として、学習の進捗状況、損失関数の値、正解率、適合率、再現率等を示す、数値又はグラフが含まれるとよい。そして、物体検出モデルの生成が完成した場合には、表示制御部333は、物体検出モデルの生成が完了したという情報を、端末4の表示部44に表示させる。
このような処理によって、物体検出モデルが生成される。
次に、人物の動作についてのアノテーションの実行がユーザによって選択された場合について説明する。この場合には、表示制御部333は、選択された作業動画(所定の動画データの一例)にアノテーションを行うための画面の一例である動作アノテーション画面6(図8参照)を表示させる。受付部331は、画面を介して、動作との対応付けをする入力を受け付ける(アクティビティA105)。詳細には、動作との対応付けをする入力は、作業動画に撮像されている所定の動作に対応させるように作業動画を時系列に区切り、さらに区切った部分と動作を対応付ける入力である。換言すると、受付部331は、画面を介して、動画データを時系列で区切った部分に対して、動作を指定する第2の入力をアノテーションとして受け付ける。なお、この場合における動作は、動いている場合に加え、静止している場合及びほぼ動いていない場合における姿勢、状態等を含む。
また、作業動画を時系列に区切る入力は、作業動画の時系列に対応するシークバーに対し、所定の動作に対応するように、区切りを入力するとよい。すなわち、作業動画を時系列に区切る入力は、作業動画の時系列に対応するシークバーを、所定の動作に対応する領域に分ける入力である。換言すると、表示制御部333は、動画データの時系列に対応するシークバーを画面に表示させる。シークバーは、時系列で区切られ、これにより、動画データが時系列で区切られる。このような態様によれば、動画データが時系列で区切られていることを、視覚的に把握することができ、ユーザフレンドリーな入力する画面を提供することができる。
さらに詳細には、受付部331は、「待機している」、「物を移動している」、「作業をしている」等の動作名称と、所定の動作に対応する作業動画の再生時間の情報とをアノテーションとして受け付ける。動作名称それぞれには、区別可能な識別情報が紐付けられるとよい。これによりシークバーを区切った際に視覚的に動作を区別して把握することができる。区別可能な識別情報は、例えば、色、模様等である。具体的に例えば、区別可能な識別情報は、「待機している」に対応するシークバーの区切られた領域に青色の枠線と半透明の塗りつぶしとを施すこと、「物を移動している」に対応するシークバーの区切られた領域に緑色の枠線と半透明の塗りつぶしとを施すこと、「作業をしている」に対応するシークバーの区切られた領域に赤色の枠線と半透明の塗りつぶしとを施すこと等である。
以上の処理によって、動作についてのアノテーションを行うことができ、これにより、動作についての教師データが作成される。
次に、表示制御部333は、ユーザの操作に応じて、動作についてのデータセットを作成するための画面を端末4の表示部44に表示させ、受付部331は、画面を介して、ユーザによって選択された動作についての教師データを受け付ける。この場合において、選択される動作についての教師データには、1つの教師データが選択されてもよく、複数の教師データが選択されてもよい。さらに受付部331は、選択された動作についての教師データに基づいて、動作についてのデータセットの作成を開始する入力を受け付ける(アクティビティA106)。そして、動作についてのデータセットの作成が完了した場合には、表示制御部333は、動作についてのデータセットの作成が完了したという情報を、端末4の表示部44に表示させる。換言すると、アノテーションの情報に基づいて、動作名称と、作業者の骨格座標の時系列的な変化の情報とが関連付けられることで、データセットが作成される。この場合におけるアノテーションの情報は、動作名称と、その動作が撮像されている作業動画とを関連付けた情報を含む。具体的には例えば、アノテーションの情報は、「待機している」、「物を移動している」及び「作業をしている」の動作名称と、その動作が撮像されている作業動画(すなわち、その動作に対応する再生時間の情報によって特定される作業動画の一部)とを関連付けた情報を含む。また、作業者の骨格座標の時系列的な変化の情報とは、作業者の骨格上の特徴点について作業動画のフレーム単位で座標情報を取得し、これを時系列に把握することで得られる情報である。骨格上の特徴点とは、関節等の骨格上の特徴となる部位や点であり、例えば、目、鼻、耳等の頭部、又は肩、肘、手首、腰、膝、足首等の点である。骨格点に左右がある場合は、左右についてそれぞれ把握するとよい。また、作業者の骨格座標の時系列的な変化の情報は、作業動画に重畳して描画させることで、ユーザに視認可能に描画させるとよい。具体的には例えば、作業者の骨格座標の時系列的な変化の情報は、作業者の骨格上の特徴点と特徴点を結ぶ線とで示すとよく、また、左右を異なる色の点及び線で示すとよい。以下の説明では、「待機している」、「物を移動している」及び「作業をしている」の動作について一つのデータセットが作成されたものとして説明する。
さらに、表示制御部333は、動作分類モデルを作成するための画面を端末4の表示部44に表示させる。動作分類モデルは、動作を分類するための学習済みモデルである。受付部331は、画面を介して、ユーザによって選択された動作についてのデータセットを受け付け、さらに、選択された動作についてのデータセットに基づいて、動作分類モデルの作成を開始する入力を受け付ける(アクティビティA107)。すなわち、学習部337は、アノテーションに基づいて、動作を推定可能な学習済みモデルを生成する。具体的には例えば、受付部331は、ユーザに選択された「待機している」、「物を移動している」及び「作業をしている」についてのデータセットを受け付け、学習部337は、このデータセットに基づいて動作分類モデルを生成する。すなわち、この動作分類モデルは、「待機している」、「物を移動している」及び「作業をしている」を推定可能な学習済みモデルである。また、表示制御部333は、ユーザの操作に応じて、動作検出モデルの作成過程をユーザが把握可能な情報を、端末4の表示部44に表示させる。この場合に表示される情報には、学習過程の可視化として、学習の進捗状況、損失関数の値、正解率、適合率、再現率等を示す、数値又はグラフが含まれるとよい。そして、動作検出モデルの生成が完成した場合には、表示制御部333は、動作検出モデルの生成が完了したという情報を、端末4の表示部44に表示させる。
このような処理によって、動作分類モデルが生成される。
以上をまとめると、本実施形態に係る情報処理システム1は、次の各ステップを実行させるプログラムを実行可能な制御部33(プロセッサ)を備える。表示制御部333は、表示制御ステップとして、所定の動画データにアノテーションを行うための画面を表示させる。受付部331は、受付ステップとして、画面を介して、動画データに含まれる少なくとも1つのフレームに対して、物体を指定する第1の入力をアノテーションとして受け付けるとともに、動画データを時系列で区切った部分に対して、動作を指定する第2の入力をアノテーションとして受け付ける。学習部337は、学習ステップとして、アノテーションに基づいて、物体と動作とを推定可能な学習済みモデルを生成する。また、本実施形態に係る情報処理方法は、上記情報処理システム1の各ステップを備える。また、このプログラムは、少なくとも1つのコンピュータに、上記情報処理システム1の各ステップを実行させる。
このような態様によれば、工場の現場等において、作業の評価等を行うための学習済みモデルを、容易に作成することができる。
3.2 情報処理の詳細
本節では、前節にて概説された情報処理方法の詳細部分を、図を用いて説明する。
図6は、物体アノテーション画面5の一例である物体アノテーション画面5a、5bを示す概要図である。図7は、物体アノテーション画面5の一例である物体アノテーション画面5c、5dを示す概要図である。以下、物体についてアノテーションを行う一例について、図6及び図7を用いて説明する。
図6に示されている、物体アノテーション画面5a、5bは、動画表示領域501を有し、動画表示領域501には、学習データとしてユーザによって選択された作業動画(動画データの一例)が描画されている。この作業動画は、作業動画中の1つのフレームを静止した状態で描画されている。また、物体アノテーション画面5aの動画表示領域501には、アノテーションを行う前の状態が示され、物体アノテーション画面5bの動画表示領域501には、アノテーションを行った後の状態が示されている。すなわち、物体アノテーション画面5a、5bそれぞれの動画表示領域501には、同じ作業動画の同じフレームが示されている。
動画表示領域501に描画されている作業動画中のフレームには、作業者502と、作業机503と、ドライバ504と、部品X505と、カバーX506と、製品X507とが撮像されている。具体的にこのフレームには、製品X507(カバーX506を含む)と、部品X505とが作業机503に置かれ、且つ、作業者502がドライバ504を用いて製品X507に対して作業をしている状況が撮像されている。すなわち、ユーザは、動画表示領域501に描画されている動画データから、アノテーションを行う対象である物体を把握することができる。
また、物体アノテーション画面5a、5bは、バウンディングボックス設定表示508a、509a、510a、511aと、追加ボタン512とをさらに備えている。バウンディングボックス設定表示508a、509a、510a、511aは、追加ボタン512がユーザによって押下されることで、それぞれ追加された設定である。また、バウンディングボックス設定表示508a、509a、510a、511aそれぞれには、バウンディングボックス(領域オブジェクトの一例)に関する設定がされている。バウンディングボックス設定表示508a、509a、510a、511aは、ユーザによって押下されることで、その設定に対応するバウンディングボックスを描画可能に構成されている。
バウンディングボックス設定表示508a、509a、510a、511aには、描画されるバウンディングボックスとの対応付けを区別可能な識別情報が設定されている。具体的には例えば、バウンディングボックス設定表示508a、509a、510a、511aには、撮像されている物体に対応するように「ドライバ」、「製品X」、「部品X」及び「カバーX」の名称がそれぞれ付されている。また、バウンディングボックス設定表示508a、509a、510a、511aの枠線は、点線と、一点鎖線と、破線と、二点鎖線とでそれぞれ描画されている。さらにバウンディングボックス設定表示510a、511aの枠線の内部には、薄い塗りつぶしと、濃い塗りつぶしとがそれぞれ施されている。なお、区別可能な識別情報は、例えば、名称、シンボル、マーク、色、枠線の太さ及び種類、模様及び塗りつぶし、これらの組合せ等であるとよい。つまり、領域オブジェクトは、バウンディングボックスと、それぞれのバウンディングボックスを区別可能な識別情報とを含むように構成されている。また、区別可能な識別情報の設定には、ユーザによって選択された設定が適用されるものであってよく、予め定まった設定が順次適用されるものであってもよい。また、バウンディングボックスを動画表示領域501に描画させた後に、区別可能な識別情報の設定がされるものであってもよい。以上のような構成により、複数の物体に対応するように、描画可能なバウンディングボックスを準備することができる。
次に、ユーザは、動画表示領域501において、フレームに撮像されている物体を目視で把握する。そして、表示制御部333は、ユーザの入力に応じて、その物体に重畳させるようにバウンディングボックスを描画させる。所望の物体全てに重畳するようにバウンディングボックスを描画させることによって、物体アノテーション画面5の状態は、一例として、アノテーション前である物体アノテーション画面5aから、アノテーション後である物体アノテーション画面5bとなる。具体的には例えば、「ドライバ」がフレームに撮像されている場合には、ユーザは、「ドライバ」に対応するバウンディングボックスを描画させるための準備として、バウンディングボックス設定表示508aを押下する。次に、ユーザは、端末4の入力部45を用いて、動画表示領域501において、撮像されている「ドライバ」に重畳させるようにバウンディングボックス508bを描画させる。さらにユーザは、他の物体についても同様の操作を行うことで、「製品X」、「部品X」及び「カバーX」に重畳させるように、バウンディングボックス509b、510b、511bをそれぞれ描画させる。この場合において、バウンディングボックス508b、509b、510b、511bには、バウンディングボックス設定表示508a、509a、510a、511aそれぞれにおいて識別情報が設定されているので、ユーザは、これらの対応付けを区別することができる。そして、ユーザは、このような操作によって、作業動画中の1つのフレームに対し、物体のアノテーションを行うことができる。
さらに、物体アノテーション画面5a、5bは、フレーム情報領域513と、コマ戻しボタン514と、コマ送りボタン515と、完了ボタン516とを備えている。フレーム情報領域513には、描画されているフレームについての情報として「現在のコマ22秒/62秒(コマ送り時間:1秒)」が記載され、作業動画が62秒の撮像時間であること、現在のフレームが22秒時点であること及びフレームを1秒単位で変更することが示されている。ユーザは、コマ戻しボタン514又はコマ送りボタン515を押下することで、フレームのコマ戻し又はコマ送りをすることができる。また、ユーザは、完了ボタン516を押下することで、物体についてアノテーションを完了させることができる。
図7に示されている、物体アノテーション画面5c、5dは、物体アノテーション画面5a、5bと略同じ構成の画面であり、動画表示領域501を有している。物体アノテーション画面5c、5dの動画表示領域501には、物体アノテーション画面5a、5bに対し1秒後のフレーム、すなわち作業動画の23秒時点のフレームが描画されている。以下の説明では、物体アノテーション画面5bにおいてコマ送りボタン515が押下されたことで、物体アノテーション画面5cに画面が遷移したものとして説明する。
物体アノテーション画面5cの動画表示領域501では、物体アノテーション画面5bの動画表示領域501において描画されていたバウンディングボックス508b、509b、510b、511bが、フレーム上の同じ位置に描画されている。すなわち、表示制御部333は、22秒時点のフレームに描画された領域オブジェクトの位置情報に基づいて、23秒時点のフレームにおいて領域オブジェクトを自動的に描画させる。換言すると、表示制御部333は、ユーザの入力が動画データの1つのフレーム(一例として、22秒時点のフレーム)に対して行われた場合に、領域オブジェクトを画面に表示させるとともに、フレーム以降の後続フレーム(一例として、23秒時点のフレーム)においても、領域オブジェクトをフレームに設定された位置に表示させる。このような態様によれば、後続フレーム(一例として、23秒時点のフレーム)において領域オブジェクトが予め表示されるので、アノテーションを効率的に進めることができる。
次に、ユーザは、物体アノテーション画面5cの動画表示領域501において、描画されているバウンディングボックスが対応する物体に重畳して描画されているか否かを確認する。重畳して描画されていない場合には、ユーザは、対応する物体に重畳させるように、描画されているバウンディングボックスの位置、大きさ等を変更する。つまり、ユーザは、物体の、撮像されている位置、大きさ等の変化に追従させるように、バウンディングボックスの位置、大きさ等を変更することができる。作業動画のフレームをコマ送りによって描画させているため、ユーザは、物体の撮像されている位置、大きさ等の変化を容易に追従することが可能であり、アノテーションを効率的に進めることができる。
具体的には例えば、物体アノテーション画面5cの動画表示領域501において、ドライバ504、カバーX506及び製品X507に対応するバウンディングボックスは、重畳して描画されていない。一方、部品X505に対応するバウンディングボックス510bは、重畳して描画されている。すなわち、ユーザは、ドライバ504、カバーX506及び製品X507に対応するバウンディングボックスの位置、大きさ等を変更する。詳細には、ドライバ504の場合には、ユーザは、端末4の入力部45を用いて、描画されているバウンディングボックス508bを選択し、ドライバ504に重畳して描画されるようにバウンディングボックス508bの位置、大きさ等を変更することができる。さらにユーザは、カバーX506、製品X507についても同様の操作を行うことで、バウンディングボックス511b、509bの位置、大きさ等を変更することができる。
さらに、物体が新たに撮像されている場合には、ユーザによる入力に応じ、表示制御部333がバウンディングボックスを新たに描画する。具体的には例えば、物体アノテーション画面5cの動画表示領域501において、「カバーX」が「製品X」から取り外されたことによって、「部品X」が新たにフレームに撮像されている。この場合には、ユーザは、「部品X」に対応するバウンディングボックスを描画させるための準備として、バウンディングボックス設定表示510aを押下する。次に、表示制御部333は、動画表示領域501において、新たに撮像されている「部品X」に重畳させるように、バウンディングボックス510cを描画する。なお、フレームアウト、他の物体で隠される等によって物体が撮像されていない場合には、ユーザは、所定の入力を行うことで、バウンディングボックスを削除させることができる。
以上の操作、処理等によって、物体アノテーション画面5の状態は、アノテーション前である物体アノテーション画面5cから、アノテーション後である物体アノテーション画面5dとなる。ユーザは、このような操作によって、作業動画中の複数のフレームに対し、効率的に物体についてのアノテーションを行うことができる。
図8は、動作アノテーション画面6の一例である動作アノテーション画面6a、6bを示す概要図である。以下、動作についてのアノテーションを行う一例について、図8を用いて説明する。
図8に示されている、動作アノテーション画面6a、6bは、動画表示領域601を有し、動画表示領域601には、学習データとしてユーザによって選択された作業動画(動画データの一例)が描画されている。作業動画は、ユーザの操作に応じて、再生可能に描画されている。また、動作アノテーション画面6a、6bの動画表示領域601には、同じ作業動画が異なる再生時点で描画されている。具体的には、動作アノテーション画面6aの動画表示領域601には、ドライバ604と、部品X605aと、カバーX606と、製品X607(部品X605bを含む)とが作業机603に置かれ、且つ、作業者602が製品X607から部品X605bを取り外す作業をしている状況が撮像されている。また、動作アノテーション画面6bの動画表示領域601には、その後の状況として、製品X607から取り外された部品X605bと、製品X607(カバーX606を含む)とが作業机603に置かれ、且つ、作業者602がドライバ604を用いて製品X607に対し作業をしている状況が撮像されている。つまり、ユーザは、動作アノテーション画面6a、6bの動画表示領域601の何れにおいても、作業者が作業をしているという動作を把握することができる。すなわち、ユーザは、動画表示領域601に描画されている動画データから、アノテーションを行う対象である人物の動作を把握することができる。
また、動作アノテーション画面6a、6bは、タイムシークバー609と、早戻しボタン614と、再生ボタン615と、一時停止ボタン616と、早送りボタン617と、完了ボタン618とをさらに備えている。タイムシークバー609は、再生位置表示609aと、フレーム情報領域609bとを備え、作業動画の再生状況を視認可能に描画されている。具体的には、動作アノテーション画面6a、6bのフレーム情報領域609bには、「23秒/62秒」と「45秒/62秒」とがそれぞれ記載され、すなわち、作業動画が62秒の撮像時間であること、現在の再生時点が23秒時点と45秒時点とであることが示されている。再生位置表示609aは、タイムシークバー609上を変位可能に構成され、作業動画の再生時点をユーザが視認可能に描画されている。また、ユーザは、早戻しボタン614、再生ボタン615、一時停止ボタン616又は早送りボタン617を押下することで、作業動画の早戻し、再生、一時停止又は早送りをすることができる。また、ユーザは、完了ボタン618を押下することで、動作についてアノテーションを完了させることができる。
さらに、動作アノテーション画面6a、6bは、タイムシークバー608と、動作設定表示610a、611a、612aと、追加ボタン613とを備えている。タイムシークバー608は、タイムシークバー609の近傍に並列して描画され、タイムシークバー609と同様に作業動画の撮像時間に対応するように構成されている。動作設定表示610a、611a、612aは、追加ボタン613をユーザによって押下されることで、それぞれ追加された設定である。この場合における設定とは、人物の動作と関連付ける設定であり、すなわち、動作設定表示610a、611a、612aには、人物の動作と関連付ける設定がそれぞれされている。動作設定表示610a、611a、612aは、ユーザによって押下されることで、その設定に対応する動作の指定を入力可能に構成されている。動作の指定は、ユーザの操作によって、タイムシークバー608上に示される。詳細は後述する。
また、動作設定表示610a、611a、612aには、入力される動作の指定を区別可能な識別情報が設定されている。具体的には例えば、動作設定表示610a、611a、612aには、撮像されている動作に対応するよう、「待機している」、「物を移動している」及び「作業をしている」の名称がそれぞれ付されている。また、動作設定表示610a、611a、612aの枠線の内部には、薄い塗りつぶしと、濃い塗りつぶしと、縦縞とがそれぞれ施されている。なお、区別可能な識別情報は、例えば、名称、シンボル、マーク、色、枠線の太さ及び種類、模様及び塗りつぶし、これらの組合せ等であってもよい。また、区別可能な識別情報の設定には、ユーザによって選択された設定が適用されるものであってよく、予め定まった設定が順次適用されるものであってもよい。また、タイムシークバー608上に示された後に、区別可能な識別情報の設定がされるものであってもよい。以上のような構成により、複数の動作に対応するように、動作の指定を入力することができる。
次に、動作についてのアノテーションを実際に行う操作、処理等を説明する。動作についてのアノテーションは、動作との対応付けをするように作業動画を時系列に区切ることで行う。詳細には、動作についてのアノテーションは、作業動画の任意の連続するフレームに対して、動作の指定をすることで行う。また、フレームの一部の領域において撮像されている動作に対して、アノテーションを行う場合は、ユーザは、その領域を関心領域として設定してもよい。例えば、関心領域は、動画表示領域601の一部にバウンディングボックスが描画されることで設定されてもよい。以下の説明では、関心領域が設定されず、動画表示領域601に描画されているフレーム全体に撮像されている動作に対して、アノテーションを行う場合を例として説明する。
具体的には例えば、ユーザは、次の操作を行うことで、動作についてのアノテーションを行う。動画表示領域601に描画されている作業動画から、人物の動作を把握する。把握した動作が「待機している」である場合には、「待機している」に対応する動作設定表示610aを押下する。続けて、再生ボタン615を押下し、作業動画を再生させる。そして、「待機している」の動作が終了する時点を把握し、その時点で一時停止ボタン616を押下することで、作業動画の再生を一時停止させる。次の動作が「物を移動している」である場合には、「物を移動している」に対応する動作設定表示611aを押下する。続けて、再生ボタン615を押下し、作業動画を再生させる。そして、「物を移動している」の動作が終了する時点を把握し、その時点で一時停止ボタン616を押下することで、作業動画の再生を一時停止させる。なお、再生ボタン615の代わりに早送りボタン617を押下してもよく、動作の終了する時点で一時停止するために早戻しボタン614及び早送りボタン617を用いてもよい。
このような操作によって、タイムシークバー608には、「待機している」及び「物を移動している」の動作と、作業動画の時系列との対応を識別可能に、動作時間610b及び動作時間611bが描画されている。換言すると、動作設定表示610a又は動作設定表示611aが押下され且つ作業動画が再生されている間において、タイムシークバー608に対して、対応する動作時間610b又は動作時間611bが描画される。この場合において、動作時間610b、611bには、動作設定表示610a、611aそれぞれにおいて設定されている識別情報が設定されているので、ユーザは、対応付けを区別することができる。
また、動作アノテーション画面6a、6bの動画表示領域601に描画されている作業動画では、前述の通り、作業者が作業している状況が示されている。この場合においては、ユーザは、「作業をしている」に対応する動作設定表示612aを押下し、続けて再生ボタン615を押下する。この操作に応じて、タイムシークバー608には、作業動画の再生に対応するように、動作時間612bが描画される。詳細には、作業動画の再生状況に伴って、再生位置表示609aの位置が変位し、再生位置表示609aの位置に対応するように動作時間612bが描画される。具体的には、動作アノテーション画面6aでは、作業動画の23秒時点に再生位置表示609aが位置し、同じ時点まで動作時間612bが描画されている。また、動作アノテーション画面6bでは、作業動画の45秒時点に再生位置表示609aが位置し、同じ時点まで動作時間612bが描画されている。その後ユーザは、「作業をしている」の動作が終了する時点で一時停止ボタン616を押下し、作業動画の再生を一時停止させる。
以上の操作、処理等を作業動画に対し行うことによって、作業動画の時系列に対応するタイムシークバー608に対し、所定の動作に対応するように区切りを入力することができる。また、ユーザは、タイムシークバー608に所定の動作に対応する識別情報を、色塗りをする感覚で入力することができる。このような態様により、ユーザは、効率的に人物の動作についてのアノテーションを行うことができる。
[その他]
前述の実施形態に係る情報処理システム1に関して、以下のような態様を採用してもよい。
上記の実施形態では、物体についてのアノテーションにおいて、作業動画の第1のフレームにおいて領域オブジェクトが描画された場合に、第1のフレームで描画された領域オブジェクトの位置情報に基づいて、第2のフレーム以降のフレームにおいて領域オブジェクトを自動的に描画させる場合を例に説明したがこれに限られない。例えば、作業動画の第1のフレームにおいて領域オブジェクトが描画された場合に、領域オブジェクトの内部にある物体の特徴点を追従するように、第2のフレームにおいて領域オブジェクトを自動的に描画させてもよい。換言すると、表示制御部333は、ユーザの入力が動画データの1つのフレーム(一例として、第1のフレーム)に対して行われた場合に、領域オブジェクトを画面に表示させる。表示制御部333は、フレーム以降の後続フレーム(一例として、第2のフレーム)においては、領域オブジェクトを領域オブジェクトに含まれる物体の位置に応じた位置に表示させる。このような態様によれば、後続フレーム(一例として、第2のフレーム)において領域オブジェクトが物体の移動に追従して予め表示されるので、アノテーションをさらに効率的に進めることができる。
上記の実施形態では、物体についてのアノテーションにおいて、作業動画に領域オブジェクトが描画されていない状態からアノテーションを開始する場合を例に説明したがこれに限られない。例えば、予め所定の物体を学習させた学習済みモデルを用いて所定の物体の一次認識を行い、さらに上記の実施形態で説明した物体についてのアノテーションを行ってもよい。具体的には例えば、「ドライバ」、「ペンチ」、「スパナ」等の工具を学習させた学習済みモデルを用いて、作業動画に撮像されている「ドライバ」の一次認識を行い、さらに「製品X」、「部品X」及び「カバーX」についてのアノテーションを行うものであってもよい。また、一次認識された物体は、アノテーションの対象とするか否かをユーザが選択可能に一覧で示されてもよい。これにより、ユーザは、一次認識された物体から所望の物体を選択することができる。換言すると、物体認識部335は、動画データと、予め設定された参照情報とに基づいて、動画データに含まれる少なくとも1つの物体である既知物体を認識する。受付部331は、画面を介して、既知物体以外の物体を指定する第1の入力をアノテーションとして受け付ける。このような態様によれば、既知物体のアノテーションを機械的に行うことができるので、ユーザの入力する量を減らすことができる。
上記の実施形態では図6及び図7に例示されたように、矩形のバウンディングボックスを描画させる場合を例に説明したがこれに限られない。例えば、物体を囲うオブジェクトであれば、多角形、丸、曲線(フリーハンド)等であってもよく、物体の外形に自動又は手動で合わせるものであってもよい。
上記の実施形態では、物体についてのアノテーション及び動作のアノテーションについて、動画データに含まれる全ての物体又は動作について行う場合を例に説明したが、これに限られない。例えば、物体についてのアノテーション及び動作のアノテーションは、動画データに含まれる一部の物体又は動作についてのみを対象に行うものであってもよい。
上記の実施形態では図8に例示されたように、タイムシークバー608において、動作についてのアノテーションをユーザに視認可能に描画させる場合を例に説明したが、これに加えて、例えば、動作の名称と動画データの再生時間との一覧が示されてもよい。具体的には例えば、一覧として、「待機している:0~6.5秒」、「物を移動している:6.5~12秒」、「作業をしている:12~50秒」等が列記されてもよい。
また、上記の実施形態では図8に例示されたように、タイムシークバー608とタイムシークバー609とを近傍に並列して描画させる場合を例に説明したが、これに限られない。例えば、タイムシークバー608のみが描画されてもよい。具体的には例えば、タイムシークバー608は、タイムシークバー608上に、再生時点を把握可能に描画させてもよい。
上記の実施形態では、動画データには、作業者が製品に対し作業をする作業動画を用いて説明したがこれに限られない。例えば、建設現場、公共施設・インフラ、製造・物流、飲食・小売等における作業者、従業者等の人物の動作及び関連する物体が撮像されている動画データであってもよい。
次に記載の各態様で提供されてもよい。
(1)情報処理システムであって、次の各ステップを実行させるプログラムを実行可能なプロセッサを備え、表示制御ステップでは、所定の動画データにアノテーションを行うための画面を表示させ、受付ステップでは、前記画面を介して、前記動画データに含まれる少なくとも1つのフレームに対して、物体を指定する第1の入力を前記アノテーションとして受け付けるとともに、前記動画データを時系列で区切った部分に対して、動作を指定する第2の入力を前記アノテーションとして受け付け、学習ステップでは、前記アノテーションに基づいて、前記物体と前記動作とを推定可能な学習済みモデルを生成する、システム。
このような態様によれば、工場の現場等において、作業の評価等を行うための学習済みモデルを、容易に作成することができる。
(2)上記(1)に記載の情報処理システムにおいて、前記表示制御ステップでは、ユーザの入力に応じた領域オブジェクトを前記画面に表示させ、前記受付ステップでは、前記画面内での前記領域オブジェクトの位置に基づいて、前記第1の入力を前記アノテーションとして受け付ける、システム。
このような態様によれば、フレームに対する領域オブジェクトの位置に基づいて物体を指定できるので、容易にアノテーションをすることができる。
(3)上記(2)に記載の情報処理システムにおいて、前記表示制御ステップでは、前記ユーザの入力が前記動画データの1つのフレームに対して行われた場合に、前記領域オブジェクトを前記画面に表示させるとともに、前記フレーム以降の後続フレームにおいても、前記領域オブジェクトを前記フレームに設定された位置に表示させる、システム。
このような態様によれば、後続フレームにおいて領域オブジェクトが予め表示されるので、アノテーションを効率的に進めることができる。
(4)上記(2)に記載の情報処理システムにおいて、前記表示制御ステップでは、前記ユーザの入力が前記動画データの1つのフレームに対して行われた場合に、前記領域オブジェクトを前記画面に表示させ、前記フレーム以降の後続フレームにおいては、前記領域オブジェクトを前記領域オブジェクトに含まれる物体の位置に応じた位置に表示させる、システム。
このような態様によれば、後続フレームにおいて領域オブジェクトが物体の移動に追従して予め表示されるので、アノテーションをさらに効率的に進めることができる。
(5)上記(1)~(4)の何れか1つに記載の情報処理システムにおいて、さらに、物体認識ステップでは、前記動画データと、予め設定された参照情報とに基づいて、前記動画データに含まれる少なくとも1つの物体である既知物体を認識し、前記受付ステップでは、前記画面を介して、前記既知物体以外の物体を指定する第1の入力を前記アノテーションとして受け付ける、システム。
このような態様によれば、既知物体のアノテーションを機械的に行うことができるので、ユーザの入力する量を減らすことができる。
(6)上記(1)~(5)の何れか1つに記載の情報処理システムにおいて、前記表示制御ステップでは、前記動画データの時系列に対応するシークバーを前記画面に表示させ、ここで前記シークバーは、時系列で区切られ、これにより、前記動画データが時系列で区切られる、システム。
このような態様によれば、動画データが時系列で区切られていることを、視覚的に把握することができ、ユーザフレンドリーな入力する画面を提供することができる。
(7)情報処理システムであって、次の各ステップを実行させるプログラムを実行可能なプロセッサを備え、取得ステップでは、作業が行われている態様が撮像された画像データを取得し、推定ステップでは、前記画像データと、学習済みモデルとに基づいて、前記画像データに含まれる、複数の、物体及び動作からなる群より選ばれる要素を推定し、ここで前記学習済みモデルは、教師用画像データに含まれる物体及び動作を予め機械学習させたモデルであり、特定ステップでは、推定された前記要素と、少なくとも1つの、前記要素の組合せを規定したルールとに基づいて、前記画像データに含まれる作業を特定する、システム。
このような態様によれば、画像データ内において特定される作業について、要素の組合せを予め選択することで、複雑な作業であっても特定することができる。
(8)上記(7)に記載の情報処理システムにおいて、前記画像データは、動画データであり、前記特定ステップでは、前記動画データに含まれる、少なくとも1つの前記作業を時系列に特定する、システム。
このような態様によれば、作業の移り変わりを時系列として把握することができる。
(9)上記(7)~(8)の何れか1つに記載の情報処理システムにおいて、前記ルールに含まれる、前記要素の組合せそれぞれには、異なる優先度が設定され、前記特定ステップでは、前記画像データに対して、複数の前記要素の組合せが該当する場合、前記優先度に応じて、前記作業を特定する、システム。
このような態様によれば、画像データ内において特定される作業に複数の候補がある場合、優先度に応じて、作業の特定をすることができる。
(10)上記(9)に記載の情報処理システムにおいて、前記特定ステップでは、前記画像データに対して、複数の前記要素の組合せが該当する場合、前記優先度が最も高い組合せに基づいて、前記作業を特定する、システム。
このような態様によれば、画像データ内において特定される作業に複数の候補がある場合、最優度が最も高い候補を作業として特定することができる。
(11)上記(7)~(10)の何れか1つに記載の情報処理システムにおいて、さらに、管理ステップでは、予め設定された、複数の前記要素と、前記ルールとを管理し、ユーザに選択された前記要素の組合せを新たな前記作業として前記ルールに追加することで、前記ルールを更新する、システム。
このような態様によれば、新たに特定したい作業に対応したルールを追加できるので、ユーザの意向を適宜に反映することができる。
(12)上記(11)に記載の情報処理システムにおいて、さらに、第1の表示制御ステップでは、前記画像データに対し、前記ユーザの入力に応じたバウンディングボックスを重畳して表示させ、前記要素が、前記バウンディングボックスに関連付けられ、前記バウンディングボックスを用いて前記ユーザが前記要素の組合せを選択可能とする、システム。
このような態様によれば、画像データ内における物体及び動作以外の要素を用いて作業を特定することができ、作業を特定する精度の向上を図ることができる。
(13)上記(7)~(12)の何れか1つに記載の情報処理システムにおいて、さらに、第2の表示制御ステップでは、特定された前記作業を一覧可能な視覚情報を表示させる、システム。
このような態様によれば、画像データ内において特定された作業について、ひと目で確認することができる。
(14)上記(13)に記載の情報処理システムにおいて、前記視覚情報は、前記画像データに含まれる、すべての前記作業に対する、特定された前記作業それぞれが占める割合を示す情報である、システム。
このような態様によれば、画像データ内において特定されたすべての作業に対する、作業それぞれが占める割合を把握することができる。
(15)上記(14)に記載の情報処理システムにおいて、前記視覚情報は、特定された前記作業それぞれを異なる色で識別可能に示す情報である、システム。
このような態様によれば、複数の特定された作業それぞれについて、色によって識別することができる。
(16)情報処理方法であって、上記(1)~(15)の何れか1つに記載の情報処理システムの各ステップを備える、方法。
このような態様によれば、工場の現場等において、作業の評価等を行うための学習済みモデルを、容易に作成することができる。
(17)プログラムであって、コンピュータに、上記(1)~(15)の何れか1つに記載の情報処理システムの各ステップを実行させる、プログラム。
このような態様によれば、工場の現場等において、作業の評価等を行うための学習済みモデルを、容易に作成することができる。
もちろん、この限りではない。
最後に、本開示に係る種々の実施形態を説明したが、これらは、例として提示したものであり、発明の範囲を限定することは意図していない。当該新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。当該実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
1 :情報処理システム
11 :通信ネットワーク
2 :撮像装置
3 :情報処理装置
30 :通信バス
31 :通信部
32 :記憶部
33 :制御部
331 :受付部
333 :表示制御部
335 :物体認識部
337 :学習部
4 :端末
40 :通信バス
41 :通信部
42 :記憶部
43 :制御部
44 :表示部
45 :入力部
5 :物体アノテーション画面
5a :物体アノテーション画面
5b :物体アノテーション画面
5c :物体アノテーション画面
5d :物体アノテーション画面
501 :動画表示領域
502 :作業者
503 :作業机
504 :ドライバ
505 :部品X
506 :カバーX
507 :製品X
508a :バウンディングボックス設定表示
508b :バウンディングボックス
509a :バウンディングボックス設定表示
509b :バウンディングボックス
510a :バウンディングボックス設定表示
510b :バウンディングボックス
510c :バウンディングボックス
511a :バウンディングボックス設定表示
511b :バウンディングボックス
512 :追加ボタン
513 :フレーム情報領域
514 :コマ戻しボタン
515 :コマ送りボタン
516 :完了ボタン
6 :動作アノテーション画面
6a :動作アノテーション画面
6b :動作アノテーション画面
601 :動画表示領域
602 :作業者
603 :作業机
604 :ドライバ
605a :部品X
605b :部品X
606 :カバーX
607 :製品X
608 :タイムシークバー
609 :タイムシークバー
609a :再生位置表示
609b :フレーム情報領域
610a :動作設定表示
610b :動作時間
611a :動作設定表示
611b :動作時間
612a :動作設定表示
612b :動作時間
613 :追加ボタン
614 :早戻しボタン
615 :再生ボタン
616 :一時停止ボタン
617 :早送りボタン
618 :完了ボタン

Claims (8)

  1. 情報処理システムであって、
    次の各ステップを実行させるプログラムを実行可能なプロセッサを備え、
    表示制御ステップでは、所定の動画データにアノテーションを行うための画面を表示させ、
    受付ステップでは、前記画面を介して、
    前記動画データに含まれる少なくとも1つのフレームに対して、物体を指定する第1の入力を前記アノテーションとして受け付けるとともに、
    前記動画データを時系列で区切った部分に対して、動作を指定する第2の入力を前記アノテーションとして受け付け、
    学習ステップでは、前記アノテーションに基づいて、前記物体と前記動作とを推定可能な学習済みモデルを生成する、システム。
  2. 請求項1に記載の情報処理システムにおいて、
    前記表示制御ステップでは、ユーザの入力に応じた領域オブジェクトを前記画面に表示させ、
    前記受付ステップでは、前記画面内での前記領域オブジェクトの位置に基づいて、前記第1の入力を前記アノテーションとして受け付ける、システム。
  3. 請求項2に記載の情報処理システムにおいて、
    前記表示制御ステップでは、
    前記ユーザの入力が前記動画データの1つのフレームに対して行われた場合に、前記領域オブジェクトを前記画面に表示させるとともに、
    前記フレーム以降の後続フレームにおいても、前記領域オブジェクトを前記フレームに設定された位置に表示させる、システム。
  4. 請求項2に記載の情報処理システムにおいて、
    前記表示制御ステップでは、
    前記ユーザの入力が前記動画データの1つのフレームに対して行われた場合に、前記領域オブジェクトを前記画面に表示させ、
    前記フレーム以降の後続フレームにおいては、前記領域オブジェクトを前記領域オブジェクトに含まれる物体の位置に応じた位置に表示させる、システム。
  5. 請求項1に記載の情報処理システムにおいて、
    さらに、物体認識ステップでは、前記動画データと、予め設定された参照情報とに基づいて、前記動画データに含まれる少なくとも1つの物体である既知物体を認識し、
    前記受付ステップでは、前記画面を介して、前記既知物体以外の物体を指定する第1の入力を前記アノテーションとして受け付ける、システム。
  6. 請求項1に記載の情報処理システムにおいて、
    前記表示制御ステップでは、前記動画データの時系列に対応するシークバーを前記画面に表示させ、ここで前記シークバーは、時系列で区切られ、これにより、前記動画データが時系列で区切られる、システム。
  7. 情報処理方法であって、
    請求項1~請求項6の何れか1つに記載の情報処理システムの各ステップを備える、方法。
  8. プログラムであって、
    コンピュータに、請求項1~請求項6の何れか1つに記載の情報処理システムの各ステップを実行させる、プログラム。
JP2023200990A 2022-12-05 2023-11-28 情報処理システム、情報処理方法及びプログラム Pending JP2024081132A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022194469 2022-12-05
JP2022194469 2022-12-05

Publications (1)

Publication Number Publication Date
JP2024081132A true JP2024081132A (ja) 2024-06-17

Family

ID=91483143

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2023200990A Pending JP2024081132A (ja) 2022-12-05 2023-11-28 情報処理システム、情報処理方法及びプログラム
JP2023200991A Pending JP2024081133A (ja) 2022-12-05 2023-11-28 情報処理システム、情報処理方法及びプログラム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023200991A Pending JP2024081133A (ja) 2022-12-05 2023-11-28 情報処理システム、情報処理方法及びプログラム

Country Status (1)

Country Link
JP (2) JP2024081132A (ja)

Also Published As

Publication number Publication date
JP2024081133A (ja) 2024-06-17

Similar Documents

Publication Publication Date Title
Segura et al. Visual computing technologies to support the Operator 4.0
JP5942456B2 (ja) 画像処理装置、画像処理方法及びプログラム
WO2018098861A1 (zh) 用于虚拟现实设备的手势识别方法、装置及虚拟现实设备
CN112771472A (zh) 提供实时产品交互协助的系统和方法
US20170136621A1 (en) Dynamic Multi-Sensor and Multi-Robot Interface System
JP5807686B2 (ja) 画像処理装置、画像処理方法及びプログラム
WO2019041900A1 (zh) 增强现实环境中识别装配操作、模拟装配的方法和装置
TWI591581B (zh) 三維物體建模方法和利用其的電腦程式被記錄的媒體
CN110573992B (zh) 使用增强现实和虚拟现实编辑增强现实体验
WO2018099258A1 (zh) 无人机的飞行控制方法和装置
US11908337B2 (en) Information processing device, intermediation device, simulation system, and information processing method
Dhule et al. Computer vision based human-computer interaction using color detection techniques
CN114327064A (zh) 一种基于手势控制的标绘方法、系统、设备及存储介质
Alshaal et al. Enhancing virtual reality systems with smart wearable devices
Nishino et al. 3d object modeling using spatial and pictographic gestures
CN108027663A (zh) 将移动设备与人员跟踪组合以用于大型显示器交互
CN115439171A (zh) 商品信息展示方法、装置及电子设备
Paterson et al. Gesture-controlled robotic arm utilizing OpenCV
KR102176458B1 (ko) 데이터 라벨링을 위한 바운딩 박스 그리기 방법 및 장치
CN104158696B (zh) 一种测量操作延时的确定方法、装置及终端
Titlee et al. A novel design of an intangible hand gesture controlled computer mouse using vision based image processing
JP2024081132A (ja) 情報処理システム、情報処理方法及びプログラム
Guliani et al. Gesture controlled mouse navigation: Hand landmark approach
JP2012018620A (ja) 情報処理装置およびその制御方法
Xie et al. Hand posture recognition using kinect

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231129