JP7487392B1

JP7487392B1 - システム、方法、およびプログラム

Info

Publication number: JP7487392B1
Application number: JP2023174341A
Authority: JP
Inventors: 宏明菅原; 裕也寺田; 大聖今田; 海澁谷; あかね玉▲崎▼
Original assignee: セーフィー株式会社
Priority date: 2023-10-06
Filing date: 2023-10-06
Publication date: 2024-05-20
Anticipated expiration: 2043-10-06

Abstract

【課題】ユーザ側で所望の学習モデルの作成を迅速かつ簡単に実行する。【解決手段】本開示の一例としてのシステムは、カメラにより撮影された映像を情報端末で表示するシステムであって、ユーザに対応する複数のカメラを表示し、ユーザの指示に応じて、複数のカメラの中からカメラを選択し、選択されたカメラに対応する複数の映像を表示し、ユーザの指示に応じて、複数の映像の中から映像を選択し、選択された映像に基づいて、学習モデルを作成する、ように構成されている。【選択図】図１

Description

本開示は、システム、方法、およびプログラムに関する。

近年、ＡＩ（人工知能）による様々な解析がなされるようになってきている。ＡＩによる解析に使用する学習モデルを作成するためのステップは、大別して、学習に用いるデータの収集と、収集したデータの加工と、加工したデータに基づく学習による学習モデルの構築と、構築した学習モデルの評価および当該評価に基づく再学習による学習モデルの調整と、の４つである。

特開２０１５－１６６９６２号公報

ここで、ＡＩによる解析に使用する学習モデルの作成は、専門の業者によって、ユーザごとに、個々の解析対象に対して、オーダーメイド方式で行われることが一般的である。このようなオーダーメイド方式での学習モデルの作成においては、特に学習に用いるデータの収集および収集したデータの加工のステップに人手を要するため、学習モデルの作成が完了するまでにかかる時間およびコストが大きくなりやすい。その結果、ユーザは、学習モデルの作成を躊躇してしまい、社会全体としてＡＩの導入が進みにくい状況が発生していた。

そこで、本開示が解決しようとする課題の一つは、ユーザ側で所望の学習モデルの作成を迅速かつ簡単にワンストップで実行することが可能なシステム、方法、およびプログラムを提供することである。

本開示の一例としてのシステムは、カメラにより撮影された映像を情報端末で表示するシステムであって、ユーザに対応する複数のカメラを表示し、ユーザの指示に応じて、複数のカメラの中からカメラを選択し、選択されたカメラに対応する複数の映像を表示し、ユーザの指示に応じて、複数の映像の中から映像を選択し、選択された映像に基づいて、学習モデルを作成する、ように構成されている。

また、本開示の他の一例としての方法は、カメラにより撮影された映像を情報端末で表示するシステムで実行される方法であって、ユーザに対応する複数のカメラを表示することと、ユーザの指示に応じて、複数のカメラの中からカメラを選択することと、選択されたカメラに対応する複数の映像を表示することと、ユーザの指示に応じて、複数の映像の中から映像を選択することと、選択された映像に基づいて、学習モデルを作成することと、を含む。

また、本開示のさらに他の一例としてのプログラムは、カメラにより撮影された映像を情報端末で表示するシステムとしての少なくとも１つのコンピュータに、ユーザに対応する複数のカメラを表示することと、ユーザの指示に応じて、複数のカメラの中からカメラを選択することと、選択されたカメラに対応する複数の映像を表示することと、ユーザの指示に応じて、複数の映像の中から映像を選択することと、選択された映像に基づいて、学習モデルを作成することと、を実行させるための、プログラムである。

図１は、実施形態にかかるシステムの機能的構成を示した例示的かつ模式的なブロック図である。図２は、実施形態にかかるシステムによって実行される学習モデルの作成の流れを示した例示的かつ模式的なシーケンス図である。図３は、実施形態にかかるシステムによって実行される映像解析の流れを示した例示的かつ模式的なシーケンス図である。図４は、実施形態にかかる学習モデルの作成の流れにおいて表示されうる画面を示した例示的かつ模式的な図である。図５は、実施形態にかかる学習モデルの作成の流れにおいて表示されうる画面を示した例示的かつ模式的な図である。図６は、実施形態にかかる学習モデルの作成の流れにおいて表示されうる画面を示した例示的かつ模式的な図である。図７は、実施形態にかかる学習モデルの作成の流れにおいて表示されうる画面を示した例示的かつ模式的な図である。図８は、実施形態にかかる学習モデルの作成の流れにおいて表示されうる画面を示した例示的かつ模式的な図である。図９は、実施形態にかかる学習モデルの作成の流れにおいて表示されうる画面を示した例示的かつ模式的な図である。図１０は、実施形態にかかる学習モデルの作成の流れにおいて表示されうる画面を示した例示的かつ模式的な図である。図１１は、実施形態にかかる学習モデルの作成の流れにおいて表示されうる画面を示した例示的かつ模式的な図である。図１２は、実施形態にかかる学習モデルの作成の流れにおいて表示されうる画面を示した例示的かつ模式的な図を示した例示的かつ模式的な図である。図１３は、実施形態にかかる映像解析の流れにおいて表示されうる画面を示した例示的かつ模式的な図を示した例示的かつ模式的な図である。図１４は、実施形態にかかる映像解析の流れにおいて表示されうる画面を示した例示的かつ模式的な図を示した例示的かつ模式的な図である。図１５は、実施形態にかかる映像解析の流れにおいて表示されうる画面を示した例示的かつ模式的な図を示した例示的かつ模式的な図である。図１６は、実施形態にかかるカメラ、サーバ装置、およびユーザ端末に含まれる情報処理装置のハードウェア構成を示した例示的かつ模式的なブロック図である。

以下、本開示の実施形態および変形例を図面に基づいて説明する。以下に記載する実施形態および変形例の構成、ならびに当該構成によってもたらされる作用および効果は、あくまで一例であって、以下の記載内容に制限されるものではない。

図１は、実施形態にかかるシステム１００の機能的構成を示した例示的かつ模式的なブロック図である。

図１に示されるように、実施形態にかかるシステム１００は、カメラ１１０と、サーバ装置１２０と、ユーザ端末１３０（情報端末）と、を含む。情報端末としては、PC、タブレット、スマートフォン等、どの様な端末でもよい。

カメラ１１０は、機能モジュールとして、通信部１１１と、撮影部１１２と、検知部１１３と、を含む。また、サーバ装置１２０は、機能モジュールとして、通信部１２１と、映像記録部１２２と、演算処理部１２３と、を含む。また、ユーザ端末１３０は、機能モジュールとして、通信部１３１と、表示処理部１３２と、入力受付部１３３と、を含む。

カメラ１１０は、ネットワーク経由でサーバ装置１２０と通信可能に接続される。また、サーバ装置１２０は、ネットワーク経由でユーザ端末１３０と通信可能に接続される。このような通信は、カメラ１１０の通信部１１１、サーバ装置１２０の通信部１２１、およびユーザ端末１３０の通信部１３１によって実現される。これにより、カメラによって撮影された映像（および当該映像に基づいて検出される情報）は、サーバ装置１２０を介してユーザ端末１３０に提供される。

なお、カメラ１１０の撮影部１１２は、カメラ１１０の設置位置から見た所定の領域の映像を取得する。サーバ装置１２０の演算処理部１２３は、学習モデルを含み、当該学習モデルを利用して、カメラ１１０の撮影部１１２により撮影された映像を解析し、映像から所定の検知対象を検知する。たとえば、撮影部１１２が工場の製造ラインを撮影している場合、演算処理部１２３は、製造ラインを流れる互いに同一であるはずの複数の物品から、他の物品とは異なる異常な物品（たとえば不良品）を検知しうる。なお、この様な学習モデルを用いた映像解析は、サーバ装置側で行う代わりにカメラ側で行ってもよい。その場合、カメラ１１０の検知部１１３が学習モデルを含み、検知部１１３にて前述した映像解析や検知を行うようにすればよい。

ここで、一般に、上記のような学習モデルを作成するためのステップは、大別して、学習に用いるデータの収集と、収集したデータの加工と、加工したデータに基づく学習による学習モデルの構築と、構築した学習モデルの評価および当該評価に基づく再学習による学習モデルの調整と、の４つに分けられる。

上記のような学習モデルの作成は、専門の業者によって、ユーザごとに、個々の解析対象に対して、オーダーメイド方式で行われることが一般的である。このようなオーダーメイド方式での学習モデルの作成においては、特に学習に用いるデータの収集および収集したデータの加工のステップに人手を要するため、学習モデルの作成が完了するまでにかかる時間およびコストが大きくなりやすい。その結果、ユーザは、学習モデルの作成を躊躇してしまい、社会全体としてＡＩの導入が進みにくい状況が発生していた。

そこで、実施形態は、サーバ装置図１に示される各機能モジュールが次の図２に示されるような流れで動作することで、ユーザ側で所望の学習モデルの作成を迅速かつ簡単にワンストップで実行することを可能にする。

図２は、実施形態にかかるシステムによって実行される学習モデルの作成の流れを示した例示的かつ模式的なシーケンス図である。

図２に示されるように、実施形態では、学習モデルの作成を開始するにあたり、まず、ユーザ端末１３０の通信部１３１は、Ｓ２０１において、サーバ装置１２０に対してログイン要求を行う。そして、サーバ装置１２０の通信部１２１は、Ｓ２０２において、ユーザ端末１３０からのログイン要求に応じて認証処理を実行する。認証が完了すると、サーバ装置１２０の通信部１２１は、Ｓ２０３において、認証されたユーザに紐づけられた各種の情報（たとえば当該ユーザに紐づけられたカメラ１１０の情報やユーザが既に作成した学習モデルの情報など）を必要に応じてユーザ端末１３０に提供する。

上記の認証が完了すると、ユーザ端末１３０の表示処理部１３２は、Ｓ２０４において、次の図４に示されるような学習モデル作成用アプリのトップ画面（マイページ画面）を表示する。

図４は、実施形態にかかる学習モデルの作成の流れにおいて表示されうる画面を示した例示的かつ模式的な図である。

図４に示される画面４００は、上記のマイページ画面の一例である。この画面４００には、ログインしたユーザに関する情報（名前、メールアドレス、パスワードなど）を確認するためのインターフェースを含む領域４１０が設けられている。また、画面４００には、カメラ１１０により撮影された映像の確認・編集を行うための画面（後述する図９など参照）に表示内容を切り替えるためのボタン４２０も設けられている。その他、画面４００には、「解析結果一覧」ボタン４０１、「学習モデル一覧」ボタン４０２、および「マイページ」ボタン４０３などといった、画面４００の表示内容を切り替えるための各種のボタンが設けられている。「解析結果一覧」ボタン４０１が押下されると、後述する図１３に示されるような画面に表示内容が切り替わり、「学習モデル一覧」ボタン４０２が押下されると、画面４００は、後述する図５に示される画面５００移行する。なお、「マイページ」ボタン４０３は、他の画面からマイページ画面に戻るためのボタンである。

図２に戻り、マイページ画面において所定の操作（たとえば「学習モデル一覧」ボタン４０２の押下）が行われると、ユーザ端末１３０の表示処理部１３２は、以下の図５～図１２に示されるような、学習モデルの作成のための各種の画面（学習モデル作成画面）を表示する。

図５～図１２は、実施形態にかかる学習モデルの作成の流れにおいて表示されうる画面を示した例示的かつ模式的な図である。

図５に示される画面５００は、図４に示される画面４００において「学習モデル一覧」ボタン４０２が押下された場合に最初に表示される画面である。この画面５００には、ユーザの指示に応じて既に作成された、または作成途中の学習モデルの情報が表示される領域５１０が設けられている。また、画面５００には、図４に示される画面４００と同様の「解析結果一覧」ボタン５０１、「学習モデル一覧」ボタン５０２、および「マイページ」ボタン５０３が設けられている。さらに、画面５００には、新規の学習モデルの作成を開始するための「新規作成」ボタン５２０も設けられている。この「新規作成」ボタン５２０が押下されると、画面５００は、次の図６に示される画面６００に移行する。

図６に示される画面６００には、図４および図５に示される例と同様の「解析結果一覧」ボタン６０１、「学習モデル一覧」ボタン６０２、および「マイページ」ボタン６０３が設けられている。また、画面６００には、新規に作成する学習モデルに関する各種の情報が表示される領域６１０が設けられている。

領域６１０には、学習モデルの新規作成にかかる作業の現在の進捗が表示される領域６１１と、新規に作成する学習モデルに学習させる映像を取得するカメラ１１０を選択するためのインターフェースが表示される領域６１２と、当該領域６１２において現在選択されているカメラ１１０が現在撮影している映像が表示される領域６１３と、作業を次に進めるための「次へ」ボタン６１４と、が設けられている。ユーザが領域６１２のプルダウンボタンをクリックすると、そのユーザのアカウントに対応するカメラの一覧が表示され、その中からユーザがカメラを指定すると、それが学習モデル作成の対象カメラとして選択される。領域６１３には、選択されたカメラで撮影された映像のサムネイル画像が確認用に表示される。「次へ」ボタン６１４が押下されると、画面６００は、次の図７に示される画面７００に移行する。

図７に示される画面７００には、図４～図６に示される例と同様の「解析結果一覧」ボタン７０１、「学習モデル一覧」ボタン７０２、および「マイページ」ボタン７０３が設けられている。この画面７００は、作業に関連する各種の情報が表示される領域７１０を含む。

領域７１０には、学習モデルの新規作成にかかる作業の現在の進捗が表示される領域７１１が設けられている。また、領域７１０には、上記の画面６００（図６参照）を介して選択したカメラ１１０の映像のうち、注目して学習させるエリアを設定するためのインターフェースが表示される領域７１２が設けられている。ユーザは、この領域７１２内で枠７２０の大きさおよび位置をクリック＆ドラッグ等の操作により適宜調整することで、注目して学習させるエリアを設定することができる。なお、領域７１０には、作業を次に進めるための「次へ」ボタン７１３も設けられている。この「次へ」ボタン７１３が押下されると、画面７００は、次の図８に示される画面８００に移行する。

図８に示される画面８００には、図４～図７に示される例と同様の「解析結果一覧」ボタン８０１、「学習モデル一覧」ボタン８０２、および「マイページ」ボタン８０３が設けられている。この画面８００は、作業に関連する情報が表示される領域８１０を含む。

領域８１０には、学習モデルの新規作成にかかる作業の現在の進捗が表示される領域８１１が設けられている。また、領域８１０には、新規に作成する学習モデルに学習させる映像を選択するためのインターフェースが表示される領域８１２が設けられている。また、領域７１０には、作業を次に進めるための「次へ」ボタン８１３も設けられている。この「次へ」ボタン８１３が押下されると、図４～図８に示される各画面を介して設定された内容の確認をユーザに促すための確認画面（不図示）が表示される。そして、当該確認画面上のたとえば「ＯＫ」ボタンが押下されると、学習モデルの作成が開始される。学習モデルの作成が完了したら、サーバ装置１２０は完成した学習モデルをログイン中のユーザおよび当該ユーザにより選択されたカメラと対応付けて映像記憶部１２２に記憶させる。

ここで、上記の領域８１２についてより詳細に説明する。領域８１２には、学習モデルに学習させる映像の取得元として上記の画面６００（図６参照）を介して選択されたカメラ１１０から取得される映像に基づいてユーザの編集により作成された複数の映像が表示されうる。この領域８１２内に設けられた「ムービークリップ作成」ボタン８２１が押下されると、画面８００は、次の図９に示される画面９００に移行する。すなわち、学習モデル作成用アプリからいったん抜け、ビューア（カメラにより撮影された映像をユーザが閲覧するためのアプリ）が起動する。

図９は、ビューアのトップ画面を示している。図９に示される画面９００には、ユーザに紐づけられた複数のカメラ１１０の情報が、当該カメラ１１０から取得される映像のサムネイルとともに表示される領域９１０が設けられている。当該領域９１０においていずれか１つのカメラ１１０を選択する操作がユーザにより行われると、画面９００は、次の図１０に示される画面１０００に移行する。なお、図９（ビューアのトップ画面）の表示を省略し、その代わりに図６の６１２を介してユーザが指定した対象カメラが選択されたものとして、図１０に移行してもよい。

図１０に示される画面１０００には、上記の画面９００（図９参照）を介して選択されたカメラ１１０から取得される映像が表示・再生される領域１０１０と、当該領域１０１０に表示・再生される映像の時系列を示すタイムラインが表示される領域１０２０と、が設けられている。領域１０２０に表示されたタイムライン上で任意の時刻を指定する操作がユーザにより行われると、当該時刻における映像が領域１０１０に表示される。そして、タイムラインとともに領域１０２０内に表示された「ムービークリップ」ボタン１０２１が押下されると、画面１０００は、次の図１１に示される画面１１００に移行する。

図１１に示される画面１１００は、上記の画面１０００（図１０参照）に表示された映像を、学習モデルに学習させる用に編集（クリッピング）するための各種の操作を受け付けるインターフェースが表示される領域１１１０を含む。ユーザは、当該領域１１１０を介して各種の操作を行うことで、上記の画面１０００に表示された映像のどの時刻（開始時刻）からどの時刻（終了時刻）まで切り出すかを指定し、学習モデルに学習させる用の短い映像を作成することができる。領域１１１０には、ユーザが指定した開始時刻における映像のサムネイルが表示される領域１１１１と、ユーザが指定した終了時刻における映像のサムネイルが表示される領域１１１２と、が設けられている。また、領域１１１０には、開始時刻および終了時刻を指定する操作を受け付けるタイムライン１１１３と、画面１１００を用いた作業を完了するための「確認する」ボタン１１１４と、が設けられている。開始時刻および終了時刻が指定された状態で「確認する」ボタン１１１４が押下されると、映像の編集に関して指定された情報の確認をユーザに促すための確認画面（不図示）が表示される。そして、当該確認画面上のたとえば「作成する」ボタンが押下されると、ムービークリップの作成が開始される。ムービークリップの作成が完了したら、サーバ装置１２０は完成したムービークリップをログイン中のユーザおよび当該ユーザにより選択されたカメラと対応付けて映像記憶部１２２に記憶させる。

なお、作成された学習モデルに関する情報は、次の図１２に示される画面１２００によって確認可能である。図１２は、図５で表示された学習モデル一覧の中から、ユーザにより何れかの学習モデルが選択された場合等に表示される。

図１２に示される画面１２００には、図４～図８に示される例と同様の「解析結果一覧」ボタン１２０１、「学習モデル一覧」ボタン１２０２、および「マイページ」ボタン１２０３が設けられている。この画面１２００には、ユーザが指定した学習モデルの名前などの文字情報が表示される領域１２１０と、図７を介して特に注目して学習させるエリアとしてユーザが指定したエリアが映像とともに表示される領域１２２０と、図８を介して学習モデルに学習させる用にユーザが選択した映像した映像が表示される領域１２３０と、が設けられている。

図２に戻り、上述した図４～図１１に示される各種の学習モデル作成画面を介して入力されたユーザの設定がユーザ端末１３０の入力受付部１３３により受け付けられると、ユーザ端末１３０の通信部１３１は、Ｓ２０６において、当該ユーザの設定に基づいて学習モデルの作成を開始するようサーバ装置１２０に指示を送信する。

そして、サーバ装置１２０の演算処理部１２３は、Ｓ２０７において、通信部１２１を介してユーザ端末１１０から受信された指示と、映像記録部１２２に記録されたカメラ１１０の映像と、に基づいて、ユーザの指示に沿った学習モデルの作成を開始する。学習モデルの作成が完了したら、サーバ装置１２０は完成した学習モデルをログイン中のユーザおよび当該ユーザにより選択されたカメラと対応付けて映像記憶部１２２に記憶させる。なお、本実施例では学習モデルを用いた映像解析や各種検知をサーバ側で実行する前提で説明するが、これをカメラ側で実行する場合には、完成した学習モデルをカメラ１１０の検知部１１３に記憶させることにより、予めカメラに学習モデルをデプロイすればよい。

なお、サーバ装置１２０の通信部１２１は、Ｓ２０８において、学習モデルの作成状態を必要に応じてユーザ端末１１０に送信する。そして、ユーザ端末１１０は、Ｓ２０９において、サーバ装置１２０から受信された学習モデルの作成状態を、上記の図５に示される画面５００のような、作成済または作成途中の学習モデルの一覧を表示する画面に表示する。

次に、図３を参照して、上記のように作成された学習モデルを用いて映像を解析する際に実行される処理の流れについて説明する。

図３は、実施形態にかかるシステムによって実行される映像解析の流れを示した例示的かつ模式的なシーケンス図である。

図３に示されるように、実施形態では、上記のように作成された学習モデルを用いた映像解析を実行するにあたり、まず、ユーザ端末１３０の表示処理部１２２は、Ｓ３０１において、映像解析の条件などを含む各種の設定を行うための設定画面（後述する図１３～図１５参照）を表示する。

そして、Ｓ３０２において、ユーザ端末１３０の通信部１３１は、ユーザにより設定された内容に基づいて、サーバ装置１２０に指示を送信する。

そして、Ｓ３０４において、サーバ装置１２０の演算処理部１２３は、ユーザ端末１３０からの指示に応じて、カメラ１１０の撮影部１１２により取得された映像に対して、上記のように作成された学習モデルを用いた解析（検知）処理を実行する。

そして、Ｓ３０６において、サーバ装置１２０の通信部１２１は、解析結果をユーザ端末１３０に送信する。

そして、ユーザ端末１３０の表示処理部１３２は、サーバ装置１２０から受信した解析結果を、たとえば次の図１３に示される画面１３００のような形で表示する。

なお、本実施例では学習モデルを用いた映像解析や各種検知をサーバ側で実行する前提で説明したが、これをカメラ側で実行する場合には、次の様にすればよい。すなわち、Ｓ３０４の主体をサーバ装置１２０からカメラ１１０に変更し、Ｓ３０２とＳ３０４の間にＳ３０３（不図示）を追加し、Ｓ３０４とＳ３０６の間にＳ３０５（不図示）を追加する。Ｓ３０３において、サーバ装置１２０の通信部１２１は、ユーザ端末１３０からの指示をカメラ１１０に送信する。Ｓ３０５において、カメラ１１０の通信部１１１は、上記の解析処理の結果をサーバ装置１２０に送信する。

図１３は、実施形態にかかる映像解析の流れにおいて表示されうる画面を示した例示的かつ模式的な図である。図１３は、図４～図５で「解析結果一覧」ボタンを押下すると表示される。

図１３に示される画面１３００は、上記のように作成された学習モデルを用いた映像解析の結果をユーザに通知するための画面である。この画面１３００には、図４～図８および図１２に示される例と同様の「解析結果一覧」ボタン１３０１、「学習モデル一覧」ボタン１３０２、および「マイページ」ボタン１３０３が設けられている。

画面１３００には、新たな映像解析を実行するための各種の設定を開始する際に押下する「映像の新規解析」ボタン１３０５と、映像解析の結果（および途中経過）が一覧表示される領域１３１０と、が設けられている。領域１３１０に一覧表示された複数の項目のうち、映像解析が完了済の項目には、「詳細」ボタン１３１１が対応して表示される。「映像の新規解析」ボタン１３０５が押下されると、画面１３００は、次の図１４に示される画面１４００に移行し、「詳細」ボタン１３１１が押下されると、その次の図１５に示される画面１５００に移行する。

図１４および図１５は、実施形態にかかる映像解析の流れにおいて表示されうる画面を示した例示的かつ模式的な図である。

図１４は、図１３で「映像の新規解析」ボタン１３０５が押下されると表示される。図１４に示される画面１４００には、図４～図８、図１２、および図１３に示される例と同様の「解析結果一覧」ボタン１４０１、「学習モデル一覧」ボタン１４０２、および「マイページ」ボタン１４０３が設けられている。また、画面１４００には、新たに実行する映像解析に対して各種の条件設定を行うための各種のインターフェースが表示される領域１４１０が設けられている。

より具体的に、領域１４１０には、新たに実行する映像解析の便宜上の名前の入力を受け付けるインターフェースが表示される領域１４１１と、新たな映像解析を実行させるカメラ映像の選択を受け付けるインターフェースが表示される領域１４１２と、新たな映像解析のために使用する学習モデルの選択を受け付けるインターフェースが表示される領域１４１３と、が設けられている。領域１４１２をクリックすると、カメラ映像の選択画面（不図示）が表示される。その画面には、ユーザに対応するムービークリップの一覧が表示され、その中からユーザの指示に応じて映像解析に使用する映像が選択される。このとき、まずユーザに対応するカメラの一覧が表示され、その中から選択されたカメラに対応するムービークリップを表示するようにしてもよい。領域１４１３をクリックすると、学習モデルの選択画面（不図示）が表示される。その画面には、ユーザに対応する学習モデルの一覧が表示され、その中からユーザの指示に応じて映像解析に使用する学習モデルが選択される。このとき、まずユーザに対応するカメラの一覧が表示され、その中から選択されたカメラに対応する学習モデルを表示するようにしてもよい。なお、カメラ映像または学習モデルの何れか一方を先に選択した場合には、他方を選択する際に選択済のカメラ映像または学習モデルに対応するカメラに絞ってその候補を表示してもよい。領域１４１２で「ビューアと連携」ボタンが押下されると、前述した図９の画面が表示され、ムービークリップを新規作成することが可能である。領域１４１３で「学習モデルの新規作成」ボタンが押下されると、前述した図６が表示され、学習モデルを新規作成することが可能である。また、領域１４１０には、領域１４１３を介して選択した学習モデルを作成する際に設定された解析エリアが表示される領域１４１４と、領域１４１２を介して選択したカメラ映像のうちどの時刻からどの時刻までを映像解析の対象とするかの指定を受け付けるインターフェースが表示される領域１４１５と、その他ユーザが任意に入力可能なメモ欄が表示される領域１４１６と、が設けられている。領域１４１５の開始時刻と終了時刻には、デフォルト値として領域１４１２を介して選択したカメラ映像の最初の時刻と最後の時刻がそれぞれセットされ、そこからユーザが適宜変更可能である。開始時刻と終了時刻それぞれの上側には、その時刻に対応する映像がサムネイルで表示される。さらに、領域１４１０には、「次へ」ボタン１４１７が設けられている。当該「次へ」ボタン１４１７が押下されると、画面１４００を介して設定された内容の確認をユーザに促すための確認画面（不図示）が表示される。そして、当該確認画面上のたとえば「ＯＫ」ボタンが押下されると、ユーザ端末１３０からサーバ装置１２０に映像解析の指示が送信される。

図１５は、図１３で解析結果の「詳細」ボタン１３１１が押下されると表示される。図１５に示される画面１５００には、図４～図８、および図１２～図１４に示される例と同様の「解析結果一覧」ボタン１５０１、「学習モデル一覧」ボタン１５０２、および「マイページ」ボタン１５０３が設けられている。この画面１５００には、映像解析の結果が詳細に表示される領域１５１０が設けられている。

より具体的に、領域１５１０には、結果を表示する対象の映像解析の概要を示す情報（上記の図１４に示される画面１４００を介して設定されたような情報）が表示される領域１５１１と、当該領域１５１１に表示された情報に対応する映像解析の結果の詳細が表示される領域１５１２と、が設けられている。領域１５１２には、映像解析において検知された異常な物品が映っているタイミングの映像（のサムネイル）が表示される領域１５２１および１５３１と、当該領域１５２１および１５３１に表示された映像のヒートマップが表示される領域１５２２および１５３２と、が設けられている。つまり、領域１５１２には、異常な物品が映っていると検知されたタイミングの映像を、そのヒートマップとともに複数表示される。

なお、たとえば、同じ物品が製造ラインを流れる中で複数の位置で撮影されたに過ぎない映像は、個別に取り扱うよりはまとめて取り扱った方が便宜である。このため、上記の領域１５１２に表示される各映像は、同じ時間であると見なせる範囲内でグルーピングされる。図１５に示される例では、ユーザは、領域１５１２に設けられた選択可能領域１５２０を選択することで、対応する映像１５２１と同じグループに属する複数の映像を確認することができ、領域１５１２に設けられた選択可能領域１５３０を選択することで、対応する映像１５３１と同じグループに属する複数の映像を確認することができるようになっている。その他、ユーザは、領域１５１２上で、「映像を確認する」ボダンを押下することで、領域１５１２に表示された映像１５２１や１５３１の再生を行うことができ、「画像の保存」ボダンを押下することで、領域１５１２に表示された映像１５２１や１５３１に対応する画像の保存を行うこともできる。このとき、元画像とそれに対応する解析画像とが一緒に保存されるようにしてもよい。

最後に、上述した実施形態にかかるシステム１００を構成するカメラ１１０、サーバ装置１２０、およびユーザ端末１３０に含まれるハードウェア構成について説明する。実施形態において、カメラ１１０、サーバ装置１２０、およびユーザ端末１３０は、たとえば次の図１６に示されるようなハードウェア構成を有する情報処理装置１６００を含むように構成される。

図１６は、実施形態にかかるカメラ１１０、サーバ装置１２０、およびユーザ端末１３０に含まれる情報処理装置１６００のハードウェア構成を示した例示的かつ模式的なブロック図である。

なお、図１６は、カメラ１１０、サーバ装置１２０、およびユーザ端末１３０において実質的に共通するハードウェア構成のみを示したものである。このため、カメラ１１０、サーバ装置１２０、およびユーザ端末１３０の実際のハードウェア構成は、図１６に示されている以外の部分で様々に異なる点について留意されたい。

図１６に示されるように、情報処理装置１６００は、プロセッサ１６１０と、メモリ１６２０と、ストレージ１６３０と、入出力インターフェース（Ｉ／Ｆ）１６４０と、通信インターフェース（Ｉ／Ｆ）１６５０と、を備えている。これらのハードウェアは、バス２１６０に接続されている。

プロセッサ１６１０は、たとえばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）として構成され、情報処理装置１６００の各部の動作を統括的に制御する。

メモリ１６２０は、たとえばＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）およびＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）を含み、プロセッサ１６１０により実行されるプログラムなどの各種のデータの揮発的または不揮発的な記憶、およびプロセッサ１６１０がプログラムを実行するための作業領域の提供などを実現する。

ストレージ１６３０は、たとえばＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）またはＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）を含み、各種のデータを不揮発的に記憶する。

入出力インターフェース１６４０は、たとえばキーボードおよびマウスなどのような入力装置（不図示）から情報処理装置１６００へのデータの入力と、たとえば情報処理装置１６００からディスプレイおよびスピーカなどのような出力装置（不図示）へのデータの出力と、を制御する。

通信インターフェース１６５０は、情報処理装置１６００が他の装置と通信を実行することを可能にする。

実施形態にかかるカメラ１１０、サーバ装置１２０、およびユーザ端末１３０が有する各機能モジュール（図１参照）は、それぞれの情報処理装置１６００のプロセッサ２１１０がメモリ２１２０またはストレージ２１３０に予め記憶された情報処理プログラムを実行した結果として、ハードウェアとソフトウェアとの協働による機能モジュール群として実現される。ただし、実施形態では、図１に示される機能モジュール群のうち一部または全部が、専用に設計された回路のようなハードウェアのみによって実現されてもよい。

なお、上述した情報処理プログラムは、必ずしもメモリ１６２０またはストレージ１６３０に予め記憶されている必要はない。たとえば、上述した情報処理プログラムは、フレキシブルディスク（ＦＤ）のような各種の磁気ディスク、またはＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）のような各種の光ディスクなどといった、コンピュータで読み取り可能な媒体にインストール可能な形式または実行可能な形式で記録されたコンピュータプログラムプロダクトとして提供されてもよい。

また、上述した情報処理プログラムは、インターネットなどのネットワーク経由で提供または配布されてもよい。すなわち、上述した情報処理プログラムは、インターネットなどのネットワークに接続されたコンピュータ上に格納された状態で、ネットワーク経由でのダウンロードを受け付ける、といった形で提供されてもよい。

以上、本開示のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これらの新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これらの実施形態およびその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００システム
１１０カメラ
１１１通信部
１１２撮影部
１１３検知部
１２０サーバ装置
１２１通信部
１２２映像記録部
１２３演算処理部
１３０ユーザ端末
１３１通信部
１３２表示処理部
１３３入力受付部

Claims

カメラにより撮影された映像を情報端末で表示するシステムであって、
ユーザに対応する複数のカメラを表示し、
前記ユーザの指示に応じて、前記表示された複数のカメラの中からカメラを選択し、
前記選択されたカメラにより撮影された第１映像を表示し、
ユーザの指示に応じて、前記第１映像の一部を切り出して学習データとして用いられる複数の第２映像を作成し、
前記作成された複数の第２映像を表示し、
前記ユーザの指示に応じて、前記表示された複数の第２映像の中から少なくとも１つ以上の第２映像を選択し、
前記選択された第２映像に基づいて、学習モデルを作成する、
ように構成されている、システム。
前記複数の第２映像は、前記情報端末を介した前記ユーザの指示に応じて作成される、
請求項１に記載のシステム。
前記複数の第２映像は、前記情報端末において前記映像を表示するために用いられるビューアを介した前記ユーザの指示に応じて作成される、
請求項２に記載のシステム。
前記複数の第２映像は、前記ユーザに対応するものである、
請求項１に記載のシステム。
前記選択された第２映像の合計時間が所定時間以上となった場合に、前記学習モデルを作成する、
請求項１に記載のシステム。
ユーザの指示に応じて、前記選択されたカメラの映像の中から解析対象とするエリアを設定し、
前記選択された第２映像の中で前記設定されたエリアの映像に基づいて、前記学習モデルを作成する、
請求項１に記載のシステム。
前記ユーザに対応する複数の学習モデルを表示し、
前記ユーザの指示に応じて、前記複数の学習モデルの中から学習モデルを選択し、
前記選択された学習モデルに基づいて、映像解析を行う、
請求項１に記載のシステム。
前記ユーザの指示に応じて、映像解析の対象とする映像を特定し、
前記特定された映像に対して、映像解析を行う、
請求項１に記載のシステム。
前記学習モデルに基づく映像解析の解析結果として、前記映像の元画像と解析画像とを並べて表示する、
請求項１に記載のシステム。
前記学習モデルに基づく映像解析の解析結果として、同じ時間帯に異常検知した画像を表示する、
請求項１に記載のシステム。
カメラにより撮影された映像を情報端末で表示するシステムで実行される方法であって、
ユーザに対応する複数のカメラを表示することと、
前記ユーザの指示に応じて、前記表示された複数のカメラの中からカメラを選択することと、
前記選択されたカメラにより撮影された第１映像を表示することと、
ユーザの指示に応じて、前記第１映像の一部を切り出して学習データとして用いられる複数の第２映像を作成することと、
前記作成された複数の第２映像を表示することと、
前記ユーザの指示に応じて、前記表示された複数の第２映像の中から少なくとも１つ以上の第２映像を選択することと、
前記選択された第２映像に基づいて、学習モデルを作成することと、
を含む、方法。
カメラにより撮影された映像を情報端末で表示するシステムとしての少なくとも１つのコンピュータに、
ユーザに対応する複数のカメラを表示することと、
前記ユーザの指示に応じて、前記表示された複数のカメラの中からカメラを選択することと、
前記選択されたカメラにより撮影された第１映像を表示することと、
ユーザの指示に応じて、前記第１映像の一部を切り出して学習データとして用いられる複数の第２映像を作成することと、
前記作成された複数の第２映像を表示することと、
前記ユーザの指示に応じて、前記作成された複数の第２映像の中から少なくとも１つ以上の第２映像を選択することと、
前記選択された第２映像に基づいて、学習モデルを作成することと、
を実行させるための、プログラム。