JP2022080133A

JP2022080133A - 情報処理システム、情報処理装置、情報処理方法及び学習モデルの生成方法

Info

Publication number: JP2022080133A
Application number: JP2020191133A
Authority: JP
Inventors: 一帆平原; Kazuho Hirahara; 淳二倉本; Junji Kuramoto
Original assignee: Hitachi Solutions Ltd
Current assignee: Hitachi Solutions Ltd
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2022-05-27

Abstract

【課題】学習用データの収集及び学習モデルの構築を容易にする技術を提供する。
【解決手段】本開示の情報処理システムは、入力データを取得するデータ入力装置と、前記入力データを機械学習する機械学習サーバと、前記機械学習サーバが生成したデータを記憶する記憶装置と、を備え、前記機械学習サーバは、前記入力データに含まれるオブジェクト及び環境をそれぞれ認識し、オブジェクト学習モデル及び環境学習モデルを個別に構築する学習モデル構築部と、前記オブジェクト学習モデルと前記環境学習モデルを用いて前記入力データに特定の事象が含まれるか否かを判別するための認識・判別ロジックを階層的に構築する認識・判別ロジック部と、を有することを特徴とする。
【選択図】図６

Description

本開示は、情報処理システム、情報処理装置、情報処理方法及び学習モデルの生成方法に関する。

近年、機械学習を用いたデータ解析システムが普及している。このようなシステムとして、例えば、機械学習システムを用いて映像データを解析することにより特定の条件にあてはまるシーンを検出したり、各シーンを予め決められた基準により分類したりする技術が知られている。

特許文献１には、映像データを解析するシステムとして、「監視カメラ１０２で撮影された映像データを解析して、特定のカテゴリに属する事象を検出し、その検出結果を出力する映像解析手段と、映像データの映像と共に、映像に含まれる事象のカテゴリを設定するためのカテゴリ設定画面を表示させる表示制御手段と、カテゴリ設定画面に対するオペレータの操作に応じて設定されたカテゴリ情報を、映像データと共に学習用データとして蓄積する学習用データ蓄積手段と、を備える。映像解析手段は、学習用データ蓄積手段に蓄積された学習用データを用いて、学習処理を行なう。」という技術が開示されている（特許文献１の要約参照）。

このような映像解析システムにおいて映像シーンを解析するためには、機械学習システムの学習に用いる十分な量の学習用データを予め準備することが求められる。学習用データは、解析対象のデータに対して人手による検出作業や分類作業行うことにより生成される。機械学習システムは、生成された学習用データを用いて機械学習処理を行うことにより、学習結果として学習モデルを生成し、学習モデルを参照しながら、新たに与えられたデータを解析する。

学習用データの収集に関連して、特許文献２には、「時系列のデータから特定の基準に基づいて抽出したデータを分類することにより、機械学習システムの学習に用いる教師データを効率的に生成する。」という技術が開示されている。

特開２０１７－２２５１２２号公報特開２０１６－７６０７３号公報

従来の映像解析システムにおける機械学習方法では、学習用データをシーンごとに収集して学習モデルが構築される。したがって、特定の環境にある特定のオブジェクトが学習されるので、既に学習されたオブジェクトがある環境と同じ環境でなければ、新たに与えられたデータに出現するオブジェクトを解析することは難しい。このように、構築した学習モデルには汎用性がないため、様々な環境にあるオブジェクトを学習用データとして準備する必要があり、学習用データの収集及び学習モデルの構築に手間とコストがかかる。

そこで、本開示は、学習用データの収集及び学習モデルの構築を容易にする技術を提供する。

上記課題を解決するために、本開示の情報処理システムは、入力データを取得するデータ入力装置と、前記入力データを機械学習する機械学習サーバと、前記機械学習サーバが生成したデータを記憶する記憶装置と、を備え、前記機械学習サーバは、前記入力データに含まれるオブジェクト及び環境をそれぞれ認識し、オブジェクト学習モデル及び環境学習モデルを個別に構築する学習モデル構築部と、前記オブジェクト学習モデルと前記環境学習モデルを用いて前記入力データに特定の事象が含まれるか否かを判別するための認識・判別ロジックを階層的に構築する認識・判別ロジック部と、を有することを特徴とする。

本開示に関連する更なる特徴は、本明細書の記述、添付図面から明らかになるものである。また、本開示の態様は、要素及び多様な要素の組み合わせ及び以降の詳細な記述と添付される特許請求の範囲の様態により達成され実現される。本明細書の記述は典型的な例示に過ぎず、本開示の特許請求の範囲又は適用例を如何なる意味に於いても限定するものではない。

本開示の技術によれば、学習用データの収集及び学習モデルの構築が容易となる。上記以外の課題、構成及び効果は、以下の実施の形態の説明により明らかにされる。

映像解析システムの概略構成を示す模式図である。映像解析システムの利用方法の概要を示す図である。機械学習サーバにおける映像データの処理の概要を示す図である。学習モデルの構築方法を示すフローチャートである。学習モデルの構築方法を示す模式図である。認識・判別ロジックの構築方法を示す模式図である。学習モデルの更新方法を示すフローチャートである。学習モデルの更新方法を示す模式図である。映像解析方法を示すフローチャートである。映像解析方法を示す模式図である。

以下、添付の図面を参照して本開示の実施形態について説明する。ただし、実施形態は本開示の技術を実現するための一例に過ぎず、本開示の技術的範囲を限定するものではない。

本明細書において、データ解析の一例として映像データ解析について説明するが、本開示の技術は、映像データ解析に限らず音声データ解析などの他のデータ解析にも適用することができる。

［第１の実施形態］
＜映像解析システムの構成例＞
図１は、第１の実施形態に係る映像解析システム１００（情報処理システム）の概略構成を示す模式図である。映像解析システム１００は、映像入力装置１０１、映像管理サーバ１０２、機械学習サーバ１０６、記憶装置１１０、判別結果表示端末１１３及びこれらを接続するＬＡＮ１１５を備える。

映像入力装置１０１（データ入力装置）は、任意の映像入力機能を持つ装置であり、映像解析の対象となる場所に設置される。映像入力装置１０１により取得された映像は、任意の形式の映像データ１１６としてメモリに記憶される。映像入力装置１０１としては、例えば監視カメラや中継用カメラなどの、映像を継続して入力する装置を用いることができるが、映像入力機能を持つ装置であれば実現方式に限定はない。映像入力装置１０１と映像管理サーバ１０２とは、無線又は有線の専用ネットワークで接続されており、互いに通信可能である。映像入力装置１０１は、取得した映像データ１１６を映像管理サーバ１０２に送信する。

映像管理サーバ１０２は、映像入力装置１０１から受信した映像データ１１６を管理するサーバであり、１つ以上のプロセッサ及びプロセッサに接続される１つ以上のメモリを有する。なお、映像入力装置１０１及び映像管理サーバ１０２は、これらの機能が１つの装置により実現されるように構成されていてもよい。映像管理サーバ１０２は、データ管理プログラム１０３、映像取得ログ１０４及び映像データ記憶部１０５を有する。

データ管理プログラム１０３は、映像管理サーバ１０２のメモリに格納され、プロセッサにより実行される。映像取得ログ１０４は、映像データ１１６の取得状況（例えば撮影日時、撮影場所など）を任意の形式で保存するファイルであり、任意の保存領域に保存される。映像データ記憶部１０５は、任意のデータベースを用いて構成することができる。映像管理サーバ１０２は、映像入力装置１０１から映像データ１１６を受信すると、データ管理プログラム１０３を実行することにより、映像取得ログ１０４に取得状況を記録し、映像データ記憶部１０５に任意の形式又は任意の圧縮方法により映像データ１１６を記録する。

機械学習サーバ１０６（情報処理装置）は、１つ以上のプロセッサ及びプロセッサに接続される１つ以上のメモリを有するサーバである。機械学習サーバ１０６のメモリには、オブジェクト・環境別学習モデル構築プログラム１０７、オブジェクト・環境別学習モデル更新プログラム１０８及び認識・判別ロジックプログラム１０９が格納される。これらのプログラムは、機械学習サーバ１０６のプロセッサにより実行される。機械学習サーバ１０６は、機械学習の段階（フロー状態）に応じて上記プログラムの少なくともいずれかを実行して、映像データ記憶部１０５に記録された映像データ１１６を読み出し、映像データ１１６を処理する。機械学習サーバ１０６の各プログラムによる処理の詳細は後述する。

記憶装置１１０は、機械学習サーバ１０６から送られてくるデータを記録するサーバであり、学習モデル記憶部１１１及び認識・判別ロジック記憶部１１２を有する。学習モデル記憶部１１１及び認識・判別ロジック記憶部１１２は、任意の記録媒体に格納された任意のデータベースにより構成することができる。

学習モデル記憶部１１１は、機械学習サーバ１０６のオブジェクト・環境別学習モデル構築プログラム１０７により構築された学習モデル及びオブジェクト・環境別学習モデル更新プログラム１０８により更新若しくは新たに構築された学習モデルを記録する。認識・判別ロジック記憶部１１２は、機械学習サーバ１０６の認識・判別ロジックプログラム１０９により構築された、映像データ１１６に特定の事象があるか否かを判別するための認識・判別ロジックを記録する。

判別結果表示端末１１３は、例えばタブレット端末、スマートフォン又は汎用コンピュータなどの、ディスプレイ（表示画面）を有する端末装置であるが、出力機能を持つ装置であれば実現方式に限定はない。判別結果表示端末１１３のメモリには判別結果表示プログラム１１４が記憶され、判別結果表示プログラム１１４は判別結果表示端末１１３のプロセッサにより実行される。判別結果表示端末１１３は、機械学習サーバ１０６から送られてくるデータ（判別結果及び映像データ１１６）を受け取り、判別結果表示プログラム１１４により処理して任意の出力方法で出力し、ディスプレイに表示する。判別結果表示端末１１３の数は、一台であってもよいし、複数台であってもよい。

図１においては、映像管理サーバ１０２、機械学習サーバ１０６及び記憶装置１１０は、それぞれ別個のサーバ装置として示されているが、これらの機能を１つの装置で実現するようにハードウェアを構成することもできる。

＜映像解析システムの利用方法＞
図２は、映像解析システム１００の利用方法の概要を示す図である。以下において、映像解析システム１００を導入した映像管理企業２０３において作業現場２０１の映像を解析し、作業現場２０１に危険な事象（リスク）があるか否かを判別する場合について説明する。映像入力装置１０１及び映像管理サーバ１０２は、作業現場２０１に設置される。映像入力装置１０１は、作業現場２０１の環境に応じて任意の数が設置されており、作業現場２０１の映像を取得する。映像管理サーバ１０２は、作業現場２０１ではなく、映像管理企業２０３内に設置されていてもよい。映像管理企業２０３は、機械学習サーバ１０６及び判別結果表示端末１１３を管理する。作業従事者２０２が所属する企業と映像管理企業２０３とは、同じ企業であってもよいし、異なる企業であってもよい。

ステップＳ２０１において、作業現場２０１において作業従事者２０２が作業する。

ステップＳ２０２において、映像管理サーバ１０２は、映像入力装置１０１が取得した映像データ１１６及び映像取得ログ１０４（映像情報）を機械学習サーバ１０６に送信する。機械学習サーバ１０６は、映像管理サーバ１０２から映像情報を取得する。

ステップＳ２０３において、機械学習サーバ１０６は、映像情報を解析する。機械学習サーバ１０６は、映像解析により、作業現場２０１に危険な事象があるか否かの判別結果（リスク検知結果）や、作業従事者２０２の行動改善が必要か否かの判別結果などを生成する。

ステップＳ２０４において、機械学習サーバ１０６は、映像情報（映像データ１１６及び映像取得ログ１０４）及び判別結果を判別結果表示端末１１３に送信する。判別結果表示端末１１３は、映像情報及び判別結果をディスプレイに表示することにより、映像管理企業２０３に所属する映像管理者２０４に提示する。

ステップＳ２０５において、映像管理者２０４は、判別結果表示端末１１３に表示された映像情報及び判別結果を参考にして、作業従事者２０２に対してフォローする。これにより、作業従事者２０２の安全性向上や効率性向上を実現することができる。

＜機械学習サーバによる映像データの処理方法＞
図３は、機械学習サーバ１０６における映像データ１１６の処理の概要を示す図である。映像データ記憶部１０５に記録された映像データ１１６は、機械学習サーバ１０６の機械学習の段階に応じて、オブジェクト・環境別学習モデル構築プログラム１０７（学習モデル構築部）により学習用映像３０１（学習用の入力データ）として読み込まれるか、オブジェクト・環境別学習モデル更新プログラム１０８（学習モデル構築部）により追加学習用映像３０２（追加学習用の入力データ）として読み込まれるか、又は認識・判別ロジックプログラム１０９（認識・判別ロジック部）により解析用映像３０３（解析対象の入力データ）として読み込まれる。学習用映像３０１及び追加学習用映像３０２には、当該映像に含まれるオブジェクト、環境（周辺環境）、事象などの正解を示すラベル（タグ）が予め人手により付されていてもよい。

＜＜学習段階＞＞
機械学習を行っていない初期時点において、機械学習サーバ１０６は、学習用映像３０１を読み込み、オブジェクト・環境別学習モデル構築プログラム１０７を実行して、任意の機械学習手法により学習用映像３０１を学習し、その学習結果としての学習モデルを新規作成する。機械学習サーバ１０６は、作成した学習モデルを記憶装置１１０の学習モデル記憶部１１１に記録する。また、機械学習サーバ１０６は、認識・判別ロジックプログラム１０９を実行して認識・判別ロジックを新規作成し、記憶装置１１０の認識・判別ロジック記憶部１１２に記録する。

機械学習がすでに一度以上行われ、記憶装置１１０に記録がある場合に、機械学習サーバ１０６は、追加学習用映像３０２を読み込み、オブジェクト・環境別学習モデル更新プログラム１０８を実行して、任意の機械学習手法により追加学習用映像３０２を学習して、その学習結果としての学習モデルを更新する。機械学習サーバ１０６は、更新した学習モデルを学習モデル記憶部１１１に記録する。また、機械学習サーバ１０６は、認識・判別ロジックプログラム１０９を実行して認識・判別ロジックを更新し、認識・判別ロジック記憶部１１２に記録する。

＜＜推論段階＞＞
機械学習がすでに一度以上行われ、記憶装置１１０に記録がある場合に、機械学習サーバ１０６は、解析用映像３０３を読み込み、認識・判別ロジックプログラム１０９を実行して、学習モデル記憶部１１１に記録された学習モデルと認識・判別ロジック記憶部１１２に記録された認識・判別ロジックとを用いて解析用映像３０３を解析し、特定の事象があるか否かを判別する。機械学習サーバ１０６は、判別結果表示端末１１３に判別結果を送信する。

＜学習モデルの構築方法＞
図４は、機械学習サーバ１０６による学習モデルの構築（生成）方法を示すフローチャートである。以下に説明する各処理は、実際には機械学習サーバ１０６のプロセッサが各プログラムを実行することにより実現されるが、機械学習サーバ１０６の各プログラムを処理の主体として説明する。

ステップＳ４０１において、オブジェクト・環境別学習モデル構築プログラム１０７は、映像管理サーバ１０２の映像データ記憶部１０５から学習用映像３０１を読み込む。

ステップＳ４０２において、オブジェクト・環境別学習モデル構築プログラム１０７は、任意の機械学習手法を用いて学習用映像３０１に含まれるオブジェクト及び環境（周辺環境）をそれぞれ認識し、映像を任意の数のオブジェクトと環境に分類する。学習用映像３０１に含まれる環境とは、例えば、工事現場、建設現場など、映像解析の対象となる作業場所の種類である。学習用映像３０１に含まれるオブジェクトとは、例えば、重機、脚立、作業員、警備員など、作業場所にある物体又は人物の種類である。

ステップＳ４０３において、オブジェクト・環境別学習モデル構築プログラム１０７は、認識したオブジェクトと環境のそれぞれについて学習モデルを構築し、学習モデル記憶部１１１に記録する。すなわち、オブジェクト・環境別学習モデル構築プログラム１０７は、周辺環境に依拠することなくオブジェクトを識別するように構成されたオブジェクト学習モデルと、オブジェクトに依拠することなく周辺環境を識別するように構成された環境学習モデルとを構築する。

ステップＳ４０４において、認識・判別ロジックプログラム１０９は、オブジェクト学習モデルと環境学習モデルを用いてオブジェクト及び環境のそれぞれを認識して映像に特定の事象があるか否かを判別するためのロジック（推論プログラム）を構築し、認識・判別ロジック記憶部１１２に記録する。

図５は、機械学習サーバ１０６による学習モデルの構築（生成）方法を示す模式図である。ただし、本図は、オブジェクト及び環境を分離してそれぞれの学習モデルを構築するイメージを示すものであり、学習モデルの数や名称は一例に過ぎない。

まず、オブジェクト・環境別学習モデル構築プログラム１０７は、学習用映像３０１を読み込み、任意の機械学習手法を用いて、学習用映像３０１を任意の数のオブジェクトと環境に分類する。次に、オブジェクト・環境別学習モデル構築プログラム１０７は、分類したオブジェクト及び環境のそれぞれの特徴を抽出して、オブジェクト・環境別学習済モデル５０１を構築し、学習モデル記憶部１１１に記録する。オブジェクト・環境別学習済モデル５０１は、例えば、オブジェクト及び環境のそれぞれから抽出した特徴量（パラメータ）を記述したニューラルネットワークなどの形式で作成することができる。

図５に示す例において、学習用映像３０１に含まれるある環境Ａが工事現場である場合、オブジェクト・環境別学習モデル構築プログラム１０７は、学習用映像３０１から工事現場の映像の特徴を抽出し、環境Ａ学習済モデル５０６を作成する。また、工事現場に含まれるオブジェクトが例えば重機（オブジェクトＡ）、脚立（オブジェクトＢ）及び作業員（オブジェクトＣ）である場合、オブジェクト・環境別学習モデル構築プログラム１０７は、これらのオブジェクトＡ～Ｃの特徴を抽出し、オブジェクトＡ学習済モデル５０３、オブジェクトＢ学習済モデル５０４及びオブジェクトＣ学習済モデル５０５を作成する。このように、オブジェクト・環境別学習モデル構築プログラム１０７は、オブジェクト学習モデルと環境学習モデルとを作成する。オブジェクト学習モデルは、周辺環境に依拠することなくオブジェクトを識別するように構成されており、環境学習モデルは、オブジェクトに依拠することなく周辺環境を識別するように構成されている。

認識・判別ロジックプログラム１０９は、オブジェクト及び環境のそれぞれを認識して映像に特定の事象があるか否かを判別するための認識・判別ロジック５０２を構築し、認識・判別ロジック記憶部１１２に記録する。認識・判別ロジック５０２は、例えば、オブジェクト・環境別学習済モデル５０１を用いた推論プログラムとして作成することができる。

＜認識・判別ロジックの構築方法＞
図６は、認識・判別ロジックプログラム１０９による認識・判別ロジック５０２の構築方法を示す模式図である。本実施形態においては、映像に危険な状態や状況（事象）があるか否かを判定するためのロジックを構築する場合について説明する。ただし、認識・判別ロジック層６０１、オブジェクト・環境学習済モデル層６０２を構築するイメージを示すものであり、それぞれに含まれるオブジェクトの数や名称は一例に過ぎない。

認識・判別ロジックプログラム１０９は、認識・判別ロジック層６０１及びオブジェクト・環境学習済モデル層６０２を有する。認識・判別ロジック層６０１は、オブジェクト間認識層６０３、オブジェクト・環境間認識層６０４、特定状態検知層６０５、特定状況検知層６０６、評価層６０７及び判別層６０８を有する。オブジェクト・環境学習済モデル層６０２は、記憶装置１１０の学習モデル記憶部１１１に記録された学習モデル（オブジェクトＡ学習済モデル５０３、オブジェクトＢ学習済モデル５０４、オブジェクトＣ学習済モデル５０５及び環境Ａ学習済モデル５０６）を読み出す。

オブジェクト間認識層６０３は、オブジェクト・環境学習済モデル層６０２のオブジェクトそれぞれの距離や位置といったオブジェクト間の関係を認識し、その情報を記録する。オブジェクト・環境間認識層６０４は、オブジェクト・環境学習済モデル層６０２の各オブジェクトと環境との距離や位置といったオブジェクトと環境との間の関係を認識し、その情報を記録する。

特定状態検知層６０５及び特定状況検知層６０６は、人手による分類や特定のデータベース（不図示）などを用いて、オブジェクト間認識層６０３及びオブジェクト・環境間認識層６０４の情報のうち、特定の状態及び状況（本実施形態においては、リスクや危険がある状態及び状況）を検知する。例えば、特定状況検知層６０６は、上記の特定のデータベースとして工事現場安全基準データを参照して、重機（オブジェクトＡ）に作業員（オブジェクトＣ）が密接している場合は危険な状況であると検知する。また、特定状態検知層６０５は例えば、当該作業員が重機操作者の腕章をしている場合は、工事現場安全基準データに準拠した状態であると検知する。すなわち、特定状況検知層６０６はオブジェクト間又はオブジェクトと環境との間の関係にしたがって特定状況を検知し、特定状態検知層６０５はオブジェクト単体又は環境単体の特定状態を検知する。なお、特定状態検知層６０５及び特定状況検知層６０６は、企業や企業内の環境に応じて、参照するデータベースの切り替えが可能である。

評価層６０７は、特定状態検知層６０５及び特定状況検知層６０６の検知結果から、リスクや危険があるか否かを評価する。例えば、評価層６０７は、特定状況検知層６０６において重機に密接した作業員が検知されたとしても、特定状態検知層６０５において当該作業員が重機操作者の腕章をしていることが検知されている場合は、リスクや危険がないと評価する。反対に、特定状態検知層６０５において当該作業員が重機操作者の腕章をしていないことが検知されている場合は、評価層６０７は、リスクや危険があると評価する。

判別層６０８は、評価層６０７の評価結果に応じて、特定状態検知層６０５及び特定状況検知層６０６の検知結果をいずれの判別結果表示端末１１３に送信するかを判別する。

以上のように、認識・判別ロジックプログラム１０９は、学習用映像３０１（入力データ）を階層的に解析し、学習用映像３０１に危険な事象が含まれるか否かを振り分ける（学習する）ことで、新たに入力された映像データに危険な事象が含まれるか否かを判別するための認識・判別ロジック５０２（推論プログラム）を構築する。

図６の例において、認識・判別ロジック層６０１は、オブジェクト間認識層６０３及びオブジェクト・環境間認識層６０４（第１の層）、特定状態検知層６０５及び特定状況検知層６０６（第２の層）、評価層６０７（第３の層）、並びに判別層６０８（第４の層）の４段階の階層として構成されているが、映像解析の目的や種類に応じて、階層の数は増減させてもよい。

＜学習モデルの更新方法＞
図７は、機械学習サーバ１０６による学習モデルの更新方法を示すフローチャートである。以下に説明する各処理は、実際には機械学習サーバ１０６のプロセッサが各プログラムを実行することにより実現されるが、機械学習サーバ１０６の各プログラムを処理の主体として説明する。

ステップＳ７０１において、オブジェクト・環境別学習モデル更新プログラム１０８は、映像管理サーバ１０２の映像データ記憶部１０５から追加学習用映像３０２を読み込む。

ステップＳ７０２において、オブジェクト・環境別学習モデル更新プログラム１０８は、任意の機械学習手法を用いて追加学習用映像３０２に含まれるオブジェクト及び環境をそれぞれ認識し、映像を任意の数のオブジェクトと環境に分類する。

ステップＳ７０３において、オブジェクト・環境別学習モデル更新プログラム１０８は、認識したオブジェクト及び環境が既存の学習モデル（後述のオブジェクト・環境別既存学習済モデル８０１）に含まれるかを、任意の機械学習手法を用いて照合する。

ステップＳ７０４において、オブジェクト・環境別学習モデル更新プログラム１０８は、認識したオブジェクト及び環境が既存の学習モデルと一致するか否かを判定する。一致しない場合（Ｎｏ）は、処理はステップＳ７０５に移行する。一致する場合（Ｙｅｓ）は、処理はステップＳ７０６に移行する。

ステップＳ７０５において、オブジェクト・環境別学習モデル更新プログラム１０８は、新たに認識したオブジェクトと環境のそれぞれについて学習モデル（後述のオブジェクト・環境別追加学習済モデル８０２）を新たに構築し、学習モデル記憶部１１１に記録する。

ステップＳ７０６において、オブジェクト・環境別学習モデル更新プログラム１０８は、既存の学習モデル（オブジェクト・環境別既存学習済モデル８０１）を更新し、学習モデル記憶部１１１に記録する。

ステップＳ７０７において、認識・判別ロジックプログラム１０９は、認識・判別ロジック５０２を更新し、認識・判別ロジック記憶部１１２に記録する。

図８は、機械学習サーバ１０６による学習モデルの更新（生成）方法を示す模式図である。ただし、本図は、オブジェクト及び環境を分離してそれぞれの学習モデルを構築するイメージを示すものであり、学習モデルの数や名称は一例に過ぎない。

まず、オブジェクト・環境別学習モデル更新プログラム１０８は、追加学習用映像３０２を読み込み、任意の機械学習手法を用いて追加学習用映像３０２を任意の数のオブジェクトと環境に分類する。次に、オブジェクト・環境別学習モデル更新プログラム１０８は、分類したオブジェクト及び環境のそれぞれの特徴を抽出して、オブジェクト・環境別既存学習済モデル８０１と一致する場合は、オブジェクト・環境別既存学習済モデル８０１を更新する。一致しない場合は、オブジェクト・環境別学習モデル更新プログラム１０８は、オブジェクト・環境別追加学習済モデル８０２を構築し、学習モデル記憶部１１１に記録する。オブジェクト・環境別追加学習済モデル８０２は、例えば、オブジェクト及び環境のそれぞれから抽出した特徴（パラメータ）とその値を含むテーブル形式で作成することができる。

図８に示す例において、追加学習用映像３０２に含まれるある環境Ｂが建築現場である場合、オブジェクト・環境別学習モデル更新プログラム１０８は、追加学習用映像３０２から建築現場の映像の特徴を抽出し、環境Ｂ追加学習済モデル８０４を作成する。また、建築現場の映像（追加学習用映像３０２）に例えばとび職人（オブジェクトＤ）が含まれていた場合、オブジェクト・環境別学習モデル更新プログラム１０８は、オブジェクトＤの特徴を抽出し、オブジェクトＤ追加学習済モデル８０３を作成する。建築現場の映像（追加学習用映像３０２）に脚立（オブジェクトＢ）が含まれていた場合、オブジェクト・環境別学習モデル更新プログラム１０８は、オブジェクト・環境別既存学習済モデル８０１のオブジェクトＢ学習済モデル５０４を更新する。

認識・判別ロジックプログラム１０９は、オブジェクト及び環境のそれぞれを認識して映像に特定の事象があるか否かを判別するための認識・判別ロジック５０２を更新し、認識・判別ロジック記憶部１１２に記録する。

＜映像解析方法＞
図９は、認識・判別ロジックプログラム１０９による映像解析方法を示すフローチャートである。

ステップＳ９０１において、認識・判別ロジックプログラム１０９は、映像管理サーバ１０２の映像データ記憶部１０５から解析用映像３０３を読み込む。

ステップＳ９０２において、認識・判別ロジックプログラム１０９は、任意の機械学習手法を用いて、解析用映像３０３に含まれるオブジェクト及び環境を認識する。

ステップＳ９０３において、認識・判別ロジックプログラム１０９は、オブジェクト・環境別学習済モデル５０１及び認識・判別ロジック５０２を用いて、任意の機械学習手法により、ステップＳ９０２で認識した映像を解析して特定の事象が含まれるか否かを判別し、いずれの判別結果表示端末１１３に送信するかを判別する。

ステップＳ９０４において、認識・判別ロジックプログラム１０９は、認識・判別ロジック層６０１の判別結果を判別結果表示端末１１３に送信する。判別結果表示端末１１３は、判別結果を受信すると、判別結果表示プログラム１１４を実行してディスプレイに表示する。

以上、解析用映像３０３を解析して特定の事象の判別結果を出力する処理について説明したが、機械学習サーバ１０６は、このような解析段階においても、解析用映像３０３を追加学習用映像３０２と同様に処理して更なる学習を行ってもよい。

図１０は、認識・判別ロジックプログラム１０９による映像解析方法を示す模式図である。まず、認識・判別ロジックプログラム１０９は、解析用映像３０３を読み込み、任意の機械学習手法を用いて解析用映像３０３に含まれるオブジェクト及び環境を認識する。次に、認識・判別ロジックプログラム１０９は、既存のオブジェクト・環境別学習済モデル５０１及び認識・判別ロジック５０２を用いて、認識した映像を解析して特定の事象が含まれるか否かを判別する。また、認識・判別ロジックプログラム１０９は、認識・判別ロジック層６０１の判別結果を判別結果表示端末１１３に送信する。判別結果表示端末１１３は、判別結果表示プログラム１１４を実行して判別結果をディスプレイに表示する。

本実施形態において、１つの認識・判別ロジックプログラム１０９により学習段階の処理及び推論段階の処理が行われることを説明したが、学習段階における認識・判別ロジック５０２を構築するためのプログラムと、推論段階における認識・判別ロジック５０２を用いた映像解析用のプログラムとが別個に記述されていてもよい。

＜まとめ＞
以上のように、本実施形態に係る映像解析システム１００において、機械学習サーバ１０６は、解析対象のシーンに出現するオブジェクトを認識するための学習モデルと、環境を認識するための学習モデルとを個別に構築し、階層型に認識・判別ロジックを構成する。機械学習サーバ１０６は、学習用データを追加する際には、追加認識用の学習モデル及び認識・判別ロジックを階層型の認識・判別ロジックに追加することで、認識・判別ロジックを拡張する。これにより、特定のオブジェクトの認識において特定の環境によらず認識が可能となり、特定の環境下の映像解析データを異なる環境下でも利用することができる。すなわち、汎用性を持った映像解析が可能となり、異なる環境下で再度データをゼロから収集する必要がない。結果としてデータの収集が容易になり、データ収集及び学習モデル構築のコストを抑えることができる。

［変形例］
本開示は、上述した実施形態に限定されるものでなく、様々な変形例を含んでいる。例えば、上述した実施形態は、本開示を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備える必要はない。また、ある実施形態の一部を他の実施形態の構成に置き換えることができる。また、ある実施形態の構成に他の実施形態の構成を加えることもできる。また、各実施形態の構成の一部について、他の実施形態の構成の一部を追加、削除又は置換することもできる。

１０１…映像入力装置
１０２…映像管理サーバ
１０３…データ管理プログラム
１０４…映像取得ログ
１０５…映像データ記憶部
１０６…機械学習サーバ
１０７…オブジェクト・環境別学習モデル構築プログラム
１０８…オブジェクト・環境別学習モデル更新プログラム
１０９…認識・判別ロジックプログラム
１１０…記憶装置
１１１…学習モデル記憶部
１１２…認識・判別ロジック記憶部
１１３…判別結果表示端末
１１４…判別結果表示プログラム
１１５…ＬＡＮ
１１６…映像データ
２０１…作業現場
２０２…作業従事者
２０３…映像管理企業
２０４…映像管理者

Claims

入力データを取得するデータ入力装置と、
前記入力データを機械学習する機械学習サーバと、
前記機械学習サーバが生成したデータを記憶する記憶装置と、を備え、
前記機械学習サーバは、
前記入力データに含まれるオブジェクト及び環境をそれぞれ認識し、オブジェクト学習モデル及び環境学習モデルを個別に構築する学習モデル構築部と、
前記オブジェクト学習モデルと前記環境学習モデルを用いて前記入力データに特定の事象が含まれるか否かを判別するための認識・判別ロジックを階層的に構築する認識・判別ロジック部と、を有する
ことを特徴とする情報処理システム。
前記機械学習サーバの解析結果を表示する表示端末をさらに備え、
前記認識・判別ロジック部は、
前記データ入力装置が収集した解析対象の入力データを受信し、
前記解析対象の入力データに含まれるオブジェクト及び環境をそれぞれ認識し、
前記オブジェクト学習モデル、前記環境学習モデル及び前記認識・判別ロジックを用いて、前記解析対象の入力データに前記特定の事象が含まれるか否かを判別し、
前記判別の結果を前記表示端末に送信する
ことを特徴とする請求項１に記載の情報処理システム。
前記学習モデル構築部は、
前記データ入力装置から追加学習用の入力データを受信し、
前記追加学習用の入力データに含まれるオブジェクト及び環境をそれぞれ認識し、
前記オブジェクト学習モデル及び前記環境学習モデルを更新し、
前記認識・判別ロジック部は、前記認識・判別ロジックを更新する
ことを特徴とする請求項１又は２に記載の情報処理システム。
前記学習モデル構築部は、
前記追加学習用の入力データから認識した前記オブジェクト及び前記環境が既存の前記オブジェクト学習モデル及び前記環境学習モデルと一致しない場合は、新たなオブジェクト学習モデル及び新たな環境学習モデルを構築し、
前記追加学習用の入力データから認識した前記オブジェクト及び前記環境が既存の前記オブジェクト学習モデル及び前記環境学習モデルと一致する場合は、前記オブジェクト学習モデル及び前記環境学習モデルを更新する
ことを特徴とする請求項３に記載の情報処理システム。
前記学習モデル構築部は、
前記入力データに含まれる複数の前記オブジェクト及び前記環境をそれぞれ認識し、複数の前記オブジェクト学習モデル及び前記環境学習モデルを構築する
ことを特徴とする請求項１～４いずれか１項に記載の情報処理システム。
前記認識・判別ロジック部は、
前記複数の前記オブジェクト学習モデル及び前記環境学習モデル間の関係を求める第１の層と、
前記関係に基づいて、前記特定の事象を検知する第２の層と、を有する
ことを特徴とする請求項５に記載の情報処理システム。
前記認識・判別ロジック部は、
前記第２の層における前記検知の結果を評価する第３の層をさらに有する
ことを特徴とする請求項６に記載の情報処理システム。
入力データを受信し、前記入力データに含まれるオブジェクト及び環境をそれぞれ認識し、オブジェクト学習モデル及び環境学習モデルを構築する学習モデル構築部と、
前記オブジェクト学習モデルと前記環境学習モデルを用いて前記入力データに特定の事象が含まれるか否かを判別するための認識・判別ロジックを階層的に構築する認識・判別ロジック部と、を備える
ことを特徴とする情報処理装置。
情報処理装置のプロセッサにより実行される情報処理方法であって、
入力データを受信するステップと、
前記入力データに含まれるオブジェクト及び環境をそれぞれ認識し、オブジェクト学習モデル及び環境学習モデルを個別に構築するステップと、
前記オブジェクト学習モデルと前記環境学習モデルを用いて前記入力データに特定の事象が含まれるか否かを判別するための認識・判別ロジックを階層的に構築するステップと、を含む
ことを特徴とする情報処理方法。
情報処理装置のプロセッサにより実行される学習モデルの生成方法であって、
入力データを受信するステップと、
前記入力データに含まれるオブジェクトと前記オブジェクトの周辺環境をそれぞれ認識するステップと、
前記認識したオブジェクトを識別するオブジェクト学習モデルを構築するステップと、
前記認識した周辺環境を識別する環境学習モデルを構築するステップと、
を含み、
前記オブジェクト学習モデルは、前記周辺環境に依拠することなく前記オブジェクトを識別するように構成されており、
前記環境学習モデルは、前記オブジェクトに依拠することなく前記周辺環境を識別するように構成されている
ことを特徴とする学習モデルの生成方法。