JP7403340B2

JP7403340B2 - 物体認識モデルの流用可否を判定するシステム。

Info

Publication number: JP7403340B2
Application number: JP2020024476A
Authority: JP
Inventors: 亮坂井; 宣隆木村
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-02-17
Filing date: 2020-02-17
Publication date: 2023-12-22
Anticipated expiration: 2040-02-17
Also published as: US11620479B2; US20210256317A1; JP2021128695A; CN113269807A; CN113269807B

Description

本発明は、物体認識モデルの流用可否を判定するシステム、に関する。

機械学習を利用した物体認識技術は、例えば、物流現場におけるロボットアームによる商品仕分けのように、様々な分野で利用されている。物体認識モデルは、物体とその姿勢を表現する特徴量を学習し、シーン画像内のエリアから得られた特徴量からその物体の位置と姿勢を推定する。

物体認識モデルの効率的な学習の一つの方法は、シミュレーションを利用する。シミュレーションにより適切に学習するためには、物体の正しい３Ｄモデルが必要となる。３Ｄモデルを効率的に生成する手法は、例えば、特許文献１（特開平８－２３３５５６号公報）に開示されている。

この公報には、「撮像手段１と、撮像手段１により撮像された所定視点位置からの被写体画像が記憶される第１の画像記憶手段３と、撮像された被写体画像に最も近い視点位置からの対象物画像を標準３次元形状モデルを基に生成する３次元形状モデル記憶手段２と、この生成された対象物画像が記憶される第２の画像記憶手段４と、各画像記憶手段に記憶された被写体画像と対象物画像との差異を抽出する差異抽出手段５と、抽出された差異を基に標準３次元形状モデルを修整する形状モデル修整手段とを有する。被写体の代表的な形状モデルである標準３次元形状モデルを被写体画像と対象物画像との差異を基に修整
することにより、被写体の形状モデルを復元する。」と記載されている（要約参照）。

特開平８－２３３５５６号公報

新規物体の認識モデルは、他の物体の学習済み認識モデルの転移学習により、少ない学習用データと学習処理により、効率的に生成することができる。しかし、転移学習により新規物体の認識モデルを再構成するためには、適切な学習済み認識モデルを選択することが重要である。

また、シミュレーションにより物体認識モデルの学習を行う場合、特許文献１に記載の技術のように、既存物体モデルを修正することで、新規物体モデルを効率的に生成できる。しかし、既存物体モデルから新規物体モデルを正確かつ効率的に生成するためには、認識モデルによる認識の観点から、新規物体に類似する既存物体のモデルを選択し、それらの間の差異の情報を既存物体モデルに適切に反映することが重要である。

上記課題を解決するため、本発明の一態様は以下の構成を採用する。
システムは、１以上のプロセッサと、１以上の記憶装置と、を含む。前記１以上の記憶装置は、対象物体を含む画像時系列と、前記対象物体と異なる１以上の物体について学習済みの物体認識モデルと、を格納する。前記１以上のプロセッサは、前記物体認識モデルによる前記画像時系列における前記対象物体の認識結果から、前記対象物体の動きの軌跡を取得し、前記対象物体の動きの軌跡に基づき、前記物体認識モデルの前記対象物体への流用可否を判定する。

本発明の一態様によれば、対象物体に対する他の物体の学習済み認識モデルの流用の可否を判定できる。上記した以外の課題、構成、及び効果は、以下の実施形態の説明により明らかにされる。

一実施例にかかるシステムの動作の概要を示す。一実施例にかかるシステムに含まれる計算機のハードウェア構成例を示すブロック図である。一実施例にかかるシステムの機能構成例を示すブロック図である。図３に示す一実施例のシステムの動作の概要のフローチャートを示す。流用可否判定部２０３による判定方法の例のフローチャートを示す。認識モデルによる認識位置の軌跡の例を示す。認識モデルによる認識姿勢（ベクトルの座標）の軌跡の例を示す。流用可否判定部２０３による判定方法の他の例のフローチャートを示す。３Ｄモデル修正処理の例を示す説明図である。

以下、本発明の実施例を図面に基づいて詳細に説明する。以下の説明において、同一の構成には原則として同一の符号を付け、繰り返しの説明は省略する。なお、以下に説明する実施例は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。

図１は、一実施例にかかるシステムの動作の概要を示す。システムは、対象物体Ａの認識モデル（人工知能（ＡＩ）モデル）を、他の物体Ｘの学習済み認識モデルを流用して、または、未学習の認識モデルを対象物体Ａについて訓練して、生成する。システムは、学習済み認識モデルをそのまま流用する（生成に含む）、または、学習済み認識モデルの転移学習により、対象物体Ａの認識モデルを生成する。認識モデルは、様々な分野で利用可能であり、例えば、物流現場におけるロボットによる商品仕分けに適用できる。

システムは、他の物体Ｘの学習済み認識モデルを、対象物体のために流用できるか判定する。システムは、対象物体Ａの画像時系列を、他の既存物体Ｘの学習済み物体認識モデルに入力して、画像時系列における対象物体Ａの動きの軌跡を取得する。この軌跡は、撮像したセンサから見た対象物体Ａの相対的な動きの軌跡である。システムは、物体Ａの動きの軌跡に基づき、当該学習済み物体認識モデルが対象物体Ａの認識への流用可否を判定する。

このように、対象物体の画像時系列における動きの軌跡を参照することで、対象物体の画像時系列から他の物体の学習済み認識モデルの流用の可否を適切に判定できる。対象物体の画像時系列において、対象物体の動き任意の軌跡をとることができる。そのため、判定対象の画像時系列を容易に取得することができる。

図１に示すように、例えば、ユーザは、センサであるカメラ１２を手１１で持って、カメラ１２を動かしながら、様々な角度から対象物体Ａ２０を撮像する。これにより、対象物体Ａ２０の画像時系列１１０が取得できる。このように、本システムにおいては、対象物体の画像時系列を容易に取得できる。なお、画像時系列の取得のため、複数の固定センサ、ロボットアーム、ターンテーブルなどの機構を利用してもよい。

画像時系列１１０は、所定フレームレートのフレーム画像１１１で構成される。画像時系列１１０において、対象物体Ａ２０の位置及び姿勢（向き）が連続的に変化する。なお、画像を生成するセンサはカメラに限定されず、物体認識モデルが利用される運用環境で使用される任意のセンサを使用できる。

画像時系列１１０は、既存物体Ｘ用学習済み認識モデル１２０に入力される。認識モデル１２０は、入力された物体Ｘの１枚の画像において、物体Ｘの位置Ｐ及び姿勢Θを推定する。本例において、認識モデル１２０は、物体Ｘのみ識別し、その位置及び姿勢を推定できるように訓練されている。他の例において、認識モデルは、複数の物体の識別並びにそれらの位置及び姿勢の推定を行ってもよい。

システムは、学習済み認識モデル１２０による、画像時系列１１０における対象物体Ａの認識結果から、その位置の軌跡及び姿勢の軌跡を取得する。位置の軌跡、姿勢の軌跡及びそれらの組み合わせは、物体の動きの軌跡である。システムは、位置の軌跡及び姿勢の軌跡に基づき、学習済み認識モデル１２０を対象物体Ａ２０の認識のために流用できるか判定する（Ｓ１０）。学習済み認識モデル１２０の流用により、対象物体Ａ２０の認識モデルを効率的に生成できる。

後述するように、例えば、システムは、動きの軌跡自体の内的な整合性の程度に応じて、学習済み認識モデル１２０の流用の可否を判定する。画像時系列において、動きの軌跡は、急激な変化や不規則な変化を示すことなく、連続性（整合性）を示すことが想定される。認識結果の動きの軌跡が、想定される連続性に対して多くの矛盾を示すほど、動きの整合性は低い。または、システムは、基準となる動きの軌跡に対する、認識結果の動きの軌跡の整合性の程度に応じて、学習済み認識モデル１２０の流用の可否を判定してもよい。基準となる動きの軌跡との差異が大きいほど、認識結果の動きの軌跡の整合性は低い。

図１の例において、システムは、学習済み認識モデル１２０の流用が不可と判定すると、対象物体Ａ２０の詳細計測及び新規学習を実行する（Ｓ１３）。詳細計測は、例えば、３次元（３Ｄ）レーザ距離センサにより、対象物体Ａ２０の３Ｄモデルを生成する。３Ｄモデルは、頂点とメッシュ（面）とを用いて物体の形状を示すことができる。システムは、その３Ｄモデルによるシミュレーションにより学習データを生成して、新規学習により物体認識モデルを生成する。

学習済み認識モデル１２０の流用が可能であり、動きの軌跡の整合性が閾値を超える場合、システムは、学習済み認識モデル１２０を、対象物体Ａ２０の認識のために、そのまま利用する（Ｓ１７）。

学習済み認識モデル１２０の流用が可能であり、動きの軌跡の整合性が閾値以下である場合、システムは、学習済み認識モデル１２０の転移学習を行う（Ｓ１５）。システムは、転移学習のため、対象物体Ａ２０の物体モデルを、既存物体Ｘの物体モデルを修正することにより生成する。これにより、効率的に対象物体Ａ２０の物体モデルを生成できる。既存物体モデルの修正方法は後述する。物体モデルは、物体の形状のデータを含み、色情報を伴うこともある。

以下において、本実施例のシステム構成及び動作をより具体的に説明する。図２は、一実施例にかかるシステムに含まれる計算機１５０のハードウェア構成例を示すブロック図である。図１を参照して説明した処理は、１又はネットワークを介して接続された複数の計算機により実行することができる。

計算機１５０は、例えば、プロセッサ１５１、メモリ１５２、補助記憶装置１５３、入力装置１５４、出力装置１５５、及び通信ＩＦ（Ｉｎｔｅｒｆａｃｅ）１５６を有し、これらがバス等の内部通信線１５７によって接続された計算機によって構成される。

プロセッサ１５１は、メモリ１５２に格納されたプログラムを実行する。メモリ１５２は、記憶装置であって、不揮発性の記憶素子であるＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）及び揮発性の記憶素子であるＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）を含む。ＲＯＭは、不変のプログラム（例えば、ＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔ／ＯｕｔｐｕｔＳｙｓｔｅｍ））などを格納する。ＲＡＭは、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）のような高速かつ揮発性の記憶素子であり、プロセッサ１５１が実行するプログラム及びプログラムの実行時に使用されるデータを一時的に格納する。

補助記憶装置１５３は、例えば、磁気記憶装置（ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ））、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ））等の大容量の不揮発性の記憶装置であり、プロセッサ１５１が実行するプログラム及びプログラムの実行時に使用されるデータを格納する。すなわち、プログラムは、補助記憶装置１５３から読み出されて、メモリ１５２にロードされて、プロセッサ１５１によって実行される。

入力装置１５４は、キーボードやマウスなどの、ユーザからの入力を受ける装置である。出力装置１５５は、ディスプレイ装置やプリンタなどの、プログラムの実行結果をオペレータが視認可能な形式で出力する装置である。通信ＩＦ１５６は、所定のプロトコルに従って、他の装置との通信を制御するネットワークインターフェース装置である。

プロセッサ１５１が実行するプログラムは、リムーバブルメディア（ＣＤ－ＲＯＭ、フラッシュメモリなど）又はネットワークを介して計算機１５０に提供され、非一過性記憶媒体を含む補助記憶装置１５３に格納される。このため、計算機１５０は、リムーバブルメディアからデータを読み込むインターフェースを有するとよい。

実施例にかかるシステムは、１以上のプロセッサ及び１以上の記憶装置を含む、物理的な一つの計算機又は論理的又は物理的に構成された複数の計算機を含むことができる。同一の計算機上で別個のスレッドが動作してもよく、複数の物理的計算機資源上に構築された仮想計算機が動作してもよい。

プロセッサ１５１は、メモリ１５２にロードされたプログラムに従って動作することで、後述するシステム内の様々な機能部として動作することができる。なお、プロセッサ１５１に含まれる機能部による機能の一部又は全部が、例えば、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）やＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等のハードウェアによって実現されてもよい。

補助記憶装置１５３は、例えば、前述した画像データ１３１及びモデルデータ１３２を保持する。なお、補助記憶装置１５３に格納されている一部又は全部の情報は、メモリ１５２に格納されていてもよいし、計算機１５０に接続されている外部のデータベース等に格納されていてもよい。

なお、本実施形態において、計算機１５０が使用する情報は、データ構造に依存せずどのようなデータ構造で表現されていてもよい。本実施形態ではテーブル形式で情報が表現されているが、例えば、リスト、データベース又はキューから適切に選択したデータ構造体が、情報を格納することができる。

図３は、一実施例にかかるシステムの機能構成例を示すブロック図である。以下においては、立体的な物体の認識モデルが説明される。認識対象は、物体の３次元形状に限らず、２次元形状や模様等でもよく、模様を伴った形状であってもよい。

システムは、簡易計測部２０１、認識処理部２０２、流用可否判定部２０３、軌跡算出部２０４、詳細計測部２０６、３Ｄモデル修正部２０７、シーン生成シミュレータ２０８、及び認識処理学習部２０９を含む。これらは、プログラム又はプログラムを実行するプロセッサ１５１を表す。システムは、さらに、物体認識モデルデータベース２２１及び物体３Ｄモデルデータベース２２２を含む。

これら機能部及びデータベースは、一つの計算機又は複数の計算機に分散して実装されてよい。例えば、データベース２２１及び２２２は、一つの計算機の補助記憶装置１５３または複数の計算機の補助記憶装置１５３に分散して格納されてよい。データベースと機部とが異なる計算機に実装されてもよい。

簡易計測部２０１は、図３において不図示のセンサによって対象物体Ａを撮像し（図１参照）、その画像時系列２３１を取得する。認識処理部２０２は、物体認識モデルデータベース２２１からの既存物体Ｘの学習済み認識モデル２３２を使用して、画像時系列２３１における対象物体Ａの動きの軌跡２３３を取得する。物体認識モデルデータベース２２１は、様々な物体の学習済み認識モデルを格納している。

流用可否判定部２０３は、既存物体の学習済み認識モデル２３２を対象物体Ａの認識のために流用できるか判定する。軌跡算出部２０４は、画像時系列２３１から、対象物体Ａの動きの軌跡を算出して、その結果２３４を出力する。詳細計測部２０６は、例えば、不図示の３Ｄレーザ距離センサにより対象物体Ａを計測して、対象物体Ａの３Ｄモデル２３７を生成する。

３Ｄモデル修正部２０７は、物体３Ｄモデルデータベース２２２から取り出した（コピーした）既存物体Ｘの３Ｄモデル（物体モデル）を修正して、対象物体Ａの３Ｄモデル２３７を生成する。物体３Ｄモデルデータベース２２２は、様々な物体の３Ｄモデルを格納している。その登録物体は、物体認識モデルデータベース２２１と同様である。３Ｄモデル修正部２０７は、流用可否判定部２０３から取得した修正姿勢の情報２３５に基づいて、既存物体Ｘの３Ｄモデルを修正する。修正姿勢の情報は、既存物体Ｘの３Ｄモデルにおいて修正すべき姿勢（向き）及びその姿勢の対象物体Ａ２０の画像を含む。

シーン生成シミュレータ２０８は、対象物体Ａの３Ｄモデル２３７及び物体３Ｄモデルデータベース２２２に格納された他の物体の３Ｄモデルを使用して、シミュレーションを実行し、対象物体Ａの認識の学習データ２３８を生成する。認識処理学習部２０９は、対象物体Ａの認識の学習データ２３８によって、既存物体Ｘの学習済み認識モデル２３２の学習（訓練）を行い、対象物体Ａの認識モデル２３９を生成する。

図４は、図３に示す一実施例のシステムの動作の概要のフローチャートを示す。ステップＳ１０１において、簡易計測部２０１は、センサによって対象物体Ａを撮像し、その画像時系列２３１を取得する。画像時系列２３１は、例えば、メモリ１５２に格納される。

ステップＳ１０３において、認識処理部２０２は、物体認識モデルデータベース２２１から、既存物体Ｘの学習済み認識モデル２３２を取得する。選択する学習済み認識モデルは、例えば、基準モデルとしてシステム内に設定されている、又は、ユーザに指定されてもよい。既存物体Ｘが対象物体Ａに類似している場合、より効率的に対象物体Ａの認識モデルを生成できる可能性が高くなる。

ステップＳ１０５において、認識処理部２０２は、画像時系列２３１の画像を順次学習済み認識モデル２３２に入力し、学習済み認識モデル２３２よる画像時系列２３１の画像それぞれの対象物体Ａの認識結果を取得する。学習済み認識モデル２３２の入力画像における認識結果は、対象物体Ａの位置及び／又は姿勢を示す。

ステップＳ１０７において、認識処理部２０２は、学習済み認識モデル２３２よる画像時系列２３１における対象物体Ａの認識結果から、対象物体Ａの動きの軌跡（位置及び／又は姿勢の軌跡）を生成する。

ステップＳ１０９において、流用可否判定部２０３は、生成した動きの軌跡に基づき、学習済み認識モデル２３２を対象物体Ａの認識のために流用可能であるか判定する。後述するように、例えば、流用可否判定部２０３は、学習済み認識モデル２３２を使用することなく算出された動きの軌跡を参照することなく、学習済み認識モデル２３２の認識結果の動きの軌跡の内的な整合性（連続性）に基づき、学習済み認識モデル２３２の流用の可否を判定してもよい。

他の例において、流用可否判定部２０３は、軌跡算出部２０４により画像時系列２３１から算出された対象物体Ａの動きの軌跡を参照してもよい。流用可否判定部２０３は、算出された動きの軌跡と、学習済み認識モデル２３２の認識結果の動きの軌跡との比較結果に基づき、学習済み認識モデル２３２の流用の可否を判定する。

ステップＳ１０９において、学習済み認識モデル２３２が再学習なくそのまま流用可能であると判定された場合、流用可否判定部２０３は、既存物体Ｘの学習済み認識モデル２３２（のコピー）を、対象物体Ａのための認識モデルとして、物体認識モデルデータベース２２１に登録する。

ステップＳ１０９において、学習済み認識モデル２３２が流用可能であるが学習済みモデル２３２の転移学習が必要であると判定された場合、ステップＳ１１１において、３Ｄモデル修正部２０７は、既存物体Ｘの３Ｄモデル２３６を修正して対象物体Ａの３Ｄモデル２３７を生成する。３Ｄモデル修正部２０７は、物体３Ｄモデルデータベース２２２から、既存物体Ｘの３Ｄモデル２３６を取得する。

３Ｄモデル修正部２０７は、さらに、流用可否判定部２０３から、修正姿勢の情報２３５を取得する。修正姿勢の情報２３５は、既存物体Ｘの３Ｄモデル２３６において対象物体Ａの３Ｄモデルのために修正すべき姿勢（向き）、及び、画像時系列２３１におけるその向きの画像を含む。３Ｄモデル修正部２０７は、この修正姿勢の情報２３５に基づいて、既存物体Ｘの３Ｄモデル２３６（のコピー）を修正する。ステップＳ１１５において、３Ｄモデル修正部２０７は、修正の結果として生成された対象物体Ａの３Ｄモデル２３７を、物体３Ｄモデルデータベース２２２に登録する。

ステップＳ１０９において学習済み認識モデル２３２が流用不可と判定された場合、ステップＳ１１３において、詳細計測部２０６は、例えば３Ｄレーザ距離センサを使用して、対象物体Ａの詳細計測を行い、その３Ｄモデル２３７を生成する。ステップＳ１１５において、詳細計測部２０６は、生成した対象物体Ａの３Ｄモデル２３７を、物体３Ｄモデルデータベース２２２に登録する。

ステップＳ１１７において、シーン生成シミュレータ２０８は、シミュレーションにより対象物体Ａのための学習データを生成する。例えば、シーン生成シミュレータ２０８は、物理シミュレーションを行い、実際の運用において認識モデルが利用される態様に応じた学習データを生成する。例えば、認識モデルがバラ積み部品ピッキングロボットにおいて利用されるとする。シーン生成シミュレータ２０８は、対象物体Ａを含む１又は複数の物体の３Ｄモデルを使用して、容器内に様々な態様でそれら物体が配置された画像とそれらの正解の認識結果との組み合わせを生成する。

ステップＳ１０９において、学習済み認識モデル２３２が流用可能であるが学習済み認識モデル２３２の転移学習が必要であると判定された場合、ステップＳ１１９において、認識処理学習部２０９は、既存物体Ｘの学習済み認識モデル２３２の転移学習を実行する。これにより、対象物体Ａの認識モデル２３９が生成される。ステップＳ１２３において、認識処理学習部２０９は、認識モデル２３９を、物体認識モデルデータベース２２１に登録する。認識処理学習部２０９は、対象物体Ａの学習データにより、学習済み認識モデル２３２を訓練する。このとき、修正姿勢の情報２３５が示す姿勢について重点的に学習してもよい。

ステップＳ１０９において学習済み認識モデル２３２が流用不可と判定された場合、ステップＳ１２１において、認識処理学習部２０９は、（未学習の）新規認識モデルを、対象物体Ａの学習データにより訓練する。これにより、対象物体Ａの認識モデル２３９が生成される。ステップＳ１２３において、認識処理学習部２０９は、認識モデル２３９を、物体認識モデルデータベース２２１に登録する。

図４の処理は、一つの物体の学習済み認識モデルの流用の可否を判定する（Ｓ１０９）。システムは、複数の物体の学習済み認識モデルについて上記流用可否の判定を行い、流用可能な認識モデルを探してもよい。システムは、例えば、再学習することなく流用可能な認識モデル、又は、対象物体の動きの軌跡の認識結果の整合性が最も高い認識モデルを選択してもよい。

図５は、流用可否判定部２０３による判定方法の例のフローチャートを示す。図５に示す例において、認識モデルは、物体の位置及び姿勢を認識（推定）する。そのため、流用可否判定部２０３は、画像時系列における対象物体Ａの位置の軌跡及び姿勢の軌跡を参照する。位置及び姿勢は、それぞれ、３次元座標で表される。また、流用可否判定部２０３は、それらの軌跡自体の形状に基づき（軌跡の他の計算結果を参照することなく）、学習済み認識モデルの流用可否を判定する。これにより、参照基準となる計算が不要であり、効率的に流用可否を判定できる。

図５を参照して、ステップＳ１５１において、認識処理部２０２は、画像時系列２３１の画像を順次学習済み認識モデル２３２に入力し、学習済み認識モデル２３２よる画像時系列２３１の画像それぞれの対象物体Ａの認識結果を取得する。本例において、学習済み認識モデル２３２の入力画像における認識結果は、対象物体Ａの位置及び姿勢を示す。

ステップＳ１５３において、認識処理部２０２は、学習済み認識モデル２３２よる画像時系列２３１における対象物体Ａの認識結果から、対象物体Ａの位置の軌跡及び姿勢の軌跡を生成する。

ステップＳ１５５において、流用可否判定部２０３は、位置の軌跡及び姿勢の軌跡が、それぞれ、軌跡内の時系列整合性についての流用条件（第１条件）を満たすか判定する。例えば、位置の軌跡の時系列整合性は軌跡の速度に基づき、また、姿勢の軌跡の時系列整合性は軌跡の角速度（角度の速度）に基づき判定できる。位置の軌跡の速度は、連続する画像の物体の位置座標の間の距離及び画像のレート（撮像時間間隔）から算出される。姿勢の軌跡の速度は、連続する画像の物体の姿勢座標間の距離及び画像のレート（撮像時間間隔）から算出される。

図６は、認識モデルによる認識位置の軌跡の例を示す。図６は画像内の矢印によって認識（推定）された位置の軌跡を示す。画像３０１おける対象物体の位置の軌跡３０５は、連続性のある規則的な形状を有しており、隣接する他の位置（点）から大きくずれた異常位置（点）は存在していない。一方、画像３０２における位置の軌跡３０６は、隣接する他の位置から大きくずれた異常位置（点）３０７を含む。異常位置は、誤認識された位置であると推定できる。位置の軌跡３０５は、時系列のより高い軌跡内の整合性を有し、位置の軌跡３０６は、時系列のより低い軌跡内の整合性を有している。

図７は、認識モデルによる認識姿勢（ベクトルの座標）の軌跡の例を示す。図７は、画像時系列を用いて認識（推定）された姿勢の軌跡を示す。画像時系列３５１が示す対象物体の姿勢の軌跡は、連続性のある規則的な形状を有しており、隣接する他の姿勢から大きくずれた異常姿勢は存在していない。一方、画像時系列３５２が示す姿勢の軌跡は、隣接する他の姿勢から大きくずれた異常姿勢３５３を含む。異常姿勢は、誤認識された姿勢であると推定できる。画像時系列３５１が示す姿勢の軌跡は、時系列のより高い（内的な）整合性を有し、画像時系列３５２が示す姿勢の軌跡は、時系列のより低い（内的な）整合性を有している。

対象物体の撮像におけるセンサの軌跡の可能性の範囲（整合性のある軌跡）は、センサの移動方法（例えば、ユーザの手による移動）に応じて、想定することができる。例えば、センサの速さ（位置変化の速度又は姿勢変化の速度）の最大値を想定することが可能である。速さの最大値は、速度の向きに応じて変化し得る。センサの可能な速度の想定範囲に基づき設定された条件を有してもよい。

流用可否判定部２０３は、設定された条件に基づき、認識モデルの流用の可否、及び、転移学習による再構成又は再学習無しの流用を判定できる。再学習無しの流用の条件は、認識モデルの流用の条件（要求整合性）より厳しいものとなる。

システムは、例えば、位置の軌跡及び姿勢の軌跡それぞれの速度についての設定された条件を有してもよい。流用可否判定部２０３は、位置の軌跡及び姿勢の軌跡それぞれにおいて、上記条件に応じて、異常位置及び異常姿勢を特定する。流用可否判定部２０３は、例えば、異常位置及び異常姿勢の数に基づき、整合性レベルを決定することができる。

整合性レベルに応じて、認識モデルの流用性の可否及び転移学習の適用の可否を判定できる。例えば、流用可否判定部２０３は、位置の軌跡及び姿勢の軌跡の異常点の数（又は割合）の最大値と流用可否判定の所定の閾値とを比較して、異常点の数（又は割合）がその閾値より少ない場合に、認識モデルを流用すると判定する。さらに、異常点の数（又は割合）が上記閾値より小さい所定の第２閾値よりもさらに小さい場合に、流用可否判定部２０３は、再学習（転移学習）なく認識モデルをそのまま流用すると判定する。

図５に戻って、ステップＳ１５５において、位置の軌跡及び姿勢の軌跡の少なくとも一方が軌跡内の時系列整合性についての流用条件を満たしてない場合（Ｓ１５５：ＮＯ）、流用可否判定部２０３は、ステップＳ１５７に進む。流用可否判定部２０３は、学習済み認識モデルを対象物体Ａの認識に流用する条件が満たされていないと判定する。これにより、誤認識画像をより確実に抽出できる。

ステップＳ１５５において、位置の軌跡及び姿勢の軌跡のそれぞれが軌跡内の時系列整合性についての流用条件を満たしている場合（Ｓ１５５：ＹＥＳ）、流用可否判定部２０３は、ステップＳ１５９に進む。ステップＳ１５９において、流用可否判定部２０３は、位置の軌跡及び姿勢の軌跡が、それぞれ、軌跡内の時系列整合性について無学習流用条件（第２条件）を満たすか判定する。無学習流用条件は、ステップＳ１５５における流用条件より厳しい条件である。

位置の軌跡及び姿勢の軌跡のそれぞれが無学習流用条件を満たす場合（Ｓ１５９：ＹＥＳ）、ステップＳ１６１において、流用可否判定部２０３は、学習済み認識モデルの無学習による流用を行うと判定する。位置の軌跡及び姿勢の軌跡の少なくとも一方が、無学習流用条件を満たさない場合（Ｓ１５９：ＮＯ）、ステップＳ１６３において、流用可否判定部２０３は、学習済み認識モデルの転移学習を実行すると判定する。

さらに、ステップＳ１６５において、流用可否判定部２０３は、既存物体Ｘの３Ｄモデルの修正姿勢を示す情報を生成する。流用可否判定部２０３は、異常位置又は異常姿勢を示す画像を特定し、その画像における対象物体Ａの姿勢を推定する。流用可否判定部２０３は、異常位置又は異常姿勢を示す画像（誤認識された画像）の隣接画像における認識姿勢から推定（例えば中間値）できる。流用可否判定部２０３は、異常画像と推定姿勢の値とを含む情報を出力する。

既存物体Ｘの３Ｄモデルの修正姿勢を示す情報は、異常画像が、位置の軌跡又は姿勢の軌跡のいずれにおいて異常と認識されたか（誤認識されたか）を示してもよい。学習済み認識モデル２３２が、例えば、物体の位置を推定するモジュールと、物体の姿勢を推定するモジュールを含む場合、認識処理学習部２０９は、位置の軌跡及び姿勢の軌跡それぞれの判定結果に応じて、いずれか一方のみ又は双方の訓練（学習）を実行してもよい。これにより、認識モデルの学習を効率化できる。

図８は、流用可否判定部２０３による判定方法の他の例のフローチャートを示す。図８に示す例において、流用可否判定部２０３は、認識モデルと異なる方法により取得された画像時系列における画像の動きの軌跡を参照して、他物体の学習済み認識モデルの流用の可否を判定する。これにより、より正確な判定が可能となる。

認識モデルと異なる方法による動きの軌跡の算出方法は特に限定されないが、２次元データである画像の時系列から３次元形状を復元する技術を利用できる。例えば、ＶｉｓｕａｌＳＬＡＭ（ＳｉｍｕｌｔａｎｅｏｕｓＬｏｃａｌｉｚａｔｉｏｎａｎｄＭａｐｐｉｎｇ）又はＳｆＭ（ＳｔｒｕｃｔｕｒｅｆｒｏｍＭｏｔｉｏｎ）を利用することができる。これにより、後述するような基準物体を画像含める必要がない。

図８のフローチャートにおいて、ステップＳ１５１及びＳ１５２は、図５に示すフローチャートと同様である。ステップＳ１７１において、流用可否判定部２０３は、軌跡算出部２０４から、対象物体Ａの位置の軌跡及び姿勢の軌跡の算出結果を取得する。

ステップＳ１７３において、流用可否判定部２０３は、算出された位置の軌跡及び姿勢の軌跡と、学習済み認識モデルにより認識（推定）された位置の軌跡及び姿勢の軌跡とを比較する。位置の軌跡及び姿勢の軌跡が、それぞれ、算出された位置の軌跡及び姿勢の軌跡との整合性について流用条件を満たすかを判定する。

例えば、流用可否判定部２０３は、算出された軌跡と認識された軌跡との位置合わせを行った後、各点の距離を算出する。当該距離が所定の閾値を超える場合、流用可否判定部２０３は、当該点に該当する画像の認識は誤っていると判定する。流用可否判定部２０３は、例えば、誤認識位置及び姿勢それぞれの数又は割合に基づいて、位置の軌跡及び姿勢の軌跡それぞれの流用可否を判定することができる。この点は、図５のフローチャートと同様である。例えば、誤認識の位置及び姿勢の数又は割合が、それぞれ、所定の閾値より小さいことが流用可能の条件であってよい。

ステップＳ１７３において、位置の軌跡及び姿勢の軌跡の少なくとも一方が軌跡内の時系列整合性についての流用条件を満たしてない場合（Ｓ１７３：ＮＯ）、流用可否判定部２０３は、ステップＳ１７５に進む。流用可否判定部２０３は、学習済み認識モデルを対象物体Ａの認識に流用する条件が満たされていないと判定する。

ステップＳ１７３において、位置の軌跡及び姿勢の軌跡のそれぞれが算出した位置の軌跡及び姿勢の軌跡との整合性についての流用条件を満たしている場合（Ｓ１７３：ＹＥＳ）、流用可否判定部２０３は、ステップＳ１７７に進む。ステップＳ１７７において、流用可否判定部２０３は、位置の軌跡及び姿勢の軌跡が、それぞれ、算出した位置の軌跡及び姿勢の軌跡それぞれとの整合性について無学習流用条件を満たすか判定する。

判定方法は、図５のフローチャートにおけるステップＳ１５９と同様である。無学習流用条件は、ステップＳ１７３における流用条件より厳しい条件である。例えば、誤認識の画像の数が、ステップＳ１７３の閾値より小さい閾値と比較される。

位置の軌跡及び姿勢の軌跡のそれぞれが無学習流用条件を満たす場合（Ｓ１７７：ＹＥＳ）、ステップＳ１７９において、流用可否判定部２０３は、学習済み認識モデルの無学習による流用を行うと判定する。位置の軌跡及び姿勢の軌跡の少なくとも一方が、無学習流用条件を満たさない場合（Ｓ１７７：ＮＯ）、ステップＳ１８１において、流用可否判定部２０３は、学習済み認識モデルの転移学習を実行すると判定する。

さらに、ステップＳ１８３において、流用可否判定部２０３は、既存物体Ｘの３Ｄモデルの修正姿勢を示す情報を生成する。このステップは、図５におけるステップＳ１６５と同様である。

流用可否判定部２０３は、認識モデルによる対象物体の動きの軌跡自体の条件（内的な整合性の条件）と、算出した参照軌跡と認識モデルによる認識結果の軌跡との比較結果の条件（参照軌跡との整合性の条件）との、双方の条件に基づいて、認識モデルの流量の可否及び再学習の有無の判定を実行してもよい。これにより、より正確な流用判定が可能となる。例えば、認識モデルによる動きの軌跡が、双方の流用条件を満たす場合に、流用可能と判定し、少なくとも一方が流用条件を満たさない場合に流用不可と判定する。無学習流用の判定に対しても同様である。

上記例は、画像時系列における対象物体の動きの軌跡を認識モデルと異なる方法で算出する。他の例は、画像時系列の各画像に、対象物体と異なる基準物体を含め、画像時系列における当該基準物体の動きの軌跡から、認識モデルによる認識結果の動きの軌跡の比較対象（参照軌跡）を生成してもよい。

基準物体は例えば二次元コードである。各画像は、対象物体と共に、１又は複数の二次元コードを含む。各二次元コードの位置及びパターン（形状）は予め知られており、軌跡算出部２０４は、画像系列における二次元コードの画像から、センサの動き、つまり、対象物体のセンサに対する相対的な動きを算出することができる。これにより、効率的な演算で参照軌跡を生成できる。

以下において、３Ｄモデルの修正方法を説明する。本例において、３Ｄモデル修正部２０７は、既存物体Ｘの学習済み認識モデルにより御認識された対象物体Ａの画像を使用して、既存物体Ｘの３Ｄモデルを修正する。これにより、効率的に対象物体Ａの３Ｄモデルを生成することができる。

図９は、３Ｄモデル修正処理の例を示す説明図である。以下、対象物体の画像がＲＧＢである例を説明する。図９の例において、３Ｄモデル修正部２０７は、対象物体の姿勢θ１の画像に基づいて、３Ｄモデルを修正する。対象物体の画像の局所領域７１と３Ｄモデルの局所領域７２とを比較する。局所領域７１は２面からなるが局所領域７２は１面からなる。従って、３Ｄモデル修正部２０７は、３Ｄモデルの局所領域７２に頂点７３を追加することで面を増やす。３Ｄモデル修正部２０７は追加した頂点７３を移動させることにより、局所領域７２を局所領域７１に類似又は一致させる。

このように図９の例では、３Ｄモデル修正部２０７は、３Ｄモデルにおける異なる領域のメッシュを精緻化することにより、当該異なる領域を類似又は一致する領域へと修正する。なお、３Ｄモデル修正部２０７は、局所領域７２と局所領域７１との差異に応じて、局所領域７２の頂点を削除した上で他の頂点を移動させてもよいし、局所領域７２のある頂点を移動させるだけでもよい。

なおこのように、３Ｄモデル修正部２０７は、３Ｄモデルのメッシュを精緻化する場合、例えば、ニューラルネットを利用して自動的にメッシュの頂点数やトポロジーを変更することで、メッシュを生成することができる。

また、対象物体の画像がＲＧＢ－Ｄｅｐｔｈ画像である場合、３Ｄモデル修正部２０７は、３Ｄモデルのメッシュを精緻化する場合、例えば、ニューラルネットを利用して、当該画像から得られる撮像点群をメッシュ化して得られたメッシュを、３Ｄモデルと統合することによって、当該３Ｄモデルを修正する。

また、さらに基準物体の画像もＲＧＢ－Ｄｅｐｔｈ画像であれば、３Ｄモデル修正部２０７は、３Ｄモデルのメッシュを精緻化する場合、例えば、ニューラルネットを利用して当該３Ｄモデルに対応する基準物体の当該姿勢の画像から得られる撮像点群を、対象物体の画像から得られる撮像点群に差し替えることによって、当該３Ｄモデルを修正してもよい。また、物体のモデルが２Ｄモデルである場合、既存物体の２Ｄモデルを修正して、対象物体の２Ｄモデルを作成してもよい。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることも可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記録装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。

１１手
１２カメラ
２０対象物体Ａ
７１局所領域
７２局所領域
７３頂点
１１０画像時系列
１１１フレーム画像
１２０学習済み認識モデル
１３１画像データ
１３２モデルデータ
１５０計算機
１５１プロセッサ
１５２メモリ
１５３補助記憶装置
１５４入力装置
１５５出力装置
１５６通信ＩＦ
１５７内部通信線
２０１簡易計測部
２０２認識処理部
２０３流用可否判定部
２０４軌跡算出部
２０６詳細計測部
２０７３Ｄモデル修正部
２０８シーン生成シミュレータ
２０９認識処理学習部
２２１物体認識モデルデータベース
２２２物体３Ｄモデルデータベース
２３１画像時系列
２３２学習済み認識モデル
２３３軌跡
２３４対象物体の動きの軌跡の算出結果
２３５修正姿勢情報
２３６既存物体Ｘの３Ｄモデル
２３７対象物体Ａの３Ｄモデル
２３８学習データ
２３９対象物体Ａ用認識モデル
３０５、３０６認識された位置の軌跡
３０７異常位置（点）
３５１、３５２認識された姿勢の軌跡を示す画像時系列
３５３異常姿勢

Claims

１以上のプロセッサと、
１以上の記憶装置と、を含み、
前記１以上の記憶装置は、
対象物体を含む画像時系列と、
前記対象物体と異なる１以上の物体について学習済みの物体認識モデルと、を格納し、
前記物体認識モデルは、入力された画像における前記１以上の物体の位置及び姿勢を推定し、
前記１以上のプロセッサは、
前記物体認識モデルによる前記画像時系列における前記対象物体の認識結果から、前記対象物体の位置の軌跡及び姿勢の軌跡を取得し、
前記位置の軌跡の速度に基づく前記位置の軌跡の時系列整合性、及び、前記姿勢の軌跡の角速度に基づく前記姿勢の軌跡の時系列整合性を判定し、
前記位置の軌跡の時系列整合性及び前記姿勢の軌跡の時系列整合性に基づき、前記物体認識モデルの前記対象物体への流用可否を判定する、システム。
１以上のプロセッサと、
１以上の記憶装置と、を含み、
前記１以上の記憶装置は、
対象物体を含む画像時系列と、
前記対象物体と異なる１以上の物体について学習済みの物体認識モデルと、を格納し、
前記物体認識モデルは、入力された画像における前記１以上の物体の位置及び姿勢を推定し、
前記１以上のプロセッサは、
前記物体認識モデルによる前記画像時系列における前記対象物体の認識結果から、前記対象物体の位置の軌跡及び姿勢の軌跡を取得し、
前記画像時系列から、前記物体認識モデルを使用することなく、前記対象物体の位置の軌跡及び姿勢の軌跡を算出し、
算出された前記対象物体の位置の軌跡及び姿勢の軌跡と前記物体認識モデルの認識結果から得られた前記対象物体の位置の軌跡及び姿勢の軌跡との比較結果に基づき、前記物体認識モデルの前記対象物体への流用可否を判定する、システム。
請求項１又は２に記載のシステムであって、
前記１以上のプロセッサは、前記物体認識モデルによる前記対象物体の位置の軌跡及び姿勢の軌跡の少なくとも一方が所定条件から外れる場合に、前記物体認識モデルの前記対象物体への流用不可と判定する、システム。
請求項１又は２に記載のシステムであって、
前記１以上のプロセッサは、
前記物体認識モデルによる前記対象物体の位置の軌跡及び姿勢の軌跡が所定の第１条件を満たしている場合、前記物体認識モデルの前記対象物体への流用を可能と判定し、
前記対象物体の位置の軌跡及び姿勢の軌跡が前記第１条件を満たし、前記第１条件より厳しい所定の第２条件を満たしていない場合に、前記物体認識モデルの学習のために、前記物体認識モデルが学習済みの物体モデルを修正して前記対象物体の物体モデルを生成すると判定し、
前記対象物体の位置の軌跡及び姿勢の軌跡が前記第２条件を満たしている場合に、前記物体認識モデルの学習なく、前記物体認識モデルを前記対象物体の認識に流用すると判定する、システム。
請求項４に記載のシステムであって、
前記１以上のプロセッサは、
前記対象物体の位置の軌跡及び姿勢の軌跡において、所定の第３条件から外れている画像を特定し、
特定された前記画像を使用して前記物体認識モデルが学習済みの物体モデルを修正する、システム。
請求項２に記載のシステムであって、
前記１以上のプロセッサは、前記画像時系列から前記対象物体の３次元形状を復元し、復元した前記３次元形状の動きから、前記物体認識モデルを使用することなく前記対象物体の位置の軌跡及び姿勢の軌跡を算出する、システム。
請求項２に記載のシステムであって、
前記画像時系列に含まれる画像は、前記対象物体の像と共に基準物体の像を含み、
前記１以上のプロセッサは、前記画像時系列における前記基準物体の動きの軌跡に基づいて、前記物体認識モデルを使用することなく前記対象物体の位置の軌跡及び姿勢の軌跡を算出する、システム。
システムが、学習済みの物体認識モデルの対象物体への流用可否を判定する方法であって、
前記物体認識モデルは、入力された画像において前記対象物体と異なる１以上の物体の位置及び姿勢を推定するように学習済みであり、
前記方法は、
前記システムが、前記対象物体を含む画像時系列における前記物体認識モデルによる前記対象物体の認識結果から、前記対象物体の位置の軌跡及び姿勢の軌跡を取得し、
前記システムが、前記位置の軌跡の速度に基づく前記位置の軌跡の時系列整合性、及び、前記姿勢の軌跡の角速度に基づく前記姿勢の軌跡の時系列整合性を判定し、
前記システムが、前記位置の軌跡の時系列整合性及び前記姿勢の軌跡の時系列整合性に基づき、前記物体認識モデルの前記対象物体への流用可否を判定する、方法。
システムが、学習済みの物体認識モデルの対象物体への流用可否を判定する方法であって、
前記物体認識モデルは、入力された画像において前記対象物体と異なる１以上の物体の位置及び姿勢を推定するように学習済みであり、
前記方法は、
前記システムが、前記対象物体を含む画像時系列における前記物体認識モデルによる前記対象物体の認識結果から、前記対象物体の位置の軌跡及び姿勢の軌跡を取得し、
前記システムが、前記画像時系列から、前記物体認識モデルを使用することなく、前記対象物体の位置の軌跡及び姿勢の軌跡を算出し、
前記システムが、算出された前記対象物体の位置の軌跡及び姿勢の軌跡と前記物体認識モデルの認識結果から得られた前記対象物体の位置の軌跡及び姿勢の軌跡との比較結果に基づき、前記物体認識モデルの前記対象物体への流用可否を判定する、方法。