以下の開示は、提供される主題の様々な特徴を実施するための多くの様々な実施形態または例を提供する。以下、本開示を簡略化するために、構成要素、値、動作、材料、配置などの具体例を説明する。当然のことながら、これらは単なる例であり、限定することを意図するものではない。他の構成要素、値、動作、配置なども企図される。加えて、本開示は、様々な例において参照番号および/または文字を繰り返すことがある。この繰り返しは、単純化および明確化の目的での繰り返しであり、それ自体は、論じられている様々な実施形態および/または構成の間の関係を規定するものではない。
さらに、「真下(beneath)」、「下(below)」、「下(lower)」、「上(above)」、「上(upper)」などの空間的に相対的な用語が、図に示すように、1つの要素または特徴の、別の要素(複数可)または特徴(複数可)に対する関係を説明するための説明を容易にするために本明細書で使用されることがある。空間的に相対的な用語は、図面に示す向きに加えて、使用中または動作中のデバイスの様々な向きを包含することが意図されている。装置は、他の方向に向けられてもよく(90度または他の向きに回転されてもよく)、本明細書で使用される空間的に相対的な記述子は、それに応じて同様に解釈されてもよい。
物体検出システムは、監視カメラなどから入力画像を受信し、入力画像を解析して物体を検出し、そして結果を出力する。場合によっては、結果はユーザに出力される。結果は、検出された物体を識別し、検出された物体を追跡して、人物や車両などの検出された物体の移動、または設置されている標識などの検出された物体の状態の変化を判定することを可能にする。物体を正確かつ精密に識別することは、監視領域のセキュリティ、監視領域を移動するための交通予測などを改善するのに役立つ。
物体識別の正確性および精度を改善することは、物体識別においてエラーを識別すること、エラーを修正すること、および修正されたエラーを訓練モデルにフィードバックすることに基づく。訓練モデルは、エラーフィードバックを使用して、将来の解析においてそのようなエラーを低減または排除するようにモデルを更新することができる。
場合によっては、エラー検出はユーザによって実行される。ユーザは、訓練モデルを使用して解析された画像を精査し、次いで、ユーザは、訓練モデルによって実行された解析におけるエラーを識別する。これは時間のかかるプロセスであり、エラーのない画像の解析はモデルの改善の助けにならない。モデルによって処理された画像を解析して、エラーを含む尤度が高い画像を識別することにより、モデルは他の手法よりも速く改善される。すべての画像を精査することを回避することはまた、ユーザの作業負荷を軽減する。
本開示では、ユーザの作業負荷を低減し、受信された画像を解析するために使用されるモデルをより迅速に改善するために、ユーザによる精査のための候補画像を識別するための実施形態が説明される。いくつかの実施形態では、候補画像は、画像が偽陰性を含む尤度に基づいて選択される。つまり、モデルは、解析中、受信された画像内の物体を正確に識別し損なっている。処理画像が偽陰性を含む尤度が高いと判定された場合、処理画像は、モデルの改善を助けるためにユーザに提供される候補画像として識別される。対照的に、処理画像が偽陰性を含む尤度が低いと判定された場合、処理画像は、ユーザの作業負荷を軽減し、モデルの改善に役立つ可能性がより高い処理画像の評価にユーザが集中することを可能にするために、ユーザに提供されない。
図1は、いくつかの実施形態による、画像を解析する方法100のフローチャートである。方法100は、物体が検出される動作110を含む。動作110において、入力画像「X」が受信される。いくつかの実施形態では、入力画像「X」は、監視カメラ、交通カメラ、スマートフォン、または別の適切な画像検出器などの画像検出器から受信される。動作110において、入力画像「X」は、事前に訓練されたモデルを使用して解析される。いくつかの実施形態では、事前に訓練されたモデルは、サンプルデータに基づいて生成される。いくつかの実施形態では、事前に訓練されたモデルは、経験的データに基づいて生成される。いくつかの実施形態では、事前に訓練されたモデルは、サンプルデータおよび経験的データの両方に基づいて生成される。
本説明は、入力画像「X」および処理画像「Y」、ならびにパラメータの名前に「画像」という用語を含む他のパラメータに言及する。「画像」という用語は、当業者が本説明内の様々なパラメータの関係の理解するのを助けるために、明確にするためにその名前で使用される。いくつかの実施形態では、パラメータ内に含まれる情報がデータ列であることが当業者には認識されよう。例えば、いくつかの実施形態では、画像は、本説明内の異なるデバイス間で送信されない。代わりに、いくつかの実施形態では、物体の位置を示すデータ列が使用される。いくつかの実施形態では、データ列は、一連の数字または別の適切なデータ列を含む。
動作110において、事前に訓練されたモデルが、入力画像「X」に適用され、物体が識別される。処理画像「Y」が、動作110から出力される。処理画像「Y」は、検出された物体の識別情報を伴う入力画像「X」を含む。上述のように、いくつかの実施形態では、入力画像「X」は画像として受信される。いくつかの実施形態では、入力画像「X」はデータ列として受信される。いくつかの実施形態では、処理画像「Y」は、変更された画像として受信される。いくつかの実施形態では、処理画像「Y」は、変更されたデータ列として受信される。
動作120において、処理画像「Y」がラベリングされる。いくつかの実施形態では、検出された物体は、物体を囲む外枠、物体の陰影付け、物体に接続されたタグライン、物体に近接して画像に重ね合わされた情報、または別の適切な識別形態を使用してラベリングされる。簡単のために、本開示は、識別された物体のラベリングを示すために物体を囲む外枠を使用する。外枠の使用は、本開示の範囲を限定することを意図するものではない。
動作130において、ラベリングされた画像は、再学習プロセスを実行するために解析される。再学習プロセスは、ラベリングされた画像におけるエラーの識別を含む。いくつかの実施形態では、識別されたエラーは、偽陽性または偽陰性のうちの少なくとも一方を含む。誤ったラベル(またはラベルの欠落)は、ユーザによって修正される。修正された情報は、入力画像「X」内の物体を識別するために使用されるモデルを改善するために、動作110における物体検出にフィードバックされる。いくつかの実施形態では、ラベリングされた画像は画像として送信される。いくつかの実施形態では、ラベリングされた画像はデータ列として送信される。
図2は、いくつかの実施形態による、ラベリングされた画像200の図である。いくつかの実施形態では、ラベリングされた画像200は、データ列に基づいて生成された画像である。ラベリングされた画像200は、検出された物体210を含む。検出された物体210は、外枠220を使用してラベリングされる。外枠220は、検出された物体210を囲む。外枠220は矩形である。いくつかの実施形態では、外枠220の形状は、矩形ではなく、例えば、円形、楕円形、多角形、自由形状、または別の適切な形状である。いくつかの実施形態では、上述のように、外枠220は、異なる種類のラベリングで置き換えられる。
ラベリングされた画像200は、外枠230をさらに含む。外枠230は、ラベリングされた画像200内の空きスペースを囲む。外枠230は偽陽性を示す。つまり、モデルは、外枠230によって囲まれた場所に存在するとして物体を誤って識別した。いくつかの実施形態では、外枠230に関する偽陽性のエラーは、再学習動作、例えば方法100(図1)の動作130の一部として識別される。
ラベリングされた画像200は、未検出物体240をさらに含む。未検出物体は、モデルが未検出物体240を検出し損なったため、外枠によって囲まれていない。未検出物体240は偽陰性である。つまり、モデルは、ラベリングされた画像200内に物体が実際に存在しているにもかかわらず、未検出物体240を検出し損なった。いくつかの実施形態では、未検出物体240に関する偽陰性のエラーは、再学習動作、例えば方法100(図1)の動作130の一部として識別される。
図3は、いくつかの実施形態による、エラー候補を識別するためのシステム300のブロック図である。システム300は、入力画像を受信するように構成された画像受信機310を備える。いくつかの実施形態では、画像受信機310はプロセッサを備える。いくつかの実施形態では、画像受信機310はまた、入力画像を取り込むように構成される。いくつかの実施形態では、画像受信機310は、カメラまたは画像検出器を備える。いくつかの実施形態では、画像受信機310は、プロセッサと、カメラまたは画像検出器とを備える。
画像受信機310によって受信または取り込まれた入力画像は、ラベリング推奨プロセッサ320に送信される。ラベリング推奨プロセッサ320は、入力画像がエラー候補であるか否かを判定するように構成される。エラー候補は、エラーを含む尤度が高い画像である。エラー候補を識別することにより、他の手法と比較して、画像を解析するために使用されるモデルを改善するためのユーザの作業負荷が軽減される。ラベリング推奨プロセッサ320は、プロセッサを備える。いくつかの実施形態では、ラベリング推奨プロセッサ320は、画像受信機310と一体化される。いくつかの実施形態では、ラベリング推奨プロセッサ320は、画像受信機310とは別体にされる。いくつかの実施形態では、入力画像は、無線でラベリング推奨プロセッサ320に送信される。いくつかの実施形態では、入力画像は、有線接続を使用してラベリング推奨プロセッサ320に送信される。
ラベリング推奨プロセッサ320によって識別されたエラー候補は、推奨出力ディスプレイ330に送信される。推奨出力ディスプレイ330は、エラー候補をユーザに表示し、エラー候補が偽陰性または偽陽性などのエラーを実際に含むか否かに関する入力をユーザから受信するように構成される。推奨出力ディスプレイ330は、ディスプレイと、ユーザからの入力を受け付けるインターフェースとを備える。いくつかの実施形態では、推奨出力ディスプレイ330はタッチスクリーンを備える。いくつかの実施形態では、推奨出力ディスプレイ330は、キーボード、マウス、またはユーザ入力を受け付けるための別の適切なインターフェースを備える。いくつかの実施形態では、推奨出力ディスプレイ330のユーザインターフェースは、ユーザインターフェース1200(図12)またはユーザインターフェース1300(図13)と同様である。
ラベリング推奨プロセッサ320は、事前に訓練されたモデルを使用して物体検出を実行するための動作322を実施するように構成される。入力画像「X」は、画像受信機310から受信され、事前に訓練されたモデルは、入力画像「X」内の物体を検出するために使用される。処理画像「Y」は、事前に訓練されたモデルを使用して検出された物体に基づいて生成される。いくつかの実施形態では、事前に訓練されたモデルは、サンプルデータに基づいて生成される。いくつかの実施形態では、事前に訓練されたモデルは、経験的データに基づいて生成される。いくつかの実施形態では、事前に訓練されたモデルは、サンプルデータおよび経験的データの両方に基づいて生成される。いくつかの実施形態では、事前に訓練されたモデルは、システム300を使用した先行する画像解析に基づいて少なくとも1回の更新を経ている。
ラベリング推奨プロセッサ320は、移動領域を検出するための動作324を実施するように構成される。入力画像「X」および処理画像「Y」は、入力画像「X」が物体が移動している領域を含むか否かを判定するために使用される。入力画像「X」が移動領域を含むか否かを判定するために、ラベリング推奨プロセッサ320は探索窓に依拠する。上述のように、いくつかの実施形態では、入力画像「X」は画像として受信される。いくつかの実施形態では、入力画像「X」はデータ列として受信される。いくつかの実施形態では、処理画像「Y」は、変更された画像として受信される。いくつかの実施形態では、処理画像「Y」は、変更されたデータ列として受信される。
図4は、いくつかの実施形態による、複数の探索窓410を含む画像400の図である。探索窓410は、画像400の解析を管理するために解析される、画像400の個々の領域である。探索窓410は、画像400においては可視でない。代わりに、探索窓410は、画像400が移動領域を含むか否かを判定するための解析のための場所および境界を判定するために、ラベリング推奨プロセッサ320などのプロセッサによって使用される。画像400内の探索窓410のすべてが矩形形状を有する。いくつかの実施形態では、少なくとも1つの探索窓410が異なる形状を有する。いくつかの実施形態では、探索窓410のうちの少なくとも1つの形状が、円形、楕円形、多角形、自由形状、または別の適切な形状である。画像400内の探索窓410は、異なるサイズを有する。いくつかの実施形態では、探索窓410のすべてが同じサイズを有する。いくつかの実施形態では、探索窓410のそれぞれのサイズおよび位置が、ユーザなどによって事前に決定される。いくつかの実施形態では、探索窓410のそれぞれのサイズまたは位置が、探索窓410を使用して解析を実行するプロセッサによって決定される。いくつかの実施形態では、探索窓410のサイズおよび場所が、入力画像「X」のサイズおよび入力画像「X」内の検出された物体の数に基づいて決定される。
プロセッサは、連続する入力画像「X」について探索窓410内の画素を解析して、画素の変化が対応する探索窓410の領域内の移動を示すか否かを判定する。いくつかの実施形態では、画素の変化は、輝度、色、コントラスト、または別の適切なパラメータに関連する。例えば、いくつかの実施形態では、連続する入力画像「X」において、探索窓410内の画素が低輝度から高輝度に変化する場合、プロセッサは、探索窓410内の移動領域を検出する。
図5は、いくつかの実施形態による、複数の探索窓510a~510cおよび物体520を含む画像500の図である。入力画像「X」の解析中、いくつかの移動領域が、複数の探索窓と重なる場所にある。例えば、物体520が画像500内の移動領域であると判定される状況では、物体520は探索窓510a、510b、および510cと重なる。いくつかの実施形態では、プロセッサは、画像500内の物体520の場所を判定するために探索窓510a~510cのいずれを使用するかを決定するためにnon max suppressionを使用する。Non max suppressionは、探索窓510a~510cのうちのどれが物体520と最も大きい重なりを含むかを判定し、入力画像「X」の解析のためにその探索窓を使用する。画像500では、探索窓510bが物体520と最も大きい重なりを有している。したがって、プロセッサは、画像500内の探索窓510bを使用して物体520を解析する。
動作324に戻ると、入力画像「X」と処理画像「Y」との両方を受信することによって、ラベリング推奨プロセッサ320は、入力画像「X」を解析するための計算量を削減することができる。ラベリング推奨プロセッサ320は、物体が動作322中に既に検出された場所において、探索窓、例えば探索窓410を除外することができる。これにより、ラベリング推奨プロセッサ320によって解析すべき入力画像「X」内の場所が削減され、入力画像「X」の解析の速度が上がる。動作324は、処理画像「Y」内の移動領域をさらに識別するように変更された処理画像「Y」を含む移動領域検出画像「YMAD」を出力する。いくつかの実施形態では、動作324は、逆処理画像「Y-」(「Y-」は、上線付きのYを示す。)を受信する。逆処理画像「Y-」は、処理画像「Y」の逆元(inverse)である。つまり、逆処理画像「Y-」は、モデルによって検出された物体と重なる探索窓を除外する。逆処理画像「Y-」を使用することは、処理画像「Y」の使用と同様に計算作業負荷を軽減するのに役立つ。いくつかの実施形態では、移動領域検出画像「YMAD」は、変更された画像として受信される。いくつかの実施形態では、移動領域検出画像「YMAD」は、変更されたデータ列として受信される。いくつかの実施形態では、逆処理画像「Y-」は、変更された画像として受信される。いくつかの実施形態では、逆処理画像「Y-」は、変更されたデータ列として受信される。
ラベリング推奨プロセッサ320は、処理画像「Y」を使用して時間情報検出が実行される動作326を実行するように構成される。時間情報検出は、一連の処理画像「Y」内の整合性または完全性の喪失に関連する。いくつかの実施形態では、時間情報検出は、探索窓、例えば探索窓410(図4)を使用して実行される。ラベリング推奨プロセッサ320は、処理画像「Y」を解析して、処理画像「Y」内に事前に訓練されたモデルによって解析不可能である部分が存在するか否かを判定する。例えば、処理画像「Y」のある部分がかなりの量のノイズを含む場合、または処理画像「Y」の光レベルが低い場合、事前に訓練されたモデルは、処理画像「Y」の当該部分内の物体を検出することができない。
時間情報検出は、ラベリング推奨プロセッサ320によって実行される解析内での時間的整合性を維持するのに役立つ。例えば、第1の時刻における第1の処理画像「Y」内の特定の場所で物体が検出された場合、第1の時刻の直後の第2の時刻における第2の処理画像「Y」内の同様の場所で同じ物体が検出されると予期される。ノイズまたは光レベルが予期される物体の正確な検出を妨げる場合、時間情報検出が、将来の画像を解析するためのモデルを強化するために使用可能なエラーを含む可能性が高いとして処理画像「Y」を識別する。
システム300では、時間情報検出は、処理画像「Y」のみに基づいて、ラベリング推奨プロセッサ320によって実行される。いくつかの実施形態では、時間情報検出は、処理画像「Y」と入力画像「X」との組み合わせに基づいて実行される。いくつかの実施形態では、時間情報検出は、入力画像「X」のみに基づいて実行される。
いくつかの実施形態では、ラベリング推奨プロセッサ320は、処理画像「Y」を使用して計算量を削減する。いくつかの実施形態では、ラベリング推奨プロセッサ320は、物体が動作322中に既に検出された場所において、探索窓、例えば探索窓410を除外する。これにより、ラベリング推奨プロセッサ320によって解析すべき処理画像「Y」内の場所が削減され、処理画像「Y」の解析の速度が上がる。動作326は、処理画像「Y」内の時間的不整合を有する領域またはモデルにとって物体検出が困難な領域をさらに識別するように変更された処理画像「Y」を含む時間情報検出画像「YTMP」を出力する。いくつかの実施形態では、動作326は、逆処理画像「Y-」を使用して実行される。いくつかの実施形態では、時間情報検出画像「YTMP」は、変更された画像として受信される。いくつかの実施形態では、時間情報検出画像「YTMP」は、変更されたデータ列として受信される。
ラベリング推奨プロセッサ320は、検出エラー候補が識別される動作328を実行するように構成される。検出エラー候補は、処理画像「Y」と、移動領域検出画像「YMAD」と、時間情報検出画像「YTMP」との比較に基づいて識別される。ラベリング推奨プロセッサ320は、移動領域検出画像「YMAD」または時間情報検出画像「YTMP」のいずれかが、処理画像「Y」で検出されなかった潜在的な物体、例えば移動領域または時間的不整合の領域を含む場合、入力画像「X」をエラー検出候補として識別する。ラベリング推奨プロセッサ320は、移動領域検出画像「YMAD」および時間情報検出画像「YTMP」が処理画像「Y」に一致する場合、すなわち、追加の潜在的な物体が検出されない場合、入力画像「X」をエラー検出候補として識別しない。移動領域検出画像「YMAD」および時間情報検出画像「YTMP」は、物体が入力画像「X」内に実際にあることを特に識別しない。代わりに、移動領域検出画像「YMAD」および時間情報検出画像「YTMP」は、存在し得る物体の場所を識別する。ラベリング推奨プロセッサ320は、移動領域検出画像「YMAD」および時間情報検出画像「YTMP」によって識別された場所に物体が実際に存在するか否かをユーザが最終判断できるようにするために、未検出物体の可能性に基づくエラー検出候補を推奨出力ディスプレイ330に出力する。
エラー検出候補のみをユーザに提供することによって、システム300は、精査のためにエラーを含む尤度が高い画像のみをユーザに提供することによって、ユーザの作業負荷を軽減する。このことは、他の手法と比較して、モデル内でより多量のフィードバック識別エラーがより短い期間で提供されるため、入力画像「X」を解析するためのモデルをより迅速に改善するのに役立つ。ユーザの作業負荷が軽減されること、およびユーザによって精査される画像にエラーが高度に集中することはまた、ユーザが画像の精査中にエラーを見逃す可能性を低減するのに役立つ。場合によっては、ユーザがエラーのない多数の連続的な画像を精査した場合、ユーザは無関心になってしまい、同レベルの精度で画像を精査しなくなり得る。その結果、その後で精査される画像のエラーがユーザによって見過ごされる可能性が高くなり、これによりモデルに改善フィードバックを提供し損なう。この無関心は、精査される画像においてエラーを含む割合が高い場合に低減または回避される。したがって、システム300は、他の手法と比較して、エラー検出候補を使用することによってモデルをより速く改善することができる。
図6は、いくつかの実施形態による、エラー候補を識別するためのシステム600のブロック図である。システム600は、入力画像を受信するように構成された画像受信機610を備える。画像受信機610は画像受信機310(図3)と同様であり、簡潔にするために画像受信機610の詳細な説明は省略する。
画像受信機610によって受信または取り込まれた入力画像は、ラベリング推奨プロセッサ620に送信される。ラベリング推奨プロセッサ620は、入力画像がエラー候補であるか否かを判定するように構成される。エラー候補は、エラーを含む尤度が高い画像である。エラー候補を識別することにより、他の手法と比較して、画像を解析するために使用されるモデルを改善するためのユーザの作業負荷が軽減される。ラベル付与推奨プロセッサ620は、プロセッサを備える。いくつかの実施形態では、ラベリング推奨プロセッサ620は、画像受信機610と一体化される。いくつかの実施形態では、ラベリング推奨プロセッサ620は、画像受信機610とは別体にされる。いくつかの実施形態では、入力画像は、無線でラベリング推奨プロセッサ620に送信される。いくつかの実施形態では、入力画像は、有線接続を使用してラベリング推奨プロセッサ620に送信される。
ラベリング推奨プロセッサ620によって識別されたエラー候補は、推奨出力ディスプレイ630に送信される。推奨出力ディスプレイ630は、推奨出力ディスプレイ330(図3)と同様であり、簡潔にするために、推奨出力ディスプレイ630の詳細な説明は省略する。
ラベリング推奨プロセッサ620は、事前に訓練されたモデルを使用して物体検出を実行するための動作622を実施するように構成される。動作622は動作322(図3)と同様であり、簡潔にするために動作622の詳細な説明は省略する。動作622は、動作628で使用される処理画像「Y」または逆処理画像「Y-」のいずれかを出力する。画像650は、処理画像「Y」の一例である。画像650では、物体のすべてが人物アイコンで示されている。いくつかの実施形態では、物体は、人物以外の物体を含む。画像650では、画像650の左側の物体のみが検出された物体として識別される。画像650内の他の物体は、動作622において検出されていない。画像660は、逆処理画像「Y-」の一例である。画像660は、画像650内の未検出物体に対応する画像660の部分に複数の探索窓を含む。
ラベリング推奨プロセッサ620は、移動領域を検出するための動作624を実施するように構成される。動作324とは対照的に、動作624は処理画像「Y」を受信しない。システム600では、動作624は、入力画像「X」のみを使用して実行されて、入力画像「X」が物体が移動している領域を含むか否かを判定する。入力画像「X」が移動領域を含むか否かを判定するために、ラベリング推奨プロセッサ620は探索窓に依拠しており、このことは上で詳述している。動作624は、識別された移動領域を含む移動領域検出画像「YMAD」を出力する。画像670は、移動領域検出画像「YMAD」の一例である。画像670では、中央の物体が、動作624中に移動領域として検出されている。したがって、中央の物体は、移動領域検出画像「YMAD」内で識別される。画像670の左側および右側にある物体は、移動領域を含むものとして検出されていない。したがって、左側および右側にある物体は、移動領域検出画像「YMAD」内で識別されていない。
ラベリング推奨プロセッサ620は、処理画像「Y」を使用して時間情報検出が実行される動作626を実行するように構成される。動作626は動作326(図3)と同様であり、簡潔にするために動作626の詳細な説明は省略する。画像680は、時間情報検出画像「YTMP」の一例である。画像680において、右側にある物体は、動作626中に情報の不整合を有するものとして検出されている。したがって、右側にある物体が、時間情報検出画像「YTMP」内で識別される。画像680の左側および中央にある物体は、情報の整合性を有していた。したがって、左側および中央にある物体は、時間情報検出画像「YTMP」内で識別されていない。
ラベリング推奨プロセッサ620は、検出エラー候補が識別される動作628を実行するように構成される。検出エラー候補は、処理画像「Y」と、移動領域検出画像「YMAD」と、時間情報検出画像「YTMP」との比較に基づいて識別される。ラベリング推奨プロセッサ620は、移動領域検出画像「YMAD」または時間情報検出画像「YTMP」のいずれかが、処理画像「Y」で検出されなかった潜在的な物体、例えば移動領域または時間的不整合の領域を含む場合、入力画像「X」をエラー検出候補として識別する。ラベリング推奨プロセッサ620は、移動領域検出画像「YMAD」および時間情報検出画像「YTMP」が処理画像「Y」に一致する場合、すなわち、追加の潜在的な物体が検出されない場合、入力画像「X」をエラー検出候補として識別しない。移動領域検出画像「YMAD」および時間情報検出画像「YTMP」は、物体が入力画像「X」内に実際にあることを特に識別しない。代わりに、移動領域検出画像「YMAD」および時間情報検出画像「YTMP」は、存在し得る物体の場所を識別する。ラベリング推奨プロセッサ620は、移動領域検出画像「YMAD」および時間情報検出画像「YTMP」によって識別される場所に物体が実際に存在するか否かをユーザが最終判断できるようにするために、未検出物体の可能性に基づくエラー検出候補を推奨出力ディスプレイ330に出力する。画像690は、エラー候補を含む画像の一例である。画像690では、中央の物体および右側の物体が、動作628中の処理画像「Y」または逆処理画像「Y-」との比較に基づいて潜在的なエラーとして識別されている。したがって、画像690では、中央の物体および右側の物体はエラー候補として識別される。左側の物体は、処理画像「Y」または逆処理画像「Y-」において識別されている。したがって、画像690において、左側の物体は識別されていない。
エラー検出候補のみをユーザに提供することによって、システム600は、精査のためにエラーを含む尤度が高い画像のみをユーザに提供することによって、ユーザの作業負荷を軽減する。このことは、他の手法と比較して、モデル内でより多量のフィードバック識別エラーがより短い期間で提供されるため、入力画像「X」を解析するためのモデルをより迅速に改善するのに役立つ。ユーザの作業負荷が軽減されること、およびユーザによって精査される画像にエラーが高度に集中することはまた、ユーザが画像の精査中にエラーを見逃す可能性を低減するのに役立つ。場合によっては、ユーザがエラーのない多数の連続的な画像を精査した場合、ユーザは無関心になってしまい、同レベルの精度で画像を精査しなくなり得る。その結果、その後で精査される画像のエラーがユーザによって見過ごされる可能性が高くなり、これによりモデルに改善フィードバックを提供し損なう。この無関心は、精査される画像においてエラーを含む割合が高い場合に低減または回避される。したがって、システム600は、他の手法と比較して、エラー検出候補を使用することによってモデルをより速く改善することができる。
図7は、いくつかの実施形態による、エラー候補を識別する方法700のフローチャートである。方法700は、入力画像「X」を受信する。動作710において、入力画像「X」は、入力画像「X」内の物体を検出するために、事前に訓練されたモデルを使用して解析される。処理画像「Y」は、事前に訓練されたモデルを使用して検出された物体に基づいて生成される。いくつかの実施形態では、事前に訓練されたモデルは、サンプルデータに基づいて生成される。いくつかの実施形態では、事前に訓練されたモデルは、経験的データに基づいて生成される。いくつかの実施形態では、事前に訓練されたモデルは、サンプルデータおよび経験的データの両方に基づいて生成される。いくつかの実施形態では、事前に訓練されたモデルは、システム300を使用した先行する画像解析に基づいて少なくとも1回の更新を経ている。
動作715において、動作710中に物体が検出されたか否かに関する判定が行われる。動作710で検出された物体は、動作715からの「yes」によって示されるように、陽性(positive)、例えば真陽性(true positive)であると判定される。陽性と識別された物体はエラー候補ではない。処理画像「Y」の部分のうち検出された物体を含まない部分は、「no」の選択肢に沿って動作715から動作720に進む。
動作720において、処理画像「Y」は、入力画像「X」が物体が移動している領域を含むか否かを判定するために使用される。処理画像「Y」か否かを判定するために探索窓が使用される。探索窓の詳細については、図4および図5に関連して上で論じてある。
処理画像「Y」に依拠することにより、処理画像「Y」内の検出された物体が含まれていない部分のみに解析を集中させることにより移動領域を識別することを試みるための計算量が削減される。動作720は、動作710中に物体が既に検出された場所における探索窓、例えば探索窓410を除外する。動作720は移動領域検出画像「YMAD」を出力する。いくつかの実施形態では、動作720は逆処理画像「Y-」を使用する。
動作725において、動作720中に移動領域が識別されたか否かに関する判定が行われる。動作720で検出された移動領域は、潜在的な偽陰性であると判定され、動作725からの「yes」によって示されるようにエラー候補として識別される。移動領域検出画像「YMAD」内の移動領域を含まない部分は、「no」の選択肢に沿って動作725から動作730に進む。
動作730において、移動領域検出画像「YMAD」を使用して時間情報検出が実行される。時間情報検出は、一連の処理画像「Y」内の整合性または完全性の喪失に関連する。いくつかの実施形態では、時間情報検出は、探索窓、例えば探索窓410(図4)を使用して実行される。移動領域検出画像「YMAD」は、移動領域検出画像「YMAD」内に事前に訓練されたモデルによって解析不可能である部分が存在するか否かを判定するために解析される。例えば、移動領域検出画像「YMAD」のある部分がかなりの量のノイズを含む場合、または移動領域検出画像「YMAD」の光レベルが低い場合、事前に訓練されたモデルは、移動領域検出画像「YMAD」の当該部分内の物体または移動領域を検出することができない。
時間情報検出は、時間的整合性を維持するのに役立つ。例えば、第1の時刻における第1の移動領域検出画像「YMAD」内の特定の場所で物体が検出された場合、第1の時刻の直後の第2の時刻における第2の移動領域検出画像「YMAD」内の同様の場所で同じ物体が検出されると予期される。ノイズまたは光レベルが予期される物体の正確な検出を妨げる場合、時間情報検出が、将来の画像を解析するためのモデルを強化するために使用可能なエラーを含む可能性が高いとして移動領域検出画像「YMAD」を識別する。
動作735において、動作730中に時間的不整合が識別されたか否かに関する判定が行われる。動作730で検出された時間的不整合は、潜在的な偽陰性であると判定され、動作735からの「yes」によって示されるようにエラー候補として識別される。時間情報検出画像「YTMP」内の移動領域または時間的不整合を含まない部分は、動作735からの「no」の選択肢に沿って進み、事前に訓練されたモデルによる初期検出におけるエラーの尤度が低いため、エラー候補ではないと判定される。
動作725または動作735のいずれかにおいて識別されたエラー候補は、精査のためにユーザに報告される。事前に訓練されたモデルによる初期検出においてエラーの尤度が高い場合にのみエラー候補をユーザに提供することによって、方法700は、精査のためにエラーを含む尤度が高い画像のみをユーザに提供することによってユーザの作業負荷を軽減する。この作業負荷の軽減の利点については、上で論じてある。
図8は、いくつかの実施形態による、エラー候補を識別する方法800のフローチャートである。方法800は、方法700の動作710、715、720、725、730、および735とそれぞれ同様の動作810、815、820、825、830、および835を含み、簡潔にするために、これらの動作の詳細は省略する。
方法700と比較して、方法800は動作840を含む。方法800では、動作835において時間的不整合が存在するとの判定がなされた場合、動作840において偽陰性尤度スコア(FNS)が計算される。FNSは、時間的不整合の重大度に関連する。時間的不整合の重大度が高まるにつれて、エラーの尤度も高まる。重大度とは、時間情報検出画像「YTMP」内の予期される情報からの逸脱の大きさを意味する。
動作840は、ある持続時間にわたって時間情報検出画像「YTMP」を利用する。いくつかの実施形態では、持続時間は事前に決定された持続時間である。いくつかの実施形態では、持続時間は、時間情報検出画像「YTMP」の時間的不整合の重大度に基づいて調整される。動作840は、時間情報検出画像「YTMP」内の情報を比較して、FNSを計算するために時間情報検出画像「YTMP」内の異なる場所におけるノイズまたは光レベルなどの値の間の差分を決定する。差分は、時間情報検出画像「YTMP」における画素値のベクトルを持続時間を通して計算することにより決定される。
FNS値の範囲は、0.0~1.0である。0.0のFNS値は、時間的不整合がないか、または最小であることを示す。1.0のFNS値は、少なくとも1つの著しい時間的不整合を示す。時間的不整合の大きさは、FNS値の一因子である。明るかった場所が暗く遷移する時間的不整合は、画像内に物体が存在する確率が高いことを示す。対照的に、光レベルのわずかな変化は、画像内の物体の存在を示す可能性が低い。時間的不整合が存在する時間の長さもFNS値の一因子である。短時間の時間的不整合は、撮像デバイスによって監視された場所に極めて短い時間内に物体が入ったり出たりすることはできない可能性が高いため、撮像デバイスの欠陥に起因する可能性がより高い。対照的に、長時間の時間的不整合は、物体の存在を示す可能性がより高い、または少なくとも潜在的に、撮像デバイスの欠陥が潜在的な物体を見えにくくしていることを示す可能性が高い。例えば、時間情報検出画像「YTMP」の持続時間にわたるノイズ(または光レベル)の変化が極めて小さいかまたは短い場合、動作840は0.0のFNS値を返す。
対照的に、持続時間における時間情報検出画像「YTMP」にわたるノイズ(または光レベル)の変化が劇的である、または長引く場合、動作840は例えば1.0のFNS値を返す。時間的不整合の期間または時間情報検出画像「YTMP」における変化の大きさが変化すると、動作840は、0.0と1.0との間の中間FNS値を返す。
FNS値に基づいて、方法800は、時間的不整合がエラー候補と見なされるか否かを判定する。FNS値が第1の閾値T1以下である場合、時間情報検出画像「YTMP」は潜在的な物体を含まないと見なされ、エラー候補は識別されない。FNS値が第2の閾値T2以上である場合、時間情報検出画像「YTMP」は潜在的な物体を含むと見なされ、エラー候補が識別される。FNS値が第1の閾値T1と第2の閾値T2との間にある場合、時間情報検出画像「YTMP」は、潜在的な物体の尤度が高いと考えられ、エラー候補が識別される。いくつかの実施形態では、第1の閾値T1は0.0である。0.0の第1の閾値T1は、事前に訓練されたモデルによって検出されなかった潜在的な物体を見落とすリスクを最小化するのに役立つ。いくつかの実施形態では、第2の閾値T2の範囲は、0.5から0.8である。第2の閾値T2が高すぎる場合、事前に訓練されたモデルによって検出されなかった潜在的な物体を見落とすリスクが高まる。いくつかの実施形態では、FNS値が第1の閾値T1以下でない限り、時間情報検出画像「YTMP」は潜在的な物体を含むと見なされ、エラー候補が識別される。
動作825で識別されたエラー候補または第1の閾値を上回るFNS値を有するエラー候補は、精査のためにユーザに報告される。事前に訓練されたモデルによる初期検出においてエラーの尤度が高い場合にのみエラー候補をユーザに提供することによって、方法800は、精査のためにエラーを含む尤度が高い画像のみをユーザに提供することによってユーザの作業負荷を軽減する。この作業負荷の軽減の利点については、上で論じてある。
図9は、いくつかの実施形態による、エラー候補を識別する方法900のフローチャートである。方法900は、方法800の動作810、815、820、825、830、835、および840とそれぞれ同様の動作910、915、920、925、930、935、および940を含み、簡潔にするために、これらの動作の詳細は省略する。
方法800と比較して、方法900は動作950を含む。方法800では、動作925で移動領域が検出されたとの判定がなされた場合、時間情報検出が、移動領域検出画像「YMAD」内の検出された移動領域に対して実行される。動作950における時間情報検出は、検出された移動領域に対して解析が実行されることを除いて、上述した動作730と同様である。
図10は、いくつかの実施形態による、複数の探索窓1010および物体1020の図1000である。図10の複数の探索窓1010は、異なる時間に取り込まれた画像内の探索窓である。図10の複数の探索窓1010のそれぞれの場所は、それぞれの取り込まれた画像内で同じである。物体は、時刻t-3、t-2、およびt-1において探索窓内で検出される。しかしながら、時刻tにおいて、探索窓内で物体は検出されない。3つの以前に取り込まれた画像における物体の整合性のある検出に基づいて、物体が時間tにおいても探索窓に存在すると高いレベルで予期される。時刻tにおける探索窓で物体1020を検出し損なうことは、時間的不整合である。移動領域検出画像「YMAD」に対して時間的整合性解析を実行することによって、方法900は、入力画像を解析するために使用されるモデルへのフィードバックを改善することを助けることができる。
図11は、いくつかの実施形態による、複数の画像1105a~1105cおよび物体の図1100である。複数の探索画像1105a~1105cは、異なる時間に取り込まれた順次的な入力画像である。物体は、画像1105aの第1の位置から画像1105cの第2の位置に移動する。探索窓1110は、画像1105aの探索窓に対応する。探索窓1115は、画像1105bの探索窓に対応する。探索窓1120は、画像1105cの探索窓に対応する。明確にするために、潜在的なエラー候補の検出の理解を助けるために、探索窓1110、1115、および1120が一緒に示されている。物体が、時刻t-2における探索窓1110内で検出され、時刻tにおける探索窓1120内で検出される。しかしながら、時刻t-1における探索窓1115内で物体は検出されない。t-1の前後の時刻において物体が一貫して検出されていることに基づいて、物体が時間t-1における探索窓1115に存在するはずであると高いレベルで予期される。時刻t-1における探索窓1115での物体を検出し損なうことは、時間的不整合である。
画像1105b内の探索窓1115の場所は、探索窓1110で検出された物体の第1の位置および探索窓1120で検出された物体の第2の位置の変化に基づいて決定される。予測経路線1130は、第1の位置から第2の位置への移動の予測経路を示す。これらの予測経路線1130を使用して、画像1105b内における物体の予期される位置が決定される。予測経路線1130を使用することは、エラー候補および時間的不整合を識別するための計算量を削減するのに役立つ。移動領域検出画像「YMAD」に対して時間的整合性解析を実行することによって、方法900は、入力画像を解析するために使用されるモデルへのフィードバックを改善することを助けることができる。
方法900に戻ると、動作950に続いて、方法900は動作940に進む。方法800と比較して、エラー候補の識別は、動作940からのFNS値に基づいており、動作925における検出された移動領域の決定は、必ずしもエラー候補の識別をもたらさない。
第1の閾値を上回るFNS値を有するエラー候補が、精査のためにユーザに報告される。事前に訓練されたモデルによる初期検出におけるエラーの尤度が高い場合にのみエラー候補をユーザに提供することによって、方法900は、精査のためにエラーを含む尤度が高い画像のみをユーザに提供することによってユーザの作業負荷を軽減する。この作業負荷の軽減の利点については、上で論じてある。
図12は、いくつかの実施形態による、識別された物体1220aならびに識別された候補物体1220bおよび1220cを含む画像1210を含むユーザインターフェース(UI)1200の図である。UI1200は、画像1210および入力フィールド1240を含む。
画像1210は、撮像デバイスによって取り込まれた入力画像「X」に対応する。画像1210は、実線ラベル1230aによって囲まれた検出された物体1220aを含む。検出された物体1220aは、例えば動作322または動作710において、事前に訓練されたモデルによって検出されている。検出された物体1220aが事前に訓練されたモデルによって検出されているという事実は、実線ラベル1230aによってユーザに明らかにされる。
画像1210は、点線ラベル1230bによって囲まれた移動領域の検出された物体1220bをさらに含む。移動領域の検出された物体1220bは、例えば動作324または動作720において、事前に訓練されたモデルによって検出されなかった入力画像「X」内の潜在的な物体に対応するエラー候補として識別されている。移動領域解析によって移動領域の検出された物体1220bがエラー候補として検出されているという事実は、点線ラベル1230bによってユーザに明らかにされる。実線ラベルの代わりに点線ラベル1230bを使用することは、移動領域検出によって識別された潜在的な物体を確認または拒否するためにユーザのアクションが要求されているとユーザが判断するのに役立つ。
画像1210は、破線ラベル1230cによって囲まれた時間的不整合の検出された物体1220cをさらに含む。時間的不整合の検出された物体1220cは、例えば動作326または動作730において、事前に訓練されたモデルによって検出されなかった入力画像「X」内の潜在的な物体に対応するエラー候補として識別されている。いくつかの実施形態では、時間的不整合の検出された物体1220cもまた、移動領域解析によって識別されていない。時間的不整合解析によって時間的不整合の検出された物体1220cがエラー候補として検出されているという事実は、破線ラベル1230cによってユーザに明らかにされる。実線ラベルの代わりに破線ラベル1230cを使用することは、移動領域検出によって識別された潜在的な物体を確認または拒否するためにユーザのアクションが要求されているとユーザが判断するのに役立つ。
未検出物体の確認のためにユーザ入力を求めるためのエラー候補を明確に示すことは、事前に訓練されたモデルによって検出された物体とは異なるラベルを示すことを目的とする。いくつかの実施形態では、すべてのエラー候補が、同じ種類のラベル、例えば点線を有する。いくつかの実施形態では、エラー候補は、色、ハイライト、テキストボックス、または他の適切な識別情報を使用して画像1210内で識別される。
入力フィールド1240は、ユーザが画像1210に関連付けるべき情報を入力することを可能にする。いくつかの実施形態では、情報は、検出された物体の種類、エラー候補の種類、画像1210の光の状態、検出された物体の位置、エラー候補の位置、または他の適切な情報を含む。
ユーザは、UI1200を使用して、物体1220bまたは物体1220cが画像1210内の実際の物体であるか否かを確認することができる。次いで、この情報は、取り込まれた画像内の識別された物体に使用されるアルゴリズムを改善するために、事前に訓練されたモデルにフィードバックされる。いくつかの実施形態では、UI1200はタッチスクリーンを含み、ユーザはタッチスクリーンを使用して物体1220bまたは物体1220cが実際の物体であるか否かを確認することができる。いくつかの実施形態では、ユーザは、マウスなどのカーソルを使用して、物体1220bまたは物体1220cが実際の物体であるか否かを確認する。
図13は、いくつかの実施形態による、識別された物体1320aならびに識別された候補物体1320bおよび1320cを含む画像1310を含むユーザインターフェース(UI)1300の図である。UI1300は、画像1310と、第1の入力フィールド1340および第2の入力フィールド1350とを含む。画像1310は画像1210と同様であり、簡潔にするためにこの要素の詳細な説明は省略する。第1の入力フィールド1340は入力フィールド1240と同様であり、簡潔にするためにこの要素の詳細な説明は省略する。
UI1200と比較して、UI1300は第2の入力フィールド1350を含む。第2の入力フィールド1350は、エラー候補または検出された物体に関する物体の種類に関連する情報を受け付けるフィールド1352を含む。図13では、フィールド1352は、「人物」という種類が部分的に入力されている。物体のカテゴリの他の種類は、物体1320aと同様の標識、車両、道路、建物、または他の適切なカテゴリを含む。
第2の入力フィールド1350は、エラー候補または検出された物体の場所を受け付けるためのフィールド1354をさらに含む。エラー候補または検出された物体の場所は、画像1310内のラベル、例えば点線ラベル1330bの位置に基づく。いくつかの実施形態では、エラー候補または検出された物体の場所は、入力画像「X」を解析するために使用されるシステムによって自動的に決定される。いくつかの実施形態では、エラー候補または検出された物体の場所は、ユーザからの入力に基づく。いくつかの実施形態では、ユーザからの入力はタッチスクリーンを介して受け付けられる。いくつかの実施形態では、ユーザからの入力はカーソルの使用を介して受け付けられる。いくつかの実施形態では、ユーザからの入力は情報のタイピングを介して受け付けられる。いくつかの実施形態では、場所はシステムによって自動的に決定され、次いでユーザ入力に基づいて調整される。例えば、画像1310では、システムは点線ラベル1330b’の場所を決定したが、ユーザは、物体の場所を変更して点線ラベル1330bを確立した。点線ラベル1330bが点線ラベル1330b’よりも小さいことは、事前に訓練されたモデルにより正確なフィードバックを提供して、将来の画像解析の精度を高めるのに役立つ。
第2の入力フィールド1350は、エラー候補が画像の解析中に検出すべき物体であるか否かを確認するためのフィールド1356を含む。ユーザは、エラー候補が物体であることを示す「Yes」を選択したり、エラー候補が物体ではないことを示す「No」を選択したりすることができる。いくつかの実施形態では、ユーザからの入力はタッチスクリーンを介して受け付けられる。いくつかの実施形態では、ユーザからの入力はカーソルの使用を介して受け付けられる。いくつかの実施形態では、ユーザからの入力は情報のタイピングを介して受け付けられる。
図14は、いくつかの実施形態による、エラー候補の識別を実施するためのシステム1400のブロック図である。システム500は、ハードウェアプロセッサ1402と、コンピュータプログラムコード1406、すなわち一式の実行可能命令で符号化された、すなわちこれを記憶している非一時的コンピュータ可読記憶媒体1404とを備える。コンピュータ可読記憶媒体1404はまた、命令を実施し、撮像デバイスやサーバなどの外部デバイスとインターフェースするためのパラメータ1407で符号化される。プロセッサ1402は、バス1408を介してコンピュータ可読記憶媒体1404に電気的に結合される。プロセッサ1402はまた、バス1408によってI/Oインターフェース1410に電気的に結合される。ネットワークインターフェース1412はまた、バス1408を介してプロセッサ1402に電気的に接続される。ネットワークインターフェース1412はネットワーク1414に接続され、その結果、プロセッサ1402およびコンピュータ可読記憶媒体1404がネットワーク1414を介して外部要素に接続することができる。プロセッサ1402は、システム300もしくはシステム600について説明した動作、または方法700、方法800、もしくは方法900において説明した動作の一部または全部を実行するようにシステム1400を使用可能にするために、コンピュータ可読記憶媒体1404に符号化されたコンピュータプログラムコード1406を実行するように構成される。
いくつかの実施形態では、プロセッサ1402は、中央処理装置(CPU)、マルチプロセッサ、分散処理システム、特定用途向け集積回路(ASIC)、および/または適切な処理ユニットである。
いくつかの実施形態では、コンピュータ可読記憶媒体1404は、電子、磁気、光学、電磁、赤外線、および/または半導体システム(または装置もしくはデバイス)である。例えば、コンピュータ可読記憶媒体1404は、半導体メモリもしくはソリッドステートメモリ、磁気テープ、リムーバブルコンピュータディスケット、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、硬質な磁気ディスク、および/または光ディスクを含む。光ディスクを使用するいくつかの実施形態では、コンピュータ可読記憶媒体1404は、コンパクトディスク読み出し専用メモリ(CD-ROM)、コンパクトディスク-リード/ライト(CD-R/W)、および/またはデジタルビデオディスク(DVD)を含む。
いくつかの実施形態では、記憶媒体1404は、システム300もしくはシステム600について説明した動作、または方法700、方法800、もしくは方法900において説明した動作をシステム1400に実行させるように構成されたコンピュータプログラムコード1406を記憶する。いくつかの実施形態では、記憶媒体1404はまた、システム300もしくはシステム600について説明した動作、または方法700、方法800、もしくは方法900において説明した動作を実行するために必要な情報、および方法700、方法800、もしくは方法900を実行する間に生成された情報、例えば、訓練されたモデルパラメータ1416、入力画像パラメータ1418、移動領域パラメータ1420、時間的不整合パラメータ1422、エラー候補パラメータ1424、および/あるいはシステム300もしくはシステム600について説明した動作、または方法700、方法800、もしくは方法900において説明した動作を実行するための一式の実行可能命令を記憶する。
いくつかの実施形態では、記憶媒体1404は、外部マシンとインターフェースし、システム300もしくはシステム600について説明した動作、または方法700、方法800、もしくは方法900において説明した動作を実施するための命令1407を記憶する。命令1407は、システム300もしくはシステム600について説明した動作、または方法700、方法800、もしくは方法900において説明した動作を効果的に実施するために、外部マシンによって読み取り可能な命令をプロセッサ1402が生成することを可能にする。
システム1400は、I/Oインターフェース1410を備える。I/Oインターフェース1410は、外部回路に結合される。いくつかの実施形態では、I/Oインターフェース1410は、情報およびコマンドをプロセッサ1402に伝達するためのキーボード、キーパッド、マウス、トラックボール、トラックパッド、および/またはカーソル方向キーを含む。
システム1400はまた、プロセッサ1402に結合されたネットワークインターフェース1412を備える。ネットワークインターフェース1412は、システム1400が、1つまたは複数の他のコンピュータシステムが接続されているネットワーク1414と通信することを可能にする。ネットワークインターフェース1412は、BLUETOOTH(登録商標)、WIFI、WIMAX、GPRS、もしくはWCDMA(登録商標)などの無線ネットワークインターフェース、またはETHERNET、USB、IEEE-1394などの有線ネットワークインターフェースを含む。いくつかの実施形態では、方法700、方法800、または方法900は、2つ以上のシステム1400において実施され、情報は、ネットワーク1414を介して異なるシステム1400間で交換される。
システム1400は、I/Oインターフェース1410またはネットワークインターフェース1412を介して訓練されたモデルに関連する情報を受信するように構成される。情報は、バス1408を介してプロセッサ1402に送信される。次いで、訓練されたモデルは、訓練されたモデルパラメータ1416としてコンピュータ可読媒体1404に記憶される。システム1400はまた、物体であると確認されたエラー候補に関連するフィードバックに基づいて、訓練されたモデルパラメータ1416を更新するように構成される。システム1400は、I/Oインターフェース1410またはネットワークインターフェース1412を介して入力画像に関連する情報を受信するように構成される。情報は、入力画像パラメータ1418としてコンピュータ可読媒体1404に記憶される。システム1400は、I/Oインターフェース1410またはネットワークインターフェース1412を介して移動領域に関連する情報を受信するように構成される。情報は、移動領域パラメータ1420としてコンピュータ可読媒体1404に記憶される。システム1400は、I/Oインターフェース1410またはネットワークインターフェース1412を介して時間的不整合に関連する情報を受信するように構成される。情報は、時間的不整合パラメータ1422としてコンピュータ可読媒体1404に記憶される。システム1400は、I/Oインターフェース1410またはネットワークインターフェース1412を介してエラー候補に関連する情報を受信するように構成される。情報は、エラー候補パラメータ1424としてコンピュータ可読媒体1404に記憶される。いくつかの実施形態では、訓練されたモデルパラメータ1416、入力画像パラメータ1418、移動領域パラメータ1420、時間的不整合パラメータ1422、またはエラー候補パラメータ1424に関連する情報は、プロセッサ1402によって生成または更新され、コンピュータ可読媒体1404に書き込まれる。
(付記1)
モデルを訓練する方法が、処理データを生成することを含み、処理データを生成することが、事前に訓練されたモデルを使用して画像に関連する入力を解析して、入力内の物体を検出することを含む。本方法は、移動領域検出データを生成することをさらに含み、移動領域検出データを生成することが、入力を解析して、入力内に移動を呈する領域が存在するか否かを判定することを含む。本方法は、時間的不整合データを生成することをさらに含み、時間的不整合データを生成することが、処理データを解析して、処理データ内に時間的不整合を示す領域が存在するか否かを判定することを含む。本方法は、移動領域検出データおよび時間的不整合データに基づいて、入力がエラー候補を含むか否かを識別することをさらに含む。本方法は、エラー候補が入力内の未検出物体であるか否かに関する確認情報を受信することをさらに含む。本方法は、エラー候補が入力内の未検出物体であることを示す確認情報を受信したことに応じて、事前に訓練されたモデルを更新することをさらに含む。
(付記2)
いくつかの実施形態では、移動領域検出データを生成することが、入力および処理データの両方を解析することを含む。
(付記3)
いくつかの実施形態では、入力がエラー候補を含むか否かを識別することが、処理データに基づいて入力がエラー候補を含むか否かを識別することを含む。
(付記4)
いくつかの実施形態では、入力がエラー候補を含むか否かを識別することが、逆処理データに基づいて入力がエラー候補を含むか否かを識別することを含み、逆処理データが、処理データの生成中に検出された物体を除く処理データに対応する。
(付記5)
いくつかの実施形態では、本方法は、時間的不整合データに基づいて偽陰性尤度スコア(FNS)を決定することをさらに含む。
(付記6)
いくつかの実施形態では、入力がエラー候補を含むか否かを識別することが、FNSの値に基づいて入力がエラー候補を含むか否かを識別することを含む。
(付記7)
いくつかの実施形態では、入力がエラー候補を含むか否かを識別することが、FNSの値が閾値を超えることに基づいて入力がエラー候補を含むか否かを識別することを含む。
(付記8)
いくつかの実施形態では、FNSを決定することが、移動領域検出データに基づいてFNSを決定することを含む。
(付記9)
いくつかの実施形態では、本方法は、物体、エラー候補、第1のラベル、および第2のラベルを表示するステップであって、物体に関連付けられた第1のラベルが、エラー候補に関連付けられた第2のラベルとは異なる、ステップをさらに含む。
(付記10)
いくつかの実施形態では、本方法は、第2のラベルのサイズまたは場所を調整するための命令を受信することと、第2のラベルの調整されたサイズまたは場所に基づいて事前に訓練されたモデルを更新することとをさらに含む。
(付記11)
モデルを訓練するためのシステムが、画像受信機と、ディスプレイと、命令を記憶するように構成されたメモリと、画像受信機、ディスプレイ、およびメモリに接続されたプロセッサとを備える。プロセッサは、処理データを生成することであって、処理データを生成することが、事前に訓練されたモデルを使用して画像に関連する入力を解析して、入力内の物体を検出することを含む、ことのための命令を実行するように構成されている。プロセッサは、移動領域検出データを生成することであって、移動領域検出データを生成することが、入力を解析して、入力内に移動を示す領域が存在するか否かを判定することを含む、ことのための命令を実行するようにさらに構成されている。プロセッサは、時間的不整合データを生成することであって、時間的不整合データを生成することが、処理データを解析して、処理データ内に時間的不整合を示す領域が存在するか否かを判定することを含む、ことのための命令を実行するようにさらに構成されている。プロセッサは、移動領域検出データおよび時間的不整合データに基づいて、入力がエラー候補を含むか否かを識別することのための命令を実行するようにさらに構成される。プロセッサは、エラー候補が入力内の未検出物体であるか否かに関する確認情報を受信することのための命令を実行するようにさらに構成されている。プロセッサは、エラー候補が入力内の未検出物体であることを示す確認情報を受信したことに応じて、事前に訓練されたモデルを更新することのための命令を実行するようにさらに構成されている。
(付記12)
いくつかの実施形態では、プロセッサが、入力および処理データの両方を解析することによって、移動領域検出データを生成することのための命令を実行するように構成されている。
(付記13)
いくつかの実施形態では、プロセッサが、処理データに基づいて入力がエラー候補を含むか否かを識別することによって、入力がエラー候補を含むか否かを識別することのための命令を実行するように構成されている。
(付記14)
いくつかの実施形態では、プロセッサが、逆処理データに基づいて入力がエラー候補を含むか否かを識別することによって、入力がエラー候補を含むか否かを識別することのための命令を実行するように構成され、逆処理データが、処理データの生成中に検出された物体を除く処理データに対応する。
(付記15)
いくつかの実施形態では、プロセッサが、時間的不整合データに基づいて偽陰性尤度スコア(FNS)を決定することのための命令を実行するように構成されている。
(付記16)
いくつかの実施形態では、プロセッサが、FNSの値に基づいて入力がエラー候補を含むか否かを識別することのための命令を実行するように構成されている。
(付記17)
いくつかの実施形態では、プロセッサが、移動領域検出データに基づいてFNSを決定することのための命令を実行するように構成されている。
(付記18)
いくつかの実施形態では、プロセッサが、物体、エラー候補、第1のラベル、および第2のラベルを表示するようにディスプレイに命令することのための命令を実行するように構成され、物体に関連付けられた第1のラベルが、エラー候補に関連付けられた第2のラベルとは異なる。
(付記19)
いくつかの実施形態では、プロセッサが、第2のラベルのサイズまたは場所を調整することのための命令を受信することと、第2のラベルの調整されたサイズまたは場所に基づいて事前に訓練されたモデルを更新することとのための命令を実行するように構成されている。
(付記20)
プロセッサによって実行されると、プロセッサに、処理データを生成することであって、処理データを生成することが、事前に訓練されたモデルを使用して画像に関連する入力を解析して、入力内の物体を検出することを含む、ことと、移動領域検出データを生成することであって、移動領域検出データを生成することが、入力を解析して、入力内に移動を示す領域が存在するか否かを判定することを含む、ことと、時間的不整合データを生成することであって、時間的不整合データを生成することが、処理データを解析して、処理データ内に時間的不整合を示す領域が存在するか否かを判定することを含む、ことと、移動領域検出データおよび時間的不整合データに基づいて、入力がエラー候補を含むか否かを識別することと、エラー候補が入力内の未検出物体であるか否かに関する確認情報を受信することと、エラー候補が入力内の未検出物体であることを示す確認情報を受信したことに応じて、事前に訓練されたモデルを更新することとを行わせる命令を記憶する、非一時的コンピュータ可読媒体。
以上、当業者が本開示の態様をよりよく理解し得るように、いくつかの実施形態の特徴を概説した。当業者は、本明細書に提示した実施形態と同じ目的を実行する、および/または同じ利点を実現するための他のプロセスおよび構造を設計または修正するための基礎として本開示を容易に使用できることを理解するはずである。当業者はまた、そのような均等な構成が本開示の趣旨および範囲から逸脱するものではないこと、ならびに本開示の趣旨および範囲から逸脱することなく本明細書において様々な変更、置換、および改変を行うことができることを理解するはずである。
本出願は、2020年3月13日に出願された米国特許出願第16/817,617号に基づくものであり、かつその優先権の利益を主張するものであり、同米国特許出願の開示内容はその全体が本明細書に組み込まれる。