JP2023507248A

JP2023507248A - 物体検出および認識のためのシステムおよび方法

Info

Publication number: JP2023507248A
Application number: JP2022529441A
Authority: JP
Inventors: シバンサンヨハナンダン，; ラーズオレソン，
Original assignee: ゼイリエント
Priority date: 2019-11-20
Filing date: 2020-11-20
Publication date: 2023-02-22
Also published as: US20220366567A1; AU2020389110A1; WO2021099844A1; EP4062369A4; US11710240B2; EP4062369A1; US11475572B2; US20210150721A1

Abstract

画像内の物体を表すピクセル群を識別するための技法は、各ピクセル群が着目ゾーンを表すようにグループ化された複数の群のピクセルを有する画像を使用することと、群内の各個々のピクセルに関するピクセル値の比較に基づいて、各ピクセル群内のピクセルに関するピクセル値を決定することとを含む。確率ヒートマップが、第１のニューラルネットワークを使用して、ピクセル群値から導出され、第１のニューラルネットワークは、入力としてピクセル群値を使用し、それぞれのピクセル群が着目物体を含む確率を示す段階的な値の組を有するヒートマップを生成する。着目ゾーンが、段階的な値の群が決定された確率閾値を満たすかどうかに基づいて、識別され、着目物体は、第２のニューラルネットワークを用いて少なくとも１つの着目ゾーン内で識別される。

Description

（関連出願の相互参照）
本願は、その開示全体が、参照することによって本明細書に組み込まれる２０１９年１１月２０日に出願された米国仮特許出願番号６２／９３８，０５０号の優先権および利点を請求する。

（技術分野）
以下の開示は、選択的画像認識のための方法およびシステムを対象とし、より具体的に、着目ゾーンおよびその中に位置する着目物体を選択的に識別することを対象とする。

知的システムの台頭とともに、読み出され、伝送され、さらに処理されているデータの量が、持続的に増大している。データ画像データを迅速かつ正確に取り込み、処理し、それに基づいて、決定を行う必要性は、ユーザ認証、自律車両コマンドおよび制御、および物理的セキュリティ等の産業で重大になっている。しかしながら、正確度（例えば、誤検出および検出漏れを回避する）と処理の速度との間の良好なバランスを達成することは、困難であり、多くの場合、ドメインに応じて、異なる決定を要求する。

現在の人工知的物体検出機構は、決定プロセスを加速させる試みにおいてニューラルネットワークを訓練するために、機械学習および大きな訓練データセットを使用する。これらのニューラルネットワークは、次いで、大きな訓練データセットと類似したドメイン内で入力データを処理するために使用され得る。ニューラルネットワークによって処理される入力データは、訓練データセットと同じぐらい正確な結果を生成し得るが、入力データからの結果は、訓練データセットが入力データを正確に反映する場合のみ、正確である。そのような複雑なニューラルネットワーク論理を入力データのより広い種類およびより大きいデータセットに適用することは、困難であることが証明され得る。したがって、ニューラルネットワークを使用するデータ処理のための方法およびシステムは、改良された実行効率から大幅に利益をもたらすであろう。

所望の正確度および速度を達成する一方、種々のエッジデバイスの電力使用制約を順守するために、本発明の側面は、２つ段階プロセスを使用し、ピクセルは、第１のニューラルネットワークおよび関連付けられる訓練データセットを使用して、グループ化および分析され、次いで、ある群が潜在的着目物であるとして識別されると、それらの群は、特定の物体を識別するために、第２のニューラルネットワークプロセス（異なる組の画像を使用して訓練され得る）を使用して、さらに検査される。

したがって、第１の側面では、本発明の実施形態は、少なくとも画像内の着目ゾーンを決定する方法を提供する。方法は、コンピュータプロセッサによって、複数のピクセル群を含む画像データを受信することを含み、各ピクセル群は、最小着目ゾーン内のピクセルの数が潜在的着目ゾーン内の最小サンプルと最大サンプルとの間にあるように、それらの間に平均距離を備えている。ピクセル値が、次いで、複数のピクセル群のピクセルに関して決定され、ピクセル値は、各ピクセルに関する複数のピクセル値の比較から決定される。ピクセル群値が、次いで、各ピクセル群に関して導出され、ピクセル群値は、それぞれのピクセル群に関連付けられたピクセルのピクセル値に基づく。

ヒートマップが、次いで、第１のニューラルネットワークを用いて、複数の最大ピクセル群値から作成され、第１のニューラルネットワークは、少なくとも１つのピクセル群値を入力として受信し、段階的な値の群を備えている確率ヒートマップを出力として生成し、それらは、それぞれのピクセル群が着目物体の表現を含む確率を示す。着目ゾーンが、段階的な値の群が決定された確率閾値を満たすかどうかに基づいて、識別され、着目物体は、次いで、（いくつかの事例では、第１のネットワークと同じネットワークであり得る）第２のニューラルネットワークを用いて、少なくとも１つの着目ゾーン内で識別され、第２のニューラルネットワークは、少なくとも１つの着目ゾーンを入力として受信し、着目物体の表現を出力として生成し、着目物体の表現は、少なくとも各着目物体の分類と、受信した画像データ内の物体の場所とを備えている。

いくつかの実施形態では、ピクセル群値は、それぞれのピクセル群に関連付けられたピクセルの種々のピクセル値を要約するピクセル値を備えている。ピクセル値は、例えば、ＲＧＢ、ＹＵＶ、またはその他等の画像データチャネルの要約等の各ピクセルの要約値に関連付けられ得る。要約変換は、例えば、各ピクセル群に関連付けられた値の平均、最大、調和平均、強度、または他の数学的要約であり得、数学的変換は、ピクセル群の各ピクセルに関するピクセル値を計算するために使用されることも、そうでないこともある。ピクセル群は、任意のサイズであり得るが、いくつかの事例では、群は、少なくとも幅において４つのピクセルおよび高さにおいて４つのピクセルにある。ある場合、幅および／または高さ寸法は、１８個のピクセルで上限を定められ得る。いくつかの実装では、決定された確率閾値が、事前決定される一方、他の事例では、実行時に動的に決定される。

ニューラルネットワークの一方または両方は、完全畳み込みネットワーク（ＦＣＮ）であり得、ある場合、第１のニューラルネットワークは、完全畳み込み多層ネットワーク（ＦＣＮ）であり、それは最小の３つの層および最大の７つの層を備えている。ある場合、第１のニューラルネットワークの複数の層のいずれも、完全に接続されない。

別の側面では、本発明の実施形態は、受信した画像データを記憶するための非一過性コンピュータ読み取り可能な媒体と、実行されると、コンピュータプロセッサによって、複数のピクセル群を含む画像データを受信することを含む記憶された命令を実行するように構成されるプロセッサとを含む画像内の着目ゾーンを決定するためのシステムを提供し、各ピクセル群は、最小着目ゾーン内のピクセルの数が潜在的着目ゾーン内の最小サンプルと最大サンプルとの間にあるように、それらの間に平均距離を備えている。ピクセル値が、次いで、複数のピクセル群のピクセルのために決定され、ピクセル値は、各ピクセルに関する複数のピクセル値の比較から決定される。ピクセル群値が、次いで、各ピクセル群に関して導出され、ピクセル群値は、それぞれのピクセル群に関連付けられたピクセルのピクセル値に基づく。

ヒートマップが、次いで、第１のニューラルネットワークを用いて、複数の最大ピクセル群値から作成され、第１のニューラルネットワークは、少なくとも１つのピクセル群値を入力として受信し、段階的な値の群を備えている確率ヒートマップを出力として生成し、それは、それぞれのピクセル群が着目物体の表現を含む確率を示す。着目ゾーンが、段階的な値の群が決定された確率閾値を満たすかどうかに基づいて識別され、着目物体は、次いで、（いくつかの事例では、第１のネットワークと同じネットワークであり得る）第２のニューラルネットワークを用いて、少なくとも１つの着目ゾーン内で識別され、第２のニューラルネットワークは、少なくとも１つの着目ゾーンを入力として受信し、着目物体の表現を出力として生成し、着目物体の表現は、少なくとも各着目物体の分類と、受信した画像データ内の物体の場所とを備えている。

いくつかの実施形態では、ピクセル群値は、それぞれのピクセル群に関連付けられた種々のピクセル値を要約するピクセル値を備えている。ピクセル値は、例えば、ＲＧＢ、ＹＵＶまたはその他等の画像データチャネルの要約等の各ピクセルの要約値に関連付けられ得る。要約は、例えば、各ピクセル群に関連付けられた強度値の平均、最大、調和平均、または他の数学的要約であり得、数学的変換は、ピクセル群の各ピクセルに関するピクセル値を計算するために使用することも、そうでないこともある。ピクセル群は、任意のサイズであり得るが、いくつかの事例では、群は、少なくとも幅において４つのピクセルおよび高さにおいて４つのピクセルにある。ある場合、幅および／または高さ寸法は、１８個のピクセルで上限を定められ得る。いくつかの実装では、決定された確率閾値が、事前決定される一方、他の事例では、実行時に動的に決定される。

本発明の他の側面では、上で説明され、本明細書で説明されるプロセス、方法、および命令は、非一過性コンピュータ読み取り可能な媒体上で記憶および実行される。

図１は、例示的実施形態による、着目ゾーンおよびその中に位置する物体を検出するための例示的方法のワークフロー図を描写する。

図２は、一実施形態による、最先端のワークフロー図を描写する。

図３は、例示的実施形態による、着目ゾーンおよびその中に位置する物体を検出するための例示的方法のワークフロー図を描写する。

図４は、例示的実施形態による、着目ゾーンおよびその中に位置する物体を検出するための例示的方法のワークフロー図を描写する。

図５は、例示的実施形態による、着目ゾーンおよびその中に位置する物体を検出するための例示的方法のワークフロー図を描写する。

図６は、例示的実施形態による、第１のニューラルネットワークアーキテクチャの拡大図を描写する。

図７は、例示的実施形態による、第２のニューラルネットワークアーキテクチャの拡大図を描写する。

ニューラルネットワークを使用して、画像内のアクティブゾーンおよび物体の識別を促進する方法およびサポートシステムの例示的実施形態が、本明細書に開示される。ニューラルネットワークは、着目ゾーン、着目物体、着目物体の分類、着目ゾーン内の着目物体の場所、および入力データ内の着目ゾーンの場所を検出するために、使用されることができる。システムおよび方法は、１つ以上のドメインにわたって使用される１つ以上の訓練データセットの作成を促進し、訓練データセットを使用して、入力データを処理し、着目ゾーンまたは物体を識別するために協力して動作するニューラルネットワークを積極的に採用する。

多数のニューラルネットワークのうちの１つ以上のものは、データフローに沿って、種々の段階で使用され得る。例えば、ニューラルネットワークは、他のニューラルネットワークのための事前処理機構として使用され得る。ニューラルネットワークは、データの伝送を補助するためのコーデック（例えば、エンコーダおよびデコーダ）としても使用され得る。さらに、ニューラルネットワークは、着目ゾーンまたは物体の位置特定と分類との両方をするプリプロセッサおよびコーデックの両方として使用され得る。
（訓練データ）

一実施形態では、１つ以上の訓練データセットが、作成される。ある実装では、異なる個々のデータセットが、特定のドメインに特有であるように作成および維持され得、例えば、訓練データセットは、ナンバープレートを読み取るための画像、顔検出および認識のための別のデータセット、および自律運転コンテキストで使用される物体検出のためのさらに別のものを処理するように開発および使用され得る。ドメイン特有の訓練データセットを後続ネットワーク処理のための基本として使用することによって、システムの処理および電力効率が、最適化され、処理が、正確度を落とさずに、「エッジ」デバイス（モノのインターネットデバイス、携帯電話、自動車、セキュリティカメラ等）上で生じることを可能にする。

訓練データセットを作成するために、第１の組の画像が、特定のドメイン（例えば、空港における多数の監視カメラからのフレーム）に関して識別される。「本画像は顔を含むか」等の特有の特性が、着目特性として選択される。ある場合、同じ組の画像は、異なる着目特性を使用して、複数の訓練データセットを作成するために使用され得る。ユーザが、次いで、着目特性に対して、「着目物」または「非着目物」のいずれかとしてピクセル（またはピクセルの組）を標識化することによって、画像を説明するアレイを作成する。ある場合、標識化は、教師ありまたは半教師あり人工知能等の自動化されたプロセスを使用して、行われ得る。これは、例えば、１および０のアレイ標識の形態をとり、１は、着目ピクセル（例えば、これらのピクセルは顔を表す）を表し、０は、非着目ピクセル（例えば、背景等）を表し得る。

ある場合、ピクセルは、画像内の複数の異なるチャネルとしてグループ化および表され、各チャネルが個々に処理され得るように、画像を合成画像の組に効果的に分解し得る。このアプローチは、画像が、複数の異なる着目エリア（例えば、人物の２つ以上の画像、または街頭の風景に沿った異なる物体を伴う画像）を含むとき、有益であり得、異なるチャネルは、異なるネットワークを使用して、処理される。他の場合、画像は、単一チャネルとして処理され得る。

種々の例では、物体検出および分類システムの訓練は、単または多段階プロセスのいずれかを使用して、達成されることができる。いくつかの例では、システムは、確率的勾配降下法および逆伝搬を使用して、訓練される。例えば、初期開始パラメータの組が、識別され、それは、訓練画像を使用してさらに精緻化され、反復プロセスにおいて訓練された提案を用いて畳み込み特徴マップを出力する。

種々の例では、物体検出および分類システムは、逆伝搬を使用する単段階プロセスを使用して、訓練される。そのような例では、機械学習モジュールは、開始パラメータで、初期処理モジュールと、物体提案モジュールと、物体分類モジュールとを初期化し得る。初期化後、機械学習モジュールは、初期処理モジュールと、物体提案モジュールと、物体分類モジュールとを通して、訓練画像を処理することができる。逆伝搬を使用して、機械学習モジュールは、訓練画像に対応するデータに基づいて、出力提案、分類、および信頼スコアを記録することができる。機械学習モジュールは、出力物体分類および信頼スコアの正確度を改良するために、初期処理モジュール、物体提案モジュール、および物体分類モジュールにおけるパラメータを訓練することができる。種々の例では、機械学習プロセスは、初期設定において、システムを訓練することができる。他の例では、機械学習プロセスは、例えば、規定された時間に、毎週、または毎月、または新しいデータの量（例えば、新しい画像）が閾値に到達するとき等、周期的にシステムを訓練することができる。例えば、新しい画像は、エッジデバイスから経時的に（集中型クラウドベースのシステムに接続される間、持続的に、またはそのような接続および／または必須の帯域幅が利用可能であるとき、非同期的に）読み出され得る。いくつかの例では、機械学習プロセスは、ユーザによって手動で収集されると、続いて訓練するために更新された画像を受信する。いくつかの事例では、収集ルールは、ユーザによって定義されるか、またはシステム自体を用いて提供されるか、またはさらに他の場合、ユーザ定義の目標に基づいて自動的に発生させられ得る。例えば、ユーザは、特定の物体タイプが他よりもより着目度が高いことを決定し得、従って、システムがそのような物体を認識すると、それらの画像は、さらなる訓練反復のために収集され、使用される一方、他の画像は、無視またはより少ない頻度で収集され得る。

いずれかの事例では、画像の後続処理は、チャネル毎ベース（一度に単一チャネル）で生じる。したがって、複数のチャネルとしてモデル化された画像は、単一チャネルに変換される。一実施形態では、ピクセル群内の最小ピクセル値と最大ピクセル値との間のランダム数が、変換のための基本として選択され、使用される。

図１は、上で説明される訓練データセットを使用して訓練された複数のニューラルネットワークを使用して、着目ゾーンおよびその中に位置する着目物体を検出する例示的方法１００に関するワークフロー図を図示する。方法１００は、１０２において、画像データを受信することを含む。１０２で受信される画像データは、広い種類のフォーマットにおけるものであり得る。画像データフォーマットは、限定ではないが、ラスタフォーマット（例えば、ＪＰＥＧ、Ｅｘｉｆ、ＴＩＦＦ、ＧＩＦ、ＢＭＰ等）、ベクトルフォーマット（例えば、ＣＧＭ、ＳＶＧ、ＤＸＦ等）、それらの組み合わせ、または任意の他の画像データフォーマットを含み得る。画像データが受信されるフォーマットは、そのようなデータを生成および伝送するデバイスまたは装置に依存し得る。いくつかの実施形態によると、カメラが、各ピクセルに関する個々のピクセル値を伴うＪＰＥＧフォーマットで画像データを生成し得る。ピクセル値は、赤色、緑色、および青色等の色空間、または輝度およびクロミナンス、（例えば、ＹＵＶ）値におけるものであり得、ある場合、深度（「Ｄ」）値を含み得る。他の実施形態によると、カメラが、ベクターグラフィック形状、ビットマップ画像、およびテキスト等の個々のＸＭＬ要素を伴うＳＶＧフォーマットで画像データを生成し得る。

方法１００は、１０４において、画像データを値マップにダウンサンプリングすることを含む。画像データをダウンサンプリングすることは、２つ以上のピクセルをピクセル群にグループ化することを含み得る。ダウンサンプリングすることは、最適群サイズ、形状、または両方を決定することを含み得る。例えば、２４ピクセルの４×６エリアは、組み合わせられ、単一ピクセル群として分析され得る。ピクセル群は、ピクセルの群に関連付けられた２つ以上のピクセルの各々のピクセル値に基づいて、ピクセル群値を割り当てられ得る。一実施形態によると、２つ以上のピクセルの各々は、赤色、緑色、および青色等のピクセル値を含み得る。種々の実施形態によると、他のピクセル値は、ＹＵＶ（例えば、輝度値、青色投影値、赤色投影値）、ＣＭＹＫ（例えば、シアン値、マゼンタ色値、黄色値、黒色値）、多色チャネル、ハイパースペクトルチャネル、または電磁放射をデジタルで記録すること、またはデジタル画像を組み立てることに関連付けられた任意の他のデータを含み得る。ある場合、各ピクセル群の値は、ピクセル群に関連付けられた複数のピクセル値のうちのピクセル値を決定することによって、決定される。他の事例では、ピクセル群値は、平均ピクセル値、またはいくつかの他の閾値（例えば、最大ピクセル値のあるパーセンテージ）に基づいて、決定され得る。値は、ＲＧＢ、ＹＵＶ、または他のチャネル等の画像データチャネルの要約として決定され得る。要約変換は、例えば、各ピクセル群に関連付けられる値の平均、最大、調和平均、または他の数学的要約であり得る。値マップが、次いで、１つ以上のピクセル群値の組み合わせに基づいて、発生させられる。

方法１００は、１０６において、確率ヒートマップを決定するために、第１のニューラルネットワークを使用して値マップを処理することを含む。確率ヒートマップは、段階的な値の群を含む。段階的な値は、それぞれのピクセル群が着目物体の表現を含む確率を示す。

方法１００は、１０８において、段階的な値のどの群が決定された確率閾値を満たすかを検出することをさらに含む。種々の実施形態によると、決定された確率閾値は、多数の方法で、計算され、さらに決定され得る。いくつかの実施形態によると、決定された確率閾値は、ユーザによって、事前決定され得る。さらなる実施形態によると、決定された確率閾値は、プログラムで動的に決定され得る。決定された閾値を動的に決定することは、種々のサブルーチン機能、事前決定ルール、または統計的アルゴリズムを含み得る。例えば、動的決定は、多くのものの中でもとりわけ、特定の画像またはデータセットに関する決定された確率閾値を決定するために、補間、平滑化、回帰分析、外挿等の曲線適合統計分析を使用することを含み得る。

いくつかの実施形態によると、段階的な値は、０～１または０～１００を含む種々の範囲を含み得る。段階的な値は、それぞれのピクセル群が着目物体の表現を含む確率を示し得る。事前に決定された確率閾値を満たす段階的な値の群は、いくつかの実施形態によると、着目ゾーンとして識別される。例えば、事前に決定された確率閾値が、０．５に設定される場合、０．５（例えば、０．５～１．０）以上の段階的な値の群は、着目ゾーンとして識別されるであろう。

方法１００は、１１０において、確率ヒートマップから検出された着目ゾーンに基づいて、元の画像を切り取ることおよび／または再スケーリングすることをさらに含む。元の画像を切り取ることおよび再スケーリングすることは、着目ゾーンの表現を１つの代表データセットに組み合わせることを含み得る。いくつかの実施形態によると、着目ゾーンの表現は、着目ゾーンが識別された受信された画像データの区分を含み得る。１１０の切り取り手順は、いくつかの実施形態によると、着目ゾーンとして識別されていない画像データの区分を排除する。いくつかの実施形態によると、１１０のスケーリング手順は、最初に受信した画像データからデータをフェッチし、フェッチされたデータは、着目ゾーンを表す。１１０の切り取りおよびスケーリング手順は、いくつかの実施形態によると、第２のニューラルネットワークへの入力として使用されるべき着目ゾーンによって識別されたデータを調製するために、事前に処理する手順を含み得る。

さらに依然として、方法１００は、いくつかの実施形態によると、１１２において、第２のニューラルネットワークを使用して、着目ゾーンを処理し、その中の着目物体を検出することを含む。着目物体は、いくつかの実施形態によると、持続機械学習プロセスによって動的に定義され、そのような機械学習データの用途によって識別され得る。他の実施形態は、事前に決定された特性および／または外部エンティティによって割り当てられる分類を使用して、着目物体を定義し得る。第２のニューラルネットワークは、入力として、着目ゾーン内の画像データを受信する。いくつかの実施形態によると、画像データは、最初に受信した画像データのダウンスケーリングされた表現、または最初に受信した画像データ自体、または最初に受信した画像の着目領域のダウンスケーリングされた表現を組み合わせるモザイクを含み得る。第２のニューラルネットワークは、いくつかの実施形態によると、着目物体の表現を出力として生成する。着目物体の表現は、以下のうちの１つ以上のものを含み得る：各着目物体に関する分類、最初に受信した画像データ内の各着目物体の場所を示す座標。

いくつかの実施形態によると、方法１００は、手順が終了するまで、持続的に繰り返され得る。例えば、方法１００は、システムに利用可能にされる全ての新しい画像データセットに関して繰り返され得る。方法１００は、当業者によって理解されるように、他の標準的領域提案ネットワーク（ＲＰＮ）に優る多くの利点を提供する。本開示は、学習ニューラルネットワークの使用を提供する。いくつかの実施形態によると、ニューラルネットワークは、入力データセットに応じて、わずか３つ、および７つもの数の層を含み得る。原型的実施形態では、本明細書に説明されるようなニューラルネットワークの実装は、現在の当技術分野におけるものと同数の境界ボックスハイパーパラメータ設定を要求しない。境界ボックスハイパーパラメータ設定を実装するのではなく、ニューラルネットワークのうちの１つ以上のものは、いくつかの実施形態によると、着目ゾーンおよび／または着目物体の場所を決定するために、ピクセル値を使用する。ピクセル値は、関連付けられたピクセルが着目物体の少なくともの一部を備えている確率を表すために使用され得る。本開示によって提供される効率は、現在の技術に優る多くの利点を提供する。

図２は、現在の技術２００のワークフロー画像略図を図示する。現在の技術は、２０２において、画像を受信する。画像を受信後、ピクセルは、２０４において、ピクセルの種々のチャンクの中に集められた。これらのチャンクは、次いで、２０６において、物体検出ニューラルネットワークの中にフィードされ、「総当たり攻撃」様式で処理される。物体検出ニューラルネットワークは、２０８において、総当たり攻撃を用いて、出力データを生成する。出力データは、２１０において、人間観察可能な出力を作成するために、元の画像データと再結合されることも、されないこともある。そのような分析の計算複雑性が、グレースケール変換、ガウス２項式ＬＰＦ、およびバイキュービック法の計算複雑性の和に等しいことは、現在の技術において周知である。

図３は、例示的実施形態による、着目ゾーンおよびその中に位置する物体を検出するための例示的方法３００のワークフロー図を図示する。方法３００は、いくつかの実施形態によると、既存のワークフローの中に容易に挿入され得る。方法３００は、３０２において、システムが画像データを受信することを提供し、画像データは、ピクセルを含む。受信された画像データのピクセルは、３０４において、ダウンサンプリングされ、値マップを生成し得る。値マップは、次いで、３０６において、ニューラルネットワークによって分析され、３０８において、出力データを生成する。出力データは、３１０に示されるように、着目物体の表現を生成するために、元の画像データ（例えば、３０２）と再結合されることも、されないこともある。図３によって提供されるような方法３００は、着目物体を含まない画像を破棄するために、着目物体を伴わない画像を識別するために使用され得る。着目物体を含まない画像を排除することによって、方法３００は、着目物体を含むかどうかについて、一つ一つの画像の分析の算出負荷を低減させる。算出負荷を低減させることによって、方法３００は、システム間で伝送されるデータのサイズも低減させ、データ分析を実施するために要求される帯域幅を大きく低減させる。さらになお、方法３００は、いくつかの実施形態によると、広い種類のネットワークにわたって、ネットワーク効率を改良する。

図４は、例示的実施形態による、着目ゾーンおよびその中に位置する物体を検出するための、例示的方法４００のワークフロー図を図示する。方法４００は、４０２において、システムが画像データを受信することを提供し、画像データは、ピクセルを含む。受信した画像データのピクセルは、４０４において、値マップを生成するためにダウンサンプリングされ得る。値マップは、次いで、確率ヒートマップを生成するために、第１のニューラルネットワークによって分析され、それは、次いで、４０６において、着目ゾーンを決定するために、確率閾値によってフィルタリングされる。４０８において、着目ゾーンは、着目ゾーンを含む画像ファイルを作成するために、受信した画像データ（例えば、４０２）と組み合わせられ、事前に決定された確率閾値を満たさないゾーンを除外し得る。いくつかの実施形態によると、画像ファイルは、完全分解能画像、スケーリングされた画像、または両方の組み合わせを含み得る。画像ファイルは、４１０において、第２のニューラルネットワークによって分析され得、それは、４１２において、出力データを生成する。出力データは、完全分解能（例えば、４０２）において、または４１４に示されるように、着目物体の表現を生成するために、それがダウンサンプリングされた後、受信した画像データと再結合されることも、されないこともある。

方法３００と同様に、図４によって提供されるような方法４００は、着目物体を含まない画像を破棄するために、着目物体を伴わない画像を識別するために使用され得る。いくつかの実施形態によると、方法４００は、完全分解能において着目ゾーンを伝送するが、組み合わせられた出力画像の残りは、ダウンサンプリングされる。完全分解能において着目ゾーンを伝送することに加え、方法４００は、伝送後に処理される画像を再構築するために、着目ゾーンに関連付けられた座標およびタイムスタンプも伝送する。

図５は、例示的実施形態による、着目ゾーンおよびその中に位置する物体を検出するための例示的方法５００のワークフロー図を図示する。方法５００は、５０２において、システムが画像データを受信することを提供し、画像データは、ピクセルを含む。受信した画像データのピクセルは、５０４において、値マップを生成するために、ダウンサンプリングされ得る。値マップは、確率ヒートマップを生成するために第１のニューラルネットワークによって分析され、それは、５０６において、着目ゾーンを決定するために、確率閾値によってフィルタリングされる。５０８において、着目ゾーンは、５１０において、出力データを生成するために、第２のニューラルネットワークによって分析され得る。出力データは、完全分解能（例えば、５０２）において、または５１２に示されるように、着目物体の表現を生成するためにダウンサンプリングされた後、受信した画像データと再結合されることも、そうではないこともある。

いくつかの実施形態によると、方法５００は、方法３００および４００に類似する利点（例えば、着目物体を伴わない画像を破棄すること、完全分解能において着目ゾーンのみを伝送すること等）を提供し得る。方法５００は、個々の着目ゾーンを分析することのみを行うニューラルネットワークアーキテクチャをさらに提供する。したがって、グレースケール変換、ガウス２項式ＬＰＦ、および単純サンプリング技法に関するバイキュービック法の計算複雑性の和を実行するのではなく、方法５００が、単一動作でそのダウンサンプリング技法を実行する。いくつかの実施形態によると、方法３００および４００も、単一動作でそのそれぞれのダウンサンプリング技法を実行し得る。

図６は、第１のニューラルネットワーク６００の例示的実施形態を図示する。第１のニューラルネットワーク６００が、入力データを受信する前、画像データ６０２は、図６に示されるように、値マップ６０４にダウンサンプリングされる。いくつかの実施形態によると、値マップ６０４は、複数のピクセル群値を含む。例えば、ピクセル群値１、ピクセル群値２、およびピクセル群値３が、初期入力値６０６において、第１のニューラルネットワーク６００によって受信される。いくつかの実施形態によると、第１のニューラルネットワーク６００は、人工ニューロンの３～７つのネットワーク層を含む。例えば、第１のニューラルネットワーク６００は、図６に示されるように、４つの層、すなわち、入力層６０８と、隠れ層６１０および６１２と、出力層６１４とを含む。第１のニューラルネットワーク６００は、最終出力値６１６を生成する。いくつかの実施形態によると、最終出力値６１６は、図６に示されるように、段階的な値１および段階的な値２等の、段階的な値の群を含み得る。最終出力値６１６は、いくつかの実施形態によると、確率ヒートマップ６１８を生成するために、処理され、組み合わせられ、または別様に、改変され得る。

図７は、第２のニューラルネットワーク７００の例示的実施形態を図示する。第２のニューラルネットワーク７００が、入力データを受信する前、段階的な値７０２が、確率ヒートマップから取得され得る。いくつかの実施形態によると、段階的な値７０２は、図７に示されるように、１つ以上の着目ゾーン７０４を生成するように、処理され、フィルタリングされ、または別様に、改変され得る。いくつかの実施形態によると、着目ゾーン７０４の各々は、初期入力値７０６として別個に提供され得る。例えば、着目ゾーン１、着目ゾーン２、および着目ゾーン３が、初期入力値７０６において、第２のニューラルネットワーク７００によって受信される。いくつかの実施形態によると、第２のニューラルネットワーク７００は、人工ニューロンの３～７つのネットワーク層を含む。例えば、第２のニューラルネットワーク７００は、図７に示されるように、４つの層、すなわち、入力層７０８と、隠れ層７１０および７１２と、出力層７１４とを含む。第２のニューラルネットワーク７００は、最終出力値７１６を生成する。いくつかの実施形態によると、最終出力値７１６は、図７に示されるように、着目物体１および着目物体２等の、着目物体を含み得る。最終出力値７１６は、いくつかの実施形態によると、着目物体７１８の表現を生成するように、処理され、組み合わせられ、または別様に、改変され得る。

上で説明される方法を使用して、本発明の実施形態は、種々の構成配置で展開されることができる。１つの特定の実施形態では、画像収集および物体検出は、集中型ホストサービス上で導出および増強され、続いて、実行のためにエッジデバイスに配布されるドメイン特有モデルを採用する。例えば、「スマート」カメラおよび他のモノのインターネットデバイスは、製造中または初期化時、１つ以上のモデルを事前に投入されことができる。これらのデバイスは、初期データ収集、データサイエンス、モデル訓練、モデル評価および試験、無線モデル展開およびエッジデバイスへの更新、およびデバイス健康の監視等の機能を提供するクラウドベースのプラットフォーム（ＡＰＩ、ウェブサービスを介して、または他の手段）に周期的に接続され得る。しかしながら、デバイスは、モデルおよび処理命令が、デバイス自体上で実行され得るので、クラウドサービスを動作させるために接続されたままである必要はない。いくつかの事例では、特定の検出事象が、必要に応じてのみオンラインになるように、より高度の機能をトリガし、したがって、常時接続の用途のために電力を節約し、バッテリ寿命を延長させることができる。このアプローチは、特定の着目エリア（例えば、第１のネットワークプロセスを使用して識別されたピクセル群）にその注意を「選択的に」当て、次いで、物体を具体的に識別するためにのみ、高次機能と後続ネットワークとを係合し、電力制約エッジデバイス上の低電力引き込み量（例えば、１００マイクロジュール未満／推論）を可能にする。

デバイスが、クラウドサービスに再接続されると、追加の画像が、訓練データのライブラリに追加され、種々のモデルをさらに改良するために使用されることができ、それらは、次に、全てのデバイス、またはいくつかの事例では、特定のモデルを使用する、または特定のドメインで動作するそれらのデバイスのみにわたって、再展開されることができる。

本主題の実施形態および本明細書に説明される動作は、本明細書に開示される構造およびその構造的等を含むデジタル電子回路において、またはコンピュータソフトウェア、ファームウェア、またはハードウェアにおいて、またはそれらのうちの１つ以上のものの組み合わせにおいて実装されることができる。本明細書に説明される主題の実施形態は、１つ以上のコンピュータプログラム、すなわち、データ処理装置による実行のために、またはその動作を制御するためにコンピュータ記憶媒体上でエンコードされるコンピュータプログラム命令の１つ以上のモジュールとして実装されることができる。代替として、または加えて、プログラム命令は、データ処理装置による実行のための好適な受信機装置への伝送のための情報をエンコードするために生成される人為的に生成された伝搬信号、例えば、マシンが生成した電気、光学、または電磁信号上でエンコードされることができる。コンピュータ記憶媒体は、コンピュータ読み取り可能な記憶デバイス、コンピュータ読み取り可能な記憶基板、ランダムまたはシリアルアクセスメモリアレイまたはデバイス、またはそれらのうちの１つ以上のものの組み合わせである、またはその中に含まれることができる。さらに、コンピュータ記憶媒体は、伝搬信号ではないが、コンピュータ記憶媒体は、人為的に生成された伝搬信号内でエンコードされる、コンピュータプログラム命令のソースまたは宛先であり得る。コンピュータ記憶媒体はまた、１つ以上の別個の物理的コンポーネントまたは媒体（例えば、複数のＣＤ、ディスク、または他の記憶デバイス）である、またはその中に含まれることができる。

本明細書に説明される動作は、１つ以上のコンピュータ読み取り可能な記憶デバイス上に記憶される、または他のソースから受信されるデータに対して、データ処理装置によって実施される動作として実装されることができる。

用語「データ処理装置」は、例として、プログラマブルプロセッサ、コンピュータ、チップ上のシステム、または前述のものの複数のものまたは組み合わせを含む、データを処理するための全ての種類の装置、デバイス、およびマシンを包含する。装置は、専用論理回路、例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）を含むことができる。装置は、ハードウェアに加えて、当該コンピュータプログラムのための実行環境を作成するコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、クロスプラットフォームランタイム環境、仮想マシン、またはそれらのうちの１つ以上のものの組み合わせを構成するコードも含むことができる。装置および実行環境は、ウェブサービス、分散コンピューティング、およびグリッドコンピューティングインフラストラクチャ等の種々の異なるコンピューティングモデルインフラストラクチャを実現することができる。

コンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、またはコードとしても公知である）が、コンパイラ型またはインタープリタ型言語、宣言型、手続型、または関数型言語を含む、任意の形態のプログラミング言語において書き込まれることができ、それは、独立型プログラムとして、またはモジュール、コンポーネント、サブルーチン、オブジェクト、またはコンピューティング環境における使用のために好適な他のユニットとして含まれる任意の形態において展開されることができる。コンピュータプログラムは、必要ではないが、ファイルシステム内のファイルに対応し得る。プログラムは、当該プログラム専用である単一ファイル内に、または複数の連携ファイル（例えば、１つ以上のモジュール、サブプログラム、またはコードの一部を記憶するファイル）内に、他のプログラムまたはデータ（例えば、マークアップ言語リソース内に記憶される１つ以上のスクリプト）を保持するファイルの一部内に記憶されることができる。コンピュータプログラムは、１つのコンピュータ上で、または１つの場所に位置する、または複数の場所にわたって分散され、通信ネットワークによって相互接続される、複数のコンピュータ上で実行されるように展開されることができる。

本明細書に説明されるプロセスおよび論理フローは、入力データ上で動作し、出力を生成することによってアクションを実施する１つ以上のコンピュータプログラムを実行する１つ以上のプログラマブルプロセッサによって実施されることができる。本プロセスおよび論理フローは、専用論理回路、例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）、非フォンノイマンアーキテクチャ、神経形態学的チップ、および深層学習チップによって実施されることもでき、装置は、そのようなものとしても実装されることができる。

コンピュータプログラムの実行のために好適なプロセッサは、例として、汎用および専用マイクロプロセッサの両方と、任意の種類のデジタルコンピュータの任意の１つ以上のプロセッサとを含む。概して、プロセッサは、読み取り専用メモリまたはランダムアクセスメモリまたは両方から、命令およびデータを受信するであろう。コンピュータの不可欠な要素は、命令に従ってアクションを実施するためのプロセッサおよび命令およびデータを記憶するための１つ以上のメモリデバイスである。概して、コンピュータはまた、データを記憶するための１つ以上の大容量記憶デバイス、例えば、磁気ディスク、光磁気ディスク、光ディスク、またはソリッドステートドライブを含む、またはそれらからデータを受信する、またはそれらにデータを転送する、またはその両方を行うように動作可能に結合されるであろう。しかしながら、コンピュータは、そのようなデバイスを有する必要はない。さらに、コンピュータは、別のデバイス、例えば、いくつか例を挙げると、スマートフォン、モバイルオーディオまたはビデオプレーヤ、ゲームコンソール、全地球測位システム（ＧＰＳ）受信機、またはポータブル記憶デバイス（例えば、ユニバーサルシリアルバス（ＵＳＢ）フラッシュドライブ）内に内蔵されることができる。コンピュータプログラム命令およびデータを記憶するために好適なデバイスは、例として、半導体メモリデバイス、例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、およびフラッシュメモリデバイス、磁気ディスク、例えば、内蔵ハードディスクまたは可撤性ディスク、光磁気ディスク、およびＣＤ－ＲＯＭおよびＤＶＤ－ＲＯＭディスクを含む、全ての形態の不揮発性メモリ、媒体、およびメモリデバイスを含む。プロセッサおよびメモリは、専用論理回路によって補完される、またはその中に組み込まれることができる。

１つ以上のコンピュータのシステムは、動作時にシステムにアクションを実施させるシステム上にインストールされる、ソフトウェア、ファームウェア、ハードウェア、またはそれらの組み合わせを有することによって、特定の動作またはアクションを実施するように構成されることができる。１つ以上のコンピュータプログラムは、データ処理装置によって実行されると、装置にアクションを実施させる命令を含むことによって、特定の動作またはアクションを実施するように構成されることができる。

本明細書は、多くの具体的実装詳細を含むが、これらは、任意の発明または請求され得るものの範囲に対する限定として解釈されるべきではなく、むしろ、特定の発明の特定の実施形態に特有の特徴の説明として解釈されるべきである。別個の実施形態のコンテキストにおいて本明細書に説明されるある特徴は、単一の実施形態における組み合わせにおいて実装されることもできる。逆に、単一の実施形態のコンテキストにおいて説明される種々の特徴は、複数の実装において別個に、または任意の好適な副次的組み合わせにおいて実装されることもできる。さらに、特徴がある組み合わせにおいて作用するものとして上で説明され、さらに、そのようなものとして最初に請求され得るが、請求される組み合わせからの１つ以上の特徴は、ある場合、組み合わせから削除されることができ、請求される組み合わせは、副次的組み合わせまたは副次的組み合わせの変形例も対象とし得る。

同様に、動作が特定の順序において図面に描写されているが、それは、望ましい結果を達成するために、そのような動作が示される特定の順序において、または連続的順序において実施されること、または全ての例証される動作が実施されることを要求するものとして理解されるべきではない。ある状況では、マルチタスクおよび並列処理が、有利であり得る。さらに、上で説明される実施形態における種々のシステムコンポーネントの分離は、全ての実施形態においてそのような分離を要求するものとして理解されるべきではなく、説明されるプログラムコンポーネントおよびシステムは、概して、単一のソフトウェア製品においてともに統合されること、または複数のソフトウェア製品にパッケージ化され得ることを理解されたい。

したがって、本主題の特定の実施形態が、説明されている。他の実施形態も、以下の請求項の範囲内である。ある場合、請求項に記載されるアクションは、異なる順序で実施され、依然として、望ましい結果を達成することができる。加えて、付随する図面に描写されるプロセスは、望ましい結果を達成するために、示される特定の順序、または連続的順序を必ずしも要求するわけではない。ある実装では、マルチタスクおよび並列処理が、有利であり得る。

Claims

画像内の着目ゾーンを決定する方法であって、前記方法は、
コンピュータプロセッサによって、画像データを受信することであって、前記画像データは、複数のピクセル群を備え、各ピクセル群は、最小着目ゾーン内のピクセルの数が潜在的着目ゾーン内の最小サンプルと最大サンプルとの間にあるように、それらの間に平均距離を備えている、ことと、
前記コンピュータプロセッサによって、前記複数のピクセル群のうちの少なくとも１つ以上のもののピクセルに関するピクセル値を決定するように、前記複数のピクセル群を処理することであって、前記ピクセル値は、各ピクセルに関する複数のピクセル値の比較から決定される、ことと、
前記コンピュータプロセッサによって、前記複数のピクセル群のうちの前記少なくとも１つ以上のものの各々に関するピクセル群値を決定することであって、前記ピクセル群値は、前記それぞれのピクセル群に関連付けられた前記ピクセルの前記ピクセル値に基づく、ことと、
前記コンピュータプロセッサによって、第１のニューラルネットワークを用いて、ヒートマップを前記複数の最大ピクセル群値から決定することであって、
前記第１のニューラルネットワークは、少なくとも１つのピクセル群値を入力として受信し、段階的な値の群を備えている確率ヒートマップを出力として生成し、
前記段階的な値は、前記それぞれのピクセル群が着目物体の表現を含む確率を示す、
ことと、
前記コンピュータプロセッサによって、前記段階的な値の群が決定された確率閾値を満たすかどうかに基づいて、少なくとも１つの着目ゾーンを決定することと、
前記コンピュータプロセッサによって、第２のニューラルネットワークを用いて、前記少なくとも１つの着目ゾーン内の着目物体を決定することと
を含み、
前記第２のニューラルネットワークは、前記少なくとも１つの着目ゾーンを入力として受信し、前記着目物体の表現を出力として生成し、
前記着目物体の表現は、少なくとも各着目物体の分類と前記受信した画像データ内のその着目物体の場所とを備えている、方法。
前記第２のニューラルネットワークは、前記第１のニューラルネットワークと同じである、請求項１に記載の方法。
前記ピクセル群値は、前記それぞれのピクセル群に関連付けられた要約ピクセル値を備えている、請求項１に記載の方法。
前記要約ピクセル値は、各ピクセル値の平均、最小、最大、および調和平均のうちの１つを備えている、請求項３に記載の方法。
前記処理は、ピクセル群の各ピクセルに関する前記複数のピクセル値に数学的変換を実施しない、請求項１に記載の方法。
前記着目ゾーン内の前記最小サンプルは、幅において少なくとも４つのピクセル、高さにおいて４つのピクセルにおけるものである、請求項１に記載の方法。
前記着目ゾーン内の前記最大サンプルは、幅または高さにおいて１８ピクセル以下におけるものである、請求項１に記載の方法。
前記決定された確率閾値は、事前に決定されているか、または実行時に動的に決定される、請求項１に記載の方法。
前記第１および第２のニューラルネットワークは、完全畳み込みネットワーク（ＦＣＮ）である、請求項１に記載の方法。
前記第１のニューラルネットワークは、最小で３層、最大で７層を備えている完全畳み込み多層ネットワーク（ＦＣＮ）である、請求項９に記載の方法。
前記第１のニューラルネットワークの複数の層のいずれも、完全に接続されていない、請求項１０に記載の方法。
画像内の着目ゾーンを識別するためのシステムであって、前記システムは、
受信した画像データを記憶するための非一過性コンピュータ読み取り可能な媒体と、
プロセッサと
を備え、
前記プロセッサは、
画像データを受信することであって、前記画像データは、複数のピクセル群を備え、各ピクセル群は、最小着目ゾーン内のピクセルの数が潜在的着目ゾーン内の最小サンプルと最大サンプルとの間にあるように、それらの間に平均距離を備えている、ことと、
前記複数のピクセル群のうちの少なくとも１つ以上のもののうちのピクセルの一部に関するピクセル値を決定するように、前記複数のピクセル群を処理することであって、前記ピクセル値は、各ピクセルに関する複数のピクセル値の比較から決定される、ことと、
前記複数のピクセル群のうちの前記少なくとも１つ以上のものの各々に関するピクセル群値を決定することであって、前記ピクセル群値は、前記それぞれのピクセル群に関連付けられた前記ピクセルの前記ピクセル値に基づく、ことと、
第１のニューラルネットワークを用いて、確率ヒートマップを前記複数の最大ピクセル群値から決定することであって、
前記第１のニューラルネットワークは、少なくとも１つのピクセル群値を入力として受信し、段階的な値の群を備えている確率ヒートマップを出力として生成し、
前記段階的な値は、前記それぞれのピクセル群が着目物体の表現を含む確率を示す、
ことと、
前記段階的な値の群が決定された確率閾値を満たすかどうかに基づいて、少なくとも１つの着目ゾーンを決定することと、
第２のニューラルネットワークを用いて、前記少なくとも１つの着目ゾーン内の着目物体を決定することと
を含む動作を実施するように構成され、
前記第２のニューラルネットワークは、前記少なくとも１つの着目ゾーンを入力として受信し、前記着目物体の表現を出力として生成し、
前記着目物体の表現は、少なくとも各着目物体の分類と前記受信した画像データ内のその着目物体の場所とを備えている、システム。
前記第２のニューラルネットワークは、前記第１のニューラルネットワークと同じネットワークである、請求項１２に記載のシステム。
前記ピクセル群値は、前記それぞれのピクセル群に関連付けられた前記ピクセルの要約ピクセル値を備えている、請求項１２に記載のシステム。
前記要約ピクセル値は、各ピクセル値の平均、最小、最大、および調和平均のうちの１つを備えている、請求項１４に記載のシステム。
前記処理は、ピクセル群の各ピクセルに関する前記複数のピクセル値に数学的変換を実施しない、請求項１２に記載のシステム。
前記着目ゾーン内の前記最小サンプルは、少なくとも４つのピクセルにおけるものである、請求項１２に記載のシステム。
前記着目ゾーン内の前記最大サンプルは、１８ピクセル以下におけるものである、請求項１２に記載のシステム。
前記決定された確率閾値は、事前に決定されているか、または実行時に動的に決定される、請求項１２に記載のシステム。
前記第１および第２のニューラルネットワークは、完全畳み込みネットワーク（ＦＣＮ）である、請求項１２に記載のシステム。
前記第１のニューラルネットワークは、最小で３層、最大で７層を備えている完全畳み込み多層ネットワーク（ＦＣＮ）である、請求項２０に記載のシステム。
前記第１のニューラルネットワークの前記複数の層のいずれも、完全に接続されていない、請求項２１に記載のシステム。
非一過性コンピュータ読み取り可能な媒体であって、前記媒体は、その上に記憶された命令を備え、前記命令は、画像内の着目ゾーンを識別する方法を実施するようにマイクロプロセッサによって実行可能であり、前記方法は、
画像データを受信することであって、前記画像データは、複数のピクセル群を備え、各ピクセル群は、最小着目ゾーン内のピクセルの数が潜在的着目ゾーン内の最小サンプルと最大サンプルとの間にあるように、それらの間に平均距離を備えている、ことと、
前記複数のピクセル群のうちの少なくとも１つ以上のもののうちのピクセルの一部に関するピクセル値を決定するように、前記複数のピクセル群を処理することであって、前記ピクセル値は、各ピクセルに関する複数のピクセル値の比較から決定される、ことと、
前記複数のピクセル群のうちの前記少なくとも１つ以上のものの各々に関するピクセル群値を決定することであって、前記ピクセル群値は、前記それぞれのピクセル群に関連付けられた前記ピクセルの前記ピクセル値に基づく、ことと、
第１のニューラルネットワークを用いて、確率ヒートマップを前記複数の最大ピクセル群値から決定することであって、
前記第１のニューラルネットワークは、少なくとも１つのピクセル群値を入力として受信し、段階的な値の群を備えている確率ヒートマップを出力として生成し、
前記段階的な値は、前記それぞれのピクセル群が着目物体の表現を含む確率を示す、
ことと、
前記段階的な値の群が決定された確率閾値を満たすかどうかに基づいて、少なくとも１つの着目ゾーンを決定することと、
第２のニューラルネットワークを用いて、前記少なくとも１つの着目ゾーン内の着目物体を決定することと
を含み、
前記第２のニューラルネットワークは、前記少なくとも１つの着目ゾーンを入力として受信し、前記着目物体の表現を出力として生成し、
前記着目物体の表現は、少なくとも各着目物体の分類と前記受信した画像データ内のその着目物体の場所とを備えている、非一過性コンピュータ読み取り可能な媒体。
前記第２のニューラルネットワークは、前記第１のニューラルネットワークと同じネットワークである、請求項２３に記載の非一過性コンピュータ読み取り可能な媒体。
前記ピクセル群値は、前記それぞれのピクセル群に関連付けられた前記ピクセルの要約ピクセル値を備えている、請求項２４に記載の非一過性コンピュータ読み取り可能な媒体。
前記要約ピクセル群値は、各ピクセル値の平均、最小、最大、および調和平均のうちの１つを備えている、請求項２３に記載の非一過性コンピュータ読み取り可能な媒体。
前記処理は、ピクセル群の各ピクセルに関する前記複数のピクセル値に数学的変換を実施しない、請求項２３に記載の非一過性コンピュータ読み取り可能な媒体。
前記着目ゾーン内の前記最小サンプルは、少なくとも４つのピクセルにおけるものである、請求項２３に記載の非一過性コンピュータ読み取り可能な媒体。
前記着目ゾーン内の前記最大サンプルは、１８ピクセル以下におけるものである、請求項２３に記載の非一過性コンピュータ読み取り可能な媒体。
前記決定された確率閾値は、事前に決定されているか、または実行時に動的に決定される、請求項２３に記載の非一過性コンピュータ読み取り可能な媒体。
前記第１および第２のニューラルネットワークは、完全畳み込みネットワーク（ＦＣＮ）である、請求項２３に記載の非一過性コンピュータ読み取り可能な媒体。
前記第１のニューラルネットワークは、最小で３層、最大で７層を備えている、完全畳み込みネットワーク（ＦＣＮ）である、請求項３１に記載の非一過性コンピュータ読み取り可能な媒体。
前記第１のニューラルネットワークの複数の層のいずれも、完全に接続されていない、請求項３２に記載の非一過性コンピュータ読み取り可能な媒体。