JP2023507248A - 物体検出および認識のためのシステムおよび方法 - Google Patents
物体検出および認識のためのシステムおよび方法 Download PDFInfo
- Publication number
- JP2023507248A JP2023507248A JP2022529441A JP2022529441A JP2023507248A JP 2023507248 A JP2023507248 A JP 2023507248A JP 2022529441 A JP2022529441 A JP 2022529441A JP 2022529441 A JP2022529441 A JP 2022529441A JP 2023507248 A JP2023507248 A JP 2023507248A
- Authority
- JP
- Japan
- Prior art keywords
- interest
- pixel
- pixels
- values
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30108—Industrial image inspection
- G06T2207/30156—Vehicle coating
Abstract
画像内の物体を表すピクセル群を識別するための技法は、各ピクセル群が着目ゾーンを表すようにグループ化された複数の群のピクセルを有する画像を使用することと、群内の各個々のピクセルに関するピクセル値の比較に基づいて、各ピクセル群内のピクセルに関するピクセル値を決定することとを含む。確率ヒートマップが、第1のニューラルネットワークを使用して、ピクセル群値から導出され、第1のニューラルネットワークは、入力としてピクセル群値を使用し、それぞれのピクセル群が着目物体を含む確率を示す段階的な値の組を有するヒートマップを生成する。着目ゾーンが、段階的な値の群が決定された確率閾値を満たすかどうかに基づいて、識別され、着目物体は、第2のニューラルネットワークを用いて少なくとも1つの着目ゾーン内で識別される。
Description
(関連出願の相互参照)
本願は、その開示全体が、参照することによって本明細書に組み込まれる2019年11月20日に出願された米国仮特許出願番号62/938,050号の優先権および利点を請求する。
本願は、その開示全体が、参照することによって本明細書に組み込まれる2019年11月20日に出願された米国仮特許出願番号62/938,050号の優先権および利点を請求する。
(技術分野)
以下の開示は、選択的画像認識のための方法およびシステムを対象とし、より具体的に、着目ゾーンおよびその中に位置する着目物体を選択的に識別することを対象とする。
以下の開示は、選択的画像認識のための方法およびシステムを対象とし、より具体的に、着目ゾーンおよびその中に位置する着目物体を選択的に識別することを対象とする。
知的システムの台頭とともに、読み出され、伝送され、さらに処理されているデータの量が、持続的に増大している。データ画像データを迅速かつ正確に取り込み、処理し、それに基づいて、決定を行う必要性は、ユーザ認証、自律車両コマンドおよび制御、および物理的セキュリティ等の産業で重大になっている。しかしながら、正確度(例えば、誤検出および検出漏れを回避する)と処理の速度との間の良好なバランスを達成することは、困難であり、多くの場合、ドメインに応じて、異なる決定を要求する。
現在の人工知的物体検出機構は、決定プロセスを加速させる試みにおいてニューラルネットワークを訓練するために、機械学習および大きな訓練データセットを使用する。これらのニューラルネットワークは、次いで、大きな訓練データセットと類似したドメイン内で入力データを処理するために使用され得る。ニューラルネットワークによって処理される入力データは、訓練データセットと同じぐらい正確な結果を生成し得るが、入力データからの結果は、訓練データセットが入力データを正確に反映する場合のみ、正確である。そのような複雑なニューラルネットワーク論理を入力データのより広い種類およびより大きいデータセットに適用することは、困難であることが証明され得る。したがって、ニューラルネットワークを使用するデータ処理のための方法およびシステムは、改良された実行効率から大幅に利益をもたらすであろう。
所望の正確度および速度を達成する一方、種々のエッジデバイスの電力使用制約を順守するために、本発明の側面は、2つ段階プロセスを使用し、ピクセルは、第1のニューラルネットワークおよび関連付けられる訓練データセットを使用して、グループ化および分析され、次いで、ある群が潜在的着目物であるとして識別されると、それらの群は、特定の物体を識別するために、第2のニューラルネットワークプロセス(異なる組の画像を使用して訓練され得る)を使用して、さらに検査される。
したがって、第1の側面では、本発明の実施形態は、少なくとも画像内の着目ゾーンを決定する方法を提供する。方法は、コンピュータプロセッサによって、複数のピクセル群を含む画像データを受信することを含み、各ピクセル群は、最小着目ゾーン内のピクセルの数が潜在的着目ゾーン内の最小サンプルと最大サンプルとの間にあるように、それらの間に平均距離を備えている。ピクセル値が、次いで、複数のピクセル群のピクセルに関して決定され、ピクセル値は、各ピクセルに関する複数のピクセル値の比較から決定される。ピクセル群値が、次いで、各ピクセル群に関して導出され、ピクセル群値は、それぞれのピクセル群に関連付けられたピクセルのピクセル値に基づく。
ヒートマップが、次いで、第1のニューラルネットワークを用いて、複数の最大ピクセル群値から作成され、第1のニューラルネットワークは、少なくとも1つのピクセル群値を入力として受信し、段階的な値の群を備えている確率ヒートマップを出力として生成し、それらは、それぞれのピクセル群が着目物体の表現を含む確率を示す。着目ゾーンが、段階的な値の群が決定された確率閾値を満たすかどうかに基づいて、識別され、着目物体は、次いで、(いくつかの事例では、第1のネットワークと同じネットワークであり得る)第2のニューラルネットワークを用いて、少なくとも1つの着目ゾーン内で識別され、第2のニューラルネットワークは、少なくとも1つの着目ゾーンを入力として受信し、着目物体の表現を出力として生成し、着目物体の表現は、少なくとも各着目物体の分類と、受信した画像データ内の物体の場所とを備えている。
いくつかの実施形態では、ピクセル群値は、それぞれのピクセル群に関連付けられたピクセルの種々のピクセル値を要約するピクセル値を備えている。ピクセル値は、例えば、RGB、YUV、またはその他等の画像データチャネルの要約等の各ピクセルの要約値に関連付けられ得る。要約変換は、例えば、各ピクセル群に関連付けられた値の平均、最大、調和平均、強度、または他の数学的要約であり得、数学的変換は、ピクセル群の各ピクセルに関するピクセル値を計算するために使用されることも、そうでないこともある。ピクセル群は、任意のサイズであり得るが、いくつかの事例では、群は、少なくとも幅において4つのピクセルおよび高さにおいて4つのピクセルにある。ある場合、幅および/または高さ寸法は、18個のピクセルで上限を定められ得る。いくつかの実装では、決定された確率閾値が、事前決定される一方、他の事例では、実行時に動的に決定される。
ニューラルネットワークの一方または両方は、完全畳み込みネットワーク(FCN)であり得、ある場合、第1のニューラルネットワークは、完全畳み込み多層ネットワーク(FCN)であり、それは最小の3つの層および最大の7つの層を備えている。ある場合、第1のニューラルネットワークの複数の層のいずれも、完全に接続されない。
別の側面では、本発明の実施形態は、受信した画像データを記憶するための非一過性コンピュータ読み取り可能な媒体と、実行されると、コンピュータプロセッサによって、複数のピクセル群を含む画像データを受信することを含む記憶された命令を実行するように構成されるプロセッサとを含む画像内の着目ゾーンを決定するためのシステムを提供し、各ピクセル群は、最小着目ゾーン内のピクセルの数が潜在的着目ゾーン内の最小サンプルと最大サンプルとの間にあるように、それらの間に平均距離を備えている。ピクセル値が、次いで、複数のピクセル群のピクセルのために決定され、ピクセル値は、各ピクセルに関する複数のピクセル値の比較から決定される。ピクセル群値が、次いで、各ピクセル群に関して導出され、ピクセル群値は、それぞれのピクセル群に関連付けられたピクセルのピクセル値に基づく。
ヒートマップが、次いで、第1のニューラルネットワークを用いて、複数の最大ピクセル群値から作成され、第1のニューラルネットワークは、少なくとも1つのピクセル群値を入力として受信し、段階的な値の群を備えている確率ヒートマップを出力として生成し、それは、それぞれのピクセル群が着目物体の表現を含む確率を示す。着目ゾーンが、段階的な値の群が決定された確率閾値を満たすかどうかに基づいて識別され、着目物体は、次いで、(いくつかの事例では、第1のネットワークと同じネットワークであり得る)第2のニューラルネットワークを用いて、少なくとも1つの着目ゾーン内で識別され、第2のニューラルネットワークは、少なくとも1つの着目ゾーンを入力として受信し、着目物体の表現を出力として生成し、着目物体の表現は、少なくとも各着目物体の分類と、受信した画像データ内の物体の場所とを備えている。
いくつかの実施形態では、ピクセル群値は、それぞれのピクセル群に関連付けられた種々のピクセル値を要約するピクセル値を備えている。ピクセル値は、例えば、RGB、YUVまたはその他等の画像データチャネルの要約等の各ピクセルの要約値に関連付けられ得る。要約は、例えば、各ピクセル群に関連付けられた強度値の平均、最大、調和平均、または他の数学的要約であり得、数学的変換は、ピクセル群の各ピクセルに関するピクセル値を計算するために使用することも、そうでないこともある。ピクセル群は、任意のサイズであり得るが、いくつかの事例では、群は、少なくとも幅において4つのピクセルおよび高さにおいて4つのピクセルにある。ある場合、幅および/または高さ寸法は、18個のピクセルで上限を定められ得る。いくつかの実装では、決定された確率閾値が、事前決定される一方、他の事例では、実行時に動的に決定される。
ニューラルネットワークの一方または両方は、完全畳み込みネットワーク(FCN)であり得、ある場合、第1のニューラルネットワークは、完全畳み込み多層ネットワーク(FCN)であり、それは最小の3つの層および最大の7つの層を備えている。ある場合、第1のニューラルネットワークの複数の層のいずれも、完全に接続されない。
本発明の他の側面では、上で説明され、本明細書で説明されるプロセス、方法、および命令は、非一過性コンピュータ読み取り可能な媒体上で記憶および実行される。
ニューラルネットワークを使用して、画像内のアクティブゾーンおよび物体の識別を促進する方法およびサポートシステムの例示的実施形態が、本明細書に開示される。ニューラルネットワークは、着目ゾーン、着目物体、着目物体の分類、着目ゾーン内の着目物体の場所、および入力データ内の着目ゾーンの場所を検出するために、使用されることができる。システムおよび方法は、1つ以上のドメインにわたって使用される1つ以上の訓練データセットの作成を促進し、訓練データセットを使用して、入力データを処理し、着目ゾーンまたは物体を識別するために協力して動作するニューラルネットワークを積極的に採用する。
多数のニューラルネットワークのうちの1つ以上のものは、データフローに沿って、種々の段階で使用され得る。例えば、ニューラルネットワークは、他のニューラルネットワークのための事前処理機構として使用され得る。ニューラルネットワークは、データの伝送を補助するためのコーデック(例えば、エンコーダおよびデコーダ)としても使用され得る。さらに、ニューラルネットワークは、着目ゾーンまたは物体の位置特定と分類との両方をするプリプロセッサおよびコーデックの両方として使用され得る。
(訓練データ)
(訓練データ)
一実施形態では、1つ以上の訓練データセットが、作成される。ある実装では、異なる個々のデータセットが、特定のドメインに特有であるように作成および維持され得、例えば、訓練データセットは、ナンバープレートを読み取るための画像、顔検出および認識のための別のデータセット、および自律運転コンテキストで使用される物体検出のためのさらに別のものを処理するように開発および使用され得る。ドメイン特有の訓練データセットを後続ネットワーク処理のための基本として使用することによって、システムの処理および電力効率が、最適化され、処理が、正確度を落とさずに、「エッジ」デバイス(モノのインターネットデバイス、携帯電話、自動車、セキュリティカメラ等)上で生じることを可能にする。
訓練データセットを作成するために、第1の組の画像が、特定のドメイン(例えば、空港における多数の監視カメラからのフレーム)に関して識別される。「本画像は顔を含むか」等の特有の特性が、着目特性として選択される。ある場合、同じ組の画像は、異なる着目特性を使用して、複数の訓練データセットを作成するために使用され得る。ユーザが、次いで、着目特性に対して、「着目物」または「非着目物」のいずれかとしてピクセル(またはピクセルの組)を標識化することによって、画像を説明するアレイを作成する。ある場合、標識化は、教師ありまたは半教師あり人工知能等の自動化されたプロセスを使用して、行われ得る。これは、例えば、1および0のアレイ標識の形態をとり、1は、着目ピクセル(例えば、これらのピクセルは顔を表す)を表し、0は、非着目ピクセル(例えば、背景等)を表し得る。
ある場合、ピクセルは、画像内の複数の異なるチャネルとしてグループ化および表され、各チャネルが個々に処理され得るように、画像を合成画像の組に効果的に分解し得る。このアプローチは、画像が、複数の異なる着目エリア(例えば、人物の2つ以上の画像、または街頭の風景に沿った異なる物体を伴う画像)を含むとき、有益であり得、異なるチャネルは、異なるネットワークを使用して、処理される。他の場合、画像は、単一チャネルとして処理され得る。
種々の例では、物体検出および分類システムの訓練は、単または多段階プロセスのいずれかを使用して、達成されることができる。いくつかの例では、システムは、確率的勾配降下法および逆伝搬を使用して、訓練される。例えば、初期開始パラメータの組が、識別され、それは、訓練画像を使用してさらに精緻化され、反復プロセスにおいて訓練された提案を用いて畳み込み特徴マップを出力する。
種々の例では、物体検出および分類システムは、逆伝搬を使用する単段階プロセスを使用して、訓練される。そのような例では、機械学習モジュールは、開始パラメータで、初期処理モジュールと、物体提案モジュールと、物体分類モジュールとを初期化し得る。初期化後、機械学習モジュールは、初期処理モジュールと、物体提案モジュールと、物体分類モジュールとを通して、訓練画像を処理することができる。逆伝搬を使用して、機械学習モジュールは、訓練画像に対応するデータに基づいて、出力提案、分類、および信頼スコアを記録することができる。機械学習モジュールは、出力物体分類および信頼スコアの正確度を改良するために、初期処理モジュール、物体提案モジュール、および物体分類モジュールにおけるパラメータを訓練することができる。種々の例では、機械学習プロセスは、初期設定において、システムを訓練することができる。他の例では、機械学習プロセスは、例えば、規定された時間に、毎週、または毎月、または新しいデータの量(例えば、新しい画像)が閾値に到達するとき等、周期的にシステムを訓練することができる。例えば、新しい画像は、エッジデバイスから経時的に(集中型クラウドベースのシステムに接続される間、持続的に、またはそのような接続および/または必須の帯域幅が利用可能であるとき、非同期的に)読み出され得る。いくつかの例では、機械学習プロセスは、ユーザによって手動で収集されると、続いて訓練するために更新された画像を受信する。いくつかの事例では、収集ルールは、ユーザによって定義されるか、またはシステム自体を用いて提供されるか、またはさらに他の場合、ユーザ定義の目標に基づいて自動的に発生させられ得る。例えば、ユーザは、特定の物体タイプが他よりもより着目度が高いことを決定し得、従って、システムがそのような物体を認識すると、それらの画像は、さらなる訓練反復のために収集され、使用される一方、他の画像は、無視またはより少ない頻度で収集され得る。
いずれかの事例では、画像の後続処理は、チャネル毎ベース(一度に単一チャネル)で生じる。したがって、複数のチャネルとしてモデル化された画像は、単一チャネルに変換される。一実施形態では、ピクセル群内の最小ピクセル値と最大ピクセル値との間のランダム数が、変換のための基本として選択され、使用される。
図1は、上で説明される訓練データセットを使用して訓練された複数のニューラルネットワークを使用して、着目ゾーンおよびその中に位置する着目物体を検出する例示的方法100に関するワークフロー図を図示する。方法100は、102において、画像データを受信することを含む。102で受信される画像データは、広い種類のフォーマットにおけるものであり得る。画像データフォーマットは、限定ではないが、ラスタフォーマット(例えば、JPEG、Exif、TIFF、GIF、BMP等)、ベクトルフォーマット(例えば、CGM、SVG、DXF等)、それらの組み合わせ、または任意の他の画像データフォーマットを含み得る。画像データが受信されるフォーマットは、そのようなデータを生成および伝送するデバイスまたは装置に依存し得る。いくつかの実施形態によると、カメラが、各ピクセルに関する個々のピクセル値を伴うJPEGフォーマットで画像データを生成し得る。ピクセル値は、赤色、緑色、および青色等の色空間、または輝度およびクロミナンス、(例えば、YUV)値におけるものであり得、ある場合、深度(「D」)値を含み得る。他の実施形態によると、カメラが、ベクターグラフィック形状、ビットマップ画像、およびテキスト等の個々のXML要素を伴うSVGフォーマットで画像データを生成し得る。
方法100は、104において、画像データを値マップにダウンサンプリングすることを含む。画像データをダウンサンプリングすることは、2つ以上のピクセルをピクセル群にグループ化することを含み得る。ダウンサンプリングすることは、最適群サイズ、形状、または両方を決定することを含み得る。例えば、24ピクセルの4×6エリアは、組み合わせられ、単一ピクセル群として分析され得る。ピクセル群は、ピクセルの群に関連付けられた2つ以上のピクセルの各々のピクセル値に基づいて、ピクセル群値を割り当てられ得る。一実施形態によると、2つ以上のピクセルの各々は、赤色、緑色、および青色等のピクセル値を含み得る。種々の実施形態によると、他のピクセル値は、YUV(例えば、輝度値、青色投影値、赤色投影値)、CMYK(例えば、シアン値、マゼンタ色値、黄色値、黒色値)、多色チャネル、ハイパースペクトルチャネル、または電磁放射をデジタルで記録すること、またはデジタル画像を組み立てることに関連付けられた任意の他のデータを含み得る。ある場合、各ピクセル群の値は、ピクセル群に関連付けられた複数のピクセル値のうちのピクセル値を決定することによって、決定される。他の事例では、ピクセル群値は、平均ピクセル値、またはいくつかの他の閾値(例えば、最大ピクセル値のあるパーセンテージ)に基づいて、決定され得る。値は、RGB、YUV、または他のチャネル等の画像データチャネルの要約として決定され得る。要約変換は、例えば、各ピクセル群に関連付けられる値の平均、最大、調和平均、または他の数学的要約であり得る。値マップが、次いで、1つ以上のピクセル群値の組み合わせに基づいて、発生させられる。
方法100は、106において、確率ヒートマップを決定するために、第1のニューラルネットワークを使用して値マップを処理することを含む。確率ヒートマップは、段階的な値の群を含む。段階的な値は、それぞれのピクセル群が着目物体の表現を含む確率を示す。
方法100は、108において、段階的な値のどの群が決定された確率閾値を満たすかを検出することをさらに含む。種々の実施形態によると、決定された確率閾値は、多数の方法で、計算され、さらに決定され得る。いくつかの実施形態によると、決定された確率閾値は、ユーザによって、事前決定され得る。さらなる実施形態によると、決定された確率閾値は、プログラムで動的に決定され得る。決定された閾値を動的に決定することは、種々のサブルーチン機能、事前決定ルール、または統計的アルゴリズムを含み得る。例えば、動的決定は、多くのものの中でもとりわけ、特定の画像またはデータセットに関する決定された確率閾値を決定するために、補間、平滑化、回帰分析、外挿等の曲線適合統計分析を使用することを含み得る。
いくつかの実施形態によると、段階的な値は、0~1または0~100を含む種々の範囲を含み得る。段階的な値は、それぞれのピクセル群が着目物体の表現を含む確率を示し得る。事前に決定された確率閾値を満たす段階的な値の群は、いくつかの実施形態によると、着目ゾーンとして識別される。例えば、事前に決定された確率閾値が、0.5に設定される場合、0.5(例えば、0.5~1.0)以上の段階的な値の群は、着目ゾーンとして識別されるであろう。
方法100は、110において、確率ヒートマップから検出された着目ゾーンに基づいて、元の画像を切り取ることおよび/または再スケーリングすることをさらに含む。元の画像を切り取ることおよび再スケーリングすることは、着目ゾーンの表現を1つの代表データセットに組み合わせることを含み得る。いくつかの実施形態によると、着目ゾーンの表現は、着目ゾーンが識別された受信された画像データの区分を含み得る。110の切り取り手順は、いくつかの実施形態によると、着目ゾーンとして識別されていない画像データの区分を排除する。いくつかの実施形態によると、110のスケーリング手順は、最初に受信した画像データからデータをフェッチし、フェッチされたデータは、着目ゾーンを表す。110の切り取りおよびスケーリング手順は、いくつかの実施形態によると、第2のニューラルネットワークへの入力として使用されるべき着目ゾーンによって識別されたデータを調製するために、事前に処理する手順を含み得る。
さらに依然として、方法100は、いくつかの実施形態によると、112において、第2のニューラルネットワークを使用して、着目ゾーンを処理し、その中の着目物体を検出することを含む。着目物体は、いくつかの実施形態によると、持続機械学習プロセスによって動的に定義され、そのような機械学習データの用途によって識別され得る。他の実施形態は、事前に決定された特性および/または外部エンティティによって割り当てられる分類を使用して、着目物体を定義し得る。第2のニューラルネットワークは、入力として、着目ゾーン内の画像データを受信する。いくつかの実施形態によると、画像データは、最初に受信した画像データのダウンスケーリングされた表現、または最初に受信した画像データ自体、または最初に受信した画像の着目領域のダウンスケーリングされた表現を組み合わせるモザイクを含み得る。第2のニューラルネットワークは、いくつかの実施形態によると、着目物体の表現を出力として生成する。着目物体の表現は、以下のうちの1つ以上のものを含み得る:各着目物体に関する分類、最初に受信した画像データ内の各着目物体の場所を示す座標。
いくつかの実施形態によると、方法100は、手順が終了するまで、持続的に繰り返され得る。例えば、方法100は、システムに利用可能にされる全ての新しい画像データセットに関して繰り返され得る。方法100は、当業者によって理解されるように、他の標準的領域提案ネットワーク(RPN)に優る多くの利点を提供する。本開示は、学習ニューラルネットワークの使用を提供する。いくつかの実施形態によると、ニューラルネットワークは、入力データセットに応じて、わずか3つ、および7つもの数の層を含み得る。原型的実施形態では、本明細書に説明されるようなニューラルネットワークの実装は、現在の当技術分野におけるものと同数の境界ボックスハイパーパラメータ設定を要求しない。境界ボックスハイパーパラメータ設定を実装するのではなく、ニューラルネットワークのうちの1つ以上のものは、いくつかの実施形態によると、着目ゾーンおよび/または着目物体の場所を決定するために、ピクセル値を使用する。ピクセル値は、関連付けられたピクセルが着目物体の少なくともの一部を備えている確率を表すために使用され得る。本開示によって提供される効率は、現在の技術に優る多くの利点を提供する。
図2は、現在の技術200のワークフロー画像略図を図示する。現在の技術は、202において、画像を受信する。画像を受信後、ピクセルは、204において、ピクセルの種々のチャンクの中に集められた。これらのチャンクは、次いで、206において、物体検出ニューラルネットワークの中にフィードされ、「総当たり攻撃」様式で処理される。物体検出ニューラルネットワークは、208において、総当たり攻撃を用いて、出力データを生成する。出力データは、210において、人間観察可能な出力を作成するために、元の画像データと再結合されることも、されないこともある。そのような分析の計算複雑性が、グレースケール変換、ガウス2項式LPF、およびバイキュービック法の計算複雑性の和に等しいことは、現在の技術において周知である。
図3は、例示的実施形態による、着目ゾーンおよびその中に位置する物体を検出するための例示的方法300のワークフロー図を図示する。方法300は、いくつかの実施形態によると、既存のワークフローの中に容易に挿入され得る。方法300は、302において、システムが画像データを受信することを提供し、画像データは、ピクセルを含む。受信された画像データのピクセルは、304において、ダウンサンプリングされ、値マップを生成し得る。値マップは、次いで、306において、ニューラルネットワークによって分析され、308において、出力データを生成する。出力データは、310に示されるように、着目物体の表現を生成するために、元の画像データ(例えば、302)と再結合されることも、されないこともある。図3によって提供されるような方法300は、着目物体を含まない画像を破棄するために、着目物体を伴わない画像を識別するために使用され得る。着目物体を含まない画像を排除することによって、方法300は、着目物体を含むかどうかについて、一つ一つの画像の分析の算出負荷を低減させる。算出負荷を低減させることによって、方法300は、システム間で伝送されるデータのサイズも低減させ、データ分析を実施するために要求される帯域幅を大きく低減させる。さらになお、方法300は、いくつかの実施形態によると、広い種類のネットワークにわたって、ネットワーク効率を改良する。
図4は、例示的実施形態による、着目ゾーンおよびその中に位置する物体を検出するための、例示的方法400のワークフロー図を図示する。方法400は、402において、システムが画像データを受信することを提供し、画像データは、ピクセルを含む。受信した画像データのピクセルは、404において、値マップを生成するためにダウンサンプリングされ得る。値マップは、次いで、確率ヒートマップを生成するために、第1のニューラルネットワークによって分析され、それは、次いで、406において、着目ゾーンを決定するために、確率閾値によってフィルタリングされる。408において、着目ゾーンは、着目ゾーンを含む画像ファイルを作成するために、受信した画像データ(例えば、402)と組み合わせられ、事前に決定された確率閾値を満たさないゾーンを除外し得る。いくつかの実施形態によると、画像ファイルは、完全分解能画像、スケーリングされた画像、または両方の組み合わせを含み得る。画像ファイルは、410において、第2のニューラルネットワークによって分析され得、それは、412において、出力データを生成する。出力データは、完全分解能(例えば、402)において、または414に示されるように、着目物体の表現を生成するために、それがダウンサンプリングされた後、受信した画像データと再結合されることも、されないこともある。
方法300と同様に、図4によって提供されるような方法400は、着目物体を含まない画像を破棄するために、着目物体を伴わない画像を識別するために使用され得る。いくつかの実施形態によると、方法400は、完全分解能において着目ゾーンを伝送するが、組み合わせられた出力画像の残りは、ダウンサンプリングされる。完全分解能において着目ゾーンを伝送することに加え、方法400は、伝送後に処理される画像を再構築するために、着目ゾーンに関連付けられた座標およびタイムスタンプも伝送する。
図5は、例示的実施形態による、着目ゾーンおよびその中に位置する物体を検出するための例示的方法500のワークフロー図を図示する。方法500は、502において、システムが画像データを受信することを提供し、画像データは、ピクセルを含む。受信した画像データのピクセルは、504において、値マップを生成するために、ダウンサンプリングされ得る。値マップは、確率ヒートマップを生成するために第1のニューラルネットワークによって分析され、それは、506において、着目ゾーンを決定するために、確率閾値によってフィルタリングされる。508において、着目ゾーンは、510において、出力データを生成するために、第2のニューラルネットワークによって分析され得る。出力データは、完全分解能(例えば、502)において、または512に示されるように、着目物体の表現を生成するためにダウンサンプリングされた後、受信した画像データと再結合されることも、そうではないこともある。
いくつかの実施形態によると、方法500は、方法300および400に類似する利点(例えば、着目物体を伴わない画像を破棄すること、完全分解能において着目ゾーンのみを伝送すること等)を提供し得る。方法500は、個々の着目ゾーンを分析することのみを行うニューラルネットワークアーキテクチャをさらに提供する。したがって、グレースケール変換、ガウス2項式LPF、および単純サンプリング技法に関するバイキュービック法の計算複雑性の和を実行するのではなく、方法500が、単一動作でそのダウンサンプリング技法を実行する。いくつかの実施形態によると、方法300および400も、単一動作でそのそれぞれのダウンサンプリング技法を実行し得る。
図6は、第1のニューラルネットワーク600の例示的実施形態を図示する。第1のニューラルネットワーク600が、入力データを受信する前、画像データ602は、図6に示されるように、値マップ604にダウンサンプリングされる。いくつかの実施形態によると、値マップ604は、複数のピクセル群値を含む。例えば、ピクセル群値1、ピクセル群値2、およびピクセル群値3が、初期入力値606において、第1のニューラルネットワーク600によって受信される。いくつかの実施形態によると、第1のニューラルネットワーク600は、人工ニューロンの3~7つのネットワーク層を含む。例えば、第1のニューラルネットワーク600は、図6に示されるように、4つの層、すなわち、入力層608と、隠れ層610および612と、出力層614とを含む。第1のニューラルネットワーク600は、最終出力値616を生成する。いくつかの実施形態によると、最終出力値616は、図6に示されるように、段階的な値1および段階的な値2等の、段階的な値の群を含み得る。最終出力値616は、いくつかの実施形態によると、確率ヒートマップ618を生成するために、処理され、組み合わせられ、または別様に、改変され得る。
図7は、第2のニューラルネットワーク700の例示的実施形態を図示する。第2のニューラルネットワーク700が、入力データを受信する前、段階的な値702が、確率ヒートマップから取得され得る。いくつかの実施形態によると、段階的な値702は、図7に示されるように、1つ以上の着目ゾーン704を生成するように、処理され、フィルタリングされ、または別様に、改変され得る。いくつかの実施形態によると、着目ゾーン704の各々は、初期入力値706として別個に提供され得る。例えば、着目ゾーン1、着目ゾーン2、および着目ゾーン3が、初期入力値706において、第2のニューラルネットワーク700によって受信される。いくつかの実施形態によると、第2のニューラルネットワーク700は、人工ニューロンの3~7つのネットワーク層を含む。例えば、第2のニューラルネットワーク700は、図7に示されるように、4つの層、すなわち、入力層708と、隠れ層710および712と、出力層714とを含む。第2のニューラルネットワーク700は、最終出力値716を生成する。いくつかの実施形態によると、最終出力値716は、図7に示されるように、着目物体1および着目物体2等の、着目物体を含み得る。最終出力値716は、いくつかの実施形態によると、着目物体718の表現を生成するように、処理され、組み合わせられ、または別様に、改変され得る。
上で説明される方法を使用して、本発明の実施形態は、種々の構成配置で展開されることができる。1つの特定の実施形態では、画像収集および物体検出は、集中型ホストサービス上で導出および増強され、続いて、実行のためにエッジデバイスに配布されるドメイン特有モデルを採用する。例えば、「スマート」カメラおよび他のモノのインターネットデバイスは、製造中または初期化時、1つ以上のモデルを事前に投入されことができる。これらのデバイスは、初期データ収集、データサイエンス、モデル訓練、モデル評価および試験、無線モデル展開およびエッジデバイスへの更新、およびデバイス健康の監視等の機能を提供するクラウドベースのプラットフォーム(API、ウェブサービスを介して、または他の手段)に周期的に接続され得る。しかしながら、デバイスは、モデルおよび処理命令が、デバイス自体上で実行され得るので、クラウドサービスを動作させるために接続されたままである必要はない。いくつかの事例では、特定の検出事象が、必要に応じてのみオンラインになるように、より高度の機能をトリガし、したがって、常時接続の用途のために電力を節約し、バッテリ寿命を延長させることができる。このアプローチは、特定の着目エリア(例えば、第1のネットワークプロセスを使用して識別されたピクセル群)にその注意を「選択的に」当て、次いで、物体を具体的に識別するためにのみ、高次機能と後続ネットワークとを係合し、電力制約エッジデバイス上の低電力引き込み量(例えば、100マイクロジュール未満/推論)を可能にする。
デバイスが、クラウドサービスに再接続されると、追加の画像が、訓練データのライブラリに追加され、種々のモデルをさらに改良するために使用されることができ、それらは、次に、全てのデバイス、またはいくつかの事例では、特定のモデルを使用する、または特定のドメインで動作するそれらのデバイスのみにわたって、再展開されることができる。
本主題の実施形態および本明細書に説明される動作は、本明細書に開示される構造およびその構造的等を含むデジタル電子回路において、またはコンピュータソフトウェア、ファームウェア、またはハードウェアにおいて、またはそれらのうちの1つ以上のものの組み合わせにおいて実装されることができる。本明細書に説明される主題の実施形態は、1つ以上のコンピュータプログラム、すなわち、データ処理装置による実行のために、またはその動作を制御するためにコンピュータ記憶媒体上でエンコードされるコンピュータプログラム命令の1つ以上のモジュールとして実装されることができる。代替として、または加えて、プログラム命令は、データ処理装置による実行のための好適な受信機装置への伝送のための情報をエンコードするために生成される人為的に生成された伝搬信号、例えば、マシンが生成した電気、光学、または電磁信号上でエンコードされることができる。コンピュータ記憶媒体は、コンピュータ読み取り可能な記憶デバイス、コンピュータ読み取り可能な記憶基板、ランダムまたはシリアルアクセスメモリアレイまたはデバイス、またはそれらのうちの1つ以上のものの組み合わせである、またはその中に含まれることができる。さらに、コンピュータ記憶媒体は、伝搬信号ではないが、コンピュータ記憶媒体は、人為的に生成された伝搬信号内でエンコードされる、コンピュータプログラム命令のソースまたは宛先であり得る。コンピュータ記憶媒体はまた、1つ以上の別個の物理的コンポーネントまたは媒体(例えば、複数のCD、ディスク、または他の記憶デバイス)である、またはその中に含まれることができる。
本明細書に説明される動作は、1つ以上のコンピュータ読み取り可能な記憶デバイス上に記憶される、または他のソースから受信されるデータに対して、データ処理装置によって実施される動作として実装されることができる。
用語「データ処理装置」は、例として、プログラマブルプロセッサ、コンピュータ、チップ上のシステム、または前述のものの複数のものまたは組み合わせを含む、データを処理するための全ての種類の装置、デバイス、およびマシンを包含する。装置は、専用論理回路、例えば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)を含むことができる。装置は、ハードウェアに加えて、当該コンピュータプログラムのための実行環境を作成するコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、クロスプラットフォームランタイム環境、仮想マシン、またはそれらのうちの1つ以上のものの組み合わせを構成するコードも含むことができる。装置および実行環境は、ウェブサービス、分散コンピューティング、およびグリッドコンピューティングインフラストラクチャ等の種々の異なるコンピューティングモデルインフラストラクチャを実現することができる。
コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、またはコードとしても公知である)が、コンパイラ型またはインタープリタ型言語、宣言型、手続型、または関数型言語を含む、任意の形態のプログラミング言語において書き込まれることができ、それは、独立型プログラムとして、またはモジュール、コンポーネント、サブルーチン、オブジェクト、またはコンピューティング環境における使用のために好適な他のユニットとして含まれる任意の形態において展開されることができる。コンピュータプログラムは、必要ではないが、ファイルシステム内のファイルに対応し得る。プログラムは、当該プログラム専用である単一ファイル内に、または複数の連携ファイル(例えば、1つ以上のモジュール、サブプログラム、またはコードの一部を記憶するファイル)内に、他のプログラムまたはデータ(例えば、マークアップ言語リソース内に記憶される1つ以上のスクリプト)を保持するファイルの一部内に記憶されることができる。コンピュータプログラムは、1つのコンピュータ上で、または1つの場所に位置する、または複数の場所にわたって分散され、通信ネットワークによって相互接続される、複数のコンピュータ上で実行されるように展開されることができる。
本明細書に説明されるプロセスおよび論理フローは、入力データ上で動作し、出力を生成することによってアクションを実施する1つ以上のコンピュータプログラムを実行する1つ以上のプログラマブルプロセッサによって実施されることができる。本プロセスおよび論理フローは、専用論理回路、例えば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)、非フォンノイマンアーキテクチャ、神経形態学的チップ、および深層学習チップによって実施されることもでき、装置は、そのようなものとしても実装されることができる。
コンピュータプログラムの実行のために好適なプロセッサは、例として、汎用および専用マイクロプロセッサの両方と、任意の種類のデジタルコンピュータの任意の1つ以上のプロセッサとを含む。概して、プロセッサは、読み取り専用メモリまたはランダムアクセスメモリまたは両方から、命令およびデータを受信するであろう。コンピュータの不可欠な要素は、命令に従ってアクションを実施するためのプロセッサおよび命令およびデータを記憶するための1つ以上のメモリデバイスである。概して、コンピュータはまた、データを記憶するための1つ以上の大容量記憶デバイス、例えば、磁気ディスク、光磁気ディスク、光ディスク、またはソリッドステートドライブを含む、またはそれらからデータを受信する、またはそれらにデータを転送する、またはその両方を行うように動作可能に結合されるであろう。しかしながら、コンピュータは、そのようなデバイスを有する必要はない。さらに、コンピュータは、別のデバイス、例えば、いくつか例を挙げると、スマートフォン、モバイルオーディオまたはビデオプレーヤ、ゲームコンソール、全地球測位システム(GPS)受信機、またはポータブル記憶デバイス(例えば、ユニバーサルシリアルバス(USB)フラッシュドライブ)内に内蔵されることができる。コンピュータプログラム命令およびデータを記憶するために好適なデバイスは、例として、半導体メモリデバイス、例えば、EPROM、EEPROM、およびフラッシュメモリデバイス、磁気ディスク、例えば、内蔵ハードディスクまたは可撤性ディスク、光磁気ディスク、およびCD-ROMおよびDVD-ROMディスクを含む、全ての形態の不揮発性メモリ、媒体、およびメモリデバイスを含む。プロセッサおよびメモリは、専用論理回路によって補完される、またはその中に組み込まれることができる。
1つ以上のコンピュータのシステムは、動作時にシステムにアクションを実施させるシステム上にインストールされる、ソフトウェア、ファームウェア、ハードウェア、またはそれらの組み合わせを有することによって、特定の動作またはアクションを実施するように構成されることができる。1つ以上のコンピュータプログラムは、データ処理装置によって実行されると、装置にアクションを実施させる命令を含むことによって、特定の動作またはアクションを実施するように構成されることができる。
本明細書は、多くの具体的実装詳細を含むが、これらは、任意の発明または請求され得るものの範囲に対する限定として解釈されるべきではなく、むしろ、特定の発明の特定の実施形態に特有の特徴の説明として解釈されるべきである。別個の実施形態のコンテキストにおいて本明細書に説明されるある特徴は、単一の実施形態における組み合わせにおいて実装されることもできる。逆に、単一の実施形態のコンテキストにおいて説明される種々の特徴は、複数の実装において別個に、または任意の好適な副次的組み合わせにおいて実装されることもできる。さらに、特徴がある組み合わせにおいて作用するものとして上で説明され、さらに、そのようなものとして最初に請求され得るが、請求される組み合わせからの1つ以上の特徴は、ある場合、組み合わせから削除されることができ、請求される組み合わせは、副次的組み合わせまたは副次的組み合わせの変形例も対象とし得る。
同様に、動作が特定の順序において図面に描写されているが、それは、望ましい結果を達成するために、そのような動作が示される特定の順序において、または連続的順序において実施されること、または全ての例証される動作が実施されることを要求するものとして理解されるべきではない。ある状況では、マルチタスクおよび並列処理が、有利であり得る。さらに、上で説明される実施形態における種々のシステムコンポーネントの分離は、全ての実施形態においてそのような分離を要求するものとして理解されるべきではなく、説明されるプログラムコンポーネントおよびシステムは、概して、単一のソフトウェア製品においてともに統合されること、または複数のソフトウェア製品にパッケージ化され得ることを理解されたい。
したがって、本主題の特定の実施形態が、説明されている。他の実施形態も、以下の請求項の範囲内である。ある場合、請求項に記載されるアクションは、異なる順序で実施され、依然として、望ましい結果を達成することができる。加えて、付随する図面に描写されるプロセスは、望ましい結果を達成するために、示される特定の順序、または連続的順序を必ずしも要求するわけではない。ある実装では、マルチタスクおよび並列処理が、有利であり得る。
Claims (33)
- 画像内の着目ゾーンを決定する方法であって、前記方法は、
コンピュータプロセッサによって、画像データを受信することであって、前記画像データは、複数のピクセル群を備え、各ピクセル群は、最小着目ゾーン内のピクセルの数が潜在的着目ゾーン内の最小サンプルと最大サンプルとの間にあるように、それらの間に平均距離を備えている、ことと、
前記コンピュータプロセッサによって、前記複数のピクセル群のうちの少なくとも1つ以上のもののピクセルに関するピクセル値を決定するように、前記複数のピクセル群を処理することであって、前記ピクセル値は、各ピクセルに関する複数のピクセル値の比較から決定される、ことと、
前記コンピュータプロセッサによって、前記複数のピクセル群のうちの前記少なくとも1つ以上のものの各々に関するピクセル群値を決定することであって、前記ピクセル群値は、前記それぞれのピクセル群に関連付けられた前記ピクセルの前記ピクセル値に基づく、ことと、
前記コンピュータプロセッサによって、第1のニューラルネットワークを用いて、ヒートマップを前記複数の最大ピクセル群値から決定することであって、
前記第1のニューラルネットワークは、少なくとも1つのピクセル群値を入力として受信し、段階的な値の群を備えている確率ヒートマップを出力として生成し、
前記段階的な値は、前記それぞれのピクセル群が着目物体の表現を含む確率を示す、
ことと、
前記コンピュータプロセッサによって、前記段階的な値の群が決定された確率閾値を満たすかどうかに基づいて、少なくとも1つの着目ゾーンを決定することと、
前記コンピュータプロセッサによって、第2のニューラルネットワークを用いて、前記少なくとも1つの着目ゾーン内の着目物体を決定することと
を含み、
前記第2のニューラルネットワークは、前記少なくとも1つの着目ゾーンを入力として受信し、前記着目物体の表現を出力として生成し、
前記着目物体の表現は、少なくとも各着目物体の分類と前記受信した画像データ内のその着目物体の場所とを備えている、方法。 - 前記第2のニューラルネットワークは、前記第1のニューラルネットワークと同じである、請求項1に記載の方法。
- 前記ピクセル群値は、前記それぞれのピクセル群に関連付けられた要約ピクセル値を備えている、請求項1に記載の方法。
- 前記要約ピクセル値は、各ピクセル値の平均、最小、最大、および調和平均のうちの1つを備えている、請求項3に記載の方法。
- 前記処理は、ピクセル群の各ピクセルに関する前記複数のピクセル値に数学的変換を実施しない、請求項1に記載の方法。
- 前記着目ゾーン内の前記最小サンプルは、幅において少なくとも4つのピクセル、高さにおいて4つのピクセルにおけるものである、請求項1に記載の方法。
- 前記着目ゾーン内の前記最大サンプルは、幅または高さにおいて18ピクセル以下におけるものである、請求項1に記載の方法。
- 前記決定された確率閾値は、事前に決定されているか、または実行時に動的に決定される、請求項1に記載の方法。
- 前記第1および第2のニューラルネットワークは、完全畳み込みネットワーク(FCN)である、請求項1に記載の方法。
- 前記第1のニューラルネットワークは、最小で3層、最大で7層を備えている完全畳み込み多層ネットワーク(FCN)である、請求項9に記載の方法。
- 前記第1のニューラルネットワークの複数の層のいずれも、完全に接続されていない、請求項10に記載の方法。
- 画像内の着目ゾーンを識別するためのシステムであって、前記システムは、
受信した画像データを記憶するための非一過性コンピュータ読み取り可能な媒体と、
プロセッサと
を備え、
前記プロセッサは、
画像データを受信することであって、前記画像データは、複数のピクセル群を備え、各ピクセル群は、最小着目ゾーン内のピクセルの数が潜在的着目ゾーン内の最小サンプルと最大サンプルとの間にあるように、それらの間に平均距離を備えている、ことと、
前記複数のピクセル群のうちの少なくとも1つ以上のもののうちのピクセルの一部に関するピクセル値を決定するように、前記複数のピクセル群を処理することであって、前記ピクセル値は、各ピクセルに関する複数のピクセル値の比較から決定される、ことと、
前記複数のピクセル群のうちの前記少なくとも1つ以上のものの各々に関するピクセル群値を決定することであって、前記ピクセル群値は、前記それぞれのピクセル群に関連付けられた前記ピクセルの前記ピクセル値に基づく、ことと、
第1のニューラルネットワークを用いて、確率ヒートマップを前記複数の最大ピクセル群値から決定することであって、
前記第1のニューラルネットワークは、少なくとも1つのピクセル群値を入力として受信し、段階的な値の群を備えている確率ヒートマップを出力として生成し、
前記段階的な値は、前記それぞれのピクセル群が着目物体の表現を含む確率を示す、
ことと、
前記段階的な値の群が決定された確率閾値を満たすかどうかに基づいて、少なくとも1つの着目ゾーンを決定することと、
第2のニューラルネットワークを用いて、前記少なくとも1つの着目ゾーン内の着目物体を決定することと
を含む動作を実施するように構成され、
前記第2のニューラルネットワークは、前記少なくとも1つの着目ゾーンを入力として受信し、前記着目物体の表現を出力として生成し、
前記着目物体の表現は、少なくとも各着目物体の分類と前記受信した画像データ内のその着目物体の場所とを備えている、システム。 - 前記第2のニューラルネットワークは、前記第1のニューラルネットワークと同じネットワークである、請求項12に記載のシステム。
- 前記ピクセル群値は、前記それぞれのピクセル群に関連付けられた前記ピクセルの要約ピクセル値を備えている、請求項12に記載のシステム。
- 前記要約ピクセル値は、各ピクセル値の平均、最小、最大、および調和平均のうちの1つを備えている、請求項14に記載のシステム。
- 前記処理は、ピクセル群の各ピクセルに関する前記複数のピクセル値に数学的変換を実施しない、請求項12に記載のシステム。
- 前記着目ゾーン内の前記最小サンプルは、少なくとも4つのピクセルにおけるものである、請求項12に記載のシステム。
- 前記着目ゾーン内の前記最大サンプルは、18ピクセル以下におけるものである、請求項12に記載のシステム。
- 前記決定された確率閾値は、事前に決定されているか、または実行時に動的に決定される、請求項12に記載のシステム。
- 前記第1および第2のニューラルネットワークは、完全畳み込みネットワーク(FCN)である、請求項12に記載のシステム。
- 前記第1のニューラルネットワークは、最小で3層、最大で7層を備えている完全畳み込み多層ネットワーク(FCN)である、請求項20に記載のシステム。
- 前記第1のニューラルネットワークの前記複数の層のいずれも、完全に接続されていない、請求項21に記載のシステム。
- 非一過性コンピュータ読み取り可能な媒体であって、前記媒体は、その上に記憶された命令を備え、前記命令は、画像内の着目ゾーンを識別する方法を実施するようにマイクロプロセッサによって実行可能であり、前記方法は、
画像データを受信することであって、前記画像データは、複数のピクセル群を備え、各ピクセル群は、最小着目ゾーン内のピクセルの数が潜在的着目ゾーン内の最小サンプルと最大サンプルとの間にあるように、それらの間に平均距離を備えている、ことと、
前記複数のピクセル群のうちの少なくとも1つ以上のもののうちのピクセルの一部に関するピクセル値を決定するように、前記複数のピクセル群を処理することであって、前記ピクセル値は、各ピクセルに関する複数のピクセル値の比較から決定される、ことと、
前記複数のピクセル群のうちの前記少なくとも1つ以上のものの各々に関するピクセル群値を決定することであって、前記ピクセル群値は、前記それぞれのピクセル群に関連付けられた前記ピクセルの前記ピクセル値に基づく、ことと、
第1のニューラルネットワークを用いて、確率ヒートマップを前記複数の最大ピクセル群値から決定することであって、
前記第1のニューラルネットワークは、少なくとも1つのピクセル群値を入力として受信し、段階的な値の群を備えている確率ヒートマップを出力として生成し、
前記段階的な値は、前記それぞれのピクセル群が着目物体の表現を含む確率を示す、
ことと、
前記段階的な値の群が決定された確率閾値を満たすかどうかに基づいて、少なくとも1つの着目ゾーンを決定することと、
第2のニューラルネットワークを用いて、前記少なくとも1つの着目ゾーン内の着目物体を決定することと
を含み、
前記第2のニューラルネットワークは、前記少なくとも1つの着目ゾーンを入力として受信し、前記着目物体の表現を出力として生成し、
前記着目物体の表現は、少なくとも各着目物体の分類と前記受信した画像データ内のその着目物体の場所とを備えている、非一過性コンピュータ読み取り可能な媒体。 - 前記第2のニューラルネットワークは、前記第1のニューラルネットワークと同じネットワークである、請求項23に記載の非一過性コンピュータ読み取り可能な媒体。
- 前記ピクセル群値は、前記それぞれのピクセル群に関連付けられた前記ピクセルの要約ピクセル値を備えている、請求項24に記載の非一過性コンピュータ読み取り可能な媒体。
- 前記要約ピクセル群値は、各ピクセル値の平均、最小、最大、および調和平均のうちの1つを備えている、請求項23に記載の非一過性コンピュータ読み取り可能な媒体。
- 前記処理は、ピクセル群の各ピクセルに関する前記複数のピクセル値に数学的変換を実施しない、請求項23に記載の非一過性コンピュータ読み取り可能な媒体。
- 前記着目ゾーン内の前記最小サンプルは、少なくとも4つのピクセルにおけるものである、請求項23に記載の非一過性コンピュータ読み取り可能な媒体。
- 前記着目ゾーン内の前記最大サンプルは、18ピクセル以下におけるものである、請求項23に記載の非一過性コンピュータ読み取り可能な媒体。
- 前記決定された確率閾値は、事前に決定されているか、または実行時に動的に決定される、請求項23に記載の非一過性コンピュータ読み取り可能な媒体。
- 前記第1および第2のニューラルネットワークは、完全畳み込みネットワーク(FCN)である、請求項23に記載の非一過性コンピュータ読み取り可能な媒体。
- 前記第1のニューラルネットワークは、最小で3層、最大で7層を備えている、完全畳み込みネットワーク(FCN)である、請求項31に記載の非一過性コンピュータ読み取り可能な媒体。
- 前記第1のニューラルネットワークの複数の層のいずれも、完全に接続されていない、請求項32に記載の非一過性コンピュータ読み取り可能な媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962938050P | 2019-11-20 | 2019-11-20 | |
US62/938,050 | 2019-11-20 | ||
PCT/IB2020/000985 WO2021099844A1 (en) | 2019-11-20 | 2020-11-20 | Systems and methods for object detection and recognition |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023507248A true JP2023507248A (ja) | 2023-02-22 |
Family
ID=75909198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022529441A Pending JP2023507248A (ja) | 2019-11-20 | 2020-11-20 | 物体検出および認識のためのシステムおよび方法 |
Country Status (5)
Country | Link |
---|---|
US (2) | US11475572B2 (ja) |
EP (1) | EP4062369A4 (ja) |
JP (1) | JP2023507248A (ja) |
AU (1) | AU2020389110A1 (ja) |
WO (1) | WO2021099844A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023507248A (ja) * | 2019-11-20 | 2023-02-22 | ゼイリエント | 物体検出および認識のためのシステムおよび方法 |
US11440196B1 (en) * | 2019-12-17 | 2022-09-13 | X Development Llc | Object association using machine learning models |
US11275970B2 (en) * | 2020-05-08 | 2022-03-15 | Xailient | Systems and methods for distributed data analytics |
US20220301127A1 (en) * | 2021-03-18 | 2022-09-22 | Applied Materials, Inc. | Image processing pipeline for optimizing images in machine learning and other applications |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2391556T3 (es) * | 2002-05-03 | 2012-11-27 | Donnelly Corporation | Sistema de detección de objetos para vehículo |
US6993187B2 (en) * | 2003-02-14 | 2006-01-31 | Ikonisys, Inc. | Method and system for object recognition using fractal maps |
JP5153216B2 (ja) * | 2007-06-08 | 2013-02-27 | キヤノン株式会社 | 画像処理装置、画像処理方法 |
US8948454B2 (en) * | 2013-01-02 | 2015-02-03 | International Business Machines Corporation | Boosting object detection performance in videos |
KR102277178B1 (ko) * | 2015-03-09 | 2021-07-14 | 삼성전자 주식회사 | 카메라 모듈을 포함하는 전자 장치 및 전자 장치의 이미지 처리 방법 |
WO2017040691A1 (en) * | 2015-08-31 | 2017-03-09 | Cape Analytics, Inc. | Systems and methods for analyzing remote sensing imagery |
US10491879B2 (en) * | 2016-01-15 | 2019-11-26 | Blue River Technology Inc. | Plant feature detection using captured images |
WO2018183221A1 (en) | 2017-03-28 | 2018-10-04 | Hrl Laboratories, Llc | Machine-vision method to classify input data based on object components |
JP2019204193A (ja) * | 2018-05-22 | 2019-11-28 | キヤノン株式会社 | 画像処理装置、画像処理方法及びプログラム |
EP3963545A4 (en) * | 2019-06-03 | 2022-06-22 | Merunova Pty Ltd. | SYSTEMS AND METHODS FOR MRI POST-PROCESSING |
US11449974B2 (en) * | 2019-11-08 | 2022-09-20 | Adobe Inc. | Generating modified digital images utilizing nearest neighbor fields from patch matching operations of alternate digital images |
JP2023507248A (ja) * | 2019-11-20 | 2023-02-22 | ゼイリエント | 物体検出および認識のためのシステムおよび方法 |
US11657513B2 (en) * | 2019-11-29 | 2023-05-23 | Samsung Electronics Co., Ltd. | Method and system for generating a tri-map for image matting |
US11138693B2 (en) * | 2020-01-24 | 2021-10-05 | Adobe Inc. | Attention-driven image manipulation |
US11623661B2 (en) * | 2020-10-12 | 2023-04-11 | Zoox, Inc. | Estimating ground height based on lidar data |
-
2020
- 2020-11-20 JP JP2022529441A patent/JP2023507248A/ja active Pending
- 2020-11-20 AU AU2020389110A patent/AU2020389110A1/en active Pending
- 2020-11-20 WO PCT/IB2020/000985 patent/WO2021099844A1/en unknown
- 2020-11-20 US US16/953,585 patent/US11475572B2/en active Active
- 2020-11-20 EP EP20890376.5A patent/EP4062369A4/en active Pending
-
2022
- 2022-07-27 US US17/874,979 patent/US11710240B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20220366567A1 (en) | 2022-11-17 |
AU2020389110A1 (en) | 2022-06-09 |
WO2021099844A1 (en) | 2021-05-27 |
EP4062369A4 (en) | 2023-08-30 |
US11710240B2 (en) | 2023-07-25 |
EP4062369A1 (en) | 2022-09-28 |
US11475572B2 (en) | 2022-10-18 |
US20210150721A1 (en) | 2021-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106845487B (zh) | 一种端到端的车牌识别方法 | |
JP2023507248A (ja) | 物体検出および認識のためのシステムおよび方法 | |
CN107358242B (zh) | 目标区域颜色识别方法、装置及监控终端 | |
EP3333768A1 (en) | Method and apparatus for detecting target | |
US11151447B1 (en) | Network training process for hardware definition | |
CN112368712A (zh) | 基于注释信息的分类和定位 | |
US20230021661A1 (en) | Forgery detection of face image | |
CN111444881A (zh) | 伪造人脸视频检测方法和装置 | |
KR20180037192A (ko) | 미지의 클래스들의 검출 및 미지의 클래스들에 대한 분류기들의 초기화 | |
CN112784670A (zh) | 基于像素差异的对象检测 | |
Zhuang et al. | Real‐time vehicle detection with foreground‐based cascade classifier | |
KR20170038622A (ko) | 영상으로부터 객체를 분할하는 방법 및 장치 | |
CN114746898A (zh) | 用于生成图像抠图的三分图的方法和系统 | |
Khaw et al. | High‐density impulse noise detection and removal using deep convolutional neural network with particle swarm optimisation | |
Jemilda et al. | Moving object detection and tracking using genetic algorithm enabled extreme learning machine | |
Sharjeel et al. | Real time drone detection by moving camera using COROLA and CNN algorithm | |
Li | Image semantic segmentation method based on GAN network and ENet model | |
Zhang et al. | Interactive spatio-temporal feature learning network for video foreground detection | |
Nagaraj et al. | Edge-based street object detection | |
Sabater et al. | Event Transformer+. A multi-purpose solution for efficient event data processing | |
WO2023185074A1 (zh) | 一种基于互补时空信息建模的群体行为识别方法 | |
Osuna-Coutiño et al. | Structure extraction in urbanized aerial images from a single view using a CNN-based approach | |
EP4332910A1 (en) | Behavior detection method, electronic device, and computer readable storage medium | |
Huang et al. | Deep multimodal fusion autoencoder for saliency prediction of RGB-D images | |
KR20220155882A (ko) | 뉴럴 네트워크를 이용하는 데이터 처리 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231017 |