JP2024516586A

JP2024516586A - パラメータ曲線ベースの検出器ネットワーク

Info

Publication number: JP2024516586A
Application number: JP2023563823A
Authority: JP
Inventors: ショーシャン、ヨエル; ラトナー、バディム
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2021-04-28
Filing date: 2022-04-07
Publication date: 2024-04-16
Also published as: US20220350988A1; WO2022228857A1; US11900667B2; CN117256016A

Abstract

実施形態は、複数の制御点によって定義されるパラメータ曲線を使用して物体の発見および境界予測の精度を改善するような、物体検出のための改善された技術を提供することができる。例えば、ある実施形態では、方法は、プロセッサと、プロセッサからアクセス可能なメモリと、メモリに記憶されてプロセッサによって実行可能なコンピュータ・プログラム命令とを含むコンピュータ・システムに実装することができ、方法は、画像を受信することと、画像中に示される物体に関する複数の特徴を画像から抽出することと、抽出された特徴から、画像中に示される物体をバウンディングするパラメータ曲線を表現する、少なくとも１つの複数の点を生成することと、パラメータ曲線を表現する複数の点を出力することとを含むことができる。

Description

本発明は、複数の制御点によって定義されるパラメータ曲線を使用して物体の発見および境界予測の精度を改善するような、物体検出のための技術に関する。

機械学習ベースの物体検出器は、軸平行境界ボックス（ＡＡＢＢ：ａｘｉｓａｌｉｇｎｅｄｂｏｕｎｄｉｎｇｂｏｘ）を使用して物体予測を実現する。一方で、機械学習ベースの画像セグメント化モデルは、ピクセル（またはピクセルに近い）・レベルのクラス予測を実現する。このような検出器の主な欠点は、ＡＡＢＢは、多くの実際の物体の形状をうまく捉えないことである。セグメント化モデルの主な欠点は、以下のことである：ａ）ピクセル・レベルの物体は、境界が必ずしも明瞭ではない（例えば、医療用途で）ため、必ずしも明確に定義される訳ではなく、複数のクラスが混じり合っているため、単一のピクセルが複数のクラスに「属する」場合があり、さらに重要なことに、ｂ）一部の用途では、５つの正しいピクセルを既に見つけられた物体に追加することは、まだ発見されていない新しい物体の５つの正しいピクセルを発見することよりもほとんど意味がないため、物体重要性を表現することが困難である（「物体重要性」として知られる）。

物体検出パフォーマンスは、次の組合せとして測定することができる：１）一体何の物体が発見されたか、２）境界予測がどれくらい密で正確であったか。普通、両方のパラメータは、物体形状マッチング基準を定義することによって組み合わされ、この基準は、実際の物体グラウンド・トゥルース境界に対する予測と比較され、比較の類似性が一定のしきい値を下回る場合、ミスと考える。

したがって、物体の発見および境界予測の精度を改善するような、物体検出のための改善された技術の必要性が生じる。

実施形態は、複数の制御点によって定義されるパラメータ曲線を使用して物体の発見および境界予測の精度を改善するような、物体検出のための改善された技術を提供することができる。例えば、実施形態は、物体について著しく密な境界予測を提供しつつ、物体重要性を正しく表現することができる。ＡＡＢＢ位置の微調整を表現する物体１つ当たりに予測される４つの値の代わりに、実施形態は、Ｋ個の曲線制御点を代わりに予測することができる。これは、物体の発見とその形状の記述との間で、より良好なバランスをとり、それによって、優れた物体検出パフォーマンスをもたらすことができる。加えて、実施形態は、物体形状の正則化を実現することができる。加えて、ポリゴンは多くの頂点を含むことがあり、モデルがオーバフィットされる可能性が高いため、多様な形状境界を表現することができる少数の制御点は、ポリゴン形状を予測しようとする技術よりも優れている。

例えば、ある実施形態では、方法は、プロセッサと、プロセッサからアクセス可能なメモリと、メモリに記憶されてプロセッサによって実行可能なコンピュータ・プログラム命令とを含むコンピュータ・システムに実装することができ、方法は、画像を受信することと、画像中に示される物体に関する複数の特徴を画像から抽出することと、抽出された特徴から、画像中に示される物体をバウンディングするパラメータ曲線を表現する、少なくとも１つの複数の点を生成することと、パラメータ曲線を表現する複数の点を出力することとを含むことができる。

実施形態では、複数の特徴を抽出することは、回帰モデルを使用して実施してもよい。方法は、グラウンド・トゥルース物体と予測されるアンカとの間のマッチングを、損失関数を使用して最適化することを含むことができる。損失関数は、曲線空間、または曲線の選択された有限分解のいずれかにおいて計算された、フレシェ距離、ハウスドルフ距離、ボトルネック距離、およびリー代数ベースのメトリクスのうちの少なくとも１つを含む、曲線類似性メトリクスのうちの１つを含むことができる。方法は、曲線距離メトリクスを使用して回帰モデルの重みを最適化することを含むことができる。生成することは、画像中に示される物体をバウンディングする複数のパラメータ曲線を表現する、複数の点を生成することを含むことができる。複数のパラメータ曲線は、受信した画像全体を覆うように、重なりを伴ってスプレッドされてもよい。

ある実施形態では、システムは、プロセッサと、プロセッサからアクセス可能なメモリと、メモリに記憶されたコンピュータ・プログラム命令とを備え、コンピュータ・プログラム命令は、プロセッサによって実行可能であって、画像を受信することと、画像中に示される物体に関する複数の特徴を画像から抽出することと、抽出された特徴から、画像中に示される物体をバウンディングするパラメータ曲線を表現する、少なくとも１つの複数の点を生成することと、パラメータ曲線を表現する複数の点を出力することとを実行することができる。

ある実施形態では、コンピュータ・プログラム製品は、プログラム命令が具体化された非一過性のコンピュータ可読記憶を含み、プログラム命令は、コンピュータによって実行可能であって、コンピュータに、画像を受信することと、画像中に示される物体に関する複数の特徴を画像から抽出することと、抽出された特徴から、画像中に示される物体をバウンディングするパラメータ曲線を表現する、少なくとも１つの複数の点を生成することと、パラメータ曲線を表現する複数の点を出力することとを含む方法を実行させることができる。

本発明の詳細は、その構造および動作の両方に関して、添付の図面を参照することによって、最良に理解することができる。添付の図面では、同一の参照番号および表記は、同一要素を指す。

本技術の実施形態による、ニューラル・ネットワーク・アーキテクチャの例示的な実施形態の図である。本技術の実施形態による、ニューラル・ネットワーク・アーキテクチャにおける物体検出のプロセスの、例示的なフロー図である。本技術の実施形態による、アンカおよび予測されるパラメータ曲線を定義する制御点の例示的な図である。本明細書で説明される実施形態に関与するプロセスを実装することができる、コンピュータ・システムの例示的なブロック図である。

図１に、ニューラル・ネットワーク・アーキテクチャ１００の例示的な実施形態を示す。これは、ニューラル・ネットワーク・アーキテクチャ１００における物体検出のプロセス２００の例示的なフロー図である図２と併せて見るのが最良である。この例では、アーキテクチャ１００は、特徴抽出サブモジュール１０２、少なくとも１つの回帰ヘッド１０４、定義された損失関数１０６、オプティマイザ１０８、および正則化１１０を含むことができる。プロセス２００は２０２で開始し、２０２では、特徴抽出サブモジュール１０３は、画像中に示される物体に関する特徴などの関連特徴を、「ＭＡＩＮ＿ＦＥＡＴＵＲＥＳ」と用語付けて各入力画像１１２から抽出することができる。２０４では、１つまたは複数の回帰モデル・ヘッド１０４は、抽出されたＭＡＩＮ＿ＦＥＡＴＵＲＥＳを入力として受け取ることができ、Ｎ個のアンカ点×Ｃ個の制御点など、現在の画像中で物体をバウンディングすることができる１つまたは複数のパラメータ曲線を表現する点を出力することができる。２０６では、損失関数１０６を適用することができる。損失関数１０６は、グラウンド・トゥルース物体と予測されるアンカとの間でマッチングを最適化しようとする、定義された損失関数（または部分項）であることができる。２０８では、オプティマイザ１０８は、定義された損失関数に従って、モデル重みを最適化することができる。オプティマイザ１０８は、フレシェ距離、ハウスドルフ距離、ボトルネック距離、リー代数ベースのメトリクスなど、あらゆる曲線距離メトリクスを使用することができる。曲線の選択された有限分解を使用することもでき、それによって、ポリゴンベースのメトリクスもまた利用可能となる。（これは、ポリゴンを直接的に出力するネットワークと等価ではないことに注意されたい）。２１０では、任意選択の正則化項１１０は、予測されたパラメータ曲線の形状特性に影響を与えることができる。そのような特性としては、滑らかさ、凸面性などを挙げることができる。２１２では、１つまたは複数のパラメータ曲線を表現し、現在の画像中の物体をバウンディングすることができる、予測された出力点１１２を、出力することができる。

プロセス２００からの出力としての、アンカおよび予測されたパラメータ曲線を定義する制御点の例を、図３に示す。この例では、潜在的な検出を表現する各アンカは、デフォルト３０２で開始することができる。制御点は、モデルのアンカごとの予測の一部であり、ごく少数の数値を使用して、より複雑な形状を表現できるようにしている。例えば、アンカ３０２は、デフォルトのアンカに過ぎない。他のアンカは、アンカ３０４など、同一数の制御点を用いてより複雑な形状を有することができる。プロセス２００は、入力画像全体を覆うように、重なりを伴ってスプレッドするアンカ３０６を予測することができる。オプティマイザ１０８または正則化項１１０あるいはその両方は、１つまたは複数のアンカの形状３０４を、デフォルト形状３０２から修正することができる。

本明細書で説明される実施形態に関与するプロセスおよびコンポーネントを実装することができる、コンピュータ・システム４００の例示的なブロック図を、図４に示す。コンピュータ・システム４００は、埋め込みプロセッサ、システム・オン・チップ、パーソナル・コンピュータ、ワークステーション、サーバ・システム、およびミニコンピュータもしくはメインフレーム・コンピュータなど、１つまたは複数のプログラムされた汎用コンピュータ・システムを使用して、あるいは分散されたネットワーク化コンピューティング環境内に、実装されてもよい。コンピュータ・システム４００は、１つまたは複数のプロセッサ（ＣＰＵ）４０２Ａ～４０２Ｎ、入力／出力回路４０４、ネットワーク・アダプタ４０６、およびメモリ４０８を含むことができる。ＣＰＵ４０２Ａ～４０２Ｎは、本発明の通信システムおよび方法の機能を遂行するために、プログラム命令を実行する。通常、ＣＰＵ４０２Ａ～４０２Ｎは、ＩＮＴＥＬＣＯＲＥ（Ｒ）プロセッサなどの、１つまたは複数のマイクロプロセッサである。図４は、コンピュータ・システム４００が、単一のマルチプロセッサ・コンピュータ・システムとして実装される実施形態を図示しており、このシステムでは、複数のプロセッサ４０２Ａ～４０２Ｎは、メモリ４０８、入力／出力回路４０４、およびネットワーク・アダプタ４０６などのシステム・リソースを共有する。しかしながら、本発明の通信システムおよび方法はまた、コンピュータ・システム４００が、複数のネットワーク化されたコンピュータ・システムとして実装される実施形態を含み、このシステムは、単一プロセッサのコンピュータ・システム、マルチプロセッサのコンピュータ・システム、またはそれらの組合せであってもよい。

入力／出力回路４０４は、データをコンピュータ・システム４００に入力するための、またはコンピュータ・システム４００からデータを出力するための能力を提供する。例えば、入力／出力回路は、キーボード、マウス、タッチパッド、トラックボール、スキャナ、アナログ－デジタル変換器などの入力デバイス、ビデオ・アダプタ、モニタ、プリンタなどの出力デバイス、およびモデムなどの入力／出力デバイスを含むことができる。ネットワーク・アダプタ４０６は、デバイス４００とネットワーク４１０とをインターフェースする。ネットワーク４１０は、インターネットを含むがそれに限定されない、あらゆるパブリックな、または専有のＬＡＮまたはＷＡＮであってもよい。

メモリ４０８は、コンピュータ・システム４００の機能を実行するために、ＣＰＵ４０２によって実行されるプログラム命令、ならびにＣＰＵ４０２によって使用および処理されるデータを記憶する。メモリ４０８としては、例えば、ランダム・アクセス・メモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、プログラマブル読み取り専用メモリ（ＰＲＯＭ）、電気的消去可能プログラマブル読み取り専用メモリ（ＥＥＰＲＯＭ）、フラッシュ・メモリなどの電子メモリデバイス、および磁気ディスク・ドライブ、テープ・ドライブ、光学ディスク・ドライブなどの電気機械的メモリを挙げることができ、これらは、ｉｎｔｅｇｒａｔｅｄｄｒｉｖｅｅｌｅｃｔｒｏｎｉｃｓ（ＩＤＥ）インターフェース、またはエンハンストＩＤＥ（ＥＩＤＥ）もしくはウルトラダイレクト・メモリ・アクセス（ＵＤＭＡ）など、それらの変形もしくは拡張、あるいはスモール・コンピュータ・システム・インターフェース（ＳＣＳＩ）ベースのインターフェース、または高速ＳＣＳＩ、ワイドＳＣＳＩ、高速ワイドＳＣＳＩなど、それらの変形もしくは拡張、あるいはＳｅｒｉａｌＡｄｖａｎｃｅｄＴｅｃｈｎｏｌｏｇｙＡｔｔａｃｈｍｅｎｔ（ＳＡＴＡ）、またはそれらの変形もしくは拡張、あるいはファイバ・チャネル調停ループ（ＦＣ－ＡＬ）インターフェースを使用することができる。

メモリ４０８の内容は、コンピュータ・システム４００が実行するようにプログラムされる機能に応じて様々であることができる。図４に示される例では、例示のメモリ内容は、上述のプロセスの実施形態のルーチンおよびデータを表現して示される。しかしながら、当業者であれば、これらのルーチンは、このようなルーチンに関するメモリ内容と共に、１つのシステムまたはデバイスに含まれなくてもよく、むしろ、周知のエンジニアリング検討に基づいて、複数のシステムまたはデバイス間に分散することができることを認識するであろう。本発明のシステムおよび方法は、あらゆる、またはすべてのそのような配置構成を含むことができる。

図４に示される例では、メモリ４０８は、第３の発話生成ルーチン４１２、モデル・ルーチン４１４、ボット・ルーチン４１６、訓練データ４１８、およびオペレーティング・システム４２０を含むことができる。第３の発話生成ルーチン４１２は、上述のように、エンリッチされた訓練データなどのデータを生成するためのソフトウェア、および第３の発話生成を含むことができる。モデル・ルーチン４１４は、上述のように、テキストからテキストへのモデル化機能性を提供するソフトウェアを含むことができる。ボット・ルーチン４１６は、上述のように、自動化されたダイアログ・システムを実装するためのソフトウェアを含むことができる。オペレーティング・システム４１８は、全体的なシステム機能性を提供することができる。

図４に示されるように、本発明の通信システムおよび方法は、マルチプロセッサ、マルチタスキング、マルチプロセス、またはマルチスレッドあるいはその組合せのコンピューティングを提供する１つまたは複数のシステム上の実装形態、ならびに単一プロセッサ、単一スレッドのコンピューティングを提供するシステム上の実装形態を含むことができる。マルチプロセッサ・コンピューティングには、２つ以上のプロセッサを使用するコンピューティングの実施が伴う。マルチタスキング・コンピューティングには、２つ以上のオペレーティング・システム・タスクを使用するコンピューティングの実施が伴う。タスクは、実行されるプログラムとオペレーティング・システムによって使用される記録情報との組合せを称するオペレーティング・システムの概念である。プログラムが実行される都度、オペレーティング・システムはそれに対して新しいタスクを作成する。タスクは、プログラムをタスク番号で識別し、他の記録情報をそこに添付するという点で、プログラム用の封筒のようなものである。Ｌｉｎｕｘ、ＵＮＩＸ（Ｒ）、ＯＳ／２（Ｒ）、およびＷｉｎｄｏｗｓ（Ｒ）を含む、多くのオペレーティング・システムは、多くのタスクを同時に実行することができ、マルチタスキング・オペレーティング・システムと呼ばれる。マルチタスキングは、２つ以上の実行可能ファイルを同時に実行する、オペレーティング・システムの能力である。各実行可能ファイルは、それ自身のアドレス空間で実行され、これは実行可能ファイルがそれらのどのメモリも共有する方法がないことを意味する。どのプログラムも、システム上で実行する他のプログラムのいずれの実行に損害を与えることができないため、これには利点がある。しかしながら、プログラムは、オペレーティング・システムを通じて（または、ファイル・システムに記憶されたファイルを読み取ることによって）以外に情報を交換する方法がない。タスクとプロセスという用語はしばしば互換的に用いられるため、マルチプロセス・コンピューティングは、マルチタスキング・コンピューティングに類似しているが、一部のオペレーティング・システムは両者を区別している。

本発明は、統合のあらゆる可能な技術的詳細レベルにおける、システム、方法、またはコンピュータ・プログラム製品あるいはその組合せであってもよい。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体を含むことができる。コンピュータ可読記憶媒体は、命令実行デバイスによる使用のための命令を保持および記憶することができる有形のデバイスであり得る。

コンピュータ可読記憶媒体は、例えば、電子ストレージ・デバイス、磁気ストレージ・デバイス、光学ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイスまたは前述のあらゆる好適な組合せであってもよいが、それに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的な列挙としては、以下が挙げられる：ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュ・メモリ）、静的ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル・バーサタイル・ディスク（ＤＶＤ）、メモリ・スティック、フロッピ・ディスク、命令が記録されたパンチカードまたは溝に刻まれた構造などの機械的にエンコードされたデバイス、および前述のあらゆる好適な組合せ。本明細書において使用される場合、コンピュータ可読記憶媒体は、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体を介して伝搬する電磁波（例えば、光ファイバ・ケーブルを通過する光パルス）、または電線を介して伝送される電気的信号など、一過性の信号そのものであると解釈されてはならない。

本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から個別のコンピューティング／処理デバイスに、あるいは、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワークもしくは無線ネットワークまたはその組合せなどのネットワークを介して、外部のコンピュータまたは外部のストレージ・デバイスに、ダウンロードすることができる。ネットワークは、銅の伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイヤウォール、スイッチ、ゲートウェイ・コンピュータまたはエッジ・サーバあるいはその組合せを含むことができる。それぞれのコンピューティング／処理デバイスのネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、個別のコンピューティング／処理デバイス内のコンピュータ可読記憶媒体に記憶するためにコンピュータ可読プログラム命令を転送する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路用の設定データ、あるいはＳｍａｌｌｔａｌｋ（Ｒ）、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語などの手続き型プログラミング言語もしくは類似するプログラミング言語を含む１つまたは複数のプログラミング言語のあらゆる組合せで記述された、ソース・コードまたはオブジェクト・コードのいずれかであってもよい。コンピュータ可読プログラム命令は、すべてユーザのコンピュータ上で、一部はユーザのコンピュータ上でスタンドアロンのソフトウェア・パッケージとして、一部はユーザのコンピュータ上および一部はリモート・コンピュータ上で、またはすべてリモート・コンピュータ上もしくはサーバ上で、実行することができる。後者のシナリオにおいて、リモート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）もしくはワイド・エリア・ネットワーク（ＷＡＮ）を含むあらゆるタイプのネットワークを介してユーザのコンピュータに接続することができ、または接続は（例えば、インターネット・サービス・プロバイダを使用してインターネットを通じて）外部のコンピュータに対してなされてもよい。一部の実施形態において、例えば、プログラマブル論理回路、フィールドプログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラマブル論理アレイ（ＰＬＡ）を含む電子回路は、本発明の態様を実施するために、コンピュータ可読プログラム命令の状態情報を利用することによってコンピュータ可読プログラム命令を実行し、電子回路を個別化することができる。

本発明の態様は、本明細書では、本発明の実施形態による方法、装置（システム）、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照しながら説明される。フローチャート図またはブロック図あるいはその両方のそれぞれのブロック、およびフローチャート図またはブロック図あるいはその両方におけるブロックの組合せは、コンピュータ可読プログラム命令によって実装され得ることが理解されよう。

これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラマブル・データ処理装置のプロセッサを介して実行する命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックに指定される機能／作用を実装する手段を作成すべく、汎用コンピュータ、特殊目的コンピュータ、または他のプログラマブル・データ処理装置のプロセッサに提供されて機械を作るものであってよい。これらのコンピュータ可読プログラム命令はまた、命令が記憶されているコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックに指定される機能／作用の態様を実装するための命令を含む製造物品を備えるべく、コンピュータ、プログラマブル・データ処理装置、または他のデバイスあるいはその組合せに特定のやり方で機能するように指示することができるコンピュータ可読記憶媒体に記憶されてもよい。

コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラマブル装置、または他のデバイスで実行する命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックに指定される機能／作用を実装するように、コンピュータ実装プロセスを作るべく、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイス上にロードされ、コンピュータ、他のプログラマブル装置、または他のデバイス上で一連の動作ステップを実施させるものであってもよい。

図面中のフローチャートおよびブロック図は、本発明の様々な実施形態に従って、システム、方法、およびコンピュータ・プログラム製品の可能な実装形態の、アーキテクチャ、機能性、および動作を図示している。この点において、フローチャートまたはブロック図のそれぞれのブロックは、指定される論理機能を実装するための１つまたは複数の実行可能な命令を含む、命令のモジュール、セグメント、または部分を表現することができる。一部の代替的な実装形態では、ブロックで示される機能は図面で示した順とは異なって発生してもよい。例えば、連続して示される２つのブロックは、実際には実質的に同時に実行されてもよく、またはブロックは関与する機能性によっては、時に逆の順で実行されてもよい。ブロック図またはフローチャート図あるいはその両方のそれぞれのブロック、およびブロック図またはフローチャート図あるいはその両方のブロックの組合せは、指定される機能もしくは作用を実施する、または特殊目的ハードウェアとコンピュータ命令との組合せを実行する、特殊目的ハードウェア・ベースのシステムによって実装され得ることにも留意されたい。

本発明の具体的な実施形態を説明してきたが、当業者であれば、説明された実施形態に等価な他の実施形態を理解するであろう。したがって、本発明は、具体的な例示の実施形態によって限定されることなく、添付の特許請求の範囲によってのみ限定されることを理解されたい。

Claims

プロセッサと、前記プロセッサからアクセス可能なメモリと、前記メモリに記憶されて前記プロセッサによって実行可能なコンピュータ・プログラム命令とを含むコンピュータ・システムに実装される方法であって、前記方法が、
画像を受信することと、
前記画像中に示される物体に関する複数の特徴を前記画像から抽出することと、
前記抽出された特徴から、前記画像中に示される物体をバウンディングするパラメータ曲線を表現する、少なくとも１つの複数の点を生成することと、
前記パラメータ曲線を表現する前記複数の点を出力することと
を含む、方法。
前記複数の特徴を抽出することが、回帰モデルを使用して実施される、請求項１に記載の方法。
グラウンド・トゥルース物体と予測されるアンカとの間のマッチングを、損失関数を使用して最適化すること
をさらに含む、請求項２に記載の方法。
前記損失関数が、曲線空間、または前記曲線の選択された有限分解のいずれかにおいて計算された、フレシェ距離、ハウスドルフ距離、ボトルネック距離、およびリー代数ベースのメトリクスのうちの少なくとも１つを含む、曲線類似性メトリクスのうちの１つを含む、請求項３に記載の方法。
曲線距離メトリクスを使用して前記回帰モデルの重みを最適化すること
をさらに含む、請求項３に記載の方法。
前記生成することが、前記画像中に示される前記物体をバウンディングする複数のパラメータ曲線を表現する、複数の点を生成することを含む、請求項１に記載の方法。
前記複数のパラメータ曲線が、前記受信した画像全体を覆うように、重なりを伴ってスプレッドされる、請求項６に記載の方法。
システムであって、プロセッサと、前記プロセッサからアクセス可能なメモリと、前記メモリに記憶されたコンピュータ・プログラム命令とを備え、前記コンピュータ・プログラム命令は、前記プロセッサによって実行可能であって、
画像を受信することと、
前記画像中に示される物体に関する複数の特徴を前記画像から抽出することと、
前記抽出された特徴から、前記画像中に示される物体をバウンディングするパラメータ曲線を表現する、少なくとも１つの複数の点を生成することと、
前記パラメータ曲線を表現する前記複数の点を出力することと
を実行する、システム。
前記複数の特徴を抽出することが、回帰モデルを使用して実施される、請求項８に記載のシステム。
グラウンド・トゥルース物体と予測されるアンカとの間のマッチングを、損失関数を使用して最適化すること
をさらに含む、請求項９に記載のシステム。
前記損失関数が、曲線空間、または前記曲線の選択された有限分解のいずれかにおいて計算された、フレシェ距離、ハウスドルフ距離、ボトルネック距離、およびリー代数ベースのメトリクスのうちの少なくとも１つを含む、曲線類似性メトリクスのうちの１つを含む、請求項１０に記載のシステム。
曲線距離メトリクスを使用して前記回帰モデルの重みを最適化すること
をさらに含む、請求項１０に記載のシステム。
前記生成することが、前記画像中に示される前記物体をバウンディングする複数のパラメータ曲線を表現する、複数の点を生成することを含む、請求項８に記載のシステム。
前記複数のパラメータ曲線が、前記受信した画像全体を覆うように、重なりを伴ってスプレッドされる、請求項１３に記載のシステム。
プログラム命令が具体化された非一過性のコンピュータ可読記憶を含む、コンピュータ・プログラム製品であって、前記プログラム命令は、コンピュータによって実行可能であって、前記コンピュータに、
画像を受信することと、
前記画像中に示される物体に関する複数の特徴を前記画像から抽出することと、
前記抽出された特徴から、前記画像中に示される物体をバウンディングするパラメータ曲線を表現する、少なくとも１つの複数の点を生成することと、
前記パラメータ曲線を表現する前記複数の点を出力することと
を含む方法を実行させる、コンピュータ・プログラム製品。
前記複数の特徴を抽出することが、回帰モデルを使用して実施される、請求項１５に記載のコンピュータ・プログラム製品。
グラウンド・トゥルース物体と予測されるアンカとの間のマッチングを、損失関数を使用して最適化すること
をさらに含む、請求項１６に記載のコンピュータ・プログラム製品。
前記損失関数が、曲線空間、または前記曲線の選択された有限分解のいずれかにおいて計算された、フレシェ距離、ハウスドルフ距離、ボトルネック距離、およびリー代数ベースのメトリクスのうちの少なくとも１つを含む、曲線類似性メトリクスのうちの１つを含む、請求項１７に記載のコンピュータ・プログラム製品。
前記生成することが、前記画像中に示される前記物体をバウンディングする複数のパラメータ曲線を表現する、複数の点を生成することを含む、請求項１７に記載のコンピュータ・プログラム製品。
前記複数のパラメータ曲線が、前記受信した画像全体を覆うように、重なりを伴ってスプレッドされる、請求項１９に記載のコンピュータ・プログラム製品。