JP2024516586A - パラメータ曲線ベースの検出器ネットワーク - Google Patents

パラメータ曲線ベースの検出器ネットワーク Download PDF

Info

Publication number
JP2024516586A
JP2024516586A JP2023563823A JP2023563823A JP2024516586A JP 2024516586 A JP2024516586 A JP 2024516586A JP 2023563823 A JP2023563823 A JP 2023563823A JP 2023563823 A JP2023563823 A JP 2023563823A JP 2024516586 A JP2024516586 A JP 2024516586A
Authority
JP
Japan
Prior art keywords
image
curve
computer
points
computer program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023563823A
Other languages
English (en)
Inventor
ショーシャン、ヨエル
ラトナー、バディム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2024516586A publication Critical patent/JP2024516586A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features

Abstract

実施形態は、複数の制御点によって定義されるパラメータ曲線を使用して物体の発見および境界予測の精度を改善するような、物体検出のための改善された技術を提供することができる。例えば、ある実施形態では、方法は、プロセッサと、プロセッサからアクセス可能なメモリと、メモリに記憶されてプロセッサによって実行可能なコンピュータ・プログラム命令とを含むコンピュータ・システムに実装することができ、方法は、画像を受信することと、画像中に示される物体に関する複数の特徴を画像から抽出することと、抽出された特徴から、画像中に示される物体をバウンディングするパラメータ曲線を表現する、少なくとも1つの複数の点を生成することと、パラメータ曲線を表現する複数の点を出力することとを含むことができる。

Description

本発明は、複数の制御点によって定義されるパラメータ曲線を使用して物体の発見および境界予測の精度を改善するような、物体検出のための技術に関する。
機械学習ベースの物体検出器は、軸平行境界ボックス(AABB:axis aligned bounding box)を使用して物体予測を実現する。一方で、機械学習ベースの画像セグメント化モデルは、ピクセル(またはピクセルに近い)・レベルのクラス予測を実現する。このような検出器の主な欠点は、AABBは、多くの実際の物体の形状をうまく捉えないことである。セグメント化モデルの主な欠点は、以下のことである:a)ピクセル・レベルの物体は、境界が必ずしも明瞭ではない(例えば、医療用途で)ため、必ずしも明確に定義される訳ではなく、複数のクラスが混じり合っているため、単一のピクセルが複数のクラスに「属する」場合があり、さらに重要なことに、b)一部の用途では、5つの正しいピクセルを既に見つけられた物体に追加することは、まだ発見されていない新しい物体の5つの正しいピクセルを発見することよりもほとんど意味がないため、物体重要性を表現することが困難である(「物体重要性」として知られる)。
物体検出パフォーマンスは、次の組合せとして測定することができる:1)一体何の物体が発見されたか、2)境界予測がどれくらい密で正確であったか。普通、両方のパラメータは、物体形状マッチング基準を定義することによって組み合わされ、この基準は、実際の物体グラウンド・トゥルース境界に対する予測と比較され、比較の類似性が一定のしきい値を下回る場合、ミスと考える。
したがって、物体の発見および境界予測の精度を改善するような、物体検出のための改善された技術の必要性が生じる。
実施形態は、複数の制御点によって定義されるパラメータ曲線を使用して物体の発見および境界予測の精度を改善するような、物体検出のための改善された技術を提供することができる。例えば、実施形態は、物体について著しく密な境界予測を提供しつつ、物体重要性を正しく表現することができる。AABB位置の微調整を表現する物体1つ当たりに予測される4つの値の代わりに、実施形態は、K個の曲線制御点を代わりに予測することができる。これは、物体の発見とその形状の記述との間で、より良好なバランスをとり、それによって、優れた物体検出パフォーマンスをもたらすことができる。加えて、実施形態は、物体形状の正則化を実現することができる。加えて、ポリゴンは多くの頂点を含むことがあり、モデルがオーバフィットされる可能性が高いため、多様な形状境界を表現することができる少数の制御点は、ポリゴン形状を予測しようとする技術よりも優れている。
例えば、ある実施形態では、方法は、プロセッサと、プロセッサからアクセス可能なメモリと、メモリに記憶されてプロセッサによって実行可能なコンピュータ・プログラム命令とを含むコンピュータ・システムに実装することができ、方法は、画像を受信することと、画像中に示される物体に関する複数の特徴を画像から抽出することと、抽出された特徴から、画像中に示される物体をバウンディングするパラメータ曲線を表現する、少なくとも1つの複数の点を生成することと、パラメータ曲線を表現する複数の点を出力することとを含むことができる。
実施形態では、複数の特徴を抽出することは、回帰モデルを使用して実施してもよい。方法は、グラウンド・トゥルース物体と予測されるアンカとの間のマッチングを、損失関数を使用して最適化することを含むことができる。損失関数は、曲線空間、または曲線の選択された有限分解のいずれかにおいて計算された、フレシェ距離、ハウスドルフ距離、ボトルネック距離、およびリー代数ベースのメトリクスのうちの少なくとも1つを含む、曲線類似性メトリクスのうちの1つを含むことができる。方法は、曲線距離メトリクスを使用して回帰モデルの重みを最適化することを含むことができる。生成することは、画像中に示される物体をバウンディングする複数のパラメータ曲線を表現する、複数の点を生成することを含むことができる。複数のパラメータ曲線は、受信した画像全体を覆うように、重なりを伴ってスプレッドされてもよい。
ある実施形態では、システムは、プロセッサと、プロセッサからアクセス可能なメモリと、メモリに記憶されたコンピュータ・プログラム命令とを備え、コンピュータ・プログラム命令は、プロセッサによって実行可能であって、画像を受信することと、画像中に示される物体に関する複数の特徴を画像から抽出することと、抽出された特徴から、画像中に示される物体をバウンディングするパラメータ曲線を表現する、少なくとも1つの複数の点を生成することと、パラメータ曲線を表現する複数の点を出力することとを実行することができる。
ある実施形態では、コンピュータ・プログラム製品は、プログラム命令が具体化された非一過性のコンピュータ可読記憶を含み、プログラム命令は、コンピュータによって実行可能であって、コンピュータに、画像を受信することと、画像中に示される物体に関する複数の特徴を画像から抽出することと、抽出された特徴から、画像中に示される物体をバウンディングするパラメータ曲線を表現する、少なくとも1つの複数の点を生成することと、パラメータ曲線を表現する複数の点を出力することとを含む方法を実行させることができる。
本発明の詳細は、その構造および動作の両方に関して、添付の図面を参照することによって、最良に理解することができる。添付の図面では、同一の参照番号および表記は、同一要素を指す。
本技術の実施形態による、ニューラル・ネットワーク・アーキテクチャの例示的な実施形態の図である。 本技術の実施形態による、ニューラル・ネットワーク・アーキテクチャにおける物体検出のプロセスの、例示的なフロー図である。 本技術の実施形態による、アンカおよび予測されるパラメータ曲線を定義する制御点の例示的な図である。 本明細書で説明される実施形態に関与するプロセスを実装することができる、コンピュータ・システムの例示的なブロック図である。
実施形態は、複数の制御点によって定義されるパラメータ曲線を使用して物体の発見および境界予測の精度を改善するような、物体検出のための改善された技術を提供することができる。例えば、実施形態は、物体について著しく密な境界予測を提供しつつ、物体重要性を正しく表現することができる。AABB位置の微調整を表現する物体1つ当たりに予測される4つの値の代わりに、実施形態は、K個の曲線制御点を代わりに予測することができる。これは、物体の発見とその形状の記述との間で、より良好なバランスをとり、それによって、優れた物体検出パフォーマンスをもたらすことができる。加えて、実施形態は、物体形状の正則化を実現することができる。加えて、ポリゴンは多くの頂点を含むことがあり、モデルがオーバフィットされる可能性が高いため、多様な形状境界を表現することができる少数の制御点は、ポリゴン形状を予測しようとする技術よりも優れている。
図1に、ニューラル・ネットワーク・アーキテクチャ100の例示的な実施形態を示す。これは、ニューラル・ネットワーク・アーキテクチャ100における物体検出のプロセス200の例示的なフロー図である図2と併せて見るのが最良である。この例では、アーキテクチャ100は、特徴抽出サブモジュール102、少なくとも1つの回帰ヘッド104、定義された損失関数106、オプティマイザ108、および正則化110を含むことができる。プロセス200は202で開始し、202では、特徴抽出サブモジュール103は、画像中に示される物体に関する特徴などの関連特徴を、「MAIN_FEATURES」と用語付けて各入力画像112から抽出することができる。204では、1つまたは複数の回帰モデル・ヘッド104は、抽出されたMAIN_FEATURESを入力として受け取ることができ、N個のアンカ点×C個の制御点など、現在の画像中で物体をバウンディングすることができる1つまたは複数のパラメータ曲線を表現する点を出力することができる。206では、損失関数106を適用することができる。損失関数106は、グラウンド・トゥルース物体と予測されるアンカとの間でマッチングを最適化しようとする、定義された損失関数(または部分項)であることができる。208では、オプティマイザ108は、定義された損失関数に従って、モデル重みを最適化することができる。オプティマイザ108は、フレシェ距離、ハウスドルフ距離、ボトルネック距離、リー代数ベースのメトリクスなど、あらゆる曲線距離メトリクスを使用することができる。曲線の選択された有限分解を使用することもでき、それによって、ポリゴンベースのメトリクスもまた利用可能となる。(これは、ポリゴンを直接的に出力するネットワークと等価ではないことに注意されたい)。210では、任意選択の正則化項110は、予測されたパラメータ曲線の形状特性に影響を与えることができる。そのような特性としては、滑らかさ、凸面性などを挙げることができる。212では、1つまたは複数のパラメータ曲線を表現し、現在の画像中の物体をバウンディングすることができる、予測された出力点112を、出力することができる。
プロセス200からの出力としての、アンカおよび予測されたパラメータ曲線を定義する制御点の例を、図3に示す。この例では、潜在的な検出を表現する各アンカは、デフォルト302で開始することができる。制御点は、モデルのアンカごとの予測の一部であり、ごく少数の数値を使用して、より複雑な形状を表現できるようにしている。例えば、アンカ302は、デフォルトのアンカに過ぎない。他のアンカは、アンカ304など、同一数の制御点を用いてより複雑な形状を有することができる。プロセス200は、入力画像全体を覆うように、重なりを伴ってスプレッドするアンカ306を予測することができる。オプティマイザ108または正則化項110あるいはその両方は、1つまたは複数のアンカの形状304を、デフォルト形状302から修正することができる。
本明細書で説明される実施形態に関与するプロセスおよびコンポーネントを実装することができる、コンピュータ・システム400の例示的なブロック図を、図4に示す。コンピュータ・システム400は、埋め込みプロセッサ、システム・オン・チップ、パーソナル・コンピュータ、ワークステーション、サーバ・システム、およびミニコンピュータもしくはメインフレーム・コンピュータなど、1つまたは複数のプログラムされた汎用コンピュータ・システムを使用して、あるいは分散されたネットワーク化コンピューティング環境内に、実装されてもよい。コンピュータ・システム400は、1つまたは複数のプロセッサ(CPU)402A~402N、入力/出力回路404、ネットワーク・アダプタ406、およびメモリ408を含むことができる。CPU402A~402Nは、本発明の通信システムおよび方法の機能を遂行するために、プログラム命令を実行する。通常、CPU402A~402Nは、INTEL CORE(R)プロセッサなどの、1つまたは複数のマイクロプロセッサである。図4は、コンピュータ・システム400が、単一のマルチプロセッサ・コンピュータ・システムとして実装される実施形態を図示しており、このシステムでは、複数のプロセッサ402A~402Nは、メモリ408、入力/出力回路404、およびネットワーク・アダプタ406などのシステム・リソースを共有する。しかしながら、本発明の通信システムおよび方法はまた、コンピュータ・システム400が、複数のネットワーク化されたコンピュータ・システムとして実装される実施形態を含み、このシステムは、単一プロセッサのコンピュータ・システム、マルチプロセッサのコンピュータ・システム、またはそれらの組合せであってもよい。
入力/出力回路404は、データをコンピュータ・システム400に入力するための、またはコンピュータ・システム400からデータを出力するための能力を提供する。例えば、入力/出力回路は、キーボード、マウス、タッチパッド、トラックボール、スキャナ、アナログ-デジタル変換器などの入力デバイス、ビデオ・アダプタ、モニタ、プリンタなどの出力デバイス、およびモデムなどの入力/出力デバイスを含むことができる。ネットワーク・アダプタ406は、デバイス400とネットワーク410とをインターフェースする。ネットワーク410は、インターネットを含むがそれに限定されない、あらゆるパブリックな、または専有のLANまたはWANであってもよい。
メモリ408は、コンピュータ・システム400の機能を実行するために、CPU402によって実行されるプログラム命令、ならびにCPU402によって使用および処理されるデータを記憶する。メモリ408としては、例えば、ランダム・アクセス・メモリ(RAM)、読み取り専用メモリ(ROM)、プログラマブル読み取り専用メモリ(PROM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、フラッシュ・メモリなどの電子メモリデバイス、および磁気ディスク・ドライブ、テープ・ドライブ、光学ディスク・ドライブなどの電気機械的メモリを挙げることができ、これらは、integrated drive electronics(IDE)インターフェース、またはエンハンストIDE(EIDE)もしくはウルトラダイレクト・メモリ・アクセス(UDMA)など、それらの変形もしくは拡張、あるいはスモール・コンピュータ・システム・インターフェース(SCSI)ベースのインターフェース、または高速SCSI、ワイドSCSI、高速ワイドSCSIなど、それらの変形もしくは拡張、あるいはSerial Advanced Technology Attachment(SATA)、またはそれらの変形もしくは拡張、あるいはファイバ・チャネル調停ループ(FC-AL)インターフェースを使用することができる。
メモリ408の内容は、コンピュータ・システム400が実行するようにプログラムされる機能に応じて様々であることができる。図4に示される例では、例示のメモリ内容は、上述のプロセスの実施形態のルーチンおよびデータを表現して示される。しかしながら、当業者であれば、これらのルーチンは、このようなルーチンに関するメモリ内容と共に、1つのシステムまたはデバイスに含まれなくてもよく、むしろ、周知のエンジニアリング検討に基づいて、複数のシステムまたはデバイス間に分散することができることを認識するであろう。本発明のシステムおよび方法は、あらゆる、またはすべてのそのような配置構成を含むことができる。
図4に示される例では、メモリ408は、第3の発話生成ルーチン412、モデル・ルーチン414、ボット・ルーチン416、訓練データ418、およびオペレーティング・システム420を含むことができる。第3の発話生成ルーチン412は、上述のように、エンリッチされた訓練データなどのデータを生成するためのソフトウェア、および第3の発話生成を含むことができる。モデル・ルーチン414は、上述のように、テキストからテキストへのモデル化機能性を提供するソフトウェアを含むことができる。ボット・ルーチン416は、上述のように、自動化されたダイアログ・システムを実装するためのソフトウェアを含むことができる。オペレーティング・システム418は、全体的なシステム機能性を提供することができる。
図4に示されるように、本発明の通信システムおよび方法は、マルチプロセッサ、マルチタスキング、マルチプロセス、またはマルチスレッドあるいはその組合せのコンピューティングを提供する1つまたは複数のシステム上の実装形態、ならびに単一プロセッサ、単一スレッドのコンピューティングを提供するシステム上の実装形態を含むことができる。マルチプロセッサ・コンピューティングには、2つ以上のプロセッサを使用するコンピューティングの実施が伴う。マルチタスキング・コンピューティングには、2つ以上のオペレーティング・システム・タスクを使用するコンピューティングの実施が伴う。タスクは、実行されるプログラムとオペレーティング・システムによって使用される記録情報との組合せを称するオペレーティング・システムの概念である。プログラムが実行される都度、オペレーティング・システムはそれに対して新しいタスクを作成する。タスクは、プログラムをタスク番号で識別し、他の記録情報をそこに添付するという点で、プログラム用の封筒のようなものである。Linux、UNIX(R)、OS/2(R)、およびWindows(R)を含む、多くのオペレーティング・システムは、多くのタスクを同時に実行することができ、マルチタスキング・オペレーティング・システムと呼ばれる。マルチタスキングは、2つ以上の実行可能ファイルを同時に実行する、オペレーティング・システムの能力である。各実行可能ファイルは、それ自身のアドレス空間で実行され、これは実行可能ファイルがそれらのどのメモリも共有する方法がないことを意味する。どのプログラムも、システム上で実行する他のプログラムのいずれの実行に損害を与えることができないため、これには利点がある。しかしながら、プログラムは、オペレーティング・システムを通じて(または、ファイル・システムに記憶されたファイルを読み取ることによって)以外に情報を交換する方法がない。タスクとプロセスという用語はしばしば互換的に用いられるため、マルチプロセス・コンピューティングは、マルチタスキング・コンピューティングに類似しているが、一部のオペレーティング・システムは両者を区別している。
本発明は、統合のあらゆる可能な技術的詳細レベルにおける、システム、方法、またはコンピュータ・プログラム製品あるいはその組合せであってもよい。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体を含むことができる。コンピュータ可読記憶媒体は、命令実行デバイスによる使用のための命令を保持および記憶することができる有形のデバイスであり得る。
コンピュータ可読記憶媒体は、例えば、電子ストレージ・デバイス、磁気ストレージ・デバイス、光学ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイスまたは前述のあらゆる好適な組合せであってもよいが、それに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的な列挙としては、以下が挙げられる:ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュ・メモリ)、静的ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読み取り専用メモリ(CD-ROM)、デジタル・バーサタイル・ディスク(DVD)、メモリ・スティック、フロッピ・ディスク、命令が記録されたパンチカードまたは溝に刻まれた構造などの機械的にエンコードされたデバイス、および前述のあらゆる好適な組合せ。本明細書において使用される場合、コンピュータ可読記憶媒体は、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体を介して伝搬する電磁波(例えば、光ファイバ・ケーブルを通過する光パルス)、または電線を介して伝送される電気的信号など、一過性の信号そのものであると解釈されてはならない。
本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から個別のコンピューティング/処理デバイスに、あるいは、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワークもしくは無線ネットワークまたはその組合せなどのネットワークを介して、外部のコンピュータまたは外部のストレージ・デバイスに、ダウンロードすることができる。ネットワークは、銅の伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイヤウォール、スイッチ、ゲートウェイ・コンピュータまたはエッジ・サーバあるいはその組合せを含むことができる。それぞれのコンピューティング/処理デバイスのネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、個別のコンピューティング/処理デバイス内のコンピュータ可読記憶媒体に記憶するためにコンピュータ可読プログラム命令を転送する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路用の設定データ、あるいはSmalltalk(R)、C++などのオブジェクト指向プログラミング言語、および「C」プログラミング言語などの手続き型プログラミング言語もしくは類似するプログラミング言語を含む1つまたは複数のプログラミング言語のあらゆる組合せで記述された、ソース・コードまたはオブジェクト・コードのいずれかであってもよい。コンピュータ可読プログラム命令は、すべてユーザのコンピュータ上で、一部はユーザのコンピュータ上でスタンドアロンのソフトウェア・パッケージとして、一部はユーザのコンピュータ上および一部はリモート・コンピュータ上で、またはすべてリモート・コンピュータ上もしくはサーバ上で、実行することができる。後者のシナリオにおいて、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)もしくはワイド・エリア・ネットワーク(WAN)を含むあらゆるタイプのネットワークを介してユーザのコンピュータに接続することができ、または接続は(例えば、インターネット・サービス・プロバイダを使用してインターネットを通じて)外部のコンピュータに対してなされてもよい。一部の実施形態において、例えば、プログラマブル論理回路、フィールドプログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル論理アレイ(PLA)を含む電子回路は、本発明の態様を実施するために、コンピュータ可読プログラム命令の状態情報を利用することによってコンピュータ可読プログラム命令を実行し、電子回路を個別化することができる。
本発明の態様は、本明細書では、本発明の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照しながら説明される。フローチャート図またはブロック図あるいはその両方のそれぞれのブロック、およびフローチャート図またはブロック図あるいはその両方におけるブロックの組合せは、コンピュータ可読プログラム命令によって実装され得ることが理解されよう。
これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラマブル・データ処理装置のプロセッサを介して実行する命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックに指定される機能/作用を実装する手段を作成すべく、汎用コンピュータ、特殊目的コンピュータ、または他のプログラマブル・データ処理装置のプロセッサに提供されて機械を作るものであってよい。これらのコンピュータ可読プログラム命令はまた、命令が記憶されているコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックに指定される機能/作用の態様を実装するための命令を含む製造物品を備えるべく、コンピュータ、プログラマブル・データ処理装置、または他のデバイスあるいはその組合せに特定のやり方で機能するように指示することができるコンピュータ可読記憶媒体に記憶されてもよい。
コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラマブル装置、または他のデバイスで実行する命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックに指定される機能/作用を実装するように、コンピュータ実装プロセスを作るべく、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイス上にロードされ、コンピュータ、他のプログラマブル装置、または他のデバイス上で一連の動作ステップを実施させるものであってもよい。
図面中のフローチャートおよびブロック図は、本発明の様々な実施形態に従って、システム、方法、およびコンピュータ・プログラム製品の可能な実装形態の、アーキテクチャ、機能性、および動作を図示している。この点において、フローチャートまたはブロック図のそれぞれのブロックは、指定される論理機能を実装するための1つまたは複数の実行可能な命令を含む、命令のモジュール、セグメント、または部分を表現することができる。一部の代替的な実装形態では、ブロックで示される機能は図面で示した順とは異なって発生してもよい。例えば、連続して示される2つのブロックは、実際には実質的に同時に実行されてもよく、またはブロックは関与する機能性によっては、時に逆の順で実行されてもよい。ブロック図またはフローチャート図あるいはその両方のそれぞれのブロック、およびブロック図またはフローチャート図あるいはその両方のブロックの組合せは、指定される機能もしくは作用を実施する、または特殊目的ハードウェアとコンピュータ命令との組合せを実行する、特殊目的ハードウェア・ベースのシステムによって実装され得ることにも留意されたい。
本発明の具体的な実施形態を説明してきたが、当業者であれば、説明された実施形態に等価な他の実施形態を理解するであろう。したがって、本発明は、具体的な例示の実施形態によって限定されることなく、添付の特許請求の範囲によってのみ限定されることを理解されたい。

Claims (20)

  1. プロセッサと、前記プロセッサからアクセス可能なメモリと、前記メモリに記憶されて前記プロセッサによって実行可能なコンピュータ・プログラム命令とを含むコンピュータ・システムに実装される方法であって、前記方法が、
    画像を受信することと、
    前記画像中に示される物体に関する複数の特徴を前記画像から抽出することと、
    前記抽出された特徴から、前記画像中に示される物体をバウンディングするパラメータ曲線を表現する、少なくとも1つの複数の点を生成することと、
    前記パラメータ曲線を表現する前記複数の点を出力することと
    を含む、方法。
  2. 前記複数の特徴を抽出することが、回帰モデルを使用して実施される、請求項1に記載の方法。
  3. グラウンド・トゥルース物体と予測されるアンカとの間のマッチングを、損失関数を使用して最適化すること
    をさらに含む、請求項2に記載の方法。
  4. 前記損失関数が、曲線空間、または前記曲線の選択された有限分解のいずれかにおいて計算された、フレシェ距離、ハウスドルフ距離、ボトルネック距離、およびリー代数ベースのメトリクスのうちの少なくとも1つを含む、曲線類似性メトリクスのうちの1つを含む、請求項3に記載の方法。
  5. 曲線距離メトリクスを使用して前記回帰モデルの重みを最適化すること
    をさらに含む、請求項3に記載の方法。
  6. 前記生成することが、前記画像中に示される前記物体をバウンディングする複数のパラメータ曲線を表現する、複数の点を生成することを含む、請求項1に記載の方法。
  7. 前記複数のパラメータ曲線が、前記受信した画像全体を覆うように、重なりを伴ってスプレッドされる、請求項6に記載の方法。
  8. システムであって、プロセッサと、前記プロセッサからアクセス可能なメモリと、前記メモリに記憶されたコンピュータ・プログラム命令とを備え、前記コンピュータ・プログラム命令は、前記プロセッサによって実行可能であって、
    画像を受信することと、
    前記画像中に示される物体に関する複数の特徴を前記画像から抽出することと、
    前記抽出された特徴から、前記画像中に示される物体をバウンディングするパラメータ曲線を表現する、少なくとも1つの複数の点を生成することと、
    前記パラメータ曲線を表現する前記複数の点を出力することと
    を実行する、システム。
  9. 前記複数の特徴を抽出することが、回帰モデルを使用して実施される、請求項8に記載のシステム。
  10. グラウンド・トゥルース物体と予測されるアンカとの間のマッチングを、損失関数を使用して最適化すること
    をさらに含む、請求項9に記載のシステム。
  11. 前記損失関数が、曲線空間、または前記曲線の選択された有限分解のいずれかにおいて計算された、フレシェ距離、ハウスドルフ距離、ボトルネック距離、およびリー代数ベースのメトリクスのうちの少なくとも1つを含む、曲線類似性メトリクスのうちの1つを含む、請求項10に記載のシステム。
  12. 曲線距離メトリクスを使用して前記回帰モデルの重みを最適化すること
    をさらに含む、請求項10に記載のシステム。
  13. 前記生成することが、前記画像中に示される前記物体をバウンディングする複数のパラメータ曲線を表現する、複数の点を生成することを含む、請求項8に記載のシステム。
  14. 前記複数のパラメータ曲線が、前記受信した画像全体を覆うように、重なりを伴ってスプレッドされる、請求項13に記載のシステム。
  15. プログラム命令が具体化された非一過性のコンピュータ可読記憶を含む、コンピュータ・プログラム製品であって、前記プログラム命令は、コンピュータによって実行可能であって、前記コンピュータに、
    画像を受信することと、
    前記画像中に示される物体に関する複数の特徴を前記画像から抽出することと、
    前記抽出された特徴から、前記画像中に示される物体をバウンディングするパラメータ曲線を表現する、少なくとも1つの複数の点を生成することと、
    前記パラメータ曲線を表現する前記複数の点を出力することと
    を含む方法を実行させる、コンピュータ・プログラム製品。
  16. 前記複数の特徴を抽出することが、回帰モデルを使用して実施される、請求項15に記載のコンピュータ・プログラム製品。
  17. グラウンド・トゥルース物体と予測されるアンカとの間のマッチングを、損失関数を使用して最適化すること
    をさらに含む、請求項16に記載のコンピュータ・プログラム製品。
  18. 前記損失関数が、曲線空間、または前記曲線の選択された有限分解のいずれかにおいて計算された、フレシェ距離、ハウスドルフ距離、ボトルネック距離、およびリー代数ベースのメトリクスのうちの少なくとも1つを含む、曲線類似性メトリクスのうちの1つを含む、請求項17に記載のコンピュータ・プログラム製品。
  19. 前記生成することが、前記画像中に示される前記物体をバウンディングする複数のパラメータ曲線を表現する、複数の点を生成することを含む、請求項17に記載のコンピュータ・プログラム製品。
  20. 前記複数のパラメータ曲線が、前記受信した画像全体を覆うように、重なりを伴ってスプレッドされる、請求項19に記載のコンピュータ・プログラム製品。
JP2023563823A 2021-04-28 2022-04-07 パラメータ曲線ベースの検出器ネットワーク Pending JP2024516586A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/242,331 2021-04-28
US17/242,331 US11900667B2 (en) 2021-04-28 2021-04-28 Parametric curves based detector network
PCT/EP2022/059337 WO2022228857A1 (en) 2021-04-28 2022-04-07 Parametric curves based detector network

Publications (1)

Publication Number Publication Date
JP2024516586A true JP2024516586A (ja) 2024-04-16

Family

ID=81585731

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023563823A Pending JP2024516586A (ja) 2021-04-28 2022-04-07 パラメータ曲線ベースの検出器ネットワーク

Country Status (4)

Country Link
US (1) US11900667B2 (ja)
JP (1) JP2024516586A (ja)
CN (1) CN117256016A (ja)
WO (1) WO2022228857A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11321236B2 (en) * 2018-01-08 2022-05-03 Microsoft Technology Licensing, Llc. Reduced instructions to generate global variable addresses

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8144930B2 (en) * 2008-11-30 2012-03-27 General Electric Company Systems and methods for tracking images
NL2011811C2 (nl) * 2013-11-18 2015-05-19 Genicap Beheer B V Werkwijze en systeem voor het analyseren en opslaan van informatie.
US9355315B2 (en) * 2014-07-24 2016-05-31 Microsoft Technology Licensing, Llc Pupil detection
US10289925B2 (en) 2016-11-29 2019-05-14 Sap Se Object classification in image data using machine learning models
WO2018144678A1 (en) * 2017-02-03 2018-08-09 The Johns Hopkins University Mini-cancers utilization for personalized cancer drug regimens
US10499857B1 (en) * 2017-09-19 2019-12-10 Deepradiology Inc. Medical protocol change in real-time imaging
EP3814758A1 (en) * 2018-06-29 2021-05-05 Universiteit Antwerpen Item inspection by dynamic selection of projection angle
US11475678B2 (en) 2019-01-04 2022-10-18 Qualcomm Incorporated Lane marker detection and lane instance recognition
CN111260724B (zh) 2020-01-07 2023-05-19 中山仰视科技有限公司 一种基于周期b样条的实例分割方法
US11819280B2 (en) * 2020-09-30 2023-11-21 DePuy Synthes Products, Inc. Customized patient-specific orthopaedic surgical instrument using patient-specific contacting bodies and parametric fixed geometry

Also Published As

Publication number Publication date
US20220350988A1 (en) 2022-11-03
WO2022228857A1 (en) 2022-11-03
US11900667B2 (en) 2024-02-13
CN117256016A (zh) 2023-12-19

Similar Documents

Publication Publication Date Title
JP2022509327A (ja) クロスモーダル情報検索方法及びその装置、並びに記憶媒体
US10572818B2 (en) Horizontal decision tree learning from very high rate data streams with horizontal parallel conflict resolution
US11093755B2 (en) Video segmentation based on weighted knowledge graph
CN111435461B (zh) 使用降低精度的深度神经网络的对抗性输入识别
US10169487B2 (en) Graph data representation and pre-processing for efficient parallel search tree traversal
JP2024516586A (ja) パラメータ曲線ベースの検出器ネットワーク
US11947570B2 (en) Data augmentation
US10930012B2 (en) Progressive 3D point cloud segmentation into object and background from tracking sessions
US20220121980A1 (en) Automatic quantum searching of object databases
JP2023502206A (ja) モデル解釈可能性のための領域制約された正則化敵対的サンプル
US20170083637A1 (en) Condition analysis
WO2019136799A1 (zh) 数据离散化方法、装置、计算机设备及存储介质
US10324837B2 (en) Reducing minor garbage collection overhead
US10831638B2 (en) Automated analytics for improving reuse of application solutions
US11403325B2 (en) Clustering items around predefined anchors
US11210193B2 (en) Evaluating performance improvement of executing instructions in a first processor over execution on a second processor before compilation
JP2023520631A (ja) 視覚認識における資源コストの低減
JP7156376B2 (ja) 観測事象判定装置、観測事象判定方法、及びプログラム
US11295543B2 (en) Object detection in an image
US10831495B2 (en) Parallelization of numeric optimizers
WO2023066064A1 (en) Content based on-device image adjustment
JP2023038481A (ja) 解釈方法、解釈装置、及びプログラム
WO2020198566A1 (en) Systems and methods for analyzing computational architectures
US9466033B2 (en) Self-adaptive classifiers

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240326