JP2021121960A - 画像注釈方法、装置、電子設備、記憶媒体、及びプログラム - Google Patents

画像注釈方法、装置、電子設備、記憶媒体、及びプログラム Download PDF

Info

Publication number
JP2021121960A
JP2021121960A JP2021084575A JP2021084575A JP2021121960A JP 2021121960 A JP2021121960 A JP 2021121960A JP 2021084575 A JP2021084575 A JP 2021084575A JP 2021084575 A JP2021084575 A JP 2021084575A JP 2021121960 A JP2021121960 A JP 2021121960A
Authority
JP
Japan
Prior art keywords
annotation
image
annotated
relationship
elements
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021084575A
Other languages
English (en)
Inventor
ヤン シュエ
Xue Yang
ヤン シュエ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021121960A publication Critical patent/JP2021121960A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries

Abstract

【課題】画像の注釈効率と注釈能力を向上させる画像注釈方法、装置、電子設備、記憶媒体及びプログラムを提供する。【解決手段】画像注釈方法は、注釈すべき画像及び注釈すべき画像にマッチする注釈要素を含む画像注釈因子を決定することと、画像注釈因子同士の間の関連関係を構築することと、注釈要素及び関連関係に基づいて、注釈すべき画像を注釈することと、を含む。【選択図】図1

Description

本開示は、画像処理の分野に関し、具体的に、人工知能、コンピュータビジョン、自動運転等の分野に関する。
画像注釈は、設定された注釈規則に基づいて画像中の物体対象を注釈するものであってもよい。例えば、画像中の車両をボックス化したり、人顔のキーポイントに点付けで注釈したりできる。画像注釈は、静的シングルフレーム画像注釈の分野でも、ビデオ注釈の分野でも適用可能である。例えば、ビデオプレビュー時やビデオ再生時に、ビデオのフレーム画像上で物体対象を直接に強調注釈することにより、ビデオにさらなる対応性を有させるビデオ処理方法である。画像注釈は、例えば、自動運転の分野における障害物の位置特定や、ビデオトラッキングの分野における重要なビデオキュー情報のロックなどの、多くの分野に応用することができる。
本開示は、画像の注釈効率と注釈能力を向上させるための画像注釈方法、装置、電子設備、及び記憶媒体を提供する。
本開示の第1側面では、画像注釈方法を提供する。当該画像注釈方法は、
注釈すべき画像、及び前記注釈すべき画像にマッチする注釈要素を含む画像注釈因子を決定することと、
前記画像注釈因子同士の間の関連関係を構築することと、
前記注釈要素及び前記関連関係に基づいて、前記注釈すべき画像を注釈することと、を含む。
本開示の第2側面では、画像注釈装置を提供する。当該画像注釈装置は、
注釈すべき画像と前記注釈すべき画像にマッチする注釈要素とを含む画像注釈因子を決定するための画像注釈因子決定モジュールと、
前記画像注釈因子同士の間の関連関係を構築するための関連関係構築モジュールと、
前記注釈要素と前記関連関係に基づいて、前記注釈すべき画像を注釈するための画像注釈モジュールとを有する。
本開示の第3側面では、電子設備を提供する。当該電子設備は、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されたメモリとを有し、
ここで、前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶し、前記命令は、前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサに前記第1側面に提供される画像注釈方法を実行させる。
本開示の第4側面では、コンピュータに前記第1側面に提供される画像注釈方法を実行させるためのコンピュータ命令を格納した非一時的なコンピュータ可読記憶媒体を提供する。
本開示の実施形態では、注釈すべき画像と、注釈すべき画像にマッチする注釈要素を画像注釈因子として決定し、画像注釈因子同士の間の関連関係を構築し、注釈要素及び関連関係に基づいて注釈すべき画像を注釈することにより、既存の画像注釈ツールの注釈効率が低く、注釈能力が不十分であるという問題を解決し、画像の注釈効率と注釈能力を向上させることができる。
発明の概要の項に記載されていることは、本開示の実施形態の主要なまたは重要な特徴を限定することを意図したものではなく、本開示の範囲を限定することを意図したものでもないことが理解されるべきである。本開示のその他の特徴は、以下の説明を読むことで容易に理解できると思う。
添付の図面は、本実施形態をより良く理解するために使用され、本開示に対する限定を構成するものではない。
本開示の実施形態に提供される画像注釈方法のフローチャートである。 本開示の実施形態に提供される画像注釈方法のフローチャートである。 本開示の実施形態に提供される障害物及び接地点の注釈効果を示す模式図である。 本開示の実施形態に提供されるレーン線とキーポイントの注釈効果を示す模式図である。 本開示の実施形態に提供されるキーポイントの注釈効果を示す模式図である。 本開示の実施形態に提供されるキーポイントの注釈効果を示す模式図である。 本開示の実施形態に提供されるセマンティック注釈効果を示す模式図である。 本開示の実施形態に提供される画像注釈装置の構造図である。 本開示の実施形態の画像注釈方法を実施するための電子設備の構成を示す模式図である。
以下、図面を参照し、本開示の例示的な実施形態を説明し、理解を容易にするために本開示の実施形態の様々な詳細を含んでいるが、これらは単に例示的なものとみなされるべきである。したがって、当業者は、本開示の範囲および要旨から逸脱することなく、本明細書に記載された実施形態に様々な変更および修正を加えることができることを認識すべきである。同様に、以下の説明では、明瞭で簡潔にするために、既知の機能と構造の説明を省略している。
人工知能のアルゴリズムの成熟化に伴い、顔認識、コンピュータビジョン、自動運転などの技術が注目されている。このような技術では、画像処理が必要な要素となる。関連する画像処理アルゴリズムを訓練するために、処理済みの画像データをサンプルデータとして、例えば、注釈結果を付いた画像データをサンプルデータとして事前に構築することが必要な場合が多い。様々なアプリケーションシナリオの注釈要件を満たすために、サポートするための様々な画像類注釈ツールが必要になる。
既存の様々なタ画像注釈ツールは、ほとんどがカスタマイズされた注釈ツールであり、通常は単一のアプリケーションシナリオの注釈要件を満たすことしかできない。例えば、一般的な画像注釈ツールには、フレームツール、ポインティングツール、ラインツールなどがある。その中、フレームツールは、主に自動運転の障害物、位置決め要素、看板の注釈シナリオ、及びトラフィック統計などに適用可能である。ポインティングツールは、主に顔面キーポイント、肢体キーポイント、及び自動駐車のシナリオにおける駐車スポットなどに適用される。ラインツールは、主に自動運転のレーン線の注釈、駐車スペースの注釈、及びセマンティックセグメンテーションなどに適用される。
単一のアプリケーションシナリオの注釈要件しか満たせない画像注釈ツールでは、メンテナンスや利用コストが大きく、注釈要件が混在するアプリケーションシナリオをサポートできない。注釈要件が混在するアプリケーションシナリオの画像に注釈を付ける必要がある場合は、項目分割によってシリアル注釈を付け、その結果をマージする必要がある。例えば、いくつかのレーン線の注釈シナリオでは、レーン線のカットオフポイントをマーキングする必要があるが、それは、まず、ラインツールでレーン線の注釈を完了させ、次に、レーン線の注釈結果を付いた絵をポインティングツールに導入して、カットオフポイントの注釈を完了させる必要があり、これは間違いなく注釈プロセスと注釈時間を延長し、注釈効率と注釈能力が低くなる。
一例では、図1は、本開示の実施形態に提供される画像注釈方法のフローチャートである。本例は、統一の画像注釈ツールを用いて、異なる注釈ニーズを有するアプリケーションシナリオの画像の注釈に適用されてもよい。当該方法は、画像注釈装置によって実行されてもよい。当該装置は、ソフトウェア及び/またはハードウェアの方法で実現され、一般的に電子設備に統合されるものである。この電子設備は、コンピュータ装置であってもよい。したがって、図1に示すように、この方法は、以下のS110、S120、S130を含んでいる。
S110において、注釈すべき画像、及び前記注釈すべき画像にマッチする注釈要素を含む画像注釈因子を決定する。
ここで、画像注釈因子は、画像注釈シナリオにおける操作対象であってもよく、注釈すべき画像、及び注釈すべき画像にマッチする注釈要素を含んでもよいが、これらに限定されない。ここで、注釈すべき画像は、注釈を付けるべき画像である。注釈要素は、注釈すべき画像を注釈するために使用されてもよい。注釈要素の数は1以上であってもよい。本開示の実施形態では、注釈要素の数が限定されない。本開示の任意の実施形態では、前記注釈要素は、ボックス要素、分割ボックス要素、ポイント要素、ライン要素、エリア要素、及びキューブ要素を含み得るが、これらに限定されない。また、注釈要素の種類は、平行四辺形、六角形、台形などに、実際のニーズに基づいて拡張することができる。本開示の実施形態は、同様に、注釈要素の特定の種類を限定するものではない。多様化した注釈要素は、様々な画像注釈シナリオのための異なる注釈要件を満たすことができ、顔面キーポイント要件、人間の骨格ポイント要件、自動駐車タイプ要件、自動運転タイプ要件、セマンティック注釈要件などを含むが、これらに限定されない。
本開示の実施形態では、画像注釈ツールは、ボックス要素、分割ボックス要素、ポイント要素、ライン要素、エリア要素、キューブ要素などの複数のタイプの注釈要素を設定することができる。また、画像注釈ツールの注釈要素は、注釈シナリオの注釈ニーズに基づいて拡張することができる。相応的に、複数の注釈要素を含む画像注釈ツールを用いて画像注釈を行う場合には、まず、画像注釈ツールを用いて画像注釈因子を決定する必要がある。すなわち、注釈すべき画像、及び注釈すべき画像とマッチする注釈要素を決定する。
S120において、前記画像注釈因子同士の間の関連関係を構築する。
ここで、関連関係は、注釈すべき画像と注釈要素との関係や、各注釈要素間の組合せ、交差又は制約関係であってもよい。
相応的に、画像注釈ツールにおいて、注釈すべき画像及び注釈すべき画像にマッチする注釈要素などの画像注釈因子を特定した後、画像注釈ツールを用いて、画像注釈因子間の関連関係を構築することができる。例えば、注釈すべき画像と注釈要素との組合せ関係や、各注釈要素間の制約関係を設定してもよい。画像注釈因子間の関連関係を構築することで、注釈すべき画像と注釈要素との間、あるいは各注釈要素間の注釈動作を合意することができる。例えば、注釈すべき画像は、関連関係が存在する注釈要素のみを用いて注釈を行うことができ、関連関係が確立されていない注釈要素を用いて注釈を行うことはできない。
S130において、前記注釈要素と前記関連関係に基づいて、前記注釈すべき画像に対する注釈を行う。
相応的に、画像注釈因子の間の関連関係が決定された後、注釈要素と関連関係に基づいて、注釈すべき画像を注釈することができる。
注釈要素は、ボックス要素、ポイント要素、ライン要素などの異なる種類の多くの注釈要素であってもよく、すなわち、多くの異なる種類の注釈要素が注釈すべき画像を同時に注釈することができるので、注釈ニーズが混在するアイコン注釈アプリケーションのシナリオに適用することが可能であり、例えば、ポイント要素とライン要素の両方を用いてレーン線を注釈し、ボックス要素を用いて車を注釈するというシナリオに適用することが可能である。同時に、注釈要素は単一の注釈要素であってもよいので、注釈ニーズが単一のアイコン注釈アプリケーションのシナリオに適用し、例えば、ライン要素だけでレーン線を注釈するシナリオにも適用可能である。このように、本開示の実施形態が提供する画像注釈方法によれば、注釈ニーズが異なるアプリケーションシナリオの画像の注釈を、統一の画像注釈ツールを用いて実現することができ、画像の注釈効率を向上することがわかる。
また、画像注釈因子間の関連関係は、注釈すべき画像と注釈要素との間、あるいは各注釈要素間の注釈動作を合意させる。したがって、注釈すべき画像に注釈を行う際には、注釈エラーの問題を回避し、ひいては画像の注釈能力を向上させるために、待注釈対象と注釈要素との間、あるいは各注釈要素間の関連関係に従わなければならない。
本開示の実施形態は、注釈すべき画像及び注釈すべき画像にマッチする注釈要素を画像注釈因子として決定し、画像注釈因子の間の関連関係を構築し、注釈要素と関連関係に基づいて注釈すべき画像に注釈を付与し、既存の画像注釈ツールの低注釈効率や注釈能力の不足といった問題を解決して、画像の注釈効率や注釈能力を向上させることができる。
一例において、図2は、本開示の実施形態に提供される画像注釈方法のフローチャートであり、本開示の実施形態は、前記の各実施形態の技術案に基づいて最適化され、改良されて、前記画像注釈因子間の関連関係を構築し、及び、前記注釈要素と前記関連関係に従って前記注釈すべき画像を注釈するための様々な特定の任意の実施形態を与える。
図2に示すような画像注釈方法で、以下のS210、S220、S230、S240、S250を含んでもよい。
S210では、注釈すべき画像、及び注釈すべき画像にマッチする注釈要素を決定する。
S220では、前記注釈すべき画像と各前記注釈要素との組合せ関係を構築する。
ここで、組合せ関係は、注釈すべき画像と注釈要素との間の組合せを表すために使用される。
選択可能に、画像注釈因子間の関連関係を構築する際に、注釈すべき画像と注釈要素との組合せ関係を構築してもよい。例示的に、注釈すべき画像と、ボックス要素、ポイント要素、及びライン要素との間には組合せ関係が存在し、これは、注釈すべき画像が、ボックス要素、ポイント要素、及びライン要素を同時に用いて、画像内の注釈対象を注釈することができることを示している。ここで、注釈対象は、障害物、顔面キーポイント、追跡対象などであってもよく、本開示の実施形態は、注釈対象の特定の種類を限定するものではない。
注釈すべき画像と各注釈要素との組合せ関係を構築することにより、注釈すべき画像がこれと組合せ関係がある注釈要素のみを用いて注釈を行うことができ、注釈要素の誤用などの問題を回避することができる。
S230では、各前記注釈要素間の制約規則に基づいて、各前記注釈要素同士の間の制約関係を構築する。
ここで、制約規則は、特定の画像注釈アプリケーションのシナリオが注釈要素に対して要求する注釈要素間の制約規則であってもよい。例えば、制約規則は、ポイント要素がボックス要素のボックス領域内又はライン要素上に注釈を付けなければならないものであってもよい。制約関係は、注釈要素間の制約状況を限定するために使用されてもよく、選択可能に、注釈要素間の相対位置を制限するために使用されてもよい。
本開示の実施形態では、制約関係は、包含関係、接続関係及び積・和・補関係を含むが、これらに限定されない。その中に、包含関係は、注釈要素が相互に包含されていることを示してもよい。例示的に、ライン要素がポイント要素と包含関係を有すると仮定すると、2種類の注釈要素が注釈のために利用されるとき、注釈点は注釈線の線分上に注釈される必要がある。接続関係は、注釈要素が互いに接続されていることを示してもよい。例示的に、ライン要素がライン要素と接続関係を有すると仮定すると、各線分は互いに接続されている必要がある。積・和・補関係は、注釈要素が互いにスティッチングされていることを示すことができる。例示的に、エリア要素とエリア要素との間に積・和・補関係があると仮定して、各エリア要素同士は、自動的にセグメンテーションとスティッチングを行うことができる。上記の制約関係に加えて、他のタイプの制約関係は、特定の画像注釈シナリオに基づいて拡張されてもよく、本開示の実施形態は、この点で限定されない。
選択可能に、画像注釈因子間の関連関係を構築する際に、各注釈要素間の制約規則に基づいて各注釈要素間の制約関係を構築してもよい。例示的に、現在の画像注釈シナリオは障害物注釈シナリオであり、自動車が障害物として、その接地点が注釈ボックスのボックス領域内に注釈されていることを要求する。相応的に、注釈すべき画像とボックス要素、ポイント要素との間に組合せ関係を確立した後、ボックス要素とポイント要素との包含関係をさらに確立することができ、すなわち、制限点を注釈ボックスのボックス領域内に注釈することが必要である。この制約関係では、赤い街灯を個別にポイント要素で注釈するなど、ポイント型ではない他の注釈対象にポイント要素を使って注釈することはできない。
各注釈要素間の制約関係を構築することで、各注釈要素間の注釈動作を制限することができ、注釈エラーの問題を回避し、画像の注釈能力を向上させることができる。
S240では、前記関連関係に基づいて各前記注釈要素間の相対位置関係を制約する。
選択可能に、注釈要素と関連関係に基づいて注釈すべき画像に注釈を行う場合、関連関係に基づいて、各注釈要素間の相対位置関係を拘束する必要がある。例示的に、ポイント要素とライン要素との間に包含関係があると仮定すると、ライン要素がポイント要素を包含するように拘束する必要があり、すなわち、注釈点を注釈線の線分上に設定する必要がある。なお、注釈点は、線分の端点に注釈されてもよいし、線分内の任意の点に注釈されてもよいが、これは本開示の実施形態によって限定されるものではない。
S250では、各前記注釈要素と各前記注釈要素間の相対位置関係に基づいて、注釈すべき画像に対する注釈を行う。
相応的に、各注釈要素間の相対位置関係が決定された後、注釈要素と各注釈要素間の相対位置関係に基づいて、待注釈すべき画像を注釈することができる。注釈要素を用いて注釈を行う場合、各注釈要素間の現在の相対位置関係はその拘束された相対位置関係を満たすと、注釈要素を用いて注釈を行うことができる。注釈線の端点に注釈点が配置されていると、その注釈点を注釈に使用することができる。各注釈要素間の現在の相対位置関係はその拘束された相対位置関係を満たさないと、注釈要素を用いて注釈することは拒否される。注釈線の外側の位置点に注釈点が配置されていると、注釈点を用いて当該位置点を注釈することは禁止されている。
上記方案では、関連関係に基づいて各注釈要素間の相対位置関係を拘束し、各注釈要素及び各注釈要素間の相対位置関係に基づいて注釈すべき画像を注釈することで、注釈要素の誤用を効果的に回避することができ、画像の注釈能力を向上させることができる。
本開示の他の実施形態では、前記注釈要素は、少なくともボックス要素及びポイント要素を含んでもよい。前記画像注釈因子間の関連関係を構築することは、前記注釈すべき画像と各前記注釈要素との組合せ関係を構築することと、前記ボックス要素と前記ポイント要素との包含関係を構築することとを含んでもよい。各前記注釈要素及び各前記注釈要素間の相対位置関係に基づいて前記注釈すべき画像を注釈することは、前記ボックス要素に基づいて前記注釈すべき画像における注釈対象を選択ボックスで注釈することと、前記ポイント要素に基づいて前記注釈すべき画像における注釈対象の接地点を注釈することとを含んで、ここで、前記ポイント要素がボックス領域内に含まれている。この方案は、障害物や接地点などのアプリケーションシナリオを注釈するための混合注釈のニーズを満たすことができる。
図3は、本開示の実施形態に提供される障害物と接地点を注釈する効果を示す模式図である。例示的に、図3に示すように、自動運転の分野における障害物及び接地点を注釈するアプリケーションシナリオが図示されている。そこでは、障害物は様々な種類の車両であってもよい。注釈すべき画像中の障害物と接地点を注釈する前に、まず、注釈すべき画像と注釈要素との組合せ関係を構築する必要がある。そこでは、注釈要素は、少なくともボックス要素とポイント要素を含んでもよい。これに加えて、分割ボックス要素とキューブ要素が含まれていてもよい。ここで、ボックス要素は、長方形のボックスの形で障害物を選択ボックスで注釈するための注釈ボックスであってもよい。ポイント要素は、ポイントの形で接地点を注釈するための注釈点であってもよい。分割ボックス要素は、障害物を分割する他に、障害物の方向を注釈することができ、分割ボックス内の対角線や塗りつぶし色等で車両の前端部の方向などを注釈する。キューブ要素は、障害物を立体的なボックスの形で選択ボックスで注釈することができる。
接地点は障害物と地面との接触点であるので、ボックス要素、分割ボックス要素、キューブ要素が障害物に注釈を行う時に、その接地点は通常に車輪の底部に位置し、車輪はボックス線のボックス領域に位置しているため、接地点もボックス線のボックス領域に位置する必要がある。したがって、画像注釈因子間の関連関係を構築する際に、ボックス要素とポイント要素との包含関係を同時に構築することも可能である。すなわち、注釈点が注釈ボックスのボックス領域に注釈されなければならないことを拘束する。
相応的に、注釈すべき画像と、ボックス要素、ポイント要素との組合せ関係、及びボックス要素とポイント要素との包含関係を決定した後、ボックス要素に基づいて注釈すべき画像内の注釈対象に選択ボックスで注釈を行い、且つ、ポイント要素に基づいて注釈すべき画像内の注釈対象の接地点に注釈を行うことができる。図3に示すように、ボックス要素を用いて全車両に選択ボックスで注釈を行い、同時に、ポイント要素を用いて各車両の接地点を注釈することができる。ボックス要素とポイント要素との間に包含関係があるので、注釈点は注釈ボックスのボックス領域に注釈される必要がある。したがって、図3に示す最右端の車両の左側の両輪は、その注釈点がそれぞれ注釈ボックスのボックス領域に注釈されることになる。
本開示の他の実施形態では、前記注釈要素は、少なくともライン要素及びポイント要素を含んでもよい。前記画像注釈因子間の関連関係を構築することは、前記注釈すべき画像と各前記注釈要素との組合せ関係を構築することと、前記ライン要素と前記ポイント要素との包含関係を構築することとを含んでもよい。各前記注釈要素及び各前記注釈要素間の相対位置関係に基づいて前記注釈すべき画像を注釈することは、前記ライン要素に基づいて前記注釈すべき画像内の注釈対象に線描画で注釈することと、前記ポイント要素に基づいて前記注釈対象のカットオフポイントを注釈することとを含んで、ここで、前記ポイント要素が前記ライン要素の線分上に含まれている。この方案は、レーン線やキーポイントのようなアプリケーションシナリオを注釈するための混合注釈のニーズを満たすことができる。
図4は、本開示の実施形態に提供されるレーン線とキーポイントの注釈効果を示す模式図である。例示的に、図4に示されているように、自動運転の分野におけるレーン線及びキーポイントの注釈のアプリケーションシナリオは、図示されている。そこでは、キーポイントは、端点や折り返し点などのレーン線のカットオフポイントであってもよい。注釈すべき画像のレーン線やキーポイントを注釈する前に、まず、注釈すべき画像と注釈要素の組合せ関係を構築する必要がある。そこでは、注釈要素は、少なくともライン要素とポイント要素とを含んでもよい。ここで、ライン要素は、直線セグメントまたは曲線セグメントの形でレーン線を注釈するための線セグメントであってもよい。ポイント要素は、ポイントの形でレーン線のキーポイントを注釈するための注釈点であってもよい。
キーポイントは通常、レーン線の端点または折り返し点であるので、ライン要素はレーン線を注釈する時に、その線分は通常、キーポイントを横切るか、またはカバーする。したがって、画像注釈因子間の関連関係を構築する際に、同時にライン要素とポイント要素との包含関係も構築することができる。すなわち、注釈点は、注釈線の線分上に注釈されなければならないことを拘束する。選択可能に、注釈点は、線分上の任意の点に注釈されてもよい。
相応的に、注釈すべき画像と、ライン要素、ポイント要素との組合せ関係、及びライン要素とポイント要素との包含関係を決定した後、ライン要素に基づいて注釈すべき画像内の注釈対象に線描画で注釈し、且つ、ポイント要素に基づいて注釈すべき画像内の注釈対象のカットオフポイントに注釈を行うことができる。図4に示すように、ライン要素を用いて白線と白線の間に延びる線とを含む全てのレーン線に線描画で注釈し、同時に、ポイント要素を用いてレーン線のカットオフポイントを注釈することができる。ライン要素とポイント要素との間に包含関係があるので、注釈点は注釈線の線分に注釈される必要がある。したがって、図4に示す注釈点は全て注釈線上に注釈されていることになる。
本開示の他の実施形態では、前記注釈要素は、少なくともライン要素をふくんでもよい。前記画像注釈因子間の関連関係を構築することは、前記注釈すべき画像と前記ライン要素との組合せ関係を構築することと、前記ライン要素と前記ライン要素との間の接続関係を構築することと、前記ライン要素と前記ライン要素との間の接続関係を構築することとを含んでもよい。各前記注釈要素及び各前記注釈要素間の相対位置関係に基づいて前記注釈すべき画像を注釈することは、前記ライン要素に基づいて前記注釈すべき画像内の注釈対象に線描画でスクライブすることを含んで、ここで、各前記ライン要素は互いに接続されている。この方案は、レーン線のようなアプリケーションシナリオを注釈するための単一注釈のニーズを満たすことができる。
自動運転分野におけるレーン線注釈のアプリケーションシナリオを例示し説明する。注釈すべき画像内のレーン線を注釈する前に、まず、注釈すべき画像とライン要素との組合せ関係を構築する必要がある。その中、ライン要素は、直線セグメントまたは曲線セグメントの形でレーン線を注釈するための線分であってもよい。
レーン線を白破線とし、その白破線に複数の短線分を連続して表示することが注釈規則で求められている。そして、白破線のレーン線を注釈する際には、複数の短線分を用いて注釈を行う必要があり、且つ、各短線分同士が相互に接続される必要がある。
相応的に、注釈すべき画像とライン要素との組合せ関係、及びライン要素とライン要素との間の接続関係を決定した後、ライン要素に基づいて注釈すべき画像内の注釈対象に線描画で注釈できる。すなわち、ライン要素を用いて白線と白線の間に延びる線とを含む全てのレーン線に連続的に線描画で注釈を行うことができる。ライン要素とライン要素との間には接続関係があるので、各ライン要素同士が相互に接続されている必要がある。すなわち、隣接する2本の線分の端点が互いに重なっている。
本開示の他の実施形態では、前記注釈要素は、少なくともポイント要素を含んでもよい。前記画像注釈因子間の関連関係を構築することは、前記注釈すべき画像と前記ポイント要素との組合せ関係を構築することを含んでもよい。各前記注釈要素及び各前記注釈要素間の相対位置関係に基づいて前記注釈すべき画像を注釈することは、前記ポイント要素に基づいて前記注釈すべき画像内の注釈対象に点付けで注釈することを含み、ここで、各前記ポイント要素同士は完全に重なり合っていない。この方案は、キーポイントのアプリケーションシナリオの単一注釈のニーズを満たすことができる。
図5は、本開示の実施形態に提供されるキーポイント注釈効果を示す模式図であり、図6は、本開示の実施形態に提供されるキーポイント注釈効果を示す模式図である。例示的に、図5と図6に示されているように、ヒト骨格のキーポイント注釈と顔面キーポイント注釈のアプリケーションシナリオは、図示されている。そこでは、キーポイントは手足の境界点や五感の特徴点などのようなだけでなく、人骨格及び人顔面のキーポイントであってもよい。注釈すべき画像内のキーポイントを注釈する前に、まず、注釈すべき画像とポイント要素との組合せ関係を構築する必要がある。ポイント要素は、点の形で人骨格または人顔面のキーポイントを注釈する注釈点であってもよい。
なお、特徴点に注釈を付ける際には、通常、各点同士は互いに分離されている。シナリオによっては、一部の特徴点が部分的に重なっている場合がある。したがって、注釈点を用いて注釈画像に注釈を行う場合には、一般的に、各注釈点が完全に重ならないこと、すなわち、繰り返し注釈を行うことができないことを要求する。同様に、注釈要素が単一の注釈要素である場合、他のタイプの注釈要素は、繰り返し注釈を避けるために、互いに完全に重なることができない。この場合、注釈要素間の制約関係は設定されず、画像注釈ツールは、注釈要素が互いに完全に重なり合うことができないことをデフォルトにしてもよく、又は、単一のタイプの注釈要素に対して完全な除外関係を設定すること、すなわち、単一のタイプの注釈要素が互いに完全に重ならないことを示すことも可能であるが、これは、本開示の実施形態によって限定されない。
相応的に、注釈すべき画像とポイント要素との組合せ関係を決定した後、ポイント要素に基づいて注釈すべき画像中の注釈対象に点付けで注釈することができる。図5及び図6に示すように、ポイント要素を用いてすべてのキーポイントまたは特徴点に句読を付け、注釈することができ、且つ、各ポイント要素は互いに分離されている。
本開示の他の実施形態では、前記注釈要素は、少なくともエリア要素を含んでもよい。前記画像注釈因子間の関連関係を構築することは、前記注釈すべき画像と前記エリア要素との組合せ関係を構築することと、前記エリア要素間の積・和・補関係を構築することとを含んでもよい。各前記注釈要素及び各前記注釈要素間の相対位置関係に基づいて前記注釈すべき画像を注釈することは、前記エリア要素に基づいて前記注釈すべき画像内の注釈対象を多角形エリアで注釈することを含んで、ここで、各前記エリア要素同士は、自動的にセグメンテーションとスティッチングを行う。この方案は、領域連結注釈のアプリケーションシナリオのセマンティック注釈のニーズを満たすことができる。
図7は、本開示の実施形態に提供されるセマンティック注釈効果を示す模式図である。例示的に、自動運転の分野におけるセマンティック注釈のアプリケーションシナリオが、図7に示されている。そこでは、いわゆるセマンティック注釈はまた、エリアまたは多角形の形で完全な注釈対象の輪郭を注釈することを意味し、図7に示すように、エリアの形で車の輪郭を注釈し、または、図7に示すように、同じタイプの注釈対象の全体的な輪郭を注釈することを意味する。図7に示すように、エリアの形ですべての樹木の全体的な輪郭を注釈する。同時に、異なる注釈対象の領域に異なる色を配置してもよく、例えば、車の輪郭はローズレッドで塗りつぶされ、樹木の輪郭はグリーンで塗りつぶされ、電柱の輪郭はパープルで塗りつぶされるなどのようにする。注釈すべき画像内の複数の注釈対象を注釈する前に、まず、注釈すべき画像とエリア要素との組合せ関係を構築する必要がある。エリア要素は、多角形接続の形で異なる注釈対象に注釈を付ける多角形であってもよい。
なお、同じ注釈すべき画像内の異なる注釈対象を注釈する場合、同じ種類の注釈対象の相対位置が接続されており、大きなエリアで統一されたエリア内の同じタイプの注釈対象を注釈することができ、同じ種類の注釈対象の相対位置は距離が遠いと、異なるエリアで異なる位置にある注釈対象を注釈するが、個々のエリアのプロパティ(例えば、塗りつぶし色など)は一貫していなければならず、両方のエリア内の注釈対象が同じタイプであることを示すために使用される。例えば、樹木と樹木が互いに隣接しており、この場合、エリアに隣接するすべての樹木を完全な多角形に分割することができる。電柱と電柱との間の相対距離が比較的に遠いと、異なるエリアで各電柱を個別に注釈することができるが、各電柱の対応するエリアの塗りつぶし色は一貫している必要がある。
相応的に、注釈すべき画像とエリア要素との組合せ関係を決定した後、エリア要素間の積・和・補関係を同時に構築することもできる。エリア要素間の積・和・補関係を構築する効果は、設定された積・和・補関係により、各エリア要素同士は、自動的にセグメンテーションとスティッチングを行うことである。図7に示すように、異なるエリアで自動車、樹木、道路、及び電柱を注釈する場合、自動車、樹木、道路、及び電柱の間の多角形輪郭は、互いに密接に分割されている。エリアで同じ樹木を注釈すると、完全な多角形で同じデータに対して注釈を行うことができ、樹木の間の電柱を区別するために追加の多角形で注釈することができる。
上記技術案は、注釈すべき画像と異なる注釈要素との組合せ関係、及び各注釈要素の間の制約関係を確立することにより、多くの異なる画像注釈シナリオの応用ニーズを満たすことができ、その結果、画像の注釈効率と注釈能力を向上させ、画像の注釈コストを低減することができる。
一例では、図8は、本開示の実施形態に提供される画像注釈装置の構造図であり、本開示の実施形態は、統一された画像注釈ツールを用いて、異なる注釈ニーズを有するアプリケーションシナリオの画像を注釈する場合に適用可能である。当該装置は、ソフトウェア及び/またはハードウェアにより実現され、電子設備に具体的に実装されるものである。この電子設備は、コンピュータ装置であってもよい。
図8に示すように、画像注釈装置300は、画像注釈因子決定モジュール310、関連関係構築モジュール320、及び画像注釈モジュール330を有している。
画像注釈因子決定モジュール310は、画像注釈因子を決定して、前記画像注釈因子は、注釈すべき画像及び前記注釈すべき画像にマッチする注釈要素を含んでいる。
関連関係構築モジュール320は、前記画像注釈因子間の関連関係を構築する。
画像注釈モジュール330は、前記注釈要素と前記関連関係に基づいて、前記注釈すべき画像を注釈する。
本開示の実施形態は、注釈すべき画像、及び注釈すべき画像にマッチする注釈要素を画像注釈因子として決定し、画像注釈因子間の関連関係を構築することで、注釈要素と関連関係に基づいて注釈すべき画像に注釈を行い、既存の画像注釈ツールの注釈効率が低く、注釈能力が不十分であるという問題を解決し、画像の注釈効率と注釈能力を向上させることができる。
選択可能に、関連関係構築モジュール320は、具体的に、前記注釈すべき画像と前記注釈要素との組合せ関係を構築するために使用される。
選択可能に、関連関係構築モジュール320は、具体的に、各前記注釈要素間の制約規則に基づいて各前記注釈要素間の制約関係を構築し、ここで、前記制約関係は、包含関係、接続関係、及び積・和・補関係を含む。
選択可能に、前記注釈要素は、ボックス要素、分割ボックス要素、ポイント要素、ライン要素、エリア要素、及びキューブ要素を含んでいる。
選択可能に、画像注釈モジュール330は、具体的に、前記関連関係に基づいて各前記注釈要素間の相対位置関係を制約し、各前記注釈要素及び各前記注釈要素間の相対位置関係に基づいて前記注釈すべき画像を注釈する。
選択可能に、前記注釈要素は、少なくともボックス要素及びポイント要素を含んでいる。関連関係構築モジュール320は、具体的に、前記注釈すべき画像と各前記注釈要素との組合せ関係を構築し、及び、前記ボックス要素と前記ポイント要素との包含関係を構築することに用いられる。画像注釈モジュール330は、具体的に、前記ボックス要素に基づいて前記注釈すべき画像内の注釈対象を選択ボックスで注釈し、前記ポイント要素に基づいて前記注釈すべき画像内の注釈対象の接地点を注釈することに用いられる。ここで、前記ポイント要素は、前記ボックス要素のボックス領域に含まれている。
選択可能に、前記注釈要素は、少なくともライン要素とポイント要素を含んでいる。関連関係構築モジュール320は、具体的に、前記注釈すべき画像と各前記注釈要素との組合せ関係を構築し、前記ライン要素と前記ポイント要素との包含関係を構築することに用いられる。画像注釈モジュール330は、具体的に、前記ライン要素に基づいて前記注釈すべき画像内の注釈対象の注釈に線描画で注釈し、前記ポイント要素に基づいて前記注釈対象のカットオフポイントを注釈することに用いられる。ここで、前記ポイント要素は、前記ライン要素の線分に含まれている。
選択可能に、前記注釈要素は、少なくともライン要素を含んでいる。関連関係構築モジュール320は、具体的に、前記注釈すべき画像と前記ライン要素との組合せ関係を構築し、及び、前記ライン要素と前記ライン要素との間の接続関係を構築することに用いられる。画像注釈モジュール330は、具体的に、前記ライン要素に基づいて前記注釈すべき画像内の注釈対象に線描画で注釈することに用いられる。ここで、各前記ライン要素同士は、互いに接続されている。
選択可能に、前記注釈要素は、少なくともポイント要素を含んでいる。関連関係構築モジュール320は、具体的に、前記注釈すべき画像と前記ポイント要素との組合せ関係を構築することに用いられる。画像注釈モジュール330は、具体的に、前記ポイント要素に基づいて前記注釈すべき画像内の前記注釈対象に点付けで注釈するすることに用いられる。ここで、各前記ポイント要素同士は、完全に重なり合っていない。
選択可能に、前記注釈要素は、少なくともエリア要素を含んでいる。関連関係構築モジュール320は、具体的に、前記注釈すべき画像と前記エリア要素との組合せ関係を構築し、及び、前記エリア要素間の積・和・補関係を構築することに用いられる。画像注釈モジュール330は、具体的に、前記エリア要素に基づいて前記注釈すべき画像内の注釈対象を多角形エリアで注釈することに用いられる。ここで、各前記エリア要素同士は、自動的にセグメンテーションとスティッチングを行う。
前記画像注釈装置は、本開示の任意の実施形態で提供される画像注釈方法を実行することができ、実行方法に対応する機能モジュール及び有益な効果を有する。本実施形態に網羅的に記載されていない技術的詳細については、本開示の任意の実施形態で提供される画像注釈方法を参照することができる。
上記に記載の画像注釈装置は、本開示の実施形態の画像注釈方法を実行可能な装置であるため、本開示の実施形態に記載された画像注釈方法に基づいて、当業者であれば、本開示の実施形態の画像注釈装置の具体的な実施形態及びその様々な変形を理解することができるので、当該画像注釈装置が本開示の実施形態の画像注釈方法をどのように実施するかについては、ここでは詳細に説明しない。本開示実施形態の画像注釈方法を実施するために当業者が採用する装置が、本開示の意図する保護の範囲内に収まる。
一例では、本開示はまた、電子設備及び読み取り可能な記憶媒体を提供する。
図9は、本開示の実施形態の画像注釈方法を実施するために使用される電子設備の構成を示す模式図である。図9に示すように、本開示の実施形態による画像注釈方法のための電子設備のブロック図である。電子設備は、様々な形態のデジタルコンピュータ、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の好適なコンピュータを表すことが意図されている。また、電子設備はまた、様々な形態のモバイルデバイス、例えば、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の類似のコンピューティングデバイスを表すことができる。本明細書に示されたコンポーネント、それらの接続及び関係、ならびにそれらの機能は、例としてのみ意図されており、本明細書に記載及び/または請求された本開示の実施形態を限定することを意図するものではない。
図9に示すように、電子設備は、1つ以上のプロセッサ401、メモリ402、及び各コンポーネントを接続するための、高速インタフェース及び低速インタフェースを含むインタフェースを有する。様々なコンポーネントは、異なるバスを用いて相互に接続されており、共通のマザーボード上に実装されてもよいし、所望のように他の方式で実装されてもよい。プロセッサは、電子装置内で実行するための命令を処理してもよく、当該命令はメモリに記憶された命令またはメモリ上に外部入出力装置(例えば、インターフェースに結合されたディスプレイ装置)にGUIのグラフィカル情報を表示させるための命令を含む。他の実施形態では、複数のプロセッサ及び/または複数のバス及び複数のメモリが、所望に基づいて、複数のメモリと一緒に使用されてもよい。同様に、複数の電子設備が接続されていてもよく、個々の設備が必要な操作の一部を提供している(例えば、サーバアレイ、ブレードサーバのグループ、またはマルチプロセッサシステムとして)。一つのプロセッサ401を一例として図9に示す。
メモリ402は、本開示に提供される非一時的なコンピュータ可読記憶媒体である。ここで、前記メモリは、本開示により提供される画像注釈方法を前記少なくとも1つのプロセッサに実行させるために、前記少なくとも1つのプロセッサにより実行可能な命令を記憶している。本開示の非一時的なコンピュータ可読記憶媒体は、本開示に提供される画像注釈方法をコンピュータに実行させるために使用されるコンピュータ命令を記憶している。
メモリ402は、非一時的なコンピュータ可読記憶媒体として、非瞬間的なソフトウェアプログラム、非瞬間的なコンピュータ実行可能プログラム、及びモジュール、例えば、本開示の実施形態における画像注釈方法に対応するプログラム命令/モジュール(例えば、添付の図8に示す画像注釈因子決定モジュール310、関連関係構築モジュール320、及び画像注釈モジュール330)を格納するために使用することができる。プロセッサ401は、メモリ402に記憶された非瞬間的なソフトウェアプログラム、命令、及びモジュールを実行することにより、サーバの各種機能アプリケーション及びデータ処理を実行して、上述した方法の実施形態における画像注釈方法を実施する。
メモリ402は、プログラム記憶領域とデータ記憶領域とを含んでもよく、プログラム記憶領域は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを格納してもよく、データ記憶領域は、画像注釈方法を実施する電子設備の使用により作成されたデータなどを格納してもよい。さらに、メモリ402は、高速ランダムアクセスメモリを含んでもよく、また、少なくとも1つのディスクメモリ装置、フラッシュメモリ装置、または他の非瞬間的な固体状態のメモリ装置などの非瞬間的なメモリを含んでもよい。いくつかの実施形態では、メモリ402は、選択可能に、プロセッサ401に対して相対的に遠隔に配置されたメモリを含み、これらの遠隔メモリは、ネットワークを介して、画像注釈方法を実装する電子設備に接続されてもよい。前記ネットワークの例としては、インターネット、企業のイントラネット、ローカルエリアネットワーク、移動体通信ネットワーク、及びそれらの組合せが挙げられるが、これらに限定されるものではない。
画像注釈方法を実装する電子設備はまた、入力装置403と出力装置404を含んでもよい。プロセッサ401、メモリ402、入力装置403および出力装置404は、バスを介して接続されていてもよく、他の方式で接続されていてもよく、図9ではバスを介した接続を例に挙げている。
入力装置403は、入力された数値情報または文字情報を受信するとともに、画像注釈方法を実施する電子設備のユーザ設定及び機能制御に関連するキー信号入力を生成してもよく、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケータスティック、1つ以上のマウスボタン、トラックボール、ジョイスティック、その他の入力装置などが挙げられる。出力装置404は、表示装置、補助照明装置(例えば、LED)、ハプティックフィードバック装置(例えば、振動モータ)などを含んでもよい。表示装置としては、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、プラズマディスプレイなどが挙げられるが、これらに限定されるものではない。いくつかの実施形態では、表示装置はタッチスクリーンであってもよい。
本明細書に記載されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ASIC(特殊目的集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/またはそれらの組合せで実施することができる。これらの様々な実施形態は、以下を含み得る:1つ以上のコンピュータプログラムで実施し、当該1つ以上のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行および/または解釈され、当該プログラマブルプロセッサは、記憶システム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび指示を受信し、且つデータ及び指示を当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置へ転送することができる専用または汎用のプログラマブルプロセッサであってもよい。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる)は、プログラマブルプロセッサのための機械命令を含み、高レベル手順及び/または対象指向のプログラミング言語、及び/またはアセンブリ/機械語を用いてこれらのコンピュータプログラムを実装することができる。本明細書で使用されるように、「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械命令及び/またはデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、設備、及び/または装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読取信号である機械命令を受け取る機械読取媒体を含む。「機械可読信号」という用語は、機械命令及び/またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。
ユーザとの相互作用を提供するために、本明細書に記載されているシステム及び技術は、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)と、ユーザがコンピュータに入力を提供するためのキーボード及びポインティング装置(例えば、マウスまたはトラックボール)とを有するコンピュータ上に実装されてもよい。他の種類の装置もまた、ユーザとの相互作用を提供するために使用されてもよく、例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、またはハプティックフィードバック)であってもよく、ユーザからの入力は、任意の形態(音響入力、音声入力、またはハプティック入力を含む)で受信されてもよい。
本明細書に記載されているシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバー)、ミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバー)、またはフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザーインターフェイスまたはWebブラウザーを備えたユーザーコンピューター。当該グラフィカルユーザーインターフェイスまたは当該Webブラウザーを介して、ユーザーはここで説明するシステムおよび技術の実装と対話できる)、又はそのようなバックエンドコンポーネント、ミドルウェアコンポーネント、またはフロントエンドコンポーネントの任意の組合せを含むコンピューティングシステムで実装されてもよい。システムのコンポーネントは、任意の形態または媒体のデジタルデータ通信(例えば、通信ネットワーク)を介して相互に接続されていてもよい。通信ネットワークの例としては、LAN(ローカルエリアネットワーク)、WAN(ワイドエリアネットワーク)、インターネットなどがある。
コンピュータシステムは、クライアントとサーバを含むことができる。クライアントは、スマートフォン、ノートパソコン、デスクトップパソコン、タブレット、スマートスピーカー等であってもよいが、これに限定されるものではない。サーバは、独立した物理サーバであってもよいし、複数の物理サーバからなるサーバクラスタや分散式システムであってもよいし、クラウドコンピューティング、クラウドサービス、クラウドデータベース、クラウドストレージなどの基本的なクラウドコンピューティングサービスを提供するクラウドサーバであってもよい。クライアントとサーバは一般的に互いに遠隔地にあり、通常は通信ネットワークを介して相互に作用する。クライアント−サーバ関係は、対応するコンピュータ上で実行され、互いにクライアント−サーバ関係を有するコンピュータプログラムによって生成される。
本開示の実施形態は、注釈すべき画像と、注釈すべき画像にマッチする注釈要素を画像注釈因子として決定し、注釈要素同士の間の関連関係を構築して、注釈要素と関連関係に基づいて注釈すべき画像を注釈することにより、既存の画像注釈ツールの注釈効率が低く、注釈能力が不十分であるという問題を解決し、画像の注釈効率と注釈能力を向上させる。
上述した処理の様々な実施形態を用いて、順序を変えたり、ことを追加/削除したりすることができることが理解されるべきである。例えば、本開示に開示された技術案の所望の結果が達成される限り、本開示に記載された各ことは、本明細書に限定されるものではなく、並行して実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよい。
上記の具体的な実施形態は、本開示の保護範囲の制限を構成するものではない。設計要件および他の要因に基づいて、様々な変更、組み合わせ、サブ組み合わせおよび置換が行われ得ることは、当業者によって理解されるべきである。本開示の要旨および原則の範囲内で行われた修正、同等の代替、改良等は、本開示の保護範囲に含まれるものとする。

Claims (23)

  1. 注釈すべき画像、及び前記注釈すべき画像にマッチする注釈要素を含む画像注釈因子を決定することと、
    前記画像注釈因子同士の間の関連関係を構築することと、
    前記注釈要素及び前記関連関係に基づいて、前記注釈すべき画像を注釈することと、を含む、
    ことを特徴とする画像注釈方法。
  2. 前記画像注釈因子同士の間の関連関係を構築することは、
    前記注釈すべき画像と前記注釈要素との組合せ関係を構築することを含む、
    ことを特徴とする請求項1に記載の画像注釈方法。
  3. 前記画像注釈因子同士の間の関連関係を構築することは、
    各前記注釈要素の間の制約規則に基づいて、各前記注釈要素同士の間の制約関係を構築することを含み、
    ここで、前記制約関係は、包含関係、接続関係、及び積・和・補関係を含む、
    ことを特徴とする請求項1に記載の画像注釈方法。
  4. 前記注釈要素は、ボックス要素、分割ボックス要素、ポイント要素、ライン要素、エリア要素、及びキューブ要素を含む、
    ことを特徴とする請求項2または3に記載の画像注釈方法。
  5. 前記注釈要素及び前記関連関係に基づいて、前記注釈すべき画像を注釈することは、
    前記関連関係に基づいて、各前記注釈要素同士の間の相対位置関係を拘束することと、
    各前記注釈要素及び各前記注釈要素間の相対位置関係に基づいて、前記注釈すべき画像を注釈することと、を含む、
    ことを特徴とする請求項4に記載の画像注釈方法。
  6. 前記注釈要素は、少なくとも、ボックス要素及びポイント要素を含み、
    前記画像注釈因子同士の間の関連関係を構築することは、
    前記注釈すべき画像と各前記注釈要素との組合せ関係を構築することと、
    前記ボックス要素と前記ポイント要素との包含関係を構築することと、を含み、
    各前記注釈要素及び各前記注釈要素間の相対位置関係に基づいて前記注釈すべき画像を注釈することは、
    前記ボックス要素に基づいて、前記注釈すべき画像内の注釈対象を選択ボックスで注釈することと、
    前記ポイント要素に基づいて、前記注釈すべき画像内の注釈対象の接地点を注釈することと、を含み、
    ここで、前記ポイント要素は、前記ボックス要素のボックス領域内に含まれている、
    ことを特徴とする請求項5に記載の画像注釈方法。
  7. 前記注釈要素は、少なくともライン要素及びポイント要素を含み、
    前記画像注釈因子同士の間の関連関係を構築することは、
    前記注釈すべき画像と各前記注釈要素との組合せ関係を構築することと、
    前記ライン要素と前記ポイント要素との包含関係を構築することとを含み、
    各前記注釈要素及び各前記注釈要素間の相対位置関係に基づいて前記注釈すべき画像を注釈することは、
    前記ライン要素に基づいて、前記注釈すべき画像内の注釈対象に線描画で注釈することと、
    前記ポイント要素に基づいて、前記注釈対象のカットオフポイントを注釈することとを含み、
    ここで、前記ポイント要素は、前記ライン要素の線分上に含まれている、
    ことを特徴とする請求項5に記載の画像注釈方法。
  8. 前記注釈要素は、少なくともライン要素を含み、
    前記画像注釈因子同士の間の関連関係を構築することは、
    前記注釈すべき画像と前記ライン要素との組合せ関係を構築することと、
    前記ライン要素と前記ライン要素との間の接続関係を構築することとを含み、
    各前記注釈要素及び各前記注釈要素間の相対位置関係に基づいて前記注釈すべき画像を注釈することは、
    前記ライン要素に基づいて、前記注釈すべき画像内の注釈対象を線描画で注釈することを含み、
    ここで、各前記ライン要素同士は、相互に接続されている、
    ことを特徴とする請求項5に記載の画像注釈方法。
  9. 前記注釈要素は、少なくともポイント要素を含み、
    前記画像注釈因子同士の間の関連関係を構築することは、
    前記注釈すべき画像と前記ポイント要素との組合せ関係を構築することを含み、
    各前記注釈要素及び各前記注釈要素間の相対位置関係に基づいて前記注釈すべき画像を注釈することは、
    前記ポイント要素に基づいて、前記注釈すべき画像内の注釈対象に点付けで注釈することを含み、
    ここで、各前記ポイント要素同士は、完全に重なり合っていない、ことを特徴とする請求項5に記載の画像注釈方法。
  10. 前記注釈要素は、少なくともエリア要素を含み、
    前記画像注釈因子同士の間の関連関係を構築することは、
    前記注釈すべき画像と前記エリア要素との組合せ関係を構築することと、
    前記エリア要素間の積・和・補関係を構築することとを含み、
    各前記注釈要素及び各前記注釈要素間の相対位置関係に基づいて前記注釈すべき画像を注釈することは、
    前記エリア要素に基づいて、前記注釈すべき画像内の前記注釈対象を多角形エリアで注釈することを含み、
    ここで、各前記エリア要素同士の間には、自動的にセグメンテーションとスティッチングを行う、
    ことを特徴とする請求項5に記載の画像注釈方法。
  11. 注釈すべき画像、と前記注釈すべき画像にマッチする注釈要素とを含む画像注釈因子を決定する画像注釈因子決定モジュールと、
    前記画像注釈因子同士の間の関連関係を構築する関連関係構築モジュールと、
    前記注釈要素と前記関連関係に基づいて前記注釈すべき画像を注釈する画像注釈モジュールとを有する、
    ことを特徴とする画像注釈装置。
  12. 前記関連関係構築モジュールは、前記注釈すべき画像と前記注釈要素との組合せ関係を構築するために使用される、
    ことを特徴とする請求項11に記載の画像注釈装置。
  13. 前記関連関係構築モジュールは、各前記注釈要素同士の間の制約規則に基づいて各前記注釈要素間の制約関係を構築するために使用され、
    ここで、前記制約関係は、包含関係、接続関係、及び積・和・補関係を含む、
    ことを特徴とする請求項11に記載の画像注釈装置。
  14. 前記注釈要素は、ボックス要素、分割ボックス要素、ポイント要素、ライン要素、エリア要素、及びキューブ要素を含む、
    ことを特徴とする請求項12または13に記載の画像注釈装置。
  15. 前記画像注釈モジュールは、前記関連関係に基づいて各前記注釈要素同士の間の相対位置関係を拘束し、各前記注釈要素と各前記注釈要素同士の間の相対位置関係に基づいて、前記注釈すべき画像を注釈するために使用される、
    ことを特徴とする請求項11の画像注釈装置。
  16. 前記注釈要素は、少なくともボックス要素及びポイント要素を含み、
    前記関連関係構築モジュールは、前記注釈すべき画像と各前記注釈要素との組合せ関係を構築し、及び、前記ボックス要素と前記ポイント要素との包含関係を構築するために使用され、
    前記画像注釈モジュールは、前記ボックス要素に基づいて前記注釈すべき画像内の注釈対象を選択ボックスで注釈し、及び、前記ポイント要素に基づいて前記注釈すべき画像内の注釈対象の接地点を注釈するために使用され、
    ここで、前記ポイント要素は、前記ボックス要素のボックス領域内に含まれている、
    ことを特徴とする請求項15に記載の画像注釈装置。
  17. 前記注釈要素は、少なくともライン要素及びポイント要素を含み、
    前記関連関係構築モジュールは、前記注釈すべき画像と各前記注釈要素との組合せ関係を構築し、及び、前記ライン要素と前記ポイント要素との包含関係を構築するために使用され、
    前記画像注釈モジュールは、前記ライン要素に基づいて前記注釈すべき画像内の注釈対象に線描画で注釈し、及び、前記ポイント要素に基づいて前記注釈対象のカットオフポイントを注釈するために使用され、
    ここで、前記ポイント要素は、前記ライン要素の線分上に含まれている、
    ことを特徴とする請求項15に記載の画像注釈装置。
  18. 前記注釈要素は、少なくともライン要素を含み、
    前記関連関係構築モジュールは、前記注釈すべき画像と前記ライン要素との組合せ関係を構築し、及び、前記ライン要素と前記ライン要素との間の接続関係を構築するために使用され、
    前記画像注釈モジュールは、前記ライン要素に基づいて前記注釈すべき画像内の注釈対象に線描画で注釈するために使用され、
    ここで、各前記ライン要素同士は、相互に接続されている、
    ことを特徴とする請求項15に記載の画像注釈装置。
  19. 前記注釈要素は、少なくともポイント要素を含み、
    前記関連関係構築モジュールは、前記注釈すべき画像と前記ポイント要素との組合せ関係を構築するために使用され、
    前記画像注釈モジュールは、前記ポイント要素に基づいて前記注釈すべき画像内の注釈対象に点付けで注釈するために使用され、
    ここで、各前記ポイント要素同士は、完全に重なり合っていない、
    ことを特徴とする請求項15に記載の画像注釈装置。
  20. 前記注釈要素は、少なくともエリア要素を含み、
    前記関連関係構築モジュールは、前記注釈すべき画像と前記エリア要素との組合せ関係を構築し、及び、前記エリア要素間の積・和・補関係を構築するために使用され、
    前記画像注釈モジュールは、前記エリア要素に基づいて前記注釈すべき画像内の前記注釈対象を多角形エリアで注釈するために使用され、
    ここで、各前記エリア要素同士の間には、自動的にセグメンテーションとスティッチングを行う、ことを特徴とする請求項15に記載の画像注釈装置。
  21. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信接続されたメモリとを有し、
    前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶しており、前記命令は、前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサに請求項1〜10のいずれか1項に記載の画像注釈方法を実行させる、
    ことを特徴とする電子設備。
  22. コンピュータに請求項1〜10のいずれか1項に記載の画像注釈方法を実行させるための命令を格納した非一時的なコンピュータ可読記憶媒体。
  23. コンピュータにおいて、プロセッサにより実行される場合、請求項1〜10のいずれか1項に記載の画像注釈方法を実現することを特徴とするプログラム。
JP2021084575A 2020-07-17 2021-05-19 画像注釈方法、装置、電子設備、記憶媒体、及びプログラム Pending JP2021121960A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010694368.8 2020-07-17
CN202010694368.8A CN111860304B (zh) 2020-07-17 2020-07-17 一种图像标注方法、电子装置、设备及存储介质

Publications (1)

Publication Number Publication Date
JP2021121960A true JP2021121960A (ja) 2021-08-26

Family

ID=73000550

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021084575A Pending JP2021121960A (ja) 2020-07-17 2021-05-19 画像注釈方法、装置、電子設備、記憶媒体、及びプログラム

Country Status (5)

Country Link
US (1) US20210209765A1 (ja)
EP (1) EP3885985A3 (ja)
JP (1) JP2021121960A (ja)
KR (1) KR20210040296A (ja)
CN (1) CN111860304B (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112308155A (zh) * 2020-11-04 2021-02-02 广州小鹏自动驾驶科技有限公司 一种标注准确率确定方法和装置
CN112346807A (zh) * 2020-11-06 2021-02-09 广州小鹏自动驾驶科技有限公司 一种图像标注方法和装置
CN112270532B (zh) * 2020-11-12 2023-07-28 北京百度网讯科技有限公司 一种数据处理方法、装置、电子设备以及存储介质
CN112528610B (zh) * 2020-12-09 2023-11-14 北京百度网讯科技有限公司 一种数据标注方法、装置、电子设备及存储介质
TW202232437A (zh) * 2021-02-09 2022-08-16 阿物科技股份有限公司 圖像分類與標示方法及系統
CN113407083A (zh) * 2021-06-24 2021-09-17 上海商汤科技开发有限公司 一种数据标注方法及装置、电子设备和存储介质
CN113377477A (zh) * 2021-06-24 2021-09-10 上海商汤科技开发有限公司 数据标注方法、装置、设备及存储介质
CN113591580B (zh) * 2021-06-30 2022-10-14 北京百度网讯科技有限公司 图像标注方法、装置、电子设备和存储介质
CN113449142A (zh) * 2021-06-30 2021-09-28 北京百度网讯科技有限公司 信息处理方法及装置、电子设备、存储介质及产品
CN113592981B (zh) * 2021-07-01 2022-10-11 北京百度网讯科技有限公司 图片标注方法、装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005093657A1 (ja) * 2004-03-29 2005-10-06 Pioneer Corporation 道路景観解析装置及び方法
JP2016517114A (ja) * 2013-04-19 2016-06-09 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 画像注釈のグループ化
WO2020119311A1 (zh) * 2018-12-14 2020-06-18 深圳市商汤科技有限公司 一种神经网络的训练方法及图像匹配方法、装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0696160A (ja) * 1992-09-14 1994-04-08 Hitachi Ltd プリント回路基板の領域設定方法
CN102436583B (zh) * 2011-09-26 2013-10-30 哈尔滨工程大学 基于对标注图像学习的图像分割方法
US10365658B2 (en) * 2016-07-21 2019-07-30 Mobileye Vision Technologies Ltd. Systems and methods for aligning crowdsourced sparse map data
CN108230252B (zh) * 2017-01-24 2022-02-01 深圳市商汤科技有限公司 图像处理方法、装置以及电子设备
US20190304102A1 (en) * 2018-03-30 2019-10-03 Qualcomm Incorporated Memory efficient blob based object classification in video analytics
US11100366B2 (en) * 2018-04-26 2021-08-24 Volvo Car Corporation Methods and systems for semi-automated image segmentation and annotation
CN108710868B (zh) * 2018-06-05 2020-09-04 中国石油大学(华东) 一种基于复杂场景下的人体关键点检测系统及方法
CN110569837B (zh) * 2018-08-31 2021-06-04 创新先进技术有限公司 优化损伤检测结果的方法及装置
US11200429B1 (en) * 2018-12-28 2021-12-14 Zoox, Inc. Tracking objects using sensor data segmentations and/or representations
CN109740005A (zh) * 2018-12-29 2019-05-10 北京经纬恒润科技有限公司 一种图像目标标注方法及装置
EP3696718A1 (en) * 2019-02-15 2020-08-19 Wipro Limited Method and system for determining drivable road regions for safe navigation of an autonomous vehicle
US11651689B2 (en) * 2019-08-19 2023-05-16 Here Global B.V. Method, apparatus, and computer program product for identifying street parking based on aerial imagery
US10984290B1 (en) * 2019-11-15 2021-04-20 Zoox, Inc. Multi-task learning for real-time semantic and/or depth aware instance segmentation and/or three-dimensional object bounding
US10832400B1 (en) * 2020-01-14 2020-11-10 Capital One Services, Llc Vehicle listing image detection and alert system
CN111337898B (zh) * 2020-02-19 2022-10-14 北京百度网讯科技有限公司 激光点云的处理方法、装置、设备及存储介质
US11450008B1 (en) * 2020-02-27 2022-09-20 Amazon Technologies, Inc. Segmentation using attention-weighted loss and discriminative feature learning
US11967161B2 (en) * 2020-06-26 2024-04-23 Amazon Technologies, Inc. Systems and methods of obstacle detection for automated delivery apparatus
US11508118B2 (en) * 2020-07-13 2022-11-22 Fujitsu Limited Provisioning real-time three-dimensional maps for autonomous vehicles

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005093657A1 (ja) * 2004-03-29 2005-10-06 Pioneer Corporation 道路景観解析装置及び方法
JP2016517114A (ja) * 2013-04-19 2016-06-09 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 画像注釈のグループ化
WO2020119311A1 (zh) * 2018-12-14 2020-06-18 深圳市商汤科技有限公司 一种神经网络的训练方法及图像匹配方法、装置

Also Published As

Publication number Publication date
EP3885985A3 (en) 2022-03-02
CN111860304A (zh) 2020-10-30
CN111860304B (zh) 2024-04-30
US20210209765A1 (en) 2021-07-08
EP3885985A2 (en) 2021-09-29
KR20210040296A (ko) 2021-04-13

Similar Documents

Publication Publication Date Title
JP2021121960A (ja) 画像注釈方法、装置、電子設備、記憶媒体、及びプログラム
JP7278320B2 (ja) ナビゲーションデータ処理方法、ルート案内方法、装置、デバイス、記憶媒体、及びプログラム
KR20210040326A (ko) 크로스 모달 처리 방법, 장치, 전자 장치 및 컴퓨터 판독 가능 저장 매체
KR20210076886A (ko) 주차 모델 생성 방법 및 장치, 전자 장치 및 저장 매체
CN110926491B (zh) 一种用于最短路径的规划方法和系统
CN108170807B (zh) 地图数据的处理、地图绘制方法、装置、设备及存储介质
CN102831145A (zh) 用于使用图形表示来管理查询结果的系统和方法
CN112131335B (zh) 车道级地图数据处理方法、装置、电子设备及存储介质
JP7232278B2 (ja) 交通ゲートを確定する方法、装置、電子機器および媒体
US20210190505A1 (en) Indoor location-based service
US10147162B2 (en) Method and system for recognizing POI outside map screen
JP2022013648A (ja) 画像を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
KR102490712B1 (ko) 질문 응답 로봇 생성 방법 및 장치
CN114970439A (zh) 自动布线方法、装置、计算机设备、存储介质
CN111158666A (zh) 实体归一化处理方法、装置、设备及存储介质
CN111652434A (zh) 路网数据处理方法、装置、电子设备及计算机存储介质
JP2022031622A (ja) 歴史的なストリートシーンをクエリするための方法、装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム
JP2024063094A (ja) 画像処理のためのシステム、方法、および装置
US9454630B1 (en) Graphical representation of integrated circuits
JP2022091686A (ja) データ注釈方法、装置、電子機器および記憶媒体
CN111814651B (zh) 车道线的生成方法、装置和设备
CN111966767B (zh) 轨迹热力图生成方法、装置、电子设备和存储介质
CN112527163A (zh) 一种路口检索方法、装置、设备及存储介质
US20230048643A1 (en) High-Precision Map Construction Method, Apparatus and Electronic Device
EP3919868B1 (en) Method and apparatus for outputting signal light information

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210519

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20220518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220527

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220729

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220824

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220901

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20221220