JP2020126311A - アノテーション装置、アノテーション方法、及び、プログラム - Google Patents

アノテーション装置、アノテーション方法、及び、プログラム Download PDF

Info

Publication number
JP2020126311A
JP2020126311A JP2019016935A JP2019016935A JP2020126311A JP 2020126311 A JP2020126311 A JP 2020126311A JP 2019016935 A JP2019016935 A JP 2019016935A JP 2019016935 A JP2019016935 A JP 2019016935A JP 2020126311 A JP2020126311 A JP 2020126311A
Authority
JP
Japan
Prior art keywords
label
annotation
labels
similar
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019016935A
Other languages
English (en)
Other versions
JP7229795B2 (ja
Inventor
谷川 徹
Toru Tanigawa
徹 谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Priority to JP2019016935A priority Critical patent/JP7229795B2/ja
Priority to US16/773,095 priority patent/US11113531B2/en
Publication of JP2020126311A publication Critical patent/JP2020126311A/ja
Priority to JP2023021567A priority patent/JP2023058667A/ja
Application granted granted Critical
Publication of JP7229795B2 publication Critical patent/JP7229795B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

【課題】誤操作によるラベル付与誤りの可能性が高いアノテーションデータを検出することができるアノテーション装置を提供する。【解決手段】アノテーション付与システム100において、アノテーション装置10は、画像にアノテーションデータを付与するための複数のラベルが互いに類似しているか否かを示す類似情報を取得する類似情報取得部14と、類似情報に基づいて、アノテーション作業用の作業画面に表示される複数のラベルの配置を決定する決定部15と、作業画面を用いて画像に付与されたアノテーションデータを取得する第二通信部13と、第二通信部13が取得したアノテーションデータに含まれるラベルの付与誤りを検証する検証部16とを備える。【選択図】図1

Description

本開示は、アノテーション装置、アノテーション方法、及び、プログラムに関する。
機械学習を行うための学習データの構築等において、画像データの認識のためにラベル等のアノテーションデータが、画像データに付与される。例えば、特許文献1には、画像データにラベリングを行う技術が開示されている。
特開2013−161295号公報
アノテーションデータは、画像に含まれる人物、物等の対象物に付与される。アノテーションデータの付与は、画像に人が入力することによって実施される。例えば、ラベルの付与は、人が画像に含まれる対象物を見て、複数のラベルの中から当該対象物に応じたラベルを選択することで実施される。このとき、人が操作ミス等によりラベルを誤って選択することが起こりえるので、誤操作によるラベルの付与誤りを検出することが望まれる。
そこで、本開示は、誤操作によるラベル付与誤りの可能性が高いアノテーションデータを検出することができるアノテーション装置、アノテーション方法、及び、プログラムを提供する。
本開示の一態様に係るアノテーション装置は、画像にアノテーションデータを付与するための複数のラベルが互いに類似しているか否かを示す類似情報を取得する類似情報取得部と、前記類似情報に基づいて、アノテーション作業用の作業画面に表示される前記複数のラベルの配置を決定する決定部と、前記作業画面を用いて前記画像に付与された前記アノテーションデータを取得するデータ取得部と、前記データ取得部が取得した前記アノテーションデータに含まれるラベルの付与誤りを検証する検証部とを備える。
本開示の一態様に係るアノテーション方法は、画像にアノテーションデータを付与するための複数のラベルが互いに類似しているか否かを示す類似情報を取得するステップと、前記類情報に基づいて、アノテーション作業用の作業画面に表示される前記複数のラベルの配置を決定するステップと、前記作業画面を用いて前記画像に付与された前記アノテーションデータを取得するステップと、前記データ取得部が取得した前記アノテーションデータに含まれるラベルの付与誤りを検証するステップとを含む。
本開示の一態様に係るプログラムは、上記のアノテーション方法をコンピュータに実行させるためのプログラムである。
なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なCD−ROM等の非一時的記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。プログラムは、記録媒体に予め記憶されていてもよいし、インターネット等を含む広域通信網を介して記録媒体に供給されてもよい。
本開示の一態様に係るアノテーション装置、アノテーション方法、及び、プログラムによれば、誤操作によるラベル付与誤りの可能性が高いアノテーションデータを検出することができる。
図1は、実施の形態に係るアノテーション付与システムの構成を示すブロック図である。 図2は、実施の形態に係る作業画面の一例を示す図である。 図3は、実施の形態に係る類似度を取得するためのテーブルの一例を示す図である。 図4は、実施の形態に係るアノテーション装置におけるアノテーション付与装置への作業画面の送信までの処理を示すフローチャートである。 図5Aは、比較例に係るラベルの表示順の一例を示す図である。 図5Bは、実施の形態に係るラベルの表示順の一例を示す図である。 図6は、実施の形態に係るアノテーション装置におけるラベル付与誤りを検証する処理を示すフローチャートである。 図7は、実施の形態に係る記憶部に格納されるデータの一例を示す図である。 図8は、実施の形態の変形例に係るラベルの表示順の一例を示す図である。
(本開示に至った知見)
機械学習の1つの手法であるDeep Learning(深層学習)において、対象物の認識には大量の学習用の画像データが必要となる。例えば、10万〜100万単位の学習用の画像データが必要となる。そして、学習用の画像データでは、対象物に対して、対象物の内容、位置、領域等を含む情報が、アノテーションデータとして付与される。なお、通常、対象物に対してアノテーションデータを付与するアノテーション作業では、画像上で対象物を囲む等による対象物の領域(例えば、バウンディングボックスで示される領域)、及び、当該領域に含まれる対象物を認識するためのラベル(人、自転車、バイクなど)の設定が、画像に人が入力することによって実施される。高精度な認識器を生成するためには、質のよい学習データセットが構築されるとよい。
一方、近年、上記の学習データセットを生成するにあたり、クラウドソーシングを利用することが検討されている。これにより、上記の学習データセットを安価に構築することができる。しかしながら、クラウドソーシングによりアノテーション作業を行う作業者のITスキルは高いとは限らず、ラベルの付与誤り等の作業ミスが発生することがある。学習データセットにラベルの付与誤りのデータが含まれていると、質のよい学習データセットを構築することができず、結果として高精度な認識器を生成することができない。
このため、本願発明者は、クラウドソーシングを利用した上で、質のよい学習データセットを生成することについて検討した。鋭意検討を行った結果、本願発明者は、誤操作によるラベル付与誤りの可能性が高いアノテーションデータを検出することができるアノテーション装置等について、以下のように創案した。
そこで、本開示の一態様に係るアノテーション装置は、画像にアノテーションデータを付与するための複数のラベルが互いに類似しているか否かを示す類似情報を取得するステップと、前記類情報に基づいて、アノテーション作業用の作業画面に表示される前記複数のラベルの配置を決定するステップと、前記作業画面を用いて前記画像に付与された前記アノテーションデータを取得するステップと、前記データ取得部が取得した前記アノテーションデータに含まれるラベルの付与誤りを検証するステップとを含む。
これにより、作業画面に配置される複数のラベルの配置が類似情報に基づいて決定されることで、検証部による誤操作の検出確率を向上させることができる。例えば、類似情報に基づいて、複数のラベルの配置が、互いに類似しているラベル同士が隣り合わないようなに決定されることで、検証部は、互いに類似しているラベル同士が隣り合っている場合に比べ、より精度よく誤操作を検出することが可能となる。例えば、互いに類似しているラベルが隣り合って配置されており、作業者が誤操作により本来のラベルと隣り合っているラベルを選択した場合、検証部は、作業者の判断と操作がともに正しかったのか、対象物の判断は正しかったが操作ミスによるラベルの付与誤りであるかを検出することができない。一方、本開示の一態様に係る複数のラベルが互いに類似しているラベルが隣り合って配置されていない場合に、作業者が誤操作により本来のラベルと隣り合っているラベルを選択したとき、検証部は、作業者の操作ミスによるラベルの付与誤りの可能性があることを検出することができる。隣り合うラベルが類似していないので、作業者が対象物を判断ミスしたことによるラベルの付与誤りである可能性が低いためである。よって、本開示の一態様に係るアノテーション装置は、誤操作によるラベル付与誤りの可能性が高いアノテーションデータを検出することができる。
また、例えば、前記複数のラベルは、互いに類似している第一ラベル及び第二ラベルと、前記第一ラベル及び前記第二ラベルの双方に類似していない第三ラベルとを含み、前記決定部は、前記作業画面において、前記第一ラベルと前記第二ラベルとの間に前記第三ラベルを表示するように前記配置に決定する。
これにより、複数のラベルは、互いに類似しているラベル同士が隣り合わないような配置で、作業画面上に表示される。例えば、画像に含まれる対象物を示すラベルと隣り合うラベルを作業者が誤操作により選択した場合、2つのラベルは互いに類似していないので、検証部は、誤操作によるラベルの付与誤りの可能性が高いアノテーションデータを検出することができる。
また、例えば、前記検証部は、所定の学習データセットで学習された認識器を有し、前記複数のラベルのうち、前記画像に対する前記認識器の認識結果に対応するラベルと、取得した前記アノテーションデータに含まれるラベルとが前記作業画面において隣り合うラベルであった場合、取得した前記アノテーションデータに含まれるラベルが付与誤りであると判定する。
これにより、認識器を有する検証部により、ラベルの付与誤りを容易に検証することができる。具体的には、検証部は、認識器の認識結果と、取得したアノテーションデータに含まれるラベルとを比較することで、ラベルの付与誤りの可能性が高いアノテーションデータを容易に検証することができる。
また、例えば、前記複数のラベルは、さらに前記第一ラベル、前記第二ラベル、及び、前記第三ラベルのそれぞれに類似していない第四ラベルを含み、前記決定部は、前記作業画面において、前記第一ラベルと前記第二ラベルとの間にさらに前記第四ラベルを表示するように前記配置に決定する。
これにより、ラベルの付与誤りがあった場合、作業者がどのラベルを選択しようとしていたかを推定することができる。例えば、画像に含まれる対象物を示すラベルが第一ラベルであり、第一ラベル、第三ラベル、第四ラベル及び第二ラベルの順に配置されており、かつ作業者が第三ラベルを誤操作により付与した場合を例に説明する。この場合、第三ラベルと第四ラベルとは互いに類似していないラベルであり、作業者は第四ラベルを選択しようとして、誤操作により第三ラベルを選択した可能性は低い。そこで、作業者が第一ラベルを選択しようとしていたと推定することができる。なお、第一ラベルが対象物を示すラベルであることは、検証部の検証(例えば、認識器の認識結果)により特定可能である。
また、例えば、前記決定部は、さらに、前記類似情報に基づいて、前記作業画面に配置される前記複数のラベルの表示色を決定する。
これにより、類似情報に基づいてラベルが色分けされるので、作業画面におけるラベルの視認性が向上する。よって、アノテーションデータを付与するアノテーション作業を行う作業者の作業効率が向上する。
また、例えば、前記決定部は、互いに類似しているラベル同士の表示色を他のラベルより近い表示色に決定する。
これにより、類似するラベル(例えば、動物、乗り物など)ごとに色分けされるので、作業画面におけるラベルの視認性をさらに向上させることができる。よって、作業者の作業効率がさらに向上する。
また、例えば、前記画像に付与するためのラベル情報を取得するラベル情報取得部をさらに備え、前記類似情報取得部は、前記ラベル情報に3以上のラベルが含まれる場合に、前記複数のラベルのうち前記3以上のラベルそれぞれの類似情報を取得する。
これにより、アノテーション作業に用いるラベルを外部から取得する場合であっても、当該取得した3以上のラベルそれぞれの類似情報を取得することで、決定部は、当該3以上のラベルの配置を決定することができる。よって、アノテーション装置は、複数のラベルの中から任意の3以上のラベルを取得した場合であっても、誤操作によるラベルの付与誤りの可能性が高いアノテーションデータを検出することができる。
また、本開示の一態様に係るアノテーション方法は、画像にアノテーションデータを付与するための複数のラベルが互いに類似しているか否かを示す類似情報を取得するステップと、前記類情報に基づいて、アノテーション作業用の作業画面に表示される前記複数のラベルの配置を決定するステップと、前記作業画面を用いて前記画像に付与された前記アノテーションデータを取得するステップと、前記データ取得部が取得した前記アノテーションデータに含まれるラベルの付与誤りを検証するステップとを含む。また、本開示の一態様に係るプログラムは、当該アノテーション方法をコンピュータに実行させるためのプログラムである。
これにより、上記のアノテーション装置と同様の効果を奏する。
以下、実施の形態について、図面を参照しながら具体的に説明する。
なお、以下で説明する各実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
なお、各図は模式図であり、必ずしも厳密に図示されたものではない。また、各図において、実質的に同一の構成に対しては同一の符号を付し、重複する説明は省略または簡略化される場合がある。
また、本明細書において、同じなどの要素間の関係性を示す用語、及び、矩形などの要素の形状を示す用語、並びに、数値、及び、数値範囲は、厳格な意味のみを表す表現ではなく、実質的に同等な範囲、例えば数%程度の差異をも含むことを意味する表現である。
(実施の形態)
以下、本実施の形態に係るアノテーション装置等について、図1〜図7を参照しながら説明する。
[1.アノテーション付与システムの構成]
本実施の形態に係るアノテーション装置を含むアノテーション付与システム100について、図1を参照しながら説明する。図1は、本実施の形態に係るアノテーション付与システムの構成を示すブロック図である。
図1に示すように、アノテーション付与システム100は、アノテーション装置10と、サーバ装置20と、アノテーション付与装置30とを備える。サーバ装置20は、種々のデータを蓄積する要素である。アノテーション付与装置30は、画像にアノテーションデータを付与する装置である。アノテーション装置10は、サーバ装置20からアノテーションデータを付与すべき画像を取得しアノテーション付与装置30に送信すること、及び、付与されたアノテーションデータをアノテーション付与装置30から受け取り、受け取ったアノテーションデータの中からラベルの付与誤りの可能性が高いアノテーションデータを検出し、検出結果を含む情報を画像に対応付けてサーバ装置20に送信すること等を実施する要素である。つまり、アノテーション装置10は、サーバ装置20及びアノテーション付与装置30の間で、情報の検証を行いつつ情報の流れを中継する中継装置である。
本実施の形態では、アノテーション装置10は、Deep Learningをはじめとするニューラルネットワーク等の機械学習のための大量の学習用の画像データの構築者によって、運用される。サーバ装置20は、上記構築者によって運用されもよく、上記構築者以外によって運用されてもよい。
サーバ装置20は、アノテーション装置10と通信するように構成されている。サーバ装置20は、コンピュータ等の情報処理装置でもよい。サーバ装置20は、1つ以上のサーバ装置を含んでもよく、クラウドシステムを構成してもよい。サーバ装置20は、サーバ装置20の全体を制御する制御部21と、アノテーション装置10と通信する通信部22と、種々のデータを格納する記憶部23と、入力を受け付ける入力部24とを備える。通信部22は、インターネット等の通信網を介してアノテーション装置10と通信する。通信部22は、通信インタフェースを含む通信回路であってもよい。例えば、通信部22とアノテーション装置10との間の通信には、Wi−Fi(登録商標)(Wireless Fidelity)などの無線LAN(Local Area Network)が適用されてもよく、ケーブルを用いた有線通信が適用されてもよく、その他の無線通信又は有線通信が適用されてもよい。
記憶部23は、例えば、ハードディスクにより構成され、種々の撮影装置で撮影されたアノテーション用の画像が格納されている。
入力部24は、指令等の種々の入力を受け付ける要素である。入力部24は、例えば、上記の構築者から、入力を受け付ける。入力部24は、マウス、キーボード、及び、タッチパネルなどであり、構築者による操作を入力として受け付けてもよい。また、入力部24は、マイクロフォンなどであり、構築者の音声を入力として受け付けてもよい。
制御部21は、通信部22、記憶部23、及び、入力部24を制御する。制御部21は、通信部22を介して、アノテーション装置10から記憶部23への対応するデータの格納を実施する。また、制御部21は、通信部22を介して、入力部24が受け付けた入力に応じて、記憶部23からデータの取り出し及び送信を実施する。また、制御部21は、通信部22を介して、アノテーション装置10から受信した情報(例えば、後述する、作業結果、認識結果、及び、判定結果など)を記憶部23に格納する。
アノテーション装置10は、これ単独で一つの装置を構成してもよく、コンピュータなどの情報処理装置又はその他の装置に組み込まれてもよい。アノテーション装置10は、制御部11、第一通信部12、第二通信部13、類似情報取得部14、決定部15、検証部16、及び、記憶部17を備える。制御部11は、アノテーション装置10の全体を制御する。
第一通信部12は、インターネット等の通信網を介してサーバ装置20の通信部22と通信する。第一通信部12は、通信インタフェースを含む通信回路であってもよい。例えば、第一通信部12とサーバ装置20との間の通信には、Wi−Fi(登録商標)などの無線LANが適用されてもよく、ケーブルを用いた有線通信が適用されてもよく、その他の無線通信又は有線通信が適用されてもよい。第一通信部12と通信部22との間に、これらの間の通信を中継する通信装置であるルータが設けられてもよい。ルータは、第一通信部12と通信網との間の通信を中継してもよい。
第二通信部13は、アノテーション付与装置30と通信する。第二通信部13は、通信インタフェースを含む通信回路であってもよい。第二通信部13とアノテーション付与装置30との通信は、第一通信部12と同様にインターネット等の通信網を介した通信であってもよく、第3世代移動通信システム(3G)、第4世代移動通信システム(4G)、又は、LTE(登録商標)等のような移動通信システムで利用されるモバイル通信規格が適用されてもよい。
類似情報取得部14は、制御部11の制御を受けて、アノテーション作業に用いるラベル同士の類似情報を取得する。具体的には、類似情報取得部14は、画像にアノテーションデータを付与するための複数のラベルが互いに類似しているか否かを示す類似情報を取得する。類似情報は、ラベル同士が類似しているか否かの判定結果であってもよいし、ラベル同士の類似度合いを示す類似度であってもよい。
決定部15は、制御部11の制御を受けて、アノテーション作業を行うための作業画面に表示される複数のラベルの表示順を決定する。具合的には、決定部15は、類似情報取得部14が取得した複数のラベルそれぞれの類似情報に基づいて、アノテーション作業用の作業画面に表示される複数のラベルの表示順を決定する。より具体的には、決定部15は、上記の類似情報に基づいて、複数のラベルのうち、互いに類似しているラベルの間に、当該互いに類似しているラベルの双方と類似していないラベルを少なくとも1つ表示するように、複数のラベルの表示順を決定する。本実施の形態では、決定部15は、互いに類似しているラベルの間に、当該互いに類似しているラベルの双方と類似していないラベルを1つ表示するように、複数のラベルの表示順を決定する。なお、複数のラベルの表示順は、複数のラベルの配置の一例である。
ここで、作業画面について、図2を参照しながら説明する。図2は、本実施の形態に係る作業画面Pの一例を示す図である。作業者は、アノテーション付与装置30の表示部33に表示される作業画面Pを見ながらアノテーション作業を行う。
図2に示すように、作業画面Pは、画像p1とラベル一覧p2とを有する。画像p1は、アノテーション作業が行われる画像である。作業者は、画像p1中の対象物の領域(例えば、図2中のバウンディングボックスB等)を設定し、当該領域に存在する対象物を示すラベルをラベル一覧p2の中から選択する。図2の例では、ラベル一覧p2は、「自転車」、「人」、及び、「バイク」のラベル(クラスラベル)を含む。なお、ラベル一覧p2に含まれるラベルの数は、例えば、3以上であるが、特に限定されない。
決定部15は、作業画面Pのラベル一覧p2に含まれる複数のラベルの表示順を、当該ラベルの類似情報に基づいて決定する。決定部15は、例えば、後述する図3が示す複数のラベルの表示順を決定する。
図1を再び参照して、検証部16は、アノテーション付与装置30から取得したアノテーションデータに含まれるラベルの付与誤りを検証する。つまり、検証部16は、アノテーション付与装置30から取得した複数のアノテーションデータの中から、ラベルの付与誤りの可能性が高いアノテーションデータを検出する。具体的には、検証部16は、検証部16は、決定部15が決定した複数のラベルの表示順に基づいて、アノテーション付与装置30から取得した複数のアノテーションデータの中から、ラベルの付与誤りの可能性が高いアノテーションデータを検出する。
検証部16は、所定の学習データセット(例えば、公開されている学習データセット)を用いて予め学習された認識器16aを有する。認識器16aは、ラベルの付与誤りを検出するための機械学習モデルを構築する。認識器16aは、機械学習にニューラルネットワークを用いるが、他の機械学習方法を用いてもよい。なお、認識器16aは、認識結果を出力するだけでよく、例えば、学習のためのフレームワークを有していなくてもよい。
記憶部17は、例えば、ハードディスクにより構成され、類似情報取得部14が類似情報を取得するためのテーブルが格納されている。また、記憶部17は、アノテーション付与装置30から受信した情報(例えば、後述する、作業結果)、検証部16による認識結果及び判定結果(以降において、検証結果とも記載する)を格納する。
ここで、記憶部17が格納するテーブルについて、図3を参照しながら説明する。図3は、本実施の形態に係る類似度を取得するためのテーブルTの一例を示す図である。なお、テーブルTは、説明のため、ラベルが「自転車」、「バイク」、及び、「人の」3つである例について説明する。
図3に示すように、認識器16aは、例えば、「自転車」の画像が入力されたとき、60%の確率で「自転車」を出力し、35%の確率で「バイク」を出力し、5%の確率で「人」を出力する。これは、認識器16aは、「自転車」の画像を入力すると、60%の確率で正解を出力することを示す。また、認識器16aは、「自転車」の画像を入力すると、35%の確率で、「自転車」と外見が類似する「バイク」を出力する。
上記のようなテーブルTは、認識器16aの学習に用いた所定の学習データセットに応じて決定される。テーブルTは、例えば、所定の学習データセットで学習された認識器16aに所定の画像を認識させたときの認識結果(出力結果)に基づいて作成される。所定の画像は、ラベルが示す対象物を含む画像である。テーブルTは、例えば、認識器16aがどれだけ正しい出力ができたかの結果(確率)に基づいて作成される。
アノテーション付与装置30は、アノテーション装置10と情報の送受信が可能な要素である。アノテーション付与装置30は、例えば、クラウドソーシングによりアノテーション作業を行う作業者が所有する端末装置である。アノテーション付与装置30は、コンピュータ等の情報処理装置であってもよく、携帯電話でもよく、スマートフォン、スマートウォッチ、タブレット、小型パーソナルコンピュータ等の携帯端末であってもよい。なお、アノテーション付与装置30を用いてアノテーション作業を行う作業者は、上記の構築者とは異なる。アノテーション付与装置30の作業者は、上記構築者とアノテーションデータの付与処理の契約をしており、上記構築者から提供される画像にアノテーションデータを付与する。つまり、アノテーション付与装置30の作業者は、アノテーションデータの処理者である。
アノテーション付与装置30は、制御部31、通信部32、表示部33及び入力部34を備える。制御部31は、アノテーション付与装置30の全体を制御する。通信部32は、通信インタフェースを含む通信回路であってもよい。通信部32は、アノテーション装置10の第二通信部13と通信し、これらの間の通信は、上述したとおりである。
表示部33は、作業画面Pを表示する要素であり、例えば、液晶パネル、又は、有機若しくは無機EL(Electro−Luminescence)パネルにより構成されてもよい。入力部34は、指令等の種々の入力を受け付ける要素である。入力部34は、表示部33と別個に設けられた構成であってもよく、タッチパネルのように表示部33に触れることによって入力可能である表示部33と一体である構成を有してもよい。
なお、アノテーション付与システム100が備える複数のアノテーション付与装置30の構成は、同じであってもよい。また、アノテーション付与システム100が備えるアノテーション付与装置30の数は特に限定されず、1つであってもよいし、3つ以上であってもよい。
また、サーバ装置20の制御部21、アノテーション装置10の制御部11、類似情報取得部14、決定部15、及び、検証部16、並びに、アノテーション付与装置30の制御部31の各構成要素は、専用のハードウェアで構成されてもよく、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。この場合、各構成要素は、例えば、演算処理部(図示せず)と、制御プログラムを記憶する記憶部(図示せず)とを備えてもよい。演算処理部としては、MPU(Micro Processing Unit)、CPU(Central Processing Unit)等が例示される。記憶部としては、半導体メモリなどのメモリ等が例示される。なお、各構成要素は、集中制御を行う単独の要素で構成されてもよく、互いに協働して分散制御を行う複数の要素で構成されてもよい。ソフトウェアプログラムは、アプリケーションとして、インターネット等の通信網を介した通信、モバイル通信規格による通信等で提供されるものであってもよい。
また、各構成要素は、LSI(Large Scale Integration:大規模集積回路)、システムLSI等の回路でもよい。複数の構成要素が、全体として1つの回路を構成してもよく、それぞれ別々の回路を構成してもよい。また、回路は、それぞれ、汎用的な回路でもよく、専用の回路でもよい。
システムLSIは、複数の構成部を1つのチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM(Read Only Memory)、RAM(Random Access Memory)等を含んで構成されるコンピュータシステムである。RAMには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、システムLSIは、その機能を達成する。システムLSI及びLSIは、LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)であってもよく、LSI内部の回路セルの接続及び設定を再構成可能なリコンフィギュラブルプロセッサを含んでもよい。
また、上記構成要素の一部又は全部は、脱着可能なIC(Integrated Circuit)カード又は単体のモジュールから構成されてもよい。ICカード又はモジュールは、マイクロプロセッサ、ROM、RAM等から構成されるコンピュータシステムである。ICカード又はモジュールは、上記のLSI又はシステムLSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、ICカード又はモジュールは、その機能を達成する。これらICカード及びモジュールは、耐タンパ性を有するとしてもよい。
[2.アノテーション付与システムの動作]
次に、上記のアノテーション付与システム100の動作について、図4〜図7を参照しながら説明する。具体的には、アノテーション装置10の動作について、説明する。
まずは、アノテーション装置10における作業画面Pの生成及び送信の処理について、図4〜図5Bを参照しながら説明する。図4は、本実施の形態に係るアノテーション装置10におけるアノテーション付与装置30への作業画面Pの送信までの処理を示すフローチャートである。なお、以下において画像に付与されるラベルは、図3に示す「自転車」、「バイク」、及び、「人」である例について説明する。
図4に示すように、まず、アノテーション装置10は、アノテーションデータを付与するための画像データを取得し、格納する(S10)。具体的には、制御部11は、第一通信部12を介してサーバ装置20から画像データを取得し、取得した画像データを記憶部17に格納する。言い換えると、記憶部17は、画像データを格納する画像データベースとして機能する。なお、サーバ装置20は、例えば、構築者から画像データを送信する指示を入力部24を介して取得すると、該当する画像データをアノテーション装置10に送信する。
そして、類似情報取得部14は、画像にアノテーションデータを付与するためのラベル同士の類似情報を取得する(S20)。類似情報取得部14は、例えば、記憶部17に格納されているテーブルTに基づいて、当該テーブルTに含まれる複数のラベル同士の類似情報を取得する。類似情報取得部14は、例えば、テーブルTに示される出力結果の確率が所定値以上あるラベル同士を類似していると判定してもよい。所定値は、例えば、外観が類似しているラベル同士が類似していると判定できればよく、例えば、20%であるが、これに限定されない。以下では、所定値が20%である例について説明する。
図3に示すように、入力「自転車」に対する出力は、60%が「自転車」であり、35%が「バイク」である。また、入力「バイク」に対する出力は、40%が「自転車」であり、55%が「バイク」である。つまり、認識器16aが自転車をバイクと出力する確率、及び、バイクを自転車と出力する確率は、ともに20%以上である。この場合、類似情報取得部14は、「自転車」と「バイク」とは類似していると判定する。
また、図3に示すように、入力「自転車」及び「バイク」に対する出力において、「人」は5%である。また、入力「人」に対する出力において、「自転車」は3%であり、「バイク」は4%である。つまり、認識器16aが自転車及びバイクを人と出力する確率と、人を自転車及びバイクと出力する確率とは、ともに20%未満である。この場合、類似情報取得部14は、「人」と「自転車」及び「バイク」とは類似していないと判定する。
なお、自転車がバイクと出力される確率、及び、バイクが自転車と出力される確率を例に説明すると、当該2つの確率のうちの少なくとも一方が20%以上である場合、類似情報取得部14は、「自転車」と「バイク」とが類似していると判定してもよい。
なお、入力「自転車」に対する出力のうち、当該「自転車」以外のラベル(図3の例では、「バイク」及び「人」)それぞれを出力する確率は、当該「自転車」との外見上の類似度合いを示す類似度ということもできる。例えば、決定部15は、類似度に基づいて作業画面に表示される複数のラベルの配置を決定するとも言える。
なお、ラベル「自転車」は第一ラベルの一例であり、「バイク」第二ラベルの一例であり、「人」は第三ラベルの一例である。
そして、決定部15は、類似情報取得部14が取得した類似情報に基づいて、作業画面Pにおけるラベルの表示順を決定する(S30)。具体的には、決定部15は、類似している2つのラベルの間に、当該2つのラベルの双方と類似していないラベルを配置するように複数のラベルの表示順を決定する。つまり、決定部15は、互いに類似する2つのラベルが隣り合わないように、作業画面に表示される複数のラベルの配置を決定する。決定部15は、例えば、外見上似ているラベル同士(例えば、「自転車」及び「バイク」)を隣り合わせに配置することを禁止する。
図5Aは、比較例に係るラベルの表示順の一例を示す図である。図5Bは、本実施の形態に係るラベルの表示順の一例を示す図である。
図5Aに示すように、比較例に係るラベル一覧p2aは、「自転車」、「バイク」、「人」の順に複数のラベルが配置されている。つまり、互いに類似しているラベル(図5Aの例では、「自転車」及び「バイク」)が隣り合って配置されている。
図5Bに示すように、本実施の形態に係るラベル一覧p2bは、「自転車」、「人」、「バイク」の順に複数のラベルが配置されている。つまり、互いに類似しているラベルが隣り合わないように配置されている。具体的には、決定部15は、作業画面Pにおいて、ラベル「自転車」とラベル「バイク」との間に、ラベル「人」を表示するように複数のラベルの配置を決定する。
そして、制御部11は、第二通信部13を介して、アノテーション付与装置30に画像データ及び作業画面Pを送信する(S40)。言い換えると、第二通信部13は、画像データ、及び、決定部15がラベルの表示順を決定した作業画面Pをアノテーション付与装置30に送信する。これにより、アノテーション付与装置30の作業者は、図5Bに示すようなラベル一覧p2bを含む作業画面Pを用いて、アノテーション作業を行うことができる。
なお、ステップS20において、類似情報取得部14は、テーブルTに含まれる複数のラベルそれぞれの類似情報を取得する例について説明したが、これに限定されない。例えば、制御部11が第一通信部12を介して、サーバ装置20から画像に付与するためのラベルを特定するためのラベル情報を取得すると、類似情報取得部14は、当該ラベル情報に3以上のラベルが含まれる場合、複数のラベル(例えば、テーブルTに含まれる複数のラベル)のうち当該3以上のラベルそれぞれの類似情報を取得してもよい。この場合、第一通信部12は、画像に付与するためのラベル情報を取得するラベル情報取得部として機能する。また、作業画面のラベル一覧には、複数のラベルのうち3以上のラベルのみが表示される。決定部15は、3以上のラベルの表示順を当該3以上のラベルそれぞれの類似情報に基づいて決定する。類似情報取得部14は、ラベル情報に2以下のラベルが含まれる場合、2以下のラベルそれぞれの類似情報を取得しなくてもよい。
なお、ステップS30において、決定部15は、さらに類似情報取得部14が取得した類似情報に基づいて、さらにアノテーション作業用の作業画面Pに配置される複数のラベルの表示色を決定してもよい。決定部15は、例えば、互いに類似しているラベル同士の表示色を他のラベルより近い表示色に決定してもよい。決定部15は、例えば、互いに類似しているラベル同士の表示色を同じ表示色に決定してもよい。これにより、例えば、隣り合うラベル同士は、異なる表示色で表示される。「自転車」、「バイク」及び「人」を例に説明すると、決定部15は、「自転車」及び「バイク」の表示色(例えば、赤色)と、「人」の表示色(例えば、青色)とを異なる表示色で表示するように、類似情報に基づいてそれぞれのラベルの表示色を決定する。なお、表示色は、ラベルを示す文字列の色を意味する。
次に、作業者が行った作業結果(アノテーション作業結果)の検証について、図6及び図7を参照しながら説明する。図6は、本実施の形態に係るアノテーション装置10におけるラベル付与誤りを検証する処理を示すフローチャートである。
図6に示すように、まず、アノテーション装置10は、アノテーション付与装置30から作業結果を取得する(S110)。具体的には、制御部11は、第二通信部13を介してアノテーション付与装置30から作業結果を取得する。作業結果は、画像に対して付与されたアノテーションデータを含む。言い換えると、第二通信部13は、決定部15がラベルの表示順を決定した作業画面Pを用いて画像に対して付与されたアノテーションデータを、アノテーション付与装置30から取得する。このとき、第二通信部13は、アノテーション付与装置30からアノテーションデータを取得するデータ取得部として機能する。
そして、検証部16は、制御部11の制御により、作業結果におけるラベルの認識処理を実行する(S120)。具体的には、検証部16は、認識器16aによって構築されたニューラルネットワークに、作業結果として取得したアノテーションデータが付与された画像を入力することによって、入力した画像に対応する認識結果を取得する。認識結果は、例えば、「自転車」、「人」、及び、「バイク」のいずれかであるとする。
検証部16は、当該画像における認識結果と作業結果に含まれるラベルとが一致しているか否かを判定する(S130)。検証部16は、認識結果とラベルとが一致している場合(S130でYes)、当該ラベルは正しいと判定する(S140)。また、検証部16は、認識結果とラベルとが一致していない場合(S130でNo)、認識結果が作業結果に含まれるラベルと隣接するラベルであるか否かを判定する(S150)。検証部16は、例えば、当該画像における認識結果が「自転車」であり、当該画像に付与されたラベルが「人」である場合、認識結果と作業結果に含まれるラベルに隣接するラベルとが一致すると判定する(S150でYes)。
ここで、本実施の形態では、「自転車」と「人」とは隣接するが、互いに類似していないラベルである。そのため、作業者が本来「自転車」である対象物に対して、当該対象物を「人」と認識してラベル「人」を当該画像に付与する可能性は低い。つまり、作業者は、本来「自転車」である対象物に対して、「自転車」と認識していたにも関わらず、操作ミスにより「自転車」と隣接する「人」を選択した可能性が高い。よって、検証部16は、ステップS150でYesの場合、操作ミスによるラベル付与誤りの可能性があると判定する(S160)。言い換えると、検証部16は、上記の複数のラベルのうち、画像に対する認識器16aの認識結果に対応するラベルと、取得したアノテーションデータに含まれるラベルとが、作業画面P(言い換えると、決定部15が決定した表示順)において隣り合う配置のラベルであった場合、取得したアノテーションデータに含まれるラベルが操作ミスによる付与誤りであると判定する。
上記のように、検証部16は、ステップS150でYesの場合、当該アノテーションデータを、作業者の操作ミスによるラベルの付与誤りの可能性が高いアノテーションデータであると判定することができる。
比較例として、作業画面におけるラベルの表示順が図5Aに示す表示順であり、認識結果が作業結果に含まれるラベルと隣接するラベルである場合について説明する。検証部16は、例えば、当該画像における認識結果が「自転車」であり、当該画像に付与されたラベルが「バイク」である場合、認識結果と作業結果に含まれるラベルに隣接するラベルとが一致すると判定する(S150でYes)。
ここで、比較例では、「自転車」と「バイク」とは隣接するが、互いに類似しているラベルである。そのため、作業者が本来「自転車」である対象物に対して、当該対象物を「バイク」と認識してラベル「バイク」を当該画像に付与した可能性がある。また、本来「バイク」であるが、認識器16aの認識結果が誤っており「バイク」を「自転車」と認識した可能性もある。つまり、検証部16は、ステップS150でYesの場合、ラベルの付与誤りの可能性が高いアノテーションデータであるか否かを正確に判定することができない。
一方、上記でも説明したが、本実施の形態に係る決定部15は、図5Bに示すように互いに類似しているラベルを隣接して配置しない。これにより、検証部16における検証において、ステップS150でYesと判定された場合、作業者の操作ミスによるラベル付与誤りの可能性があると判定することができる(S160)。
また、検証部16は、例えば、当該画像における認識結果が「自転車」であり、当該画像に付与されたラベルが「バイク」である場合、認識結果と作業結果に含まれるラベルに隣接するラベル(例えば、「人」)とが一致しないと判定する(S150でNo)。この場合、「自転車」と「バイク」とは互いに類似するラベルであるので、作業者が本来「自転車」である対象物を「バイク」と誤って認識した可能性がある。これにより、検証部16における検証において、ステップS150でNoと判定された場合、作業者の判断ミスによるラベル付与誤りの可能性があると判定することができる(S170)。
そして、検証部16は、アノテーション付与装置30から取得した作業結果、認識器16aによる認識結果、及び、検証部16による判定結果を記憶部17に格納する(S180)。つまり、記憶部17は、画像に付与されたアノテーションデータを、当該アノテーションデータの検証結果(例えば、検出結果)とともに格納するアノテーションデータベースとして機能する。図7は、本実施の形態に係る記憶部17に格納されるデータDの一例を示す図である。
図7に示すように、検証部16は、作業結果、認識結果、及び、判定結果を対応付けて記憶部17に格納する。領域A1〜A3は、例えば1つの画像における互いに異なる領域を示している。領域A1〜A3は、画像上における座標で示されてもよい。
そして、制御部11は、データDをサーバ装置20に送信してもよい。これにより、構築者は、データDを確認することで、ラベル付与誤りの可能性があるアノテーションデータを容易に知ることができる。構築者は、ラベル付与誤りの可能性が高いアノテーションデータを修正する、及び、作業者に再度アノテーションデータを付与させるなどの対応を行うことで、精度のよい学習データセットを構築することができる。例えば、構築者は、上記の対応の後、さらにその作業結果に対してS110〜S180の処理を実行することで、さらに精度のよい学習データセットを構築することができる。
なお、検証部16による検証処理(S120〜S180)を実行するタイミングは、特に限定されない。検証部16は、アノテーション付与装置30から作業結果を取得するたびに検証処理を実行してもよいし、複数の作業結果を取得した後に検証処理を実行してもよい。
(実施の形態の変形例)
以下、本変形例に係るアノテーション装置等について、図8を参照しながら説明する。なお、本変形例に係るアノテーション装置の構成は、実施の形態と同じであり説明を省略する。本変形例では、決定部が決定する複数のラベルの表示順が実施の形態と異なるので、その点を中心に説明する。図8は、本変形例に係るラベルの表示順の一例を示す図である。
図8に示すように、ラベル一覧p2cには、「看板」、「バス」、「バイク」、「人」、「トラック」、及び、「自転車」のラベルが含まれる。ここで、「看板」及び「人」は互いに類似しているラベルであり、「バス」及び「トラック」は互いに類似しているラベルであり、「バイク」及び「自転車」は互いに類似しているラベルであるとする。なお、互いに類似しているラベル以外のラベルは、当該互いに類似しているラベルとは類似していないラベルである。「バイク」を例に説明すると、「バイク」は、「看板」、「バス」、「人」、「トラック」、及び、「自転車」のうち「自転車」とのみ類似しており、他のラベルとは類似していない。なお、この判定は、類似情報取得部14により実行される。
この場合、決定部15は、類似情報に基づいて、互いに類似するラベル(例えば、「バイク」及び「自転車」)の間に、当該互いに類似するラベルと類似していない2つのラベルを配置するように複数のラベルの表示順を決定する。決定部15は、例えば、互いに類似するラベルの間に、当該互いに類似するラベルと類似していない2つのラベルであって、かつ互いに類似していない2つのラベルを配置するように表示順を決定する。例えば、決定部15は、互いに類似するラベル「バイク」と「自転車」との間に、「人」及び「トラック」を配置するように表示順を決定する。つまり、決定部15は、作業画面Pにおいて、「バイク」と「自転車」との間に、「人」及び「トラック」を表示するように複数のラベルの配置を決定する。なお、トラックは、第四ラベルの一例である。
上記のように複数のラベルを配置した場合に、操作ミスによるラベルの付与誤りがあったときについて説明する。具体的には、認識器16aの認識結果と作業結果に含まれるラベルとが異なっている場合について説明する。なお、ラベルの表示順は図8に示す順番であるとする。また、作業結果に含まれるラベルが「人」であり、認識器16aの認識結果が「バイク」であるとする。
このとき、「バイク」と「トラック」は互いに類似していないラベルであるので、作業者が「バイク」を選択するつもりが操作ミスで「人」を選択してしまったか、及び、作業者が「トラック」を選択するつもりが操作ミスで「人」を選択してしまったかのうち、前者である可能性が高いと判定することができる。つまり、検証部16は、作業者がどのラベルを選択するつもりであったかを推定することが可能となる。当該推定結果は、検証結果として、記憶部17に格納される。なお、「バイク」と「トラック」とは互いに類似していないので、作業者が判断ミスをした可能性は低い。
一方、「バイク」と「自転車」との間に、「人」のみが配置されており、かつ作業結果に含まれるラベルが「人」であり、認識器16aの認識結果が「バイク」であるとする。このとき、「バイク」と「自転車」は互いに類似しているラベルであるので、作業者が「バイク」を選択するつもりが操作ミスで「人」を選択してしまったか、及び、作業者が「自転車」を選択するつもりが操作ミスで「人」を選択してしまったかのいずれであるかを正確に判定することはできない。
なお、決定部15は、互いに類似するラベル(例えば、「バイク」及び「自転車」)の間に、当該互いに類似するラベルと類似していない3以上のラベルであって、かつ互いに類似していない3以上のラベルを配置するように表示順を決定してもよい。つまり、決定部15は、互いに類似するラベルの間に、少なくとも2以上のラベルを配置するように表示順を決定してもよい。
(その他の実施の形態)
以上、本開示について実施の形態に基づいて説明したが、本開示は、上記実施の形態に限定されるものではない。
例えば、上記実施の形態では、類似情報取得部は、出力結果の確率(例えば、類似度)が所定値以上あるラベル同士を類似していると判定する例について説明したが、これに限定されない。類似情報取得部は、対象物(例えば、自転車)に対して最も誤認識しやすいラベル(例えば、バイク)を互いに類似していると判定してもよい。つまり、類似情報取得部は、当該ラベルに対して類似度が最も高いラベルを、当該ラベルに類似するラベルであると判定してもよい。この場合、所定値は、設けられなくてもよい。
また、上記実施の形態では、類似情報取得部は、ラベル(例えば、自転車)に類似しているラベル(例えば、バイク)が1つである例について説明したが、これに限定されない。類似情報取得部は、ラベル(例えば、自転車)に類似しているラベルが2以上あると判定してもよい。
また、上記実施の形態では、類似情報取得部は、ラベルが類似しているか否かの判定結果を類似情報として取得する例について説明したが、これに限定されない。類似情報取得部は、ラベル同士が類似している程度を段階的に示す結果を類似情報として取得してもよい。類似情報は、例えば、類似度合いが「高」、「中」、「低」などであってもよい。決定部は、互いに類似度合いが「高」のラベルの間に、当該互いに類似度合いが「高」のラベルの双方と類似度合いが「低」のラベルを配置してもよい。類似情報取得部は、2つの所定値を設けることで、2つのラベル間の類似度合いを「高」、「中」、「低」に分類することができる。
また、上記実施の形態では、類似情報取得部は、ラベルが類似しているか否かをラベルが示す対象物の外観に基づいて判定する例について説明したが、これに限定されない。類似情報取得部は、例えば、ラベル自体の外観(文字列の外観)に基づいて、互いのラベルが類似しているか否かを判定してもよい。
また、上記実施の形態では、アノテーション装置が有する記憶部が格納するテーブルは、確率を示す例について説明したが、これに限定されない。当該テーブルは、例えば、類似しているか否かの判定結果を示すテーブルであってもよい。この場合、類似情報取得部は、類似しているか否かを判定することなく、テーブルから類似情報を取得する。
また、上記実施の形態では、ラベル一覧は、紙面の上下方向に並んで複数のラベルが配置されている例について説明したが、これに限定されない。ラベル一覧における複数のラベルの配置方向は特に限定されず、紙面の左右方向に並んで配置されていてもよい。
また、上記実施の形態では、検証部がニューラルネットワーク型の認識器を有する例について説明したが、これに限定されない。検証部は、例えば、パターンマッチ型の認識器を有していてもよい。
また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。
また、アノテーション装置は、単一の装置として実現されてもよいし、複数の装置によって実現されてもよい。アノテーション装置が複数の装置によって実現される場合、アノテーション装置が備える構成要素は、複数の装置にどのように振り分けられてもよい。
また、フローチャートにおける各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時(並列)に実行されてもよい。
その他、上記実施の形態等に対して当業者が思い付く各種変形を施して得られる形態、本開示の趣旨を逸脱しない範囲で実施の形態等における構成要素及び機能を任意に組み合わせることで実現される形態も本開示に含まれる。
本開示の一態様に係るアノテーション装置等は、画像にアノテーションデータを付与するためのアノテーション付与システムに有効である。
10 アノテーション装置
11、21、31 制御部
12 第一通信部(ラベル情報取得部)
13 第二通信部(データ取得部)
14 類似情報取得部
15 決定部
16 検証部
16a 認識器
17、23 記憶部
20 サーバ装置
22、32 通信部
24、34 入力部
30 アノテーション付与装置
33 表示部
100 アノテーション付与システム
P 作業画面
p1 画像
p2、p2a、p2b、p2c ラベル一覧
D データ
T テーブル

Claims (9)

  1. 画像にアノテーションデータを付与するための複数のラベルが互いに類似しているか否かを示す類似情報を取得する類似情報取得部と、
    前記類似情報に基づいて、アノテーション作業用の作業画面に表示される前記複数のラベルの配置を決定する決定部と、
    前記作業画面を用いて前記画像に付与された前記アノテーションデータを取得するデータ取得部と、
    前記データ取得部が取得した前記アノテーションデータに含まれるラベルの付与誤りを検証する検証部とを備える
    アノテーション装置。
  2. 前記複数のラベルは、互いに類似している第一ラベル及び第二ラベルと、前記第一ラベル及び前記第二ラベルの双方に類似していない第三ラベルとを含み、
    前記決定部は、前記作業画面において、前記第一ラベルと前記第二ラベルとの間に前記第三ラベルを表示するように前記配置に決定する
    請求項1に記載のアノテーション装置。
  3. 前記検証部は、所定の学習データセットで学習された認識器を有し、前記複数のラベルのうち、前記画像に対する前記認識器の認識結果に対応するラベルと、取得した前記アノテーションデータに含まれるラベルとが前記作業画面において隣り合うラベルであった場合、取得した前記アノテーションデータに含まれるラベルが付与誤りであると判定する
    請求項2に記載のアノテーション装置。
  4. 前記複数のラベルは、さらに前記第一ラベル、前記第二ラベル、及び、前記第三ラベルのそれぞれに類似していない第四ラベルを含み、
    前記決定部は、前記作業画面において、前記第一ラベルと前記第二ラベルとの間にさらに前記第四ラベルを表示するように前記配置に決定する
    請求項2又は3に記載のアノテーション装置。
  5. 前記決定部は、さらに、前記類似情報に基づいて、前記作業画面に配置される前記複数のラベルの表示色を決定する
    請求項1〜4のいずれか1項に記載のアノテーション装置。
  6. 前記決定部は、互いに類似しているラベル同士の表示色を他のラベルより近い表示色に決定する
    請求項5に記載のアノテーション装置。
  7. 前記画像に付与するためのラベル情報を取得するラベル情報取得部をさらに備え、
    前記類似情報取得部は、前記ラベル情報に3以上のラベルが含まれる場合に、前記複数のラベルのうち前記3以上のラベルそれぞれの類似情報を取得する
    請求項1〜6のいずれか1項に記載のアノテーション装置。
  8. 画像にアノテーションデータを付与するための複数のラベルが互いに類似しているか否かを示す類似情報を取得するステップと、
    前記類情報に基づいて、アノテーション作業用の作業画面に表示される前記複数のラベルの配置を決定するステップと、
    前記作業画面を用いて前記画像に付与された前記アノテーションデータを取得するステップと、
    前記データ取得部が取得した前記アノテーションデータに含まれるラベルの付与誤りを検証するステップとを含む
    アノテーション方法。
  9. 請求項8に記載のアノテーション方法をコンピュータに実行させるためのプログラム。
JP2019016935A 2019-02-01 2019-02-01 アノテーション装置、アノテーション方法、及び、プログラム Active JP7229795B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019016935A JP7229795B2 (ja) 2019-02-01 2019-02-01 アノテーション装置、アノテーション方法、及び、プログラム
US16/773,095 US11113531B2 (en) 2019-02-01 2020-01-27 Annotation device, annotation method, and non-transitory computer-readable storage medium
JP2023021567A JP2023058667A (ja) 2019-02-01 2023-02-15 アノテーション装置、アノテーション方法、及び、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019016935A JP7229795B2 (ja) 2019-02-01 2019-02-01 アノテーション装置、アノテーション方法、及び、プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023021567A Division JP2023058667A (ja) 2019-02-01 2023-02-15 アノテーション装置、アノテーション方法、及び、プログラム

Publications (2)

Publication Number Publication Date
JP2020126311A true JP2020126311A (ja) 2020-08-20
JP7229795B2 JP7229795B2 (ja) 2023-02-28

Family

ID=71836517

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019016935A Active JP7229795B2 (ja) 2019-02-01 2019-02-01 アノテーション装置、アノテーション方法、及び、プログラム
JP2023021567A Pending JP2023058667A (ja) 2019-02-01 2023-02-15 アノテーション装置、アノテーション方法、及び、プログラム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023021567A Pending JP2023058667A (ja) 2019-02-01 2023-02-15 アノテーション装置、アノテーション方法、及び、プログラム

Country Status (2)

Country Link
US (1) US11113531B2 (ja)
JP (2) JP7229795B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005352780A (ja) * 2004-06-10 2005-12-22 Canon Inc 画像記録装置及びその制御方法
US20120121187A1 (en) * 2010-11-15 2012-05-17 Lg Electronic Inc. Mobile terminal and metadata setting method thereof
JP2013502637A (ja) * 2009-08-21 2013-01-24 サムスン エレクトロニクス カンパニー リミテッド メタデータのタグ付けシステム、イメージ検索方法、デバイス及びそれに適用されるジェスチャーのタグ付け方法
JP2018106662A (ja) * 2016-12-22 2018-07-05 キヤノン株式会社 情報処理装置、情報処理方法、プログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5244846B2 (ja) 2010-04-06 2013-07-24 京セラドキュメントソリューションズ株式会社 表示入力装置及びこれを備えた画像形成装置
JP5889019B2 (ja) 2012-02-06 2016-03-22 キヤノン株式会社 ラベル付加装置、ラベル付加方法及びプログラム
WO2013171857A1 (ja) * 2012-05-16 2013-11-21 楽天株式会社 画像処理装置、画像処理装置の制御方法、プログラム、及び情報記憶媒体
JP6143111B2 (ja) * 2012-08-23 2017-06-07 日本電気株式会社 物体識別装置、物体識別方法、及びプログラム
US9646226B2 (en) * 2013-04-16 2017-05-09 The Penn State Research Foundation Instance-weighted mixture modeling to enhance training collections for image annotation
US20160147826A1 (en) * 2013-07-18 2016-05-26 Nokia Technologies Oy Method and apparatus for updating points of interest information via crowdsourcing
WO2017017738A1 (ja) * 2015-07-24 2017-02-02 富士通株式会社 符号化プログラム、符号化装置、及び符号化方法
JP2019008519A (ja) * 2017-06-23 2019-01-17 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 移動体検出方法、移動体学習方法、移動体検出装置、移動体学習装置、移動体検出システム、および、プログラム
JP2019023858A (ja) * 2017-07-21 2019-02-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 学習データ生成装置、学習データ生成方法、機械学習方法及びプログラム
JP7211735B2 (ja) * 2018-08-29 2023-01-24 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 寄与度決定方法、寄与度決定装置及びプログラム
US10943681B2 (en) * 2018-11-21 2021-03-09 Enlitic, Inc. Global multi-label generating system
US11366988B2 (en) * 2019-05-28 2022-06-21 Wipro Limited Method and system for dynamically annotating and validating annotated data
US11126855B2 (en) * 2019-08-08 2021-09-21 Robert Bosch Gmbh Artificial-intelligence powered ground truth generation for object detection and tracking on image sequences
JP7265961B2 (ja) * 2019-08-21 2023-04-27 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ アノテーション支援方法、アノテーション支援装置、及びアノテーション支援プログラム
JP7363384B2 (ja) * 2019-11-05 2023-10-18 富士通株式会社 解析装置、解析プログラム及び解析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005352780A (ja) * 2004-06-10 2005-12-22 Canon Inc 画像記録装置及びその制御方法
JP2013502637A (ja) * 2009-08-21 2013-01-24 サムスン エレクトロニクス カンパニー リミテッド メタデータのタグ付けシステム、イメージ検索方法、デバイス及びそれに適用されるジェスチャーのタグ付け方法
US20120121187A1 (en) * 2010-11-15 2012-05-17 Lg Electronic Inc. Mobile terminal and metadata setting method thereof
JP2018106662A (ja) * 2016-12-22 2018-07-05 キヤノン株式会社 情報処理装置、情報処理方法、プログラム

Also Published As

Publication number Publication date
JP2023058667A (ja) 2023-04-25
US11113531B2 (en) 2021-09-07
US20200250432A1 (en) 2020-08-06
JP7229795B2 (ja) 2023-02-28

Similar Documents

Publication Publication Date Title
US10878283B2 (en) Data generation apparatus, data generation method, and data generation program
EP3848853A2 (en) Image detection method, apparatus, electronic device and storage medium
US20170293959A1 (en) Information processing apparatus, shelf label management system, control method, and program
JP6517666B2 (ja) 物品管理装置、その方法、及びそのプログラム
US20170278057A1 (en) Information processing apparatus, shelf label management system, control method, and program
CN108563559A (zh) 一种验证码的测试方法、装置、终端设备及存储介质
US10996937B2 (en) Automated software installation using a click area prediction model
JP2012083951A (ja) 情報処理装置、情報処理方法及びプログラム
US20150262030A1 (en) Image processing device, image processing method, and image processing program
US20160098615A1 (en) Apparatus and method for producing image processing filter
CN113420756A (zh) 证件图像的识别方法和装置、存储介质及电子装置
CN111144081B (zh) 表单生成方法、装置、存储介质及电子设备
US9665786B2 (en) Confirming automatically recognized handwritten answers
US20160269586A1 (en) System, control method, and recording medium
TWI671686B (zh) 影像數據擷取方法及影像數據擷取裝置
JP2017167775A (ja) 情報処理装置及び情報処理プログラム
CN111126030B (zh) 标签排版处理方法及装置、系统
JP2020126311A (ja) アノテーション装置、アノテーション方法、及び、プログラム
CN110880023A (zh) 一种检测证件图片的方法及装置
CN115658525A (zh) 用户界面的校验方法、装置、存储介质及计算机设备
KR101846342B1 (ko) 전자문서 관리방법을 컴퓨터에서 실행시키기 위한 프로그램을 저장한 기록매체 및 전자문서 관리 시스템
CN109753217B (zh) 动态键盘操作方法、装置、存储介质及电子设备
JP2022043364A (ja) 学習装置、物体検出装置、学習方法、およびプログラム
JP2017091252A (ja) 情報入力装置及び情報入力プログラム
US9582740B2 (en) Image processing apparatus, non-transitory computer readable medium, and image processing method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210823

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220915

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221021

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230215

R150 Certificate of patent or registration of utility model

Ref document number: 7229795

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150