JP2020126311A

JP2020126311A - アノテーション装置、アノテーション方法、及び、プログラム

Info

Publication number: JP2020126311A
Application number: JP2019016935A
Authority: JP
Inventors: 谷川　徹; Toru Tanigawa; 徹谷川
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2019-02-01
Filing date: 2019-02-01
Publication date: 2020-08-20
Anticipated expiration: 2039-02-01
Also published as: JP2023058667A; US20200250432A1; JP7229795B2; US11113531B2

Abstract

【課題】誤操作によるラベル付与誤りの可能性が高いアノテーションデータを検出することができるアノテーション装置を提供する。【解決手段】アノテーション付与システム１００において、アノテーション装置１０は、画像にアノテーションデータを付与するための複数のラベルが互いに類似しているか否かを示す類似情報を取得する類似情報取得部１４と、類似情報に基づいて、アノテーション作業用の作業画面に表示される複数のラベルの配置を決定する決定部１５と、作業画面を用いて画像に付与されたアノテーションデータを取得する第二通信部１３と、第二通信部１３が取得したアノテーションデータに含まれるラベルの付与誤りを検証する検証部１６とを備える。【選択図】図１

Description

本開示は、アノテーション装置、アノテーション方法、及び、プログラムに関する。

機械学習を行うための学習データの構築等において、画像データの認識のためにラベル等のアノテーションデータが、画像データに付与される。例えば、特許文献１には、画像データにラベリングを行う技術が開示されている。

特開２０１３−１６１２９５号公報

アノテーションデータは、画像に含まれる人物、物等の対象物に付与される。アノテーションデータの付与は、画像に人が入力することによって実施される。例えば、ラベルの付与は、人が画像に含まれる対象物を見て、複数のラベルの中から当該対象物に応じたラベルを選択することで実施される。このとき、人が操作ミス等によりラベルを誤って選択することが起こりえるので、誤操作によるラベルの付与誤りを検出することが望まれる。

そこで、本開示は、誤操作によるラベル付与誤りの可能性が高いアノテーションデータを検出することができるアノテーション装置、アノテーション方法、及び、プログラムを提供する。

本開示の一態様に係るアノテーション装置は、画像にアノテーションデータを付与するための複数のラベルが互いに類似しているか否かを示す類似情報を取得する類似情報取得部と、前記類似情報に基づいて、アノテーション作業用の作業画面に表示される前記複数のラベルの配置を決定する決定部と、前記作業画面を用いて前記画像に付与された前記アノテーションデータを取得するデータ取得部と、前記データ取得部が取得した前記アノテーションデータに含まれるラベルの付与誤りを検証する検証部とを備える。

本開示の一態様に係るアノテーション方法は、画像にアノテーションデータを付与するための複数のラベルが互いに類似しているか否かを示す類似情報を取得するステップと、前記類情報に基づいて、アノテーション作業用の作業画面に表示される前記複数のラベルの配置を決定するステップと、前記作業画面を用いて前記画像に付与された前記アノテーションデータを取得するステップと、前記データ取得部が取得した前記アノテーションデータに含まれるラベルの付与誤りを検証するステップとを含む。

本開示の一態様に係るプログラムは、上記のアノテーション方法をコンピュータに実行させるためのプログラムである。

なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なＣＤ−ＲＯＭ等の非一時的記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。プログラムは、記録媒体に予め記憶されていてもよいし、インターネット等を含む広域通信網を介して記録媒体に供給されてもよい。

本開示の一態様に係るアノテーション装置、アノテーション方法、及び、プログラムによれば、誤操作によるラベル付与誤りの可能性が高いアノテーションデータを検出することができる。

図１は、実施の形態に係るアノテーション付与システムの構成を示すブロック図である。図２は、実施の形態に係る作業画面の一例を示す図である。図３は、実施の形態に係る類似度を取得するためのテーブルの一例を示す図である。図４は、実施の形態に係るアノテーション装置におけるアノテーション付与装置への作業画面の送信までの処理を示すフローチャートである。図５Ａは、比較例に係るラベルの表示順の一例を示す図である。図５Ｂは、実施の形態に係るラベルの表示順の一例を示す図である。図６は、実施の形態に係るアノテーション装置におけるラベル付与誤りを検証する処理を示すフローチャートである。図７は、実施の形態に係る記憶部に格納されるデータの一例を示す図である。図８は、実施の形態の変形例に係るラベルの表示順の一例を示す図である。

（本開示に至った知見）
機械学習の１つの手法であるＤｅｅｐＬｅａｒｎｉｎｇ（深層学習）において、対象物の認識には大量の学習用の画像データが必要となる。例えば、１０万〜１００万単位の学習用の画像データが必要となる。そして、学習用の画像データでは、対象物に対して、対象物の内容、位置、領域等を含む情報が、アノテーションデータとして付与される。なお、通常、対象物に対してアノテーションデータを付与するアノテーション作業では、画像上で対象物を囲む等による対象物の領域（例えば、バウンディングボックスで示される領域）、及び、当該領域に含まれる対象物を認識するためのラベル（人、自転車、バイクなど）の設定が、画像に人が入力することによって実施される。高精度な認識器を生成するためには、質のよい学習データセットが構築されるとよい。

一方、近年、上記の学習データセットを生成するにあたり、クラウドソーシングを利用することが検討されている。これにより、上記の学習データセットを安価に構築することができる。しかしながら、クラウドソーシングによりアノテーション作業を行う作業者のＩＴスキルは高いとは限らず、ラベルの付与誤り等の作業ミスが発生することがある。学習データセットにラベルの付与誤りのデータが含まれていると、質のよい学習データセットを構築することができず、結果として高精度な認識器を生成することができない。

このため、本願発明者は、クラウドソーシングを利用した上で、質のよい学習データセットを生成することについて検討した。鋭意検討を行った結果、本願発明者は、誤操作によるラベル付与誤りの可能性が高いアノテーションデータを検出することができるアノテーション装置等について、以下のように創案した。

そこで、本開示の一態様に係るアノテーション装置は、画像にアノテーションデータを付与するための複数のラベルが互いに類似しているか否かを示す類似情報を取得するステップと、前記類情報に基づいて、アノテーション作業用の作業画面に表示される前記複数のラベルの配置を決定するステップと、前記作業画面を用いて前記画像に付与された前記アノテーションデータを取得するステップと、前記データ取得部が取得した前記アノテーションデータに含まれるラベルの付与誤りを検証するステップとを含む。

これにより、作業画面に配置される複数のラベルの配置が類似情報に基づいて決定されることで、検証部による誤操作の検出確率を向上させることができる。例えば、類似情報に基づいて、複数のラベルの配置が、互いに類似しているラベル同士が隣り合わないようなに決定されることで、検証部は、互いに類似しているラベル同士が隣り合っている場合に比べ、より精度よく誤操作を検出することが可能となる。例えば、互いに類似しているラベルが隣り合って配置されており、作業者が誤操作により本来のラベルと隣り合っているラベルを選択した場合、検証部は、作業者の判断と操作がともに正しかったのか、対象物の判断は正しかったが操作ミスによるラベルの付与誤りであるかを検出することができない。一方、本開示の一態様に係る複数のラベルが互いに類似しているラベルが隣り合って配置されていない場合に、作業者が誤操作により本来のラベルと隣り合っているラベルを選択したとき、検証部は、作業者の操作ミスによるラベルの付与誤りの可能性があることを検出することができる。隣り合うラベルが類似していないので、作業者が対象物を判断ミスしたことによるラベルの付与誤りである可能性が低いためである。よって、本開示の一態様に係るアノテーション装置は、誤操作によるラベル付与誤りの可能性が高いアノテーションデータを検出することができる。

また、例えば、前記複数のラベルは、互いに類似している第一ラベル及び第二ラベルと、前記第一ラベル及び前記第二ラベルの双方に類似していない第三ラベルとを含み、前記決定部は、前記作業画面において、前記第一ラベルと前記第二ラベルとの間に前記第三ラベルを表示するように前記配置に決定する。

これにより、複数のラベルは、互いに類似しているラベル同士が隣り合わないような配置で、作業画面上に表示される。例えば、画像に含まれる対象物を示すラベルと隣り合うラベルを作業者が誤操作により選択した場合、２つのラベルは互いに類似していないので、検証部は、誤操作によるラベルの付与誤りの可能性が高いアノテーションデータを検出することができる。

また、例えば、前記検証部は、所定の学習データセットで学習された認識器を有し、前記複数のラベルのうち、前記画像に対する前記認識器の認識結果に対応するラベルと、取得した前記アノテーションデータに含まれるラベルとが前記作業画面において隣り合うラベルであった場合、取得した前記アノテーションデータに含まれるラベルが付与誤りであると判定する。

これにより、認識器を有する検証部により、ラベルの付与誤りを容易に検証することができる。具体的には、検証部は、認識器の認識結果と、取得したアノテーションデータに含まれるラベルとを比較することで、ラベルの付与誤りの可能性が高いアノテーションデータを容易に検証することができる。

また、例えば、前記複数のラベルは、さらに前記第一ラベル、前記第二ラベル、及び、前記第三ラベルのそれぞれに類似していない第四ラベルを含み、前記決定部は、前記作業画面において、前記第一ラベルと前記第二ラベルとの間にさらに前記第四ラベルを表示するように前記配置に決定する。

これにより、ラベルの付与誤りがあった場合、作業者がどのラベルを選択しようとしていたかを推定することができる。例えば、画像に含まれる対象物を示すラベルが第一ラベルであり、第一ラベル、第三ラベル、第四ラベル及び第二ラベルの順に配置されており、かつ作業者が第三ラベルを誤操作により付与した場合を例に説明する。この場合、第三ラベルと第四ラベルとは互いに類似していないラベルであり、作業者は第四ラベルを選択しようとして、誤操作により第三ラベルを選択した可能性は低い。そこで、作業者が第一ラベルを選択しようとしていたと推定することができる。なお、第一ラベルが対象物を示すラベルであることは、検証部の検証（例えば、認識器の認識結果）により特定可能である。

また、例えば、前記決定部は、さらに、前記類似情報に基づいて、前記作業画面に配置される前記複数のラベルの表示色を決定する。

これにより、類似情報に基づいてラベルが色分けされるので、作業画面におけるラベルの視認性が向上する。よって、アノテーションデータを付与するアノテーション作業を行う作業者の作業効率が向上する。

また、例えば、前記決定部は、互いに類似しているラベル同士の表示色を他のラベルより近い表示色に決定する。

これにより、類似するラベル（例えば、動物、乗り物など）ごとに色分けされるので、作業画面におけるラベルの視認性をさらに向上させることができる。よって、作業者の作業効率がさらに向上する。

また、例えば、前記画像に付与するためのラベル情報を取得するラベル情報取得部をさらに備え、前記類似情報取得部は、前記ラベル情報に３以上のラベルが含まれる場合に、前記複数のラベルのうち前記３以上のラベルそれぞれの類似情報を取得する。

これにより、アノテーション作業に用いるラベルを外部から取得する場合であっても、当該取得した３以上のラベルそれぞれの類似情報を取得することで、決定部は、当該３以上のラベルの配置を決定することができる。よって、アノテーション装置は、複数のラベルの中から任意の３以上のラベルを取得した場合であっても、誤操作によるラベルの付与誤りの可能性が高いアノテーションデータを検出することができる。

また、本開示の一態様に係るアノテーション方法は、画像にアノテーションデータを付与するための複数のラベルが互いに類似しているか否かを示す類似情報を取得するステップと、前記類情報に基づいて、アノテーション作業用の作業画面に表示される前記複数のラベルの配置を決定するステップと、前記作業画面を用いて前記画像に付与された前記アノテーションデータを取得するステップと、前記データ取得部が取得した前記アノテーションデータに含まれるラベルの付与誤りを検証するステップとを含む。また、本開示の一態様に係るプログラムは、当該アノテーション方法をコンピュータに実行させるためのプログラムである。

これにより、上記のアノテーション装置と同様の効果を奏する。

以下、実施の形態について、図面を参照しながら具体的に説明する。

なお、以下で説明する各実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

なお、各図は模式図であり、必ずしも厳密に図示されたものではない。また、各図において、実質的に同一の構成に対しては同一の符号を付し、重複する説明は省略または簡略化される場合がある。

また、本明細書において、同じなどの要素間の関係性を示す用語、及び、矩形などの要素の形状を示す用語、並びに、数値、及び、数値範囲は、厳格な意味のみを表す表現ではなく、実質的に同等な範囲、例えば数％程度の差異をも含むことを意味する表現である。

（実施の形態）
以下、本実施の形態に係るアノテーション装置等について、図１〜図７を参照しながら説明する。

［１.アノテーション付与システムの構成］
本実施の形態に係るアノテーション装置を含むアノテーション付与システム１００について、図１を参照しながら説明する。図１は、本実施の形態に係るアノテーション付与システムの構成を示すブロック図である。

図１に示すように、アノテーション付与システム１００は、アノテーション装置１０と、サーバ装置２０と、アノテーション付与装置３０とを備える。サーバ装置２０は、種々のデータを蓄積する要素である。アノテーション付与装置３０は、画像にアノテーションデータを付与する装置である。アノテーション装置１０は、サーバ装置２０からアノテーションデータを付与すべき画像を取得しアノテーション付与装置３０に送信すること、及び、付与されたアノテーションデータをアノテーション付与装置３０から受け取り、受け取ったアノテーションデータの中からラベルの付与誤りの可能性が高いアノテーションデータを検出し、検出結果を含む情報を画像に対応付けてサーバ装置２０に送信すること等を実施する要素である。つまり、アノテーション装置１０は、サーバ装置２０及びアノテーション付与装置３０の間で、情報の検証を行いつつ情報の流れを中継する中継装置である。

本実施の形態では、アノテーション装置１０は、ＤｅｅｐＬｅａｒｎｉｎｇをはじめとするニューラルネットワーク等の機械学習のための大量の学習用の画像データの構築者によって、運用される。サーバ装置２０は、上記構築者によって運用されもよく、上記構築者以外によって運用されてもよい。

サーバ装置２０は、アノテーション装置１０と通信するように構成されている。サーバ装置２０は、コンピュータ等の情報処理装置でもよい。サーバ装置２０は、１つ以上のサーバ装置を含んでもよく、クラウドシステムを構成してもよい。サーバ装置２０は、サーバ装置２０の全体を制御する制御部２１と、アノテーション装置１０と通信する通信部２２と、種々のデータを格納する記憶部２３と、入力を受け付ける入力部２４とを備える。通信部２２は、インターネット等の通信網を介してアノテーション装置１０と通信する。通信部２２は、通信インタフェースを含む通信回路であってもよい。例えば、通信部２２とアノテーション装置１０との間の通信には、Ｗｉ−Ｆｉ（登録商標）（ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ）などの無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）が適用されてもよく、ケーブルを用いた有線通信が適用されてもよく、その他の無線通信又は有線通信が適用されてもよい。

記憶部２３は、例えば、ハードディスクにより構成され、種々の撮影装置で撮影されたアノテーション用の画像が格納されている。

入力部２４は、指令等の種々の入力を受け付ける要素である。入力部２４は、例えば、上記の構築者から、入力を受け付ける。入力部２４は、マウス、キーボード、及び、タッチパネルなどであり、構築者による操作を入力として受け付けてもよい。また、入力部２４は、マイクロフォンなどであり、構築者の音声を入力として受け付けてもよい。

制御部２１は、通信部２２、記憶部２３、及び、入力部２４を制御する。制御部２１は、通信部２２を介して、アノテーション装置１０から記憶部２３への対応するデータの格納を実施する。また、制御部２１は、通信部２２を介して、入力部２４が受け付けた入力に応じて、記憶部２３からデータの取り出し及び送信を実施する。また、制御部２１は、通信部２２を介して、アノテーション装置１０から受信した情報（例えば、後述する、作業結果、認識結果、及び、判定結果など）を記憶部２３に格納する。

アノテーション装置１０は、これ単独で一つの装置を構成してもよく、コンピュータなどの情報処理装置又はその他の装置に組み込まれてもよい。アノテーション装置１０は、制御部１１、第一通信部１２、第二通信部１３、類似情報取得部１４、決定部１５、検証部１６、及び、記憶部１７を備える。制御部１１は、アノテーション装置１０の全体を制御する。

第一通信部１２は、インターネット等の通信網を介してサーバ装置２０の通信部２２と通信する。第一通信部１２は、通信インタフェースを含む通信回路であってもよい。例えば、第一通信部１２とサーバ装置２０との間の通信には、Ｗｉ−Ｆｉ（登録商標）などの無線ＬＡＮが適用されてもよく、ケーブルを用いた有線通信が適用されてもよく、その他の無線通信又は有線通信が適用されてもよい。第一通信部１２と通信部２２との間に、これらの間の通信を中継する通信装置であるルータが設けられてもよい。ルータは、第一通信部１２と通信網との間の通信を中継してもよい。

第二通信部１３は、アノテーション付与装置３０と通信する。第二通信部１３は、通信インタフェースを含む通信回路であってもよい。第二通信部１３とアノテーション付与装置３０との通信は、第一通信部１２と同様にインターネット等の通信網を介した通信であってもよく、第３世代移動通信システム（３Ｇ）、第４世代移動通信システム（４Ｇ）、又は、ＬＴＥ（登録商標）等のような移動通信システムで利用されるモバイル通信規格が適用されてもよい。

類似情報取得部１４は、制御部１１の制御を受けて、アノテーション作業に用いるラベル同士の類似情報を取得する。具体的には、類似情報取得部１４は、画像にアノテーションデータを付与するための複数のラベルが互いに類似しているか否かを示す類似情報を取得する。類似情報は、ラベル同士が類似しているか否かの判定結果であってもよいし、ラベル同士の類似度合いを示す類似度であってもよい。

決定部１５は、制御部１１の制御を受けて、アノテーション作業を行うための作業画面に表示される複数のラベルの表示順を決定する。具合的には、決定部１５は、類似情報取得部１４が取得した複数のラベルそれぞれの類似情報に基づいて、アノテーション作業用の作業画面に表示される複数のラベルの表示順を決定する。より具体的には、決定部１５は、上記の類似情報に基づいて、複数のラベルのうち、互いに類似しているラベルの間に、当該互いに類似しているラベルの双方と類似していないラベルを少なくとも１つ表示するように、複数のラベルの表示順を決定する。本実施の形態では、決定部１５は、互いに類似しているラベルの間に、当該互いに類似しているラベルの双方と類似していないラベルを１つ表示するように、複数のラベルの表示順を決定する。なお、複数のラベルの表示順は、複数のラベルの配置の一例である。

ここで、作業画面について、図２を参照しながら説明する。図２は、本実施の形態に係る作業画面Ｐの一例を示す図である。作業者は、アノテーション付与装置３０の表示部３３に表示される作業画面Ｐを見ながらアノテーション作業を行う。

図２に示すように、作業画面Ｐは、画像ｐ１とラベル一覧ｐ２とを有する。画像ｐ１は、アノテーション作業が行われる画像である。作業者は、画像ｐ１中の対象物の領域（例えば、図２中のバウンディングボックスＢ等）を設定し、当該領域に存在する対象物を示すラベルをラベル一覧ｐ２の中から選択する。図２の例では、ラベル一覧ｐ２は、「自転車」、「人」、及び、「バイク」のラベル（クラスラベル）を含む。なお、ラベル一覧ｐ２に含まれるラベルの数は、例えば、３以上であるが、特に限定されない。

決定部１５は、作業画面Ｐのラベル一覧ｐ２に含まれる複数のラベルの表示順を、当該ラベルの類似情報に基づいて決定する。決定部１５は、例えば、後述する図３が示す複数のラベルの表示順を決定する。

図１を再び参照して、検証部１６は、アノテーション付与装置３０から取得したアノテーションデータに含まれるラベルの付与誤りを検証する。つまり、検証部１６は、アノテーション付与装置３０から取得した複数のアノテーションデータの中から、ラベルの付与誤りの可能性が高いアノテーションデータを検出する。具体的には、検証部１６は、検証部１６は、決定部１５が決定した複数のラベルの表示順に基づいて、アノテーション付与装置３０から取得した複数のアノテーションデータの中から、ラベルの付与誤りの可能性が高いアノテーションデータを検出する。

検証部１６は、所定の学習データセット（例えば、公開されている学習データセット）を用いて予め学習された認識器１６ａを有する。認識器１６ａは、ラベルの付与誤りを検出するための機械学習モデルを構築する。認識器１６ａは、機械学習にニューラルネットワークを用いるが、他の機械学習方法を用いてもよい。なお、認識器１６ａは、認識結果を出力するだけでよく、例えば、学習のためのフレームワークを有していなくてもよい。

記憶部１７は、例えば、ハードディスクにより構成され、類似情報取得部１４が類似情報を取得するためのテーブルが格納されている。また、記憶部１７は、アノテーション付与装置３０から受信した情報（例えば、後述する、作業結果）、検証部１６による認識結果及び判定結果（以降において、検証結果とも記載する）を格納する。

ここで、記憶部１７が格納するテーブルについて、図３を参照しながら説明する。図３は、本実施の形態に係る類似度を取得するためのテーブルＴの一例を示す図である。なお、テーブルＴは、説明のため、ラベルが「自転車」、「バイク」、及び、「人の」３つである例について説明する。

図３に示すように、認識器１６ａは、例えば、「自転車」の画像が入力されたとき、６０％の確率で「自転車」を出力し、３５％の確率で「バイク」を出力し、５％の確率で「人」を出力する。これは、認識器１６ａは、「自転車」の画像を入力すると、６０％の確率で正解を出力することを示す。また、認識器１６ａは、「自転車」の画像を入力すると、３５％の確率で、「自転車」と外見が類似する「バイク」を出力する。

上記のようなテーブルＴは、認識器１６ａの学習に用いた所定の学習データセットに応じて決定される。テーブルＴは、例えば、所定の学習データセットで学習された認識器１６ａに所定の画像を認識させたときの認識結果（出力結果）に基づいて作成される。所定の画像は、ラベルが示す対象物を含む画像である。テーブルＴは、例えば、認識器１６ａがどれだけ正しい出力ができたかの結果（確率）に基づいて作成される。

アノテーション付与装置３０は、アノテーション装置１０と情報の送受信が可能な要素である。アノテーション付与装置３０は、例えば、クラウドソーシングによりアノテーション作業を行う作業者が所有する端末装置である。アノテーション付与装置３０は、コンピュータ等の情報処理装置であってもよく、携帯電話でもよく、スマートフォン、スマートウォッチ、タブレット、小型パーソナルコンピュータ等の携帯端末であってもよい。なお、アノテーション付与装置３０を用いてアノテーション作業を行う作業者は、上記の構築者とは異なる。アノテーション付与装置３０の作業者は、上記構築者とアノテーションデータの付与処理の契約をしており、上記構築者から提供される画像にアノテーションデータを付与する。つまり、アノテーション付与装置３０の作業者は、アノテーションデータの処理者である。

アノテーション付与装置３０は、制御部３１、通信部３２、表示部３３及び入力部３４を備える。制御部３１は、アノテーション付与装置３０の全体を制御する。通信部３２は、通信インタフェースを含む通信回路であってもよい。通信部３２は、アノテーション装置１０の第二通信部１３と通信し、これらの間の通信は、上述したとおりである。

表示部３３は、作業画面Ｐを表示する要素であり、例えば、液晶パネル、又は、有機若しくは無機ＥＬ（Ｅｌｅｃｔｒｏ−Ｌｕｍｉｎｅｓｃｅｎｃｅ）パネルにより構成されてもよい。入力部３４は、指令等の種々の入力を受け付ける要素である。入力部３４は、表示部３３と別個に設けられた構成であってもよく、タッチパネルのように表示部３３に触れることによって入力可能である表示部３３と一体である構成を有してもよい。

なお、アノテーション付与システム１００が備える複数のアノテーション付与装置３０の構成は、同じであってもよい。また、アノテーション付与システム１００が備えるアノテーション付与装置３０の数は特に限定されず、１つであってもよいし、３つ以上であってもよい。

また、サーバ装置２０の制御部２１、アノテーション装置１０の制御部１１、類似情報取得部１４、決定部１５、及び、検証部１６、並びに、アノテーション付与装置３０の制御部３１の各構成要素は、専用のハードウェアで構成されてもよく、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。この場合、各構成要素は、例えば、演算処理部（図示せず）と、制御プログラムを記憶する記憶部（図示せず）とを備えてもよい。演算処理部としては、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等が例示される。記憶部としては、半導体メモリなどのメモリ等が例示される。なお、各構成要素は、集中制御を行う単独の要素で構成されてもよく、互いに協働して分散制御を行う複数の要素で構成されてもよい。ソフトウェアプログラムは、アプリケーションとして、インターネット等の通信網を介した通信、モバイル通信規格による通信等で提供されるものであってもよい。

また、各構成要素は、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ：大規模集積回路）、システムＬＳＩ等の回路でもよい。複数の構成要素が、全体として１つの回路を構成してもよく、それぞれ別々の回路を構成してもよい。また、回路は、それぞれ、汎用的な回路でもよく、専用の回路でもよい。

システムＬＳＩは、複数の構成部を１つのチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等を含んで構成されるコンピュータシステムである。ＲＡＭには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、システムＬＳＩは、その機能を達成する。システムＬＳＩ及びＬＳＩは、ＬＳＩ製造後にプログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）であってもよく、ＬＳＩ内部の回路セルの接続及び設定を再構成可能なリコンフィギュラブルプロセッサを含んでもよい。

また、上記構成要素の一部又は全部は、脱着可能なＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）カード又は単体のモジュールから構成されてもよい。ＩＣカード又はモジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭ等から構成されるコンピュータシステムである。ＩＣカード又はモジュールは、上記のＬＳＩ又はシステムＬＳＩを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、ＩＣカード又はモジュールは、その機能を達成する。これらＩＣカード及びモジュールは、耐タンパ性を有するとしてもよい。

［２．アノテーション付与システムの動作］
次に、上記のアノテーション付与システム１００の動作について、図４〜図７を参照しながら説明する。具体的には、アノテーション装置１０の動作について、説明する。

まずは、アノテーション装置１０における作業画面Ｐの生成及び送信の処理について、図４〜図５Ｂを参照しながら説明する。図４は、本実施の形態に係るアノテーション装置１０におけるアノテーション付与装置３０への作業画面Ｐの送信までの処理を示すフローチャートである。なお、以下において画像に付与されるラベルは、図３に示す「自転車」、「バイク」、及び、「人」である例について説明する。

図４に示すように、まず、アノテーション装置１０は、アノテーションデータを付与するための画像データを取得し、格納する（Ｓ１０）。具体的には、制御部１１は、第一通信部１２を介してサーバ装置２０から画像データを取得し、取得した画像データを記憶部１７に格納する。言い換えると、記憶部１７は、画像データを格納する画像データベースとして機能する。なお、サーバ装置２０は、例えば、構築者から画像データを送信する指示を入力部２４を介して取得すると、該当する画像データをアノテーション装置１０に送信する。

そして、類似情報取得部１４は、画像にアノテーションデータを付与するためのラベル同士の類似情報を取得する（Ｓ２０）。類似情報取得部１４は、例えば、記憶部１７に格納されているテーブルＴに基づいて、当該テーブルＴに含まれる複数のラベル同士の類似情報を取得する。類似情報取得部１４は、例えば、テーブルＴに示される出力結果の確率が所定値以上あるラベル同士を類似していると判定してもよい。所定値は、例えば、外観が類似しているラベル同士が類似していると判定できればよく、例えば、２０％であるが、これに限定されない。以下では、所定値が２０％である例について説明する。

図３に示すように、入力「自転車」に対する出力は、６０％が「自転車」であり、３５％が「バイク」である。また、入力「バイク」に対する出力は、４０％が「自転車」であり、５５％が「バイク」である。つまり、認識器１６ａが自転車をバイクと出力する確率、及び、バイクを自転車と出力する確率は、ともに２０％以上である。この場合、類似情報取得部１４は、「自転車」と「バイク」とは類似していると判定する。

また、図３に示すように、入力「自転車」及び「バイク」に対する出力において、「人」は５％である。また、入力「人」に対する出力において、「自転車」は３％であり、「バイク」は４％である。つまり、認識器１６ａが自転車及びバイクを人と出力する確率と、人を自転車及びバイクと出力する確率とは、ともに２０％未満である。この場合、類似情報取得部１４は、「人」と「自転車」及び「バイク」とは類似していないと判定する。

なお、自転車がバイクと出力される確率、及び、バイクが自転車と出力される確率を例に説明すると、当該２つの確率のうちの少なくとも一方が２０％以上である場合、類似情報取得部１４は、「自転車」と「バイク」とが類似していると判定してもよい。

なお、入力「自転車」に対する出力のうち、当該「自転車」以外のラベル（図３の例では、「バイク」及び「人」）それぞれを出力する確率は、当該「自転車」との外見上の類似度合いを示す類似度ということもできる。例えば、決定部１５は、類似度に基づいて作業画面に表示される複数のラベルの配置を決定するとも言える。

なお、ラベル「自転車」は第一ラベルの一例であり、「バイク」第二ラベルの一例であり、「人」は第三ラベルの一例である。

そして、決定部１５は、類似情報取得部１４が取得した類似情報に基づいて、作業画面Ｐにおけるラベルの表示順を決定する（Ｓ３０）。具体的には、決定部１５は、類似している２つのラベルの間に、当該２つのラベルの双方と類似していないラベルを配置するように複数のラベルの表示順を決定する。つまり、決定部１５は、互いに類似する２つのラベルが隣り合わないように、作業画面に表示される複数のラベルの配置を決定する。決定部１５は、例えば、外見上似ているラベル同士（例えば、「自転車」及び「バイク」）を隣り合わせに配置することを禁止する。

図５Ａは、比較例に係るラベルの表示順の一例を示す図である。図５Ｂは、本実施の形態に係るラベルの表示順の一例を示す図である。

図５Ａに示すように、比較例に係るラベル一覧ｐ２ａは、「自転車」、「バイク」、「人」の順に複数のラベルが配置されている。つまり、互いに類似しているラベル（図５Ａの例では、「自転車」及び「バイク」）が隣り合って配置されている。

図５Ｂに示すように、本実施の形態に係るラベル一覧ｐ２ｂは、「自転車」、「人」、「バイク」の順に複数のラベルが配置されている。つまり、互いに類似しているラベルが隣り合わないように配置されている。具体的には、決定部１５は、作業画面Ｐにおいて、ラベル「自転車」とラベル「バイク」との間に、ラベル「人」を表示するように複数のラベルの配置を決定する。

そして、制御部１１は、第二通信部１３を介して、アノテーション付与装置３０に画像データ及び作業画面Ｐを送信する（Ｓ４０）。言い換えると、第二通信部１３は、画像データ、及び、決定部１５がラベルの表示順を決定した作業画面Ｐをアノテーション付与装置３０に送信する。これにより、アノテーション付与装置３０の作業者は、図５Ｂに示すようなラベル一覧ｐ２ｂを含む作業画面Ｐを用いて、アノテーション作業を行うことができる。

なお、ステップＳ２０において、類似情報取得部１４は、テーブルＴに含まれる複数のラベルそれぞれの類似情報を取得する例について説明したが、これに限定されない。例えば、制御部１１が第一通信部１２を介して、サーバ装置２０から画像に付与するためのラベルを特定するためのラベル情報を取得すると、類似情報取得部１４は、当該ラベル情報に３以上のラベルが含まれる場合、複数のラベル（例えば、テーブルＴに含まれる複数のラベル）のうち当該３以上のラベルそれぞれの類似情報を取得してもよい。この場合、第一通信部１２は、画像に付与するためのラベル情報を取得するラベル情報取得部として機能する。また、作業画面のラベル一覧には、複数のラベルのうち３以上のラベルのみが表示される。決定部１５は、３以上のラベルの表示順を当該３以上のラベルそれぞれの類似情報に基づいて決定する。類似情報取得部１４は、ラベル情報に２以下のラベルが含まれる場合、２以下のラベルそれぞれの類似情報を取得しなくてもよい。

なお、ステップＳ３０において、決定部１５は、さらに類似情報取得部１４が取得した類似情報に基づいて、さらにアノテーション作業用の作業画面Ｐに配置される複数のラベルの表示色を決定してもよい。決定部１５は、例えば、互いに類似しているラベル同士の表示色を他のラベルより近い表示色に決定してもよい。決定部１５は、例えば、互いに類似しているラベル同士の表示色を同じ表示色に決定してもよい。これにより、例えば、隣り合うラベル同士は、異なる表示色で表示される。「自転車」、「バイク」及び「人」を例に説明すると、決定部１５は、「自転車」及び「バイク」の表示色（例えば、赤色）と、「人」の表示色（例えば、青色）とを異なる表示色で表示するように、類似情報に基づいてそれぞれのラベルの表示色を決定する。なお、表示色は、ラベルを示す文字列の色を意味する。

次に、作業者が行った作業結果（アノテーション作業結果）の検証について、図６及び図７を参照しながら説明する。図６は、本実施の形態に係るアノテーション装置１０におけるラベル付与誤りを検証する処理を示すフローチャートである。

図６に示すように、まず、アノテーション装置１０は、アノテーション付与装置３０から作業結果を取得する（Ｓ１１０）。具体的には、制御部１１は、第二通信部１３を介してアノテーション付与装置３０から作業結果を取得する。作業結果は、画像に対して付与されたアノテーションデータを含む。言い換えると、第二通信部１３は、決定部１５がラベルの表示順を決定した作業画面Ｐを用いて画像に対して付与されたアノテーションデータを、アノテーション付与装置３０から取得する。このとき、第二通信部１３は、アノテーション付与装置３０からアノテーションデータを取得するデータ取得部として機能する。

そして、検証部１６は、制御部１１の制御により、作業結果におけるラベルの認識処理を実行する（Ｓ１２０）。具体的には、検証部１６は、認識器１６ａによって構築されたニューラルネットワークに、作業結果として取得したアノテーションデータが付与された画像を入力することによって、入力した画像に対応する認識結果を取得する。認識結果は、例えば、「自転車」、「人」、及び、「バイク」のいずれかであるとする。

検証部１６は、当該画像における認識結果と作業結果に含まれるラベルとが一致しているか否かを判定する（Ｓ１３０）。検証部１６は、認識結果とラベルとが一致している場合（Ｓ１３０でＹｅｓ）、当該ラベルは正しいと判定する（Ｓ１４０）。また、検証部１６は、認識結果とラベルとが一致していない場合（Ｓ１３０でＮｏ）、認識結果が作業結果に含まれるラベルと隣接するラベルであるか否かを判定する（Ｓ１５０）。検証部１６は、例えば、当該画像における認識結果が「自転車」であり、当該画像に付与されたラベルが「人」である場合、認識結果と作業結果に含まれるラベルに隣接するラベルとが一致すると判定する（Ｓ１５０でＹｅｓ）。

ここで、本実施の形態では、「自転車」と「人」とは隣接するが、互いに類似していないラベルである。そのため、作業者が本来「自転車」である対象物に対して、当該対象物を「人」と認識してラベル「人」を当該画像に付与する可能性は低い。つまり、作業者は、本来「自転車」である対象物に対して、「自転車」と認識していたにも関わらず、操作ミスにより「自転車」と隣接する「人」を選択した可能性が高い。よって、検証部１６は、ステップＳ１５０でＹｅｓの場合、操作ミスによるラベル付与誤りの可能性があると判定する（Ｓ１６０）。言い換えると、検証部１６は、上記の複数のラベルのうち、画像に対する認識器１６ａの認識結果に対応するラベルと、取得したアノテーションデータに含まれるラベルとが、作業画面Ｐ（言い換えると、決定部１５が決定した表示順）において隣り合う配置のラベルであった場合、取得したアノテーションデータに含まれるラベルが操作ミスによる付与誤りであると判定する。

上記のように、検証部１６は、ステップＳ１５０でＹｅｓの場合、当該アノテーションデータを、作業者の操作ミスによるラベルの付与誤りの可能性が高いアノテーションデータであると判定することができる。

比較例として、作業画面におけるラベルの表示順が図５Ａに示す表示順であり、認識結果が作業結果に含まれるラベルと隣接するラベルである場合について説明する。検証部１６は、例えば、当該画像における認識結果が「自転車」であり、当該画像に付与されたラベルが「バイク」である場合、認識結果と作業結果に含まれるラベルに隣接するラベルとが一致すると判定する（Ｓ１５０でＹｅｓ）。

ここで、比較例では、「自転車」と「バイク」とは隣接するが、互いに類似しているラベルである。そのため、作業者が本来「自転車」である対象物に対して、当該対象物を「バイク」と認識してラベル「バイク」を当該画像に付与した可能性がある。また、本来「バイク」であるが、認識器１６ａの認識結果が誤っており「バイク」を「自転車」と認識した可能性もある。つまり、検証部１６は、ステップＳ１５０でＹｅｓの場合、ラベルの付与誤りの可能性が高いアノテーションデータであるか否かを正確に判定することができない。

一方、上記でも説明したが、本実施の形態に係る決定部１５は、図５Ｂに示すように互いに類似しているラベルを隣接して配置しない。これにより、検証部１６における検証において、ステップＳ１５０でＹｅｓと判定された場合、作業者の操作ミスによるラベル付与誤りの可能性があると判定することができる（Ｓ１６０）。

また、検証部１６は、例えば、当該画像における認識結果が「自転車」であり、当該画像に付与されたラベルが「バイク」である場合、認識結果と作業結果に含まれるラベルに隣接するラベル（例えば、「人」）とが一致しないと判定する（Ｓ１５０でＮｏ）。この場合、「自転車」と「バイク」とは互いに類似するラベルであるので、作業者が本来「自転車」である対象物を「バイク」と誤って認識した可能性がある。これにより、検証部１６における検証において、ステップＳ１５０でＮｏと判定された場合、作業者の判断ミスによるラベル付与誤りの可能性があると判定することができる（Ｓ１７０）。

そして、検証部１６は、アノテーション付与装置３０から取得した作業結果、認識器１６ａによる認識結果、及び、検証部１６による判定結果を記憶部１７に格納する（Ｓ１８０）。つまり、記憶部１７は、画像に付与されたアノテーションデータを、当該アノテーションデータの検証結果（例えば、検出結果）とともに格納するアノテーションデータベースとして機能する。図７は、本実施の形態に係る記憶部１７に格納されるデータＤの一例を示す図である。

図７に示すように、検証部１６は、作業結果、認識結果、及び、判定結果を対応付けて記憶部１７に格納する。領域Ａ１〜Ａ３は、例えば１つの画像における互いに異なる領域を示している。領域Ａ１〜Ａ３は、画像上における座標で示されてもよい。

そして、制御部１１は、データＤをサーバ装置２０に送信してもよい。これにより、構築者は、データＤを確認することで、ラベル付与誤りの可能性があるアノテーションデータを容易に知ることができる。構築者は、ラベル付与誤りの可能性が高いアノテーションデータを修正する、及び、作業者に再度アノテーションデータを付与させるなどの対応を行うことで、精度のよい学習データセットを構築することができる。例えば、構築者は、上記の対応の後、さらにその作業結果に対してＳ１１０〜Ｓ１８０の処理を実行することで、さらに精度のよい学習データセットを構築することができる。

なお、検証部１６による検証処理（Ｓ１２０〜Ｓ１８０）を実行するタイミングは、特に限定されない。検証部１６は、アノテーション付与装置３０から作業結果を取得するたびに検証処理を実行してもよいし、複数の作業結果を取得した後に検証処理を実行してもよい。

（実施の形態の変形例）
以下、本変形例に係るアノテーション装置等について、図８を参照しながら説明する。なお、本変形例に係るアノテーション装置の構成は、実施の形態と同じであり説明を省略する。本変形例では、決定部が決定する複数のラベルの表示順が実施の形態と異なるので、その点を中心に説明する。図８は、本変形例に係るラベルの表示順の一例を示す図である。

図８に示すように、ラベル一覧ｐ２ｃには、「看板」、「バス」、「バイク」、「人」、「トラック」、及び、「自転車」のラベルが含まれる。ここで、「看板」及び「人」は互いに類似しているラベルであり、「バス」及び「トラック」は互いに類似しているラベルであり、「バイク」及び「自転車」は互いに類似しているラベルであるとする。なお、互いに類似しているラベル以外のラベルは、当該互いに類似しているラベルとは類似していないラベルである。「バイク」を例に説明すると、「バイク」は、「看板」、「バス」、「人」、「トラック」、及び、「自転車」のうち「自転車」とのみ類似しており、他のラベルとは類似していない。なお、この判定は、類似情報取得部１４により実行される。

この場合、決定部１５は、類似情報に基づいて、互いに類似するラベル（例えば、「バイク」及び「自転車」）の間に、当該互いに類似するラベルと類似していない２つのラベルを配置するように複数のラベルの表示順を決定する。決定部１５は、例えば、互いに類似するラベルの間に、当該互いに類似するラベルと類似していない２つのラベルであって、かつ互いに類似していない２つのラベルを配置するように表示順を決定する。例えば、決定部１５は、互いに類似するラベル「バイク」と「自転車」との間に、「人」及び「トラック」を配置するように表示順を決定する。つまり、決定部１５は、作業画面Ｐにおいて、「バイク」と「自転車」との間に、「人」及び「トラック」を表示するように複数のラベルの配置を決定する。なお、トラックは、第四ラベルの一例である。

上記のように複数のラベルを配置した場合に、操作ミスによるラベルの付与誤りがあったときについて説明する。具体的には、認識器１６ａの認識結果と作業結果に含まれるラベルとが異なっている場合について説明する。なお、ラベルの表示順は図８に示す順番であるとする。また、作業結果に含まれるラベルが「人」であり、認識器１６ａの認識結果が「バイク」であるとする。

このとき、「バイク」と「トラック」は互いに類似していないラベルであるので、作業者が「バイク」を選択するつもりが操作ミスで「人」を選択してしまったか、及び、作業者が「トラック」を選択するつもりが操作ミスで「人」を選択してしまったかのうち、前者である可能性が高いと判定することができる。つまり、検証部１６は、作業者がどのラベルを選択するつもりであったかを推定することが可能となる。当該推定結果は、検証結果として、記憶部１７に格納される。なお、「バイク」と「トラック」とは互いに類似していないので、作業者が判断ミスをした可能性は低い。

一方、「バイク」と「自転車」との間に、「人」のみが配置されており、かつ作業結果に含まれるラベルが「人」であり、認識器１６ａの認識結果が「バイク」であるとする。このとき、「バイク」と「自転車」は互いに類似しているラベルであるので、作業者が「バイク」を選択するつもりが操作ミスで「人」を選択してしまったか、及び、作業者が「自転車」を選択するつもりが操作ミスで「人」を選択してしまったかのいずれであるかを正確に判定することはできない。

なお、決定部１５は、互いに類似するラベル（例えば、「バイク」及び「自転車」）の間に、当該互いに類似するラベルと類似していない３以上のラベルであって、かつ互いに類似していない３以上のラベルを配置するように表示順を決定してもよい。つまり、決定部１５は、互いに類似するラベルの間に、少なくとも２以上のラベルを配置するように表示順を決定してもよい。

（その他の実施の形態）
以上、本開示について実施の形態に基づいて説明したが、本開示は、上記実施の形態に限定されるものではない。

例えば、上記実施の形態では、類似情報取得部は、出力結果の確率（例えば、類似度）が所定値以上あるラベル同士を類似していると判定する例について説明したが、これに限定されない。類似情報取得部は、対象物（例えば、自転車）に対して最も誤認識しやすいラベル（例えば、バイク）を互いに類似していると判定してもよい。つまり、類似情報取得部は、当該ラベルに対して類似度が最も高いラベルを、当該ラベルに類似するラベルであると判定してもよい。この場合、所定値は、設けられなくてもよい。

また、上記実施の形態では、類似情報取得部は、ラベル（例えば、自転車）に類似しているラベル（例えば、バイク）が１つである例について説明したが、これに限定されない。類似情報取得部は、ラベル（例えば、自転車）に類似しているラベルが２以上あると判定してもよい。

また、上記実施の形態では、類似情報取得部は、ラベルが類似しているか否かの判定結果を類似情報として取得する例について説明したが、これに限定されない。類似情報取得部は、ラベル同士が類似している程度を段階的に示す結果を類似情報として取得してもよい。類似情報は、例えば、類似度合いが「高」、「中」、「低」などであってもよい。決定部は、互いに類似度合いが「高」のラベルの間に、当該互いに類似度合いが「高」のラベルの双方と類似度合いが「低」のラベルを配置してもよい。類似情報取得部は、２つの所定値を設けることで、２つのラベル間の類似度合いを「高」、「中」、「低」に分類することができる。

また、上記実施の形態では、類似情報取得部は、ラベルが類似しているか否かをラベルが示す対象物の外観に基づいて判定する例について説明したが、これに限定されない。類似情報取得部は、例えば、ラベル自体の外観（文字列の外観）に基づいて、互いのラベルが類似しているか否かを判定してもよい。

また、上記実施の形態では、アノテーション装置が有する記憶部が格納するテーブルは、確率を示す例について説明したが、これに限定されない。当該テーブルは、例えば、類似しているか否かの判定結果を示すテーブルであってもよい。この場合、類似情報取得部は、類似しているか否かを判定することなく、テーブルから類似情報を取得する。

また、上記実施の形態では、ラベル一覧は、紙面の上下方向に並んで複数のラベルが配置されている例について説明したが、これに限定されない。ラベル一覧における複数のラベルの配置方向は特に限定されず、紙面の左右方向に並んで配置されていてもよい。

また、上記実施の形態では、検証部がニューラルネットワーク型の認識器を有する例について説明したが、これに限定されない。検証部は、例えば、パターンマッチ型の認識器を有していてもよい。

また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。

また、アノテーション装置は、単一の装置として実現されてもよいし、複数の装置によって実現されてもよい。アノテーション装置が複数の装置によって実現される場合、アノテーション装置が備える構成要素は、複数の装置にどのように振り分けられてもよい。

また、フローチャートにおける各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時（並列）に実行されてもよい。

その他、上記実施の形態等に対して当業者が思い付く各種変形を施して得られる形態、本開示の趣旨を逸脱しない範囲で実施の形態等における構成要素及び機能を任意に組み合わせることで実現される形態も本開示に含まれる。

本開示の一態様に係るアノテーション装置等は、画像にアノテーションデータを付与するためのアノテーション付与システムに有効である。

１０アノテーション装置
１１、２１、３１制御部
１２第一通信部（ラベル情報取得部）
１３第二通信部（データ取得部）
１４類似情報取得部
１５決定部
１６検証部
１６ａ認識器
１７、２３記憶部
２０サーバ装置
２２、３２通信部
２４、３４入力部
３０アノテーション付与装置
３３表示部
１００アノテーション付与システム
Ｐ作業画面
ｐ１画像
ｐ２、ｐ２ａ、ｐ２ｂ、ｐ２ｃラベル一覧
Ｄデータ
Ｔテーブル

Claims

画像にアノテーションデータを付与するための複数のラベルが互いに類似しているか否かを示す類似情報を取得する類似情報取得部と、
前記類似情報に基づいて、アノテーション作業用の作業画面に表示される前記複数のラベルの配置を決定する決定部と、
前記作業画面を用いて前記画像に付与された前記アノテーションデータを取得するデータ取得部と、
前記データ取得部が取得した前記アノテーションデータに含まれるラベルの付与誤りを検証する検証部とを備える
アノテーション装置。
前記複数のラベルは、互いに類似している第一ラベル及び第二ラベルと、前記第一ラベル及び前記第二ラベルの双方に類似していない第三ラベルとを含み、
前記決定部は、前記作業画面において、前記第一ラベルと前記第二ラベルとの間に前記第三ラベルを表示するように前記配置に決定する
請求項１に記載のアノテーション装置。
前記検証部は、所定の学習データセットで学習された認識器を有し、前記複数のラベルのうち、前記画像に対する前記認識器の認識結果に対応するラベルと、取得した前記アノテーションデータに含まれるラベルとが前記作業画面において隣り合うラベルであった場合、取得した前記アノテーションデータに含まれるラベルが付与誤りであると判定する
請求項２に記載のアノテーション装置。
前記複数のラベルは、さらに前記第一ラベル、前記第二ラベル、及び、前記第三ラベルのそれぞれに類似していない第四ラベルを含み、
前記決定部は、前記作業画面において、前記第一ラベルと前記第二ラベルとの間にさらに前記第四ラベルを表示するように前記配置に決定する
請求項２又は３に記載のアノテーション装置。
前記決定部は、さらに、前記類似情報に基づいて、前記作業画面に配置される前記複数のラベルの表示色を決定する
請求項１〜４のいずれか１項に記載のアノテーション装置。
前記決定部は、互いに類似しているラベル同士の表示色を他のラベルより近い表示色に決定する
請求項５に記載のアノテーション装置。
前記画像に付与するためのラベル情報を取得するラベル情報取得部をさらに備え、
前記類似情報取得部は、前記ラベル情報に３以上のラベルが含まれる場合に、前記複数のラベルのうち前記３以上のラベルそれぞれの類似情報を取得する
請求項１〜６のいずれか１項に記載のアノテーション装置。
画像にアノテーションデータを付与するための複数のラベルが互いに類似しているか否かを示す類似情報を取得するステップと、
前記類情報に基づいて、アノテーション作業用の作業画面に表示される前記複数のラベルの配置を決定するステップと、
前記作業画面を用いて前記画像に付与された前記アノテーションデータを取得するステップと、
前記データ取得部が取得した前記アノテーションデータに含まれるラベルの付与誤りを検証するステップとを含む
アノテーション方法。
請求項８に記載のアノテーション方法をコンピュータに実行させるためのプログラム。