JP2021099582A

JP2021099582A - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP2021099582A
Application number: JP2019230276A
Authority: JP
Inventors: 浩荒井; Hiroshi Arai
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2021-07-01
Anticipated expiration: 2039-12-20
Also published as: CN113158631A; KR20210080224A; JP7374756B2; US20210192393A1

Abstract

【課題】アノテーションとして付加されるラベルのユーザによる選択をより好適な態様で支援する。【解決手段】情報処理装置は、アノテーションの対象となるデータに対する当該アノテーションとして付加されるラベルの第１の候補及び第２の候補それぞれについて、確からしさを示すスコアの推定結果を取得し、上記第１の候補及び上記第２の候補それぞれの上記スコアに応じて、当該第１の候補に対応付けられた表示位置に関する第１の表示情報と、当該第２の候補に対応付けられた表示位置に関する第２の表示情報と、の出力部１１３を介した表示に係る処理を制御する。【選択図】図５

Description

本開示は、情報処理装置、情報処理方法、及びプログラムに関する。

機械学習に用いられる学習データを作成するためのプログラムとして、対象となるデータに対して学習すべき正解情報（正解ラベル）を付与するアノテーションツールが利用されている。アノテーションツールには、例えば、学習データの作成に係るユーザへの作業負荷を低減するための機能群（すなわち、ユーザ補助のための機能群）が用意されている場合がある。このような機能の一例として、事前の機械学習に基づき類似するタスク向けに構築された学習済みモデルを利用して、アノテーションの対象となるデータを解析することで、当該アノテーションとして付加される情報の候補を抽出する機能が挙げられる。
アノテーションツールに関連する技術の一例として、特許文献１には、アノテーションとして付加される情報（ラベル）の候補を表示させる際の各候補の表示順序の制御に係る技術の一例が開示されている。また、特許文献２には、アノテーションとして付加する情報の決定に係る技術の一例が開示されている。

特許第６０７４８２０号公報特開２０１９−１０１５３５公報

一方で、対象となるデータに対してアノテーションとしてラベルが付加されることで機械学習に利用される学習データが作成される場合に、付加される当該ラベルをユーザが誤って選択するような状況が想定され得る。このように誤ってラベルが選択されることで生成された学習データが機械学習に利用されると、当該機械学習に基づき構築された学習済みモデルによる、入力されたデータの予測（または、推定、識別、認識等）に係る精度が低下する場合がある。このような場合には、対象となるデータに対して、当該データを示すラベルとして、確からしさのより低いラベルが誤って付加されることで、上記学習済みモデルによる、入力されたデータの予測に係る精度がより低下する可能性が高い。

本発明は上記の問題を鑑み、アノテーションとして付加されるラベルのユーザによる選択をより好適な態様で支援することを目的とする。

本発明に係る情報処理装置は、アノテーションの対象となるデータに対する当該アノテーションとして付加されるラベルの第１の候補及び第２の候補それぞれについて、確からしさを示すスコアの推定結果を取得する取得手段と、前記第１の候補及び前記第２の候補それぞれの前記スコアに応じて、当該第１の候補に対応付けられた表示位置に関する第１の表示情報と、当該第２の候補に対応付けられた表示位置に関する第２の表示情報と、の出力部を介した表示に係る処理を制御する制御手段と、を備える。

本発明によれば、アノテーションとして付加されるラベルのユーザによる選択をより好適な態様で支援することが可能となる。

情報処理装置の機能構成の一例を示したブロック図である。情報処理装置のハードウェア構成の一例を示した図である。情報処理装置の処理の一例を示したフローチャートである。情報処理装置の処理の一例を示したフローチャートである。情報処理装置が出力部を介して提示する画面の一例を示した図である。情報処理装置が出力部を介して提示する画面の他の一例を示した図である。情報処理装置が出力部を介して提示する画面の他の一例を示した図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

＜アノテーションの概要＞
所謂機械学習に基づき機械学習モデルの訓練（換言すると、機械学習モデルの構築）を行う手法の一例として、教師あり学習が挙げられる。教師あり学習では、学習モデルへの入力となるデータと、当該データから予測すべき正解ラベルと、を関連付けた学習データが含まれるデータセットが、機械学習モデルの構築に使用される。機械学習モデルを構築する課題に対して、このようなデータセットが存在しない或いは足りない場合には、例えば、入力となるデータを収集した後に、当該データに対してアノテーションとして正解ラベルを付加するアノテーション作業によりデータセットの構築が行われる。このようなアノテーション作業においてユーザがより容易に作業を行えるようにすることを目的として、データに対して正解ラベルを付加する作業を支援する機能を有したアノテーションツールが用いられる場合がある。

アノテーションツールは、アノテーションの対象となる画像や文書等のようなデータ（以下、「対象データ」とも称する）をユーザに対して提示したうえで、ユーザから当該対象データに対してアノテーションとして付加する正解ラベルの指定を受け付ける。そして、アノテーションツールは、上記対象データに対して、ユーザから指定された上記正解ラベルをアノテーションとして付加することで、データセットに含める学習データを生成する。
各種のアノテーションツールの中には、上述した対象データに対して正解ラベルを付加するラベル付け作業を効率化するために、事前の機械学習に基づき構築された機械学習モデル（以降では、「学習済みモデル」とも称する）を利用するツールがある。具体的な一例として、学習済みモデルを利用するツールは、当該学習済みモデルに対象データを解析させることで、当該対象データにアノテーションとして付加されるラベルの候補を抽出させ、抽出された当該ラベルの候補をユーザに提示する。これにより、ユーザは、アノテーションツールから提示されたラベルの候補の中から、対象データに対して正解ラベルとして付加する候補を選択することが可能となる。
なお、本開示では、対象データにアノテーションとして付加されるラベルは、少なくとも文字情報を含むものとする。

上記に例示したアノテーションツールによる、抽出された一連の候補の提示方法としては、例えば、一連の候補を既定の順序で並べて提示する方法や、一連の候補を学習済みモデルによる予測結果のスコア順に並べて提示する方法等が提案されている。

一方で、抽出された一連の候補が既定の順序で並べて提示される場合には、アノテーションの対象となる対象データとの関係性の低いラベルの候補（換言すると、確からしさの低いラベルの候補）が、当該対象データのより近傍に提示される可能性がある。このような場合には、ユーザが、対象データとの関係性の低いラベルの候補を、当該対象データに対してアノテーションとして付加する正解ラベルとして選択することを誘発してしまう状況が想定され得る。このように、対象モデルに対して関係性の低いラベルが付加された学習データがデータセットに存在すると、当該データセットを利用して構築された機械学習モデルによる予測に係る精度が、本来であれば達成することが可能であった精度よりも低下する可能性がある。

また、抽出された一連の候補が学習済みモデルによる予測結果のスコア順に並べて提示される場合には、ユーザが、学習済みモデルがどの程度の確信度を持って各候補を抽出しているかを認識することが困難な場合がある。このような場合には、第１の候補（例えば、スコアが第１位の候補）のラベルがより適切なラベルであるとユーザが単純に判断するような状況も想定され得る。
アノテーション作業において、ある特定のドメインに特化した専門的な学習データが作成される場合もあり、このような状況下では、学習済みモデルがより高い確信度を持って予測を行うことが困難な場合がある。このような状況下において、ユーザが単純に第１の候補のラベルがより適切なラベルであると判断して選択が行われると、実際には対象データと関連性の低いラベルの候補が選択される場合もある。この場合においても、対象モデルに対して関係性の低いラベルが付加された学習データがデータセットに存在することとなり、機械学習モデルによる予測に係る精度が、本来であれば達成することが可能であった精度よりも低下する可能性がある。

そこで、本開示では、ユーザが対象データに対してアノテーションとして付加するラベルを選択する作業を、より好適な態様で支援することが可能なアノテーションツールに関する技術を提案する。

＜機能構成＞
図１を参照して、本実施形態に係る情報処理装置１０１の機能構成の一例について説明する。情報処理装置１０１は、ユーザに対して出力部１１３を介して各種情報を提示し、入力部１１４がユーザから受け付けた操作に基づき当該ユーザからの各種指示を認識する。

入力部１１４は、ユーザから操作を受け付け、受け付けた操作に応じた制御情報を情報処理装置１０１に送信する。入力部１１４は、例えば、キーボード、マウス、トラックボール、及びペンタブレット等のような、アノテーション作業に関する各種操作を受け付けることが可能な各種入力デバイスにより実現される。

出力部１１３は、情報処理装置１０１からの制御に基づいて、ユーザへの各種情報の提示を行う。具体的な一例として、出力部１１３は、アノテーションの対象となる対象データや、アノテーションとして当該対象データに付加されるラベルの候補等に関する情報をユーザに提示してもよい。また、出力部１１３は、情報処理装置１０１からの制御に基づいて、ユーザからの指示を受け付けるためのインタフェース（ＵＩ：ＵｓｅｒＩｎｔｅｒｆａｃｅ）を提供してもよい。出力部１１３は、例えば、所謂ディスプレイ等のような出力デバイスにより実現される。

続いて、情報処理装置１０１の構成要素について説明する。情報処理装置１０１は、学習済みモデルＤＢ１０３と、学習済みモデル読み込み部１０２と、ラベル推定部１０４と、ラベル配置制御部１０５と、出力制御部１０６と、対象データＤＢ１０８と、対象データ読み込み部１０７とを含む。また、情報処理装置１０１は、入力受付部１０９と、アノテーション付与部１１０と、アノテーション済みデータＤＢ１１２と、アノテーション済みデータ保存部１１１とを含む。

学習済みモデルＤＢ１０３は、情報処理装置１０１が利用可能な学習済みモデルのデータを記憶する記憶領域である。
なお、本実施形態では、学習済みモデルＤＢ１０３がデータベースにより実現されるものとするが、情報処理装置１０１が利用可能な学習済みモデルのデータを記憶することが可能であれば、必ずしも学習済みモデルＤＢ１０３の構成は限定されない。具体的な一例として、学習済みモデルＤＢ１０３は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）やＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶装置より実現されてもよい。この場合には、例えば、学習済みモデルのデータは、オペレーティングシステムのファイルシステム上から参照できる形式で、ＨＤＤやＳＳＤのような記憶装置に記憶されてもよい。
また上述したデバイスに関する条件について、後述する対象データＤＢ１０８及びアノテーション済みデータＤＢ１１２についても同様である。

学習済みモデル読み込み部１０２は、学習済みモデルＤＢ１０３に記憶された学習済みモデルのデータを読み込む処理を行う。具体的な一例として、学習済みモデル読み込み部１０２により読み込みが行われた学習済みモデルのデータは、情報処理装置１０１の所定の記憶領域（例えば、図２に示すＲＡＭ２１３や補助記憶装置２１４等）に展開される。これにより、情報処理装置１０１の各構成要素（例えば、後述するラベル推定部１０４）は、上記記憶領域にデータが展開された学習済みモデルを利用して推定、識別、及び予測等に係る各種処理を実行することが可能となる。

対象データＤＢ１０８は、アノテーションの対象となるデータ（対象データ）を記憶する記憶領域である。
なお、図１では、学習済みモデルＤＢ１０３、対象データＤＢ１０８、及びアノテーション済みデータＤＢ１１２を個別の構成要素として示しているが、これらの構成要素のうち少なくとも２以上の構成要素が１つのデバイスにより実現されてもよい。
また、図１では、学習済みモデルＤＢ１０３、対象データＤＢ１０８、及びアノテーション済みデータＤＢ１１２が情報処理装置１０１に内蔵されているが、これらの構成要素のうち少なくとも一部の構成要素が情報処理装置１０１の外部に設けられていてもよい。この場合には、情報処理装置１０１は、ネットワークを介して外部の装置にアクセスすることで、当該装置に備えられた上記構成要素（例えば、対象データＤＢ１０８）に記憶されたデータを取得して所定の記憶領域に展開してもよい。

対象データ読み込み部１０７は、対象データＤＢ１０８からアノテーションの対象となる対象データを読み込む処理を行う。対象データ読み込み部１０７は、読み込んだ対象データをラベル推定部１０４及び出力制御部１０６に出力する。なお、本実施形態では、説明をよりわかりやすくするために、対象データ読み込み部１０７が一度に１つの対象データを読み込んで、ラベル推定部１０４及び出力制御部１０６に出力するものとするが、必ずしも対象データ読み込み部１０７の処理を限定するものではない。例えば、対象データ読み込み部１０７は、一度に複数の対象データの読み込み、当該複数の対象データをラベル推定部１０４及び出力制御部１０６に出力してもよい。
なお、対象データ読み込み部１０７が対象データＤＢ１０８から読み込むデータ、すなわちアノテーションの対象となる対象データが、「第２のデータ」の一例に相当する。

ラベル推定部１０４は、対象データ読み込み部１０７から読み込まれた対象データと、学習済みモデル読み込み部１０２により読み込まれた学習済みモデルと、に基づき、当該対象データにアノテーションとして付加されるラベルの候補の推定を行う。
具体的には、ラベル推定部１０４は、学習済みモデルに対して対象データを入力することで、当該対象データからアノテーションの対象となる領域を抽出し、当該領域ごとにアノテーションとして付加されるラベルの候補と、各候補のスコアとを取得する。この際に、ラベル推定部１０４は、スコアが最上位の候補のみに限らず、複数の候補（少なくともスコアが上位２位までの候補）と、当該複数の候補それぞれのスコアと、を取得するとよい。

なお、ラベルの候補のスコアとは、上記学習済みモデルによる、アノテーションの対象となる領域に含まれる情報が、当該ラベルが示す情報であることの予測、推定、識別、または認識に係る確信度に応じた情報である。換言すると、上記スコアとは、アノテーションの対象となる領域に含まれる情報が、当該ラベルが示す情報であることの確からしさを示す指標であるともいえる。本実施形態では、ラベルの候補のスコアとして、上記学習済みモデルによる、アノテーションの対象となる領域に示された対象（物体）が、当該ラベルが示す対象（物体）であるとの予測（認識）に係る確率（確信度）が使用されるものとする。もちろん、上記スコアとして使用される指標は、必ずしも上記確率には限定されず、他の指標が用いられてもよい。

以上のようにして、ラベル推定部１０４は、対象データ中のアノテーションの対象となる領域ごとに、当該アノテーションとして付加されるラベルの候補を抽出し、抽出した候補それぞれについてスコアを推定する。そして、ラベル推定部１０４は、アノテーションの対象となる領域ごとに抽出した一連のラベルの候補と、当該一連のラベルの候補それぞれのスコアの推定結果と、をラベル配置制御部１０５に出力する。

ラベル配置制御部１０５は、アノテーションの対象となる領域ごとに抽出された一連のラベルの候補と、当該一連のラベルの候補それぞれのスコアの推定結果と、をラベル推定部１０４から取得する。ラベル配置制御部１０５は、アノテーションの対象となる領域ごとに、抽出された一連のラベルの候補それぞれのスコアの推定結果に応じて、当該一連のラベルの候補それぞれに対応付けられた表示情報の、出力部１１３を介した表示に係る処理を制御する。

具体的な一例として、ラベル配置制御部１０５は、一連のラベルの候補のうち、第１の候補と第２の候補とのスコアの比較結果に応じて、少なくとも当該第１の候補及び当該第２の候補それぞれに対応付けられた表示情報の表示に係る配置を制御してもよい。なお、第１の候補に対応付けられた表示情報が「第１の表示情報」の一例に相当し、第２の候補に対応付けられた表示情報が「第２の表示情報」の一例に相当する。
また、この際に、ラベル配置制御部１０５は、上記一連のラベルの候補のうち、少なくとも一部の候補のスコアに応じて、対象データに対するアノテーションの難易度を鑑みて、当該候補の表示に係る配置を制御してもよい。
また、ラベル配置制御部１０５による一連のラベルの候補それぞれに対応付けられた表示情報の、出力部１１３を介した表示に係る処理の制御の一例については、実施例として詳細を別途後述する。

なお、本開示において「表示情報」とは、例えば、アイコン、テキスト情報、及び画像等のように、ディスプレイ等の出力装置に表示されることでユーザに提示される情報に相当する。換言すると、一連のラベルの候補それぞれを、出力部１１３を介してユーザに提示することが可能であれば、各候補が対応付けられる表示情報の種別は特に限定されない。
また、以降の説明では、「候補に対応付けられた表示情報を表示する」旨の内容を、便宜上「候補を表示する」旨の記載により示す場合がある。すなわち、以降の説明では、「候補を表示する」と記載した場合には、特に説明が無い限りは、「候補に対応付けられた表示情報を表示する」ことを意味するものとする。これは他の類似する表現についても同様である。具体的には、画面上への情報の表示に係る説明において、「候補を配置する」と記載した場合には、特に説明が無い限りは、「候補に対応付けられた表示情報を配置する」ことを意味するものとする。

また、ラベル配置制御部１０５は、単語分散表現演算部１１５と、単語類似度演算部１１６とを含む。
単語分散表現演算部１１５は、ラベルの候補について単語分散表現を算出する。単語分散表現とは、単語を高次元の実数ベクトルで表現する技術であり、例えば、近い意味の単語を近いベクトルに対応付ける。単語分散表現の算出には、例えば、「Ｗｏｒｄ２Ｖｅｃ」と称されるテキスト処理を行うニューラルネットワークが利用される。
単語類似度演算部１１６は、一連のラベルの候補それぞれについて算出された単語分散表現に基づき、当該一連のラベルの候補それぞれの間の言語的類似度（以降では、「単語類似度」とも称する）を算出する。
以上のようにして算出された一連のラベルの候補それぞれの間の単語類似度は、例えば、ラベル配置制御部１０５による、当該一連のラベルの候補それぞれの表示に係る処理の制御に利用されてもよい。

出力制御部１０６は、対象データ読み込み部１０７が読み込んだ対象データと、ラベル配置制御部１０５による一連のラベルの候補それぞれの表示に係る制御結果と、に基づき、各候補に対応する当該表示情報が提示された画面を生成する。そして、出力制御部１０６は、生成した画面を、出力部１１３に表示させる。
また、出力制御部１０６は、後述するアノテーション付与部１１０からの指示に基づき、ユーザによるアノテーションの付与の結果を生成した画面に反映する。
なお、出力制御部１０６により生成される上記画面の一例については、実施例として詳細を別途後述する。

入力受付部１０９は、入力部１１４がユーザから受け付けた操作に応じた制御情報を当該入力部１１４から取得し、取得した当該制御情報をアノテーション付与部１１０に伝達する。

アノテーション付与部１１０は、入力受付部１０９を介してユーザからの入力に応じた制御情報を取得し、当該制御情報に基づき、対象データに対してアノテーションとしてラベルを付加する処理を実行する。なお、アノテーション付与部１１０により対象データに対してアノテーションとしてラベルを付加する処理は、当該対象データの種別に応じたタスクごとに異なってもよい。
具体的な一例として、画像中に撮像された物体を検出するタスクの場合には、アノテーション付与部１１０は、アノテーションの対象となる画像（対象データ）に撮像された物体の当該画像中の位置の特定と、当該物体を示すラベルの付加と、に係る処理を実行する。
また、他の一例として、自然言語処理に基づき文書を分類するタスクの場合には、アノテーション付与部１１０は、アノテーションの対象となる文書（対象データ）に対して、当該文書のカテゴリを示すラベルを付加する処理を実行する。
このように、アノテーションの対象となる対象データの種別や、アノテーションとしてのラベル付けの目的等に応じて、アノテーション付与部１１０による対象データに対するラベル付けに係る処理の内容が適宜変更されてもよい。

アノテーション済みデータ保存部１１１は、アノテーション付与部１１０により対象データにアノテーションとして付加したラベルに関する情報と、当該対象データと、を関連付けて、アノテーション済みデータＤＢ１１２に記憶させる。アノテーション済みデータＤＢ１１２に記憶されるアノテーション済みの対象データは、例えば、教師あり学習における教師データとして利用可能なデータ形式で記憶されてもよい。なお、アノテーション済みデータＤＢ１１２に記憶されるアノテーション済みの対象データ（換言すると、教師データ）が、「第１のデータ」の一例に相当する。

＜ハードウェア構成＞
図２を参照して、本実施形態に係る情報処理装置１０１のハードウェア構成の一例について説明する。図２に示すように、本実施形態に係る情報処理装置１０１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２１１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２１２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２１３とを含む。また、情報処理装置１０１は、補助記憶装置２１４と、出力装置２１５と、入力装置２１６と、通信Ｉ／Ｆ２１７とを含む。ＣＰＵ２１１と、ＲＯＭ２１２と、ＲＡＭ２１３と、補助記憶装置２１４と、出力装置２１５と、入力装置２１６と、通信Ｉ／Ｆ２１７とは、バス２１８を介して相互に接続されている。

ＣＰＵ２１１は、情報処理装置１０１の各種動作を制御する中央演算装置である。例えば、ＣＰＵ２１１は、情報処理装置１０１全体の動作を制御してもよい。ＲＯＭ２１２は、ＣＰＵ２１１で実行可能な制御プログラムやブートプログラムなどを記憶する。ＲＡＭ２１３は、ＣＰＵ２１１の主記憶メモリであり、ワークエリア又は各種プログラムを展開するための一時記憶領域として用いられる。

補助記憶装置２１４は、各種データや各種プログラムを記憶する。補助記憶装置２１４は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）や、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）に代表される不揮発性メモリ等のような、各種データを一時的または持続的に記憶可能な記憶デバイスにより実現される。

出力装置２１５は、各種情報を出力する装置であり、ユーザに対する各種情報の提示に利用される。本実施形態では、出力装置２１５は、ディスプレイ等の表示デバイスにより実現される。出力装置２１５は、各種表示情報を表示させることで、ユーザに対して情報を提示する。ただし、他の例として、出力装置２１５は、音声や電子音等の音を出力する音響出力デバイスにより実現されてもよい。この場合には、出力装置２１５は、音声や電信等の音を出力することで、ユーザに対して情報を提示する。また、出力装置２１５として適用されるデバイスは、ユーザに対して情報を提示するために利用する媒体に応じて適宜変更されてもよい。なお、図１に示す出力部１１３は、例えば、出力装置２１５により実現され得る。

入力装置２１６は、ユーザからの各種指示の受け付けに利用される。本実施形態では、入力装置２１６は、マウス、キーボード、タッチパネル等の入力デバイスを含む。ただし、他の例として、入力装置２１６は、マイクロフォン等の集音デバイスを含み、ユーザが発話した音声を集音してもよい。この場合には、集音された音声に対して音響解析や自然言語処理等の各種解析処理が施されることで、この音声が示す内容がユーザからの指示として認識される。また、入力装置２１６として適用されるデバイスは、ユーザからの指示を認識する方法に応じて適宜変更されてもよい。また、入力装置２１６として複数種類のデバイスが適用されてもよい。なお、図１に示す入力部１１４は、例えば、入力装置２１６により実現され得る。

通信Ｉ／Ｆ２１７は、外部の装置とのネットワークを介した通信に利用される。なお、通信Ｉ／Ｆ２１７として適用されるデバイスは、通信経路の種別や適用される通信方式に応じて適宜変更されてもよい。

ＣＰＵ２１１は、ＲＯＭ２１２又は補助記憶装置２１４に記憶されたプログラムをＲＡＭ２１３に展開し、このプログラムを実行することで、図１に示された情報処理装置１０１の機能構成や、図３及び図４に示すフローチャートで示された処理が実現される。

＜処理＞
図３及び図４を参照して、本実施形態に係る情報処理装置１０１の処理の一例について説明する。

まず、図３を参照して、情報処理装置１０１の全体的な処理の流れについて説明する。
Ｓ３０１において、情報処理装置１０１は、各機能の初期設定、アノテーションの対象となる対象データの読み込み、及び当該対象データに対してアノテーションとして付加されるラベルの候補の表示制御に利用する学習済みモデルの読み込みのそれぞれを実行する。なお、情報処理装置１０１は、Ｓ３０１に示した処理については、例えば、少なくともアノテーション作業の開始時に一度実行すればよく、以降については設定済みの各種パラメータや読み込み済みの各種データを利用すればよい。

Ｓ３０２において、情報処理装置１０１は、読み込んだ学習モデルを利用して、読み込んだ対象データにアノテーションとして付加されるラベルの候補の推定を行う。この際に、情報処理装置１０１は、アノテーションの対象となる領域（例えば、画像中に被写体として撮像された物体）ごとに、少なくとも第１の候補及び第２の候補を含む一連の候補のスコアを取得する。
なお、図３及び図４に示す例では、便宜上、スコアが最上位の候補が第１の候補に相当し、スコアが２位の候補が第２の候補に相当するものとする。
ただし、上記はあくまで一例であり、本実施形態に係る情報処理装置１０１の処理を限定するものではない。例えば、情報処理装置１０１は、第１の候補及び第２の候補のそれぞれと、その他の候補と、に分けて情報を管理してもよいし、第１の候補と、その他の候補と、に分けて情報を管理してもよい。すなわち、情報処理装置１０１が、第１の候補のスコアと、他の候補のスコアと、の関係から、学習済みモデルがどの程度の確信度を持って第１の候補の予測を行っているかを認識することが可能であれば、各候補に関する情報の管理方法は特に限定されない。
また、Ｓ３０２の処理が、対象データに対するアノテーションとして付加されるラベルの第１の候補及び第２の候補それぞれについて、確からしさを示すスコアの推定結果を取得する取得処理の一例に相当する。

Ｓ３０３において、情報処理装置１０１は、アノテーションの対象となる領域ごとに、抽出された一連のラベルの候補それぞれのスコアの推定結果に応じて、当該一連のラベルの候補それぞれの表示に係る処理を制御する。なお、図３及び図４に示す例では、便宜上、情報処理装置１０１は、一連のラベルの候補それぞれの表示に係る配置を制御するものとする。また、Ｓ３０３の処理については、図４を参照して詳細を別途後述する。
また、Ｓ３０３の処理が、第１の候補及び第２の候補それぞれのスコアに応じて、当該第１の候補に対応付けられた第１の表示情報と、当該第２の候補に対応付けられた第２の表示情報と、の出力部を介した表示に係る処理を制御する制御処理の一例に相当する。

Ｓ３０４において、情報処理装置１０１は、一連のラベルの候補それぞれの表示に係る配置の制御結果に基づき、各候補に対応する当該表示情報が提示された画面を生成し、当該画面を出力部１１３に表示させる。

次いで、図４を参照して、図３のＳ３０３の処理の詳細について説明する。図４に示す一連の処理は、学習済みモデルにとって精度の高い予測が困難な対象データの場合には、ユーザにとってもアノテーションとして付加すべきラベルの候補の識別が困難であろうという考えに基づき規定されている。
つまり、ユーザが判断に迷うような状況が起こり得る対象データについては、ユーザがアノテーションとして付加されるラベルの候補をしっかり確認して、より好適な候補を選択することがより望ましい。このような場合には、例えば、学習済みモデルが推定した第１の候補と第２の候補とを、ユーザがより的確に判別したうえで、アノテーションとして付加する候補を選択できる状況を作り上げることが、データセットの品質維持の観点で重要な要素となる。
このような状況を鑑み、本実施形態に係る情報処理装置１０１は、ユーザが意図する候補とは異なる他の候補を選択するような事態の発生を防止することを目的とし、各候補の表示に係る配置を制御する。具体的な一例として、情報処理装置１０１は、第１の候補と第２の候補と間のスコアの差に応じてそれぞれの候補が互いに離間して配置されるように制御する。これにより、ユーザが、本来は第１の候補に対応付けられた第１の表示情報を選択することを意図している状況下で、第２の候補に対応付けられた第２の表示情報を選択するような事態の発生を防止することが可能となる。
上記を踏まえ、図３に示すＳ３０３の処理の詳細について以下に説明する。

Ｓ４０１において、情報処理装置１０１は、第１の候補のスコアと第２の候補のスコアとの差を算出し、当該差が閾値１を超えるか否かを判定する。なお、Ｓ４０１に示す処理の判定で使用される閾値１が「第１の閾値」の一例に相当する。

情報処理装置１０１は、Ｓ４０１において、第１の候補のスコアと第２の候補のスコアとの差が閾値を超えると判定した場合には、処理をＳ４０２に進める。Ｓ４０２において、情報処理装置１０１は、第１の候補と他の候補との間で言語的な類似度を算出する。他の候補には、第２の候補を含む。
候補間の言語的な類似度の算出方法としては、例えば、各候補を言語的な特徴に基づきベクトル（以下、「単語ベクトル」とも称する）で表し、一連の候補それぞれの間で対応する単語ベクトル間の距離を算出する方法が挙げられる。なお、ラベルの候補を単語ベクトルに変換する方法としては、例えば、「Ｗｏｒｄ２Ｖｅｃ」等のような単語分散表現技術を適用すればよい。また、単語ベクトル間の距離算出については、例えば、ベクトル間のコサイン類似度等を利用する手法を適用すればよい。
もちろん上記はあくまで一例であり、複数の候補間の言語的な類似度を算出することが可能であれば、その方法は特に限定されない。具体的な一例として、単語間の類似関係に関する情報を収集することで、言語的な類似度が高い単語間が関連付けられた辞書（例えば、シソーラス等）を構築し、当該辞書を利用することで候補間の類似度が特定されてもよい。

そして、情報処理装置１０１は、第１の候補に対して、当該第１の候補とより類似度の高い候補がより近くに配置されるように、各候補の表示に係る配置を制御する。
例えば、情報処理装置１０１は、一連の候補それぞれの間での単語ベクトルの距離の算出結果に基づき、当該一連の候補それぞれの表示に係る画面上における配置を制御してもよい。第１の候補と第２の候補の言語的な類似度が高ければ、第１の候補の隣に第２の候補を配置することもできる。学習済みモデルが出力した確信度が最も高い第１の候補を選択しても誤りではないが、第２の候補のほうがより正しい場合、第２の候補が存在することに気付きやすくなり、より正しいラベルを選択することができる。また、第１の候補と第２の候補とは言語的な類似度が高いので、ユーザの物体識別の知識や能力が足りずにラベルの選択精度が低い場合でも、学習データとしての精度に与える影響が少ない。
具体的な一例として、情報処理装置１０１は、あらかじめ規定された配置位置のうち、最も左の配置位置に第１の候補を配置し、残りの配置位置には、左から第１の候補に単語ベクトルが近い順に、各候補の表示情報を配置してもよい。また、この場合には、情報処理装置１０１は、第１の候補が配置される位置を、最も左の配置位置に限らず、他の配置位置（例えば、最も右の配置位置）に配置してもよいし、配置位置をその時々でランダムに変更してもよい。
また、他の一例として、情報処理装置１０１は、各候補に対応付けられた表示情報がドロップダウンリストとして表示されるように制御してもよい。この場合には、情報処理装置１０１は、リストとして表示される順序を候補間の距離と対応付けることで、各候補に対応付けられた表示情報の一覧を提示してもよい。

Ｓ４０３において、情報処理装置１０１は、第１の候補のスコアと第２の候補のスコアとの差が、閾値２を超えるか否かを判定する。閾値２は、Ｓ４０１の判定で使用された閾値１よりも大きい値を想定している。すなわち、第１の候補のスコアと第２の候補のスコアとの差が閾値２を超えるケースは、学習済みモデルによる推定結果が示す第１の候補であることの確信度が他の候補に比べて非常に高いケースに該当する。なお、Ｓ４０３に示す処理の判定で使用される閾値２が「第２の閾値」の一例に相当する。
また、閾値１及び閾値２については、例えば、ユーザ（例えば、管理者等）により事前に設定されてもよい。また、他の一例として、情報処理装置１０１が、閾値１及び閾値２の少なくともいずれかを、学習済みモデルが出力したスコアの履歴に応じて更新してもよい。この場合には、情報処理装置１０１は、一連のアノテーション作業における所定の契機で上記更新を行ってもよいし、一連のアノテーション作業の開始前または終了後のタイミングで上記更新を行ってもよい。

情報処理装置１０１は、Ｓ４０３において、第１の候補のスコアと第２の候補のスコアとの差が閾値２を超えると判定した場合には、処理をＳ４０４に進める。なお、この場合には、学習済みモデルが出力した第１の候補のスコアが他の候補に比べて非常に高く、ユーザが当該第１の候補を選択する可能性が非常に高い。そのため、Ｓ４０４において、情報処理装置１０１は、第１の候補がデフォルトで選択済みの状態で表示されるように、各候補の表示を制御する。
このような制御が適用されることで、ユーザによる候補の選択に係る手間を軽減することが可能となり、さらに、誤って他の候補が選択される事態が発生する可能性を低減することが可能となる。これにより、ユーザの作業の効率化と、データセットの品質低下の防止と、を実現することが可能となる。
情報処理装置１０１は、Ｓ４０４の処理が完了すると、図４に示す一連の処理を終了する。

一方で、情報処理装置１０１は、Ｓ４０３において、第１の候補のスコアと第２の候補のスコアとの差が閾値２を超えないと判定した場合には、図４に示す一連の処理を終了する。

また、情報処理装置１０１は、Ｓ４０１において、第１の候補のスコアと第２の候補のスコアとの差が閾値を超えないと判定した場合には、処理をＳ４０５に進める。なお、この場合には、学習済みモデルが出力した第１の候補のスコアと第２の候補のスコアとがより小さいため、ユーザが誤って意図しない候補を選択するような状況が想定され得る。そのため、Ｓ４０５において、情報処理装置１０１は、ユーザに対して注意を促すために、画面上に所定の報知情報（例えば、警告を示す情報）を表示させてもよい。
この際に、情報処理装置１０１は、警告を示すアイコンやメッセージを報知情報として表示させてもよいし、報知情報を点滅させる等のように、当該報知情報の表示態様を制御してもよい。また、ユーザに対して注意を促すことが可能であれば、情報の報知方法は特に限定されない。具体的な一例として、情報処理装置１０１は、音や振動を媒介として、ユーザに対して情報を報知してもよい。

Ｓ４０６において、情報処理装置１０１は、第１の候補及び第２の候補それぞれが、画面上で互いに離間して配置されるように、各候補の表示に係る配置を制御する。Ｓ４０６の処理が実行される状況のように、学習済みモデルによる予測の確信度が低い状況下では、ユーザが誤って意図する候補とは異なる候補を選択する事態の発生を防止することが望ましい。このような場合に、上記のように、第１の候補及び第２の候補それぞれが互いに離間して配置されることで、ユーザが意図しない候補を誤って選択する事態の発生を防止することが可能となる。
また、Ｓ４０５において、ユーザに対して注意を促す報知情報が報知されることで、第１の候補及び第２の候補それぞれが互いに離間して配置されたとしても、ユーザが一方を見落とすような事態の発生を防止することが可能となる。

なお、上述の通り、Ｓ４０６の処理が実行される状況は、学習済みモデルによる予測の確信度が低い状況に相当する。アノテーション作業の成果物であるデータに基づき、機械学習モデルが構築される場合には、このようなアノテーションの対象について、第１の候補と第２の候補とを正しく区別することが可能な機械学習モデルが構築できることがより望ましい。そのため、上記のように第１の候補と第２の候補とを正しく区別することが可能な機械学習モデルを構築するためには、第１の候補と第２の候補とのうちユーザが意図しない候補が選択される事態の発生を防止することが望ましい。そこで、Ｓ４０６の処理として説明したように、第１の候補及び第２の候補それぞれが互いに離間して配置されることで、ユーザによる操作ミス等による誤ったラベル付けに起因するデータセットの品質の低下を抑えることが可能となる。

Ｓ４０７において、情報処理装置１０１は、第１の候補及び第２の候補それぞれの近傍への配置の対象とする他の候補を決定する。Ｓ４０７の処理は、ユーザが第１の候補及び第２の候補のいずれかを選択する際に、誤って他の候補を選択した場合においても、データセットの品質の低下の影響をより低減可能とすることを目的としている。
具体的には、情報処理装置１０１は、第１の候補及び第２の候補それぞれの近傍に、対象となる候補と言語的な類似度のより高い候補が配置されるように制御する。この場合には、Ｓ４０２の処理と同様に、情報処理装置１０１は、学習済みモデルが出力した各候補のスコアに基づき、第１の候補及び第２の候補それぞれについて、対象となる候補と単語ベクトルの距離がより近い候補を特定すればよい。そして、情報処理装置１０１は、第１の候補及び第２の候補それぞれに対して、単語ベクトルの距離が近い候補ほどより近くに配置されるように制御すればよい。

以上、図４を参照して、図３のＳ３０３の処理の詳細について説明した。なお、上述した例はあくまで一例であり、第１の候補及び第２の候補それぞれのスコア間の差に応じて、各候補に対応する表示情報の表示（例えば、表示情報の配置）が制御されれば、必ずしも情報処理装置１０１の処理は限定されない。具体的な一例として、アノテーション作業のタスクや作業者の習熟度に応じて、データセットの品質の向上のための考え方や作業者のミスの傾向が異なる可能性がある。このような場合には、上記に例示した各候補の表示に係る制御の条件の少なくとも一部が適宜変更されてもよい。

＜実施例＞
以上により説明した、情報処理装置１０１のハードウェア構成、機能構成は、後述の各実施例で共通である。本実施形態に係る情報処理装置１０１の実施例として、情報処理装置１０１が、対象データに対してアノテーションとして付加するラベルの候補のユーザへの提示と、ユーザからのラベルの候補の指定の受け付けと、を実現するためのＵＩの一例について説明する。

（実施例１）
実施例１に係るＵＩの一例について図５を参照して説明する。画面５０１は、情報処理装置１０１が出力部１１３を介してユーザに提示する画面の一例を示している。画面５０１は、ユーザに対してアノテーションの対象となる対象データを提示し、当該対象データに対するアノテーション作業に関する各種指示をユーザから受け付ける。
なお、本実施例では、物体認識タスクにおける正解データの作成のために画像アノテーションを行う場合を想定してユーザに提示される画面の一例について説明する。具体的には、本実施例に係るアノテーションタスクにおいては、ユーザが、画像中に被写体として撮像されている物体を、矩形等を利用した領域指定により選択し、当該物体を示す正解ラベルを付すような作業を行われることを想定している。

領域５０２は、アノテーションの対象となる対象データが表示される領域である。図５に示す例では、領域５０２には、対象データとして画像が表示されている。領域５０２は、表示した対象データ（例えば、画像）におけるアノテーションの対象となる領域の指定をユーザから受け付ける。
領域５０３、５０４、及び５０５は、領域５０２に表示された対象データ中において、アノテーションの対象となる領域を示している。具体的には、図５に示す例では、領域５０３、５０４、及び５０５は、領域５０２に表示された画像における、被写体として撮像された物体に対応する領域を示している。

なお、以降の説明では、便宜上、領域５０３及び５０４に対応する物体は「普通車」であり、領域５０５に対応する物体は「トラック」であるものとする。また、情報処理装置１０１は、画像中に被写体として撮像されている物体が何であるかを、ユーザによりアノテーションとして付加された正解ラベルにより認識するものとする。また、情報処理装置１０１は、物体認識を目的として構築された学習済みモデルを利用することで、画像中に被写体として撮像された物体を認識してもよい。この場合には、情報処理装置１０１は、当該学習済みモデルの出力として、当該物体の物体名と、当該物体名の確からしさを示すスコア（確率）と、を取得することが可能であるものとする。

領域５０６、５０７、及び５０８は、領域５０３、５０４、及び５０５で示された物体に対してアノテーションとして付加するラベルの指定をユーザから受け付ける領域である。情報処理装置１０１は、学習済みモデルを利用した領域５０３、５０４、及び５０５に対応する物体の推定結果に基づき、領域５０６、５０７、及び５０８に対して、アノテーションとして付加されるラベルの候補を提示する。また、この際に情報処理装置１０１は、領域５０６、５０７、及び５０８に提示する一連のラベルの候補の配置や、当該候補の提示に係るＵＩの状態を、学習済みモデルを利用した対象となる物体の推定結果に基づき動的に制御してもよい。
そこで、以降では、情報処理装置１０１による、領域５０６、５０７、及び５０８それぞれに対する、一連のラベルの候補の配置や当該候補の提示に係るＵＩの状態の制御の一例について具体的な例を挙げて説明する。

まず、領域５０６に対する一連のラベルの候補の配置や当該候補の提示に係るＵＩの状態の制御の一例について説明する。
領域５０６は、領域５０３で示された物体に対してアノテーションとして付加されるラベルの候補が提示される領域である。情報処理装置１０１は、領域５０３で示された物体を示すラベルの候補として、７０％の確率で「普通車」であることを示す第１の候補と、１０％の確率で「ビル」であることを示す第２の候補と、を推定したものとする。
また、本実施例では、学習済みモデルが出力するラベルの第１の候補及び第２の候補それぞれのスコアとして、当該候補が示す物体である確からしさを示す確率が用いられるものとする。また、図４を参照して説明した閾値１として５０％が設定されており、閾値２として８０％が設定されているものとする。

情報処理装置１０１は、第１の候補のスコアと第２の候補のスコアとの差分を計算する。領域５０６に提示される候補の例の場合には、上記差分は、７０％と１０％との差分となるため、６０％となる。この差分は、学習済みモデルがどの程度の確信度を持って第１の候補を推定しているかを示す指標と考えることが可能である。なぜなら、第１の候補と第１の候補とのスコアの差分が大きいということは、第１の候補のスコアがより高く、第２の候補のスコアがより低いことを表しているためである。
情報処理装置１０１は、上記確率差６０％が閾値１（５０％）を超えるため、図４におけるＳ４０１の条件判定において真と判定する。
次いで、情報処理装置１０１は、Ｓ４０２の処理において、第１の候補である「普通車」と単語ベクトルの距離が近い他の候補を特定する。そして、情報処理装置１０１は、領域５０６において、第１の候補と単語ベクトルの距離がより近い候補が、第１の候補のより近くに配置されるように制御する。

なお、「普通車」という単語について、単語ベクトルの語彙が存在しない場合も想定され得る。このような場合には、例えば、情報処理装置１０１は、分かち書きライブラリを利用することで、「普通車」を「普通」と「車」とに分割し、分割後の複数の単語の単語ベクトルの平均を、「普通車」の単語ベクトルとして適用してもよい。
また、他の一例として、情報処理装置１０１は、分かち書きされた複数の単語のうち、いずれかの単語の単語ベクトルを、分かち書きの対象とした単語の単語ベクトルとして適用してもよい。すなわち、この場合には、情報処理装置１０１は、「普通車」を「普通」と「車」とに分割したうえで、「普通」と「車」とのいずれかの単語ベクトルを、「普通車」の単語ベクトルとして適用してもよい。
以上のような手法を適用することで、対象となるラベルの候補が、単語ベクトルの語彙として設定されていない状況下においても、当該候補を、図４に示すような各候補の表示に係る処理の制御対象とすることが可能となる。
なお、図４のＳ４０２の処理の説明として前述したように、ラベルの候補間における単語ベクトルの距離としては、例えば、コサイン類似度を用いればよい。

情報処理装置１０１は、領域５０３で示された物体に付加されるラベルの候補の推定結果として、確率（スコア）が第４位までの候補である「普通車」、「ビル」、「トラック」、及び「家」を抽出したものとする。
なお、上述した一連の候補が、左から確率が高い順に配置されると、確率が第１位である「普通車」に隣接するように、確率が第２位である「ビル」が配置されることとなる。このような配置が行われると、ユーザが「普通車」を選択しようとしている状況下で、操作を誤ることで、「普通車」とは意味的に大きく異なる「ビル」が選択される可能性がある。このように、意味的に異なる候補が選択されることで、本来付加されるべきラベルとは意味的に大きく異なるラベルが付加された学習データが生成されることとなり、機械学習モデルの構築に使用されるデータセットの品質が著しく低下する可能性がある。
このような状況を鑑みて、ユーザによる選択ミスに伴うデータセットの品質低下の影響を低減するために、図４のＳ４０２の処理では、各候補の表示に係る配置の制御が行われている。具体的には、情報処理装置１０１は、第１の候補と単語ベクトルの距離がより近い候補が、当該第１の候補のより近傍に位置するように、各候補の表示に係る配置を制御する。
領域５０６に提示される候補の例の場合には、第１の候補である「普通車」との間の単語ベクトルの距離は、「トラック」、「家」、「ビル」の順により近いものとする。この場合には、情報処理装置１０１は、第１の候補である「普通車」に隣接する位置に、「トラック」を配置することとなる。これにより、例えば、ユーザが「普通車」を選択しようとしている状況下で、操作を誤って隣接する他の候補を選択したとしても、「普通車」と意味的により近い「トラック」が選択されることとなり、データセットの品質低下の影響を低減することが可能となる。

一般的に、画像認識に用いられる畳み込みニューラルネットワークは、畳み込み層がより深くなるほど画像の大局的な特徴をつかむ傾向にあり、その中には、「自動車」の特徴をつかむ畳み込みフィルタも存在することもある。そのため、ラベル付けに際して、「普通車」の選択を意図する状況下で誤って「トラック」が選択された場合には、誤って「ビル」が選択される場合に比べて、畳み込みニューラルネットワークの学習において、「自動車」の特徴を学習できる可能性がある。すなわち、「普通車」の選択を意図する状況下
で、誤って「ビル」が選択される場合に比べて、誤って「トラック」が選択される場合の方が、データセットの品質低下の影響を低減することが可能となる。

次いで、情報処理装置１０１は、図４のＳ４０３の処理において、第１の候補のスコアと第２の候補のスコアとの差分（６０％）を、閾値２（８０％）と比較する。この場合には、情報処理装置１０１は、上記差分（６０％）が閾値２（８０％）以下となるため、Ｓ４０３の条件判定において偽と判定する。
以上のようにして、領域５０６に対する一連のラベルの候補の配置が制御される。

続いて、領域５０７に対する一連のラベルの候補の配置や当該候補の提示に係るＵＩの状態の制御の一例について説明する。
領域５０７は、領域５０４で示された物体に対してアノテーションとして付加されるラベルの候補が提示される領域である。情報処理装置１０１は、領域５０４で示された物体を示すラベルの候補として、９５％の確率で「普通車」であることを示す第１の候補と、２％の確率で「ビル」であることを示す第２の候補と、を推定したものとする。
また、領域５０６について説明した例と同様に、閾値１として５０％が設定されており、閾値２として８０％が設定されているものとする。

情報処理装置１０１は、第１の候補のスコアと第２の候補のスコアとの差分を計算する。領域５０７に提示される候補の例の場合には、上記差分は、９５％と２％との差分となるため、９３％となる。
情報処理装置１０１は、上記確率差９３％が閾値１（５０％）を超えるため、図４におけるＳ４０１の条件判定において真と判定する。
次いで、情報処理装置１０１は、Ｓ４０２の処理において、第１の候補である「普通車」と単語ベクトルの距離が近い他の候補を特定する。そして、情報処理装置１０１は、領域５０６において、第１の候補と単語ベクトルの距離がより近い候補が、第１の候補のより近傍に配置されるように制御する。
なお、情報処理装置１０１は、領域５０４で示された物体に付加されるラベルの候補の推定結果として、確率（スコア）が第４位までの候補である「普通車」、「ビル」、「トラック」、及び「家」を抽出したものとする。また、第１の候補である「普通車」との間の単語ベクトルの距離は、「トラック」、「家」、「ビル」の順により近いものとする。

次いで、情報処理装置１０１は、図４のＳ４０３の処理において、第１の候補のスコアと第２の候補のスコアとの差分（９３％）を、閾値２（８０％）と比較する。この場合には、情報処理装置１０１は、上記差分（９３％）が閾値２（８０％）を超えるため、Ｓ４０３の条件判定において真と判定する。

Ｓ４０３の条件判定が真となるケースでは、学習済みモデルが高い確信度を持って第１の候補を推定しているものと考えられる。このようなケースでは、ユーザがラベル付けを行う場合においても、同様に高い確信度を持って第１の候補を選択する可能性が高い。そのため、情報処理装置１０１は、図４に示すＳ４０４の処理として、第１の候補がデフォルトで選択済みの状態で表示されるように、各候補の表示を制御する。
上記のような制御が適用されることで、第１の候補とは異なる他の候補が改めて選択される場合を除けば、ユーザによる候補の選択に係る手間を軽減することが可能となり、さらに、誤って他の候補が選択される事態が発生する可能性を低減することも可能となる。すなわち、ユーザの作業の効率化と、データセットの品質低下の防止と、より好適な態様で実現することが可能となる。

続いて、領域５０８に対する一連のラベルの候補の配置や当該候補の提示に係るＵＩの状態の制御の一例について説明する。
領域５０８は、領域５０５で示された物体に対してアノテーションとして付加されるラベルの候補が提示される領域である。情報処理装置１０１は、領域５０５で示された物体を示すラベルの候補として、４０％の確率で「普通車」であることを示す第１の候補と、３０％の確率で「トラック」であることを示す第２の候補と、を推定したものとする。
また、領域５０６及び５０７について説明した例と同様に、閾値１として５０％が設定されており、閾値２として８０％が設定されているものとする。

情報処理装置１０１は、第１の候補のスコアと第２の候補のスコアとの差分を計算する。領域５０７に提示される候補の例の場合には、上記差分は、４０％と３０％との差分となるため、１０％となる。
情報処理装置１０１は、上記確率差１０％が閾値１（５０％）以下となるため、図４におけるＳ４０１の条件判定において偽と判定する。

Ｓ４０１の条件判定が偽となるケースでは、学習済みモデルが推定した第１の候補と第２の候補との間でスコアが大きく離れておらず、学習済みモデルが高い確信度を持って予測を行うこと（例えば、物体を識別すること）が困難な状況であることが推測される。そのため、このようなケースでは、ユーザが誤って意図しない候補を選択するような事態の発生を避けるための制御が行われることが望ましい。
例えば、情報処理装置１０１は、図４のＳ４０５に示す処理のように、ユーザに対して注意を促すために、画面上に所定の報知情報（例えば、警告を示す情報）を表示させてもよい。具体的な一例として、図５に示す例では、領域５０８に対して、注意を促す記号と、「要注意」というメッセージと、が報知情報として表示されている。

次いで、情報処理装置１０１は、図４のＳ４０６の処理において、第１の候補及び第２の候補それぞれにが、画面上で互いに離間して配置されるように、各候補の表示に係る配置を制御する。図５に示す例では、第１の候補である「普通車」と、第２の候補である「トラック」と、がより離間して配置されるように制御されている。
なお、図５に示す例では、アノテーションの対象となる物体ごとに、最大４つのラベルの候補が提示される。そのため、情報処理装置１０１は、領域５０８の左端に第１の候補である「普通車」を配置し、右端に第２の候補である「トラック」を配置している。もちろん、図５に示す例はあくまで一例であり、第１の候補と第２の候補とが離間して配置されれば、配置方法は特に限定されない。具体的な一例として、領域５０８の右端に第１の候補が配置され、左端に第２の候補が配置されてもよい。また、他の一例として、第１の候補と第２の候との間に、他の候補が介在するように、各候補の配置が制御されてもよい。また、他の一例として、第１の候補と第２の候補との間の空間が、隣接する他の候補間の空間よりも広くなるように制御されてもよい。

次いで、情報処理装置１０１は、図４のＳ４０７の処理において、第１の候補及び第２の候補それぞれの近傍に、単語ベクトルの距離がより近い候補（換言すると、言語的類似度より高い候補）が配置されるように制御する。なお、複数の候補間における単語ベクトルの距離の算出方法については、Ｓ４０２の処理と同様である。
上記のような制御が適用されることで、ユーザが第１の候補及び第２の候補のいずれかを選択する際に、誤って他の候補を選択した場合においても、Ｓ４０２の処理が実行された場合と同様に、データセットの品質低下の影響を低減することが可能となる。

続いて、ボタン５０９及び５１０について説明する。
ボタン５０９は、領域５０２に表示されている対象データに対するアノテーション作業の取りやめに係る指示をユーザから受け付けるボタンである。情報処理装置１０１は、ボタン５０９が押下されたことを検出した場合に、従前にアノテーション作業の対象とした他の対象データを改めてアノテーション作業の対象としてもよい。
ボタン５１０は、領域５０２に表示されている対象データに対して実行されたアノテーション作業の確定に係る指示をユーザから受け付けるボタンである。情報処理装置１０１は、ボタン５１０が押下されたことを検出した場合には、対象データにアノテーションとして付加したラベルに関する情報と、当該対象データと、を関連付けて、アノテーション済みデータＤＢ１１２に記憶させる。そして、情報処理装置１０１は、またアノテーション作業の対象としていない他の対象データが存在する場合には、当該他の対象データをアノテーション作業の新たな対象としてもよい。

以上、実施例１に係る画面の一例について図５を参照して説明した。本実施例では、主に以下に挙げる２つの技術思想に基づき、対象データに対してアノテーションとして付加されるラベルの候補それぞれの配置を動的に制御する手法の一例について提案した。具体的には、１つ目の技術思想とは、学習済みモデルが高い確信度を持って予測を行うことが困難なデータが処理対象の場合は、ユーザが誤って意図しない候補を選択するような事態の発生を避けるための対応が行われることが望ましいという考え方である。また、２つ目の技術思想とは、学習済みモデルが高い確信度を持って予測を行うことが可能なデータが処理対象の場合は、ユーザも同様に高い確信度を持って候補の選択を行うことが可能であり、単純な選択ミスの影響を防止することが望ましいという考え方である。

以上のように、本実施例に係る情報処理装置１０１に依れば、ユーザが対象データに対してアノテーションとしてラベルを付加する状況下において、ユーザによるラベルの候補の選択をより好適な態様で支援することが可能となる。具体的には、上述した構成や制御が適用されることで、ユーザが意図するラベルの候補とは異なる候補を誤って選択するような事態が発生する可能性を低減することが可能となる。また、ユーザが意図しない候補を誤って選択した場合においても、誤ったラベル付けに起因するデータセットの品質低下の影響を低減することが可能となる。また、学習済みモデルが高い確信度を持ってラベルの候補の推定を行った場合には、当該候補がデフォルトで選択済みの状態で表示されるように制御される。これにより、ユーザの作業の効率化と、データセットの品質低下の防止を実現することが可能となる。

（実施例２）
実施例２に係るＵＩの一例について説明する。実施例１では、学習済みモデルが高い確信度を持って予測を行うことが困難なデータが処理対象の場合は、第１の候補及び第２の候補それぞれが離間して配置されるように制御が行われる場合の一例について説明した。これは、学習済みモデルが高い確信度を持って予測を行うことが困難なデータが処理対象の場合は、ユーザも同様に高い確信度を持って候補の選択を行うことが困難であり、ユーザも一連のラベルの候補を確認したうえで選択を行うであろうとの仮定に基づいている。
一方で、ユーザが可能な限り短時間で大量のデータに対してアノテーションとしてラベルを付加する作業を行うような状況下では、ユーザが必ずしも一連の候補それぞれを確認して選択を行うとは限らない。

具体的には、実施例１では、情報処理装置１０１は、図４のＳ４０１の条件判定において偽と判定された場合には、学習済みモデルが高い確信度を持って予測を行うことが困難なデータが処理対象であると認識する。そのため、情報処理装置１０１は、第１の候補及び第２の候補それぞれが離間して配置されるように制御している。
一方で、上記のように一連のラベルの候補が提示された場合に、ユーザが、互いに離間して配置された第１の候補及び第２の候補それぞれを確認せずに、最初に目にしたもっともらしい候補を選択するような状況も想定され得る。このようなケースが頻発すると、対象モデルに対して関係性の低いラベルが付加された学習データがデータセットに多数追加され、ひいては当該データセットの品質が低下する可能性がある。

このような状況を鑑み、本実施例に係る情報処理装置１０１は、図４のＳ４０６の処理において、第１の候補及び第２の候補それぞれが近傍に位置するように、各候補の表示に係る配置を制御する。このような制御が適用されることで、第１の候補及び第２の候補それぞれが双方ともにユーザの視界に入りやすくなる。そのため、少なくともユーザが、いずれか一方の候補のみを確認し、当該一方の候補を、他方の候補を確認せずに選択するといった事態の発生を防止することが可能となる。

なお、図４のＳ４０６の処理として、本実施例に係る処理と、実施例１に係る処理と、のいずれを適用するかについては、アノテーション作業の内容や、ユーザの技能や性質等を鑑みて適宜選択されてもよい。
また、他の一例として、本実施例に係る処理と、実施例１に係る処理と、のいずれを適用するかを、情報処理装置１０１が、アノテーション作業の統計的な選択情報に基づき、動的に切り替えてもよい。具体的な一例として、情報処理装置１０１は、実施例１に係る処理の適用時に、左端に表示情報が配置された第１の候補が、右端に表示情報が配置された第２の候補よりも統計的優位性を持って多く選択されることを検出したものとする。この場合には、情報処理装置１０１は、ユーザが左端に表示された候補を選択する頻度がより高い可能性があると推測し、Ｓ４０６の処理を本実施例に係る処理内容に切り替えてもよい。

以上のように、本実施例に係る情報処理装置１０１は、学習済みモデルが高い確信度を持って予測を行うことが困難なデータが処理対象の場合は、第１の候補及び第２の候補それぞれが近傍に位置するように制御する。これにより、ユーザが一連の候補それぞれを確認して選択を行うことが困難な状況下において、ユーザが本来意図する候補とは異なる候補が選択されたとしても、データセットの品質低下の影響を低減することが可能となる。そのため、本実施例に係る情報処理装置１０１に依れば、ユーザによるアノテーション作業の作業スピードの維持と、誤った候補の選択に伴うデータセットの品質低下の影響の低減と、をより好適な態様で両立することが可能となる。

（実施例３）
実施例３に係るＵＩの一例について図６を参照して説明する。実施例１及び２では、情報処理装置１０１が、一連のラベルの候補それぞれを、画面上の所定の箇所に１次元的に並べて配置する場合の一例について説明した。本実施例では、情報処理装置１０１が、一連のラベルの候補それぞれの表示に係る配置を、候補間における類似度（例えば、単語類似度）に応じてより柔軟に制御する場合の一例について説明する。具体的には、図６に示す例として、情報処理装置１０１が、複数の候補間の類似度に応じて、当該複数の候補それぞれの間の間隔を制御する場合の一例について説明する。

画面６０１は、情報処理装置１０１が出力部１１３を介してユーザに提示する画面の一例を示している。画面６０１における領域６０２〜６０８は、図５に示す画面５０１における領域５０２〜５０８にそれぞれ対応している。また、画面６０１におけるボタン６０９及び６１０は、画面５０１におけるボタン５０９及び５１０にそれぞれ対応している。なお、画面６０１は、領域６０６、６０７、及び６０８に表示される情報の内容が画面５０１と異なる点を除けば、その他については画面５０１と実質的に同様である。そのため、本実施例では、領域６０６、６０７、及び６０８への情報の表示に係る制御に着目して説明し、その他については、画面５０１と実質的に同様のため詳細な説明は省略する。

領域６０６は、領域６０３で示された物体に対してアノテーションとして付加されるラベルの候補が提示される領域である。領域６０６に表示情報が表示された一連の候補は、図５に示す領域５０５の場合と同様であるが、「トラック」と「家」とが離間して配置されている。具体的には、本実施例に係る情報処理装置１０１は、図４のＳ４０２の処理で算出した、第１の候補（普通車）と、他の候補（トラック、家、及びビル）それぞれと、の間の単語ベクトルの距離に応じて、各候補に対応する表示情報間の距離を制御する。
なお、図６に示す例では、「普通車」と「トラック」とは単語ベクトルの距離が近く、「普通車」と「家」及び「ビル」のそれぞれとは「トラック」に比べて単語ベクトルの距離が遠いものとする。また、「家」と「ビル」とは単語ベクトルの距離が近いものとする。
そのため、領域６０６においては、「普通車」の近傍に「トラック」が配置されているが、「家」及び「ビル」のそれぞれについては、「普通車」との間の単語ベクトルの距離に応じて離間して配置されている。また、「家」と「ビル」とは単語ベクトルの距離が近いため、「家」と「ビル」とが近傍に位置するように配置されている。

また、領域６０７は、領域６０４で示された物体に対してアノテーションとして付加されるラベルの候補が提示される領域である。
領域６０７に表示される一連のラベルの候補は、図５に示す領域５０７に表示される一連のラベルの候補と同様に、第１の候補である「普通車」のスコアが極めて高く、領域６０４で示された物体が、第１の候補である「普通車」である可能性が高い。そのため、第１の候補である「普通車」が、デフォルトで選択済みの状態で表示されている。また、領域６０７に表示される一連のラベルの候補は、領域６０６に表示される一連のラベルの候補と同様に、複数の候補間の単語ベクトルの距離に応じて、当該複数の候補それぞれに対応付けられた表示情報間の距離が制御されている。

また、領域６０８は、領域６０５で示された物体に対してアノテーションとして付加されるラベルの候補が提示される領域である。
領域６０８に表示される一連のラベルの候補については、図５に示す領域５０８に表示される一連のラベルの候補と同様に、第１の候補である「普通車」のスコアが最も高いが、第２の候補である「トラック」とのスコアの差が小さい。そのため、領域６０８に対して、注意を促す記号と、「要注意」というメッセージと、が報知情報として表示されている。また、領域６０８への表示対象となる一連のラベルの候補として、「普通車」、「小型車」、「バス」、及び「トラック」が選択されている。これらの候補は、いずれも自動車であるため、いずれの候補間においても単語ベクトル距離が比較的近い。そのため、情報処理装置１０１は、一連のラベルの候補のそれぞれが、候補間における単語ベクトルの距離に応じてより近傍に位置するように、各候補の表示に係る配置を制御している。

以上のように、本実施例に係る情報処理装置１０１は、一連のラベルの候補それぞれの間の距離を、候補間における単語ベクトルの距離に応じて制御する。これにより、意味的に遠い複数の候補それぞれが相互に離間して配置されるため、ユーザが意図する候補とは異なる候補を選択するような事態が発生する可能性をより低減することが可能となる。

（実施例４）
実施例４に係るＵＩの一例について説明する。実施例１〜３では、対象データに対してアノテーションとして付加されるラベルの一連の候補が、所定の方向（例えば、横方向）に向けて１次元的に配置される場合の一例について説明した。一方で、本開示の一実施形態に係る情報処理装置１０１が、一連のラベルの候補を表示に係る配置を制御する方法は、必ずしも所定の方向に向けて１次元的に配置する方法には限定されず、多様な配置方法を適用することが可能である。そこで、本実施例では、図７を参照して、情報処理装置１０１が、一連のラベルの候補を表示する際に、一連の候補を２次元的に配置する場合の一例について説明する。

画面７０１は、情報処理装置１０１が出力部１１３を介してユーザに提示する画面の一例を示している。画面７０１における領域７０２〜７０８は、図５に示す画面５０１における領域５０２〜５０８にそれぞれ対応している。また、画面７０１におけるボタン７０９及び７１０は、画面５０１におけるボタン５０９及び５１０にそれぞれ対応している。なお、画面７０１は、領域７０６、７０７、及び７０８に表示される情報の内容が画面５０１と異なる点を除けば、その他については画面５０１と実質的に同様である。そのため、本実施例では、領域７０６、７０７、及び７０８への情報の表示に係る制御に着目して説明し、その他については、画面５０１と実質的に同様のため詳細な説明は省略する。

領域７０６は、領域７０３で示された物体に対してアノテーションとして付加されるラベルの候補が提示される領域である。領域７０６においては、一連のラベルの候補が３行３列のマトリクス状に並べて表示されている。
なお、領域７０３で示された物体については、図５に示す領域５０３で示された物体と同様に、学習済みモデルによるラベルの候補の推定結果として、「普通車」である確率（スコア）が最も高いと推定されたものとする。このような前提のもとで、本実施例に係る情報処理装置１０１は、領域７０６において、「普通車」の近傍に、当該「普通車」と意味的に近い候補を配置している。なお、複数の候補間における意味的な距離を２次元で表現する場合には、例えば、マンハッタン距離の考え方を利用してもよい。

領域７０７は、領域７０４で示された物体に対してアノテーションとして付加されるラベルの候補が提示される領域である。
領域７０７に表示される一連のラベルの候補は、図５に示す領域５０７に表示される一連のラベルの候補と同様に、第１の候補である「普通車」のスコアが極めて高く、領域６０４で示された物体が、第１の候補である「普通車」である可能性が高い。そのため、第１の候補である「普通車」が、デフォルトで選択済みの状態で表示されている。

領域７０８は、領域７０５で示された物体に対してアノテーションとして付加されるラベルの候補が提示される領域である。
領域７０８に表示される一連のラベルの候補については、図５に示す領域５０８に表示される一連のラベルの候補と同様に、第１の候補である「普通車」のスコアが最も高いが、第２の候補である「トラック」とのスコアの差が小さい。すなわち、学習済みモデルは、領域７０５で示された物体が、「普通車」である確率と、「トラック」である確率と、が共に高いと推定している。そのため、領域７０８に対して、注意を促す記号と、「要注意」というメッセージと、が報知情報として表示されている。また、領域７０８に対して、一連のラベルの候補のうち、「普通車」と「トラック」とがマンハッタン距離で最も遠くなるように、「普通車」が左上の端部に配置され、「トラック」が右下の端部に配置されている。また、「普通車」及び「トラック」以外の他の候補については、「普通車」及び「トラック」それぞれに対して、単語類似度がより高いほどより近傍に位置するように配置が制御されている。

以上のように、本実施例に係る情報処理装置１０１は、一連のラベルの候補それぞれを所定の方向に１次元的に配置するのみに限らず、例えば、２次元的に配置することも可能である。このような制御が適用されることで、画面内により多くの候補を効率的に表示することが可能となる。

＜その他の実施形態＞
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記録媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

また、上述したように、本実施形態に係る情報処理装置１０１は、学習済みモデルによる推定結果を利用して、対象データに対してアノテーションとして付加されるラベルの候補の表示を制御する。このような制御が適用されることで、ユーザが本来意図する候補とは異なる他の候補を誤って選択するような事態が発生する可能性を低減することが可能となる。
また、ユーザが操作ミス等により候補を誤って選択したとしても、例えば、意味的に近い候補が選択されるように各候補の配置が制御されることで、誤ったラベル付けに起因するデータセットの品質低下の影響を低減することが可能となる。
一般的には、機械学習の学習データにおいて、ラベル付けが誤っていた場合には、機械学習モデルの汎化性能が劣化する傾向にある。これに対して、本実施形態に係る情報処理装置１０１に依れば、ユーザが誤ってラベル付けを行ってしまう事態が発生する可能性を低減することが可能であるため、機械学習モデルの汎化性能の低下させる可能性を低減する効果を期待することが可能である。

また、図１を参照して説明した情報処理装置１０１の機能構成はあくまで一例であり、当該情報処理装置１０１の各機能を実現することが可能であれば、そのための構成は特に限定はされない。
例えば、複数の装置が協働することで、情報処理装置１０１の各機能が実現されてもよい。この場合には、情報処理装置１０１の各機能のうちの一部の機能と他の機能とが、互いに異なる装置により実現されてもよい。具体的な一例として、対象データに対してアノテーションとして付加されるラベルの候補の推定に係る機能と、一連のラベルの候補の表示の制御に係る機能と、が互いに異なる装置により実現されてもよい。また、情報処理装置１０１の各機能のうち少なくとも一部の機能に関する処理の負荷が、複数の装置に分散されてもよい。
また、上記複数の装置が互いに情報やデータを送受信することが可能であれば、当該複数の装置を相互に接続するネットワークの種別は特に限定されず、各装置が設置される位置についても特に限定されない。

また、本実施形態に係る処理をコンピュータで実現するために、当該コンピュータにインストールされるプログラムコード自体も、本発明の実施形態の一つに相当する。また、コンピュータが読みだしたプログラムに含まれる指示に基づき、コンピュータで稼働しているＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）等が、実際の処理の一部又は全部を行い、その処理によっても上述した実施形態の機能が実現されてもよい。
また、上述した実施形態や各実施例が適宜組み合わされた形態も、本発明の実施形態に含まれる。

また、上述した例では、第１の候補及び第２の候補として、スコアが第１位及び第２位の候補を適用する場合に着目して説明したが、必ずしも本実施形態に係る情報処理装置１０１の処理を限定するものではない。すなわち、第１の候補及び第２の候補は、ユーザへの提示対象となる候補であり、互いにスコアの異なる候補であれば、必ずしも第１位及び第２位の候補には限定されない。
また、上述した例では、対象データに対してアノテーションとして付加されるラベルの一連の候補と、当該一連の候補それぞれの確からしさを示すスコアと、の取得に機械学習モデルを利用する場合に着目して説明した。一方で、ラベルの一連の候補と、当該ラベルの一連の候補それぞれの確からしさを示すスコアと、を取得することが可能であれば、その方法は特に限定されない。具体的な一例として、対象データが画像の場合には、当該画像に対して画像解析を施すことで特徴量を抽出し、当該特徴量の抽出結果に基づき、画像中に撮像された被写体に付加されるラベルの候補と、当該候補のスコアと、が取得されてもよい。また、対象データが文書の場合には、当該文書に対して構文解析や意味解析等の自然言語処理を施すことで、当該文書に含まれる情報（例えば、単語や文節等）に付加されるラベルの候補と、当該候補のスコアと、が取得されてもよい。

１０１情報処理装置
１０４ラベル推定部
１０５ラベル配置制御部
１０６出力制御部

Claims

アノテーションの対象となるデータに対する当該アノテーションとして付加されるラベルの第１の候補及び第２の候補それぞれについて、確からしさを示すスコアの推定結果を取得する取得手段と、
前記第１の候補及び前記第２の候補それぞれの前記スコアに応じて、当該第１の候補に対応付けられた表示位置に関する第１の表示情報と、当該第２の候補に対応付けられた表示位置に関する第２の表示情報と、の出力部を介した表示に係る処理を制御する制御手段と、
を備える、情報処理装置。
アノテーションとして前記ラベルが付加された第１のデータを教師データとして事前に構築された学習済みモデルに基づき、アノテーションの対象となる第２のデータに対する当該アノテーションとして付加される前記ラベルの前記第１の候補及び前記第２の候補それぞれについて前記スコアの推定する推定手段を備え、
前記取得手段は、前記第１の候補及び前記第２の候補それぞれについて前記推定手段により推定された前記スコアを取得する、
請求項１に記載の情報処理装置。
前記制御手段は、前記第１の候補と前記第２の候補との間の前記スコアの差分に応じて、前記第１の表示情報と前記第２の表示情報との間の距離を制御する、請求項１または２に記載の情報処理装置。
前記制御手段は、前記差分が第１の閾値以下の場合に、前記第１の表示情報と前記第２の表示情報とが離間して表示されるように制御する、請求項３に記載の情報処理装置。
前記制御手段は、前記差分が前記第１の閾値よりも大きい第２の閾値を超える場合に、前記第１の表示情報及び前記第２の表示情報のうち、前記スコアがより高い候補に対応付けられた表示情報が選択された状態で表示されるように制御する、請求項４に記載の情報処理装置。
前記制御手段は、前記差分が前記第１の閾値以下の場合に、所定の報知情報が報知されるように制御する、請求項４または５に記載の情報処理装置。
前記制御手段は、前記差分が前記第１の閾値を超える場合に、前記第１の候補と他の候補との単語としての類似度に応じて、前記第１の表示情報と前記他の候補の表示情報との間の距離を制御する、請求項４〜６のいずれか１項に記載の情報処理装置。
前記制御手段は、前記差分が前記第１の閾値を超える場合に、前記第１の表示情報及び前記第２の表示情報のうち少なくともいずれかの表示情報の近傍に、当該表示情報に対応付けられた候補に類似する第３の候補に対応付けられた第３の表示情報が表示されるように制御する、請求項４〜７のいずれか１項に記載の情報処理装置。
前記ラベルは、少なくとも文字情報を含み、
前記取得手段は、前記第１の候補及び前記第２の候補のそれぞれと、前記第３の候補と、の間の言語的類似度の算出結果を取得し、
前記制御手段は、前記第１の表示情報及び前記第２の表示情報のうち前記第３の候補と前記言語的類似度がより高い候補に対応する表示情報の近傍に、前記第３の表示情報が表示されるように制御する、
請求項８に記載の情報処理装置。
情報処理装置が実行する情報処理方法であって、
アノテーションの対象となるデータに対する当該アノテーションとして付加されるラベルの第１の候補及び第２の候補それぞれについて、確からしさを示すスコアの推定結果を取得する取得ステップと、
前記第１の候補及び前記第２の候補それぞれの前記スコアに応じて、当該第１の候補に対応付けられた表示位置に関する第１の表示情報と、当該第２の候補に対応付けられた表示位置に関する第２の表示情報と、の出力部を介した表示に係る処理を制御する制御ステップと、
を含む、情報処理方法。
コンピュータを、請求項１〜９のいずれか１項に記載の情報処理装置の各手段として機能させるためのプログラム。