JP2018106662A

JP2018106662A - 情報処理装置、情報処理方法、プログラム

Info

Publication number: JP2018106662A
Application number: JP2017134662A
Authority: JP
Inventors: 智昭肥後; Tomoaki Higo; 鈴木　雅博; Masahiro Suzuki; 雅博鈴木; 山田　貴之; Takayuki Yamada; 貴之山田; 正樹稲葉; Masaki Inaba
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2016-12-22
Filing date: 2017-07-10
Publication date: 2018-07-05
Anticipated expiration: 2037-07-10
Also published as: JP6946081B2; US20180181885A1; US11551134B2

Abstract

【課題】学習データに誤ったラベルを付与されたとしても、ラベルを適切に決定する。
【解決手段】情報処理装置１００００は、複数の学習データそれぞれに対して、学習データに対して付与されたラベルと前記ラベルに対応する属性情報とを対応付けて複数記憶する記憶手段１０１と、前記複数の学習データのうちの着目学習データについて、該着目学習データに対応する複数のラベルと該ラベルに対応する前記属性情報とに基づいて、前記着目学習データに対するラベルを決定するラベル決定手段１１２とを備える。
【選択図】図１

Description

データにラベルを付与するラベリング技術に関する

教師ありの機械学習によってデータ群から予測モデルを構築して、クエリデータに対する予測を求める技術は、物体認識等の様々な分野で用いられている。教師あり学習ではクエリデータと一緒に出力結果として期待されるラベルを付与するために、事前に学習データにラベル付けを行う作業が発生する。一般的に、正しいラベルが付与されたラベル付き学習データの数が多くなるほど予測モデルの精度は向上する。そのため、従来から多くの人手をかけて学習データにラベルを付ける方法や、ラベル付けを自動で行う方法が提案されている。

特許文献１には学習データ間の複数の特徴における距離のランキングを求めることで自動的にラベル付けを行う方法が開示されている。

特開２０１６−６２５４４号公報

しかしながら、多くの人手による方法では人ごとにばらつきがあるため、誤ったラベルが付けられる可能性がある。また、特許文献１の手法では、自動で行われたラベル付けの結果を信用するしかなく、ラベル付けに誤りが生じてしまった場合への対応が考慮されていない。

本発明は上記問題に鑑みてなされたものであり、学習データに誤ったラベルを付与された場合にも、ラベルを適切に決定することを目的とする。

本発明の情報処理装置は、例えば複数の学習データそれぞれに対して、学習データに対して付与されたラベルと前記ラベルに対応する属性情報とを対応付けて複数記憶する記憶手段と、前記複数の学習データのうちの着目学習データについて、該着目学習データに対応する複数のラベルと該ラベルに対応する前記属性情報とに基づいて、前記着目学習データに対するラベルを決定するラベル決定手段とを備える。

学習データに誤ったラベルを付与されたとしても、ラベルを適切に決定することができる。

第１の実施形態に係るラベル付けシステムの構成例を示すブロック図。管理されるデータ、ラベル、属性情報の対応関係の例。単調増加関数ｆ（ｘ）の例。領域指定タイプのラベル決定の例。バウンディングボックスに対する処理の例。ラベル付けを行う処理を示すフローチャート。ラベルを決定する処理を示すフローチャート。第２の実施形態に係るラベル付け確認システムの構成例を示すブロック図。タッチパネル式ディスプレイにおける記号指定タイプのラベル編集の表示例。タッチパネル式ディスプレイにおける領域指定タイプのラベル編集の表示例。ラベル付け確認システムを用いてラベルの付与や確認を行う典型的な流れを示すフローチャート。第３の実施形態にかかるクラウドソーシングによるラベル付けシステムの構成例を示すブロック図。クラウドソーシングによるラベル付けの流れを示すフローチャート。第４の実施形態にかかるクラウドソーシングによる学習認識システムの構成例を示すブロック図。クラウドソーシングによる学習認識の流れを示すフローチャート。第５の実施形態にかかるラベラー評価システムの構成例を示すブロック図。ラベラー評価システムを用いたラベラー評価の流れを示すフローチャート。本願発明のかかる情報処理装置のハードウェア構成例を示す図。マスクオブジェクトによって位置を指定する例を示す図。

まず、本発明の各実施形態の詳細について説明する前に、各実施形態の情報装置のハードウェア構成について、図１８を参照して説明する。同図において、ＣＰＵ１８１０は、バス１８００を介して接続する各デバイスを統括的に制御する。ＣＰＵ１８１０は、読み出し専用メモリ（ＲＯＭ）１８２０に記憶された処理ステップやプログラムを読み出して実行する。オペレーティングシステム（ＯＳ）をはじめ、本実施形態に係る各処理プログラム、デバイスドライバ等はＲＯＭ１８２０に記憶されており、ランダムアクセスメモリ（ＲＡＭ）１８３０に一時記憶され、ＣＰＵ１８１０によって適宜実行される。また、入力Ｉ／Ｆ１８４０は、外部の装置（撮像装置など）から情報処理装置で処理可能な形式で入力信号として入力する。また、出力Ｉ／Ｆ１８５０は、外部装置に、該外部装置が処理可能な形式で、本願発明の情報処理装置による処理結果を出力信号として出力する。

（第１の実施形態）
第１の実施形態の情報処理装置１００００は、各学習データに対して人またはアルゴリズムがラベル付けを行った結果と、属性情報としてラベラーの信頼度や各ラベラーによるラベル付けの自信度とを対応付けておく記憶しておく。そして、着目した学習画像に対して付けられたラベルとその信頼度とに基づいて、尤もらしいラベル決定する。なお、ラベル付けを行う人またはアルゴリズムを適宜ラベラーと称する。

図１は、第１の実施形態に係るラベル付け装置１の構成例を示すブロック図である。

学習データ記憶部１００は学習データの集合を記憶する（複数記憶）。学習データは例えば画像であり、各画像にはラベル付けの対象となる被写体が写っている。被写体は、例えば、人間、犬、猫、車、建物等である。学習データは識別器を作成することに用いられる。例えば、学習データが被写体として人物や犬、猫等が映った画像であり、ラベルとしてその被写体を表す情報が正しく付けられれば、その学習データを用いて機械学習を行うことで、被写体が未知の画像データの被写体を識別する識別器を生成することができる。本実施形態では、学習データを画像を例として説明するので、学習画像と称する場合がある。

ラベル・属性情報記憶部１０１は、各学習データに対してラベラーによってラベル付けがされた結果とそれらに付随する属性情報の集合を記憶する。ラベル付けを行った結果とは、機械学習の教師信号として用いるものであり、例えば猫の画像に対してラベラーが付ける「猫」というラベルのことである。一方、属性情報には、付与されたラベルに対応するラベル属性情報と、ラベルを付与したラベラーに対応するラベラー属性情報と、学習データの属性としてデータ属性情報とが含まれる。ラベル属性情報は、ラベラーを示すＩＤやラベラーがラベル付けを行った日時、ラベラーが正しくラベル付けを行えた度合いを表す自信度である。ラベラーが人の場合、人が画像ファイル中の被写体が例えば猫であると確信した時には自信度として高い値を付け、被写体が猫か犬か迷った時には自信度として低い値を付ける。自信度の値は例えば、０〜１の間の実数とするが、これには限られない。ラベラーがアルゴリズム（識別器）の場合、例えば画像ファイルに対して猫識別器を用いて被写体が猫であるかどうかを判定する際に、猫らしさを表す尤度を自信度として用いれば良い。

ラベラー属性情報とは、ラベラーに対する信頼度である。信頼度とはラベラーが付与したラベルが正しいと考えられる期待値である。例えば、どの画像ファイルにもいつも正しいラベル付けを行っているラベラーの信頼度は高く、逆に、誤ったラベル付けの割合が多いラベラーの信頼度は低くなる。データ属性情報とは、学習データに固有の情報であり、例えば、画像データを撮影した日時や、撮影パラメータ、後に説明するラベル付け方法、決定ラベル、確定度等である。

ラベル属性情報管理部１１０は、学習データ１００とラベル・属性情報１０１の対応関係を管理して記憶する。データはテーブルとして図示しないメモリに記憶される。図２に、管理されるデータ、ラベル、属性情報の対応関係の例を示す。学習データ群の各学習データに対して、各データに対応するデータ属性情報と、複数のラベルを対応付ける。データ属性情報の例としては、データを取得した日時や撮影したカメラのパラメータ情報、ラベル付け方法の種類などである。ラベルの例としては、学習データ１の画像ファイルに対して、ラベル１ａとして「猫」、ラベル１ｂとして「犬」、ラベル１ｃとして「猫」といったラベルが複数対応づけられる。また各ラベルには上述したラベル属性情報が対応して付与される。ラベルを複数対応付けることによって、後述する方法で多数決のようにしてラベルを決定する。その結果、偶発的なラベル誤りや、悪意のあるラベラーによるラベル誤りの影響を減らすことができる。ラベル属性情報管理部１１０は、学習データに付与されるラベルとその属性情報を受け取る度に、このような形式で学習データ１００とラベル・属性情報１０１を対応付けていく。

リクエスト受信部１１１は、外部から学習データに対応するラベルを参照したいという要求を受け付けると、ラベル属性情報管理部１１０に問い合わせを行う。そして、指定された学習データ（着目学習データ）に対応するラベルと属性情報をラベル決定部１１２に受け渡す。指定される学習データは１つずつであっても、複数まとめてであってもよい。

ラベル決定部１１２は、ラベル属性情報管理部１１０から受け取った学習データに対応するラベルと属性情報に基づいて、尤もらしいラベルを求める。以下ではラベルを決定する方法について詳しく説明する。

まず、リクエスト受信部１１１が受け付けた学習データに対応するラベルが一つも存在しない場合には、ラベルが不明である旨を返す。または、予め候補となるラベル候補が分かっていれば、ランダムにラベル候補の中から選んで返してもよい。指定された学習データに対応するラベルが複数存在する場合には、それらのラベル候補の中からスコアリングによって決定ラベルを選び出す。学習データに対してｎ個のラベルが存在し、ｉ番目（ｉ＝１、…、ｎ）のラベルをＬ（ｉ）とする。また、Ｌ（ｉ）の中で互いに異なるラベルはＩ＿１、…、Ｉ＿ｍのｍ種類であるとすると、ｍ個のラベル候補の中からスコアが最大となるラベル候補を決定ラベルとして返せばよい。スコアリングの計算方法（評価）について説明する。ラベル付けに対する自信度をＣ（ｉ）、対応するラベラーをＡ（ｉ）とし、ラベラーの信頼度はＲ（Ａ（ｉ））で表すものとする。各ラベル候補のスコアＳ（ｊ）（ｊ＝１、…、ｍ）は次式で計算（導出）される。

ここで、ｆ（ｘ）はｘに対して単調増加となる関数であり、例として図３のように様々なｆ（ｘ）を取りうる。ｆを調整することによって、ラベラーの信頼度が一定値以下のラベルにはスコアを与えないことや、ラベル付けに対する自信度が極めて高いラベルに大きく依存させる等の条件を変えることができる。例えばｆ＿１（ｘ）＝ｆ＿２（ｘ）＝ｘである。そして、各ラベル候補Ｉ＿ｊに対してスコアＳ（ｊ）を求め、Ｓ（ｊ）が最大値となる時のラベルＩ＿ｊを決定ラベルとすればよい。このようにＳ（ｊ）の最大値を選ぶことによって、より信頼度の高いラベラーやより高い自信度のラベルやより多くの同じラベルを得たものが決定ラベルに選ばれる。よって、自信度が低く誤ったラベルである可能性が高いラベルの影響を減らしたり、悪意のあるラベラーが誤ったラベルを付与したとしても悪意のあるラベラーの信頼度は低くなるため、ラベルの決定に及ぼす悪い影響を減らしたりすることができる。また式（１）では自信度Ｃ（ｉ）と信頼度Ｒ（Ａ（ｉ））を属性情報から得られるものとして説明したが、自信度の付け方については、本実施形態で先に述べた方法を用いればよい。また、信頼度の評価（信頼度導出）については、例えば過去に決定されたラベルと同じラベルを付けていたかの割合をラベラーごとに算出しその値を信頼度としてもよい。また、予め正しいラベルがわかっている複数のデータに対してラベラーにラベルを付けさせその正解率を信頼度としてもよい。また、自信度と信頼度のどちらか一方または両方を一定値として計算してもよい。

ただし、Ｌ（ｉ）の中に異なるラベルが存在しない（ｍ＝１）場合には、スコアリングを行う必要は無く、全てのｉに対して共通のラベルＬ（ｉ）＝Ｉ＿１を決定ラベルとすればよい。

ここでは、ラベルとして何らかの名称や良し悪しなどを指定する「記号指定タイプ」のラベル付けの場合について説明したが、本実施形態の適用範囲はこれに限るものではない。例えば、画像内に写っている被写体の中で、顔領域をバウンディングボックスで囲むラベル付けや、画像内に写っている道路領域を塗りつぶすラベル付けのような、「領域指定タイプ」のラベル付けの場合にも適用可能である。具体的には以下の方法でラベルを決定することができる。

領域指定タイプのラベル付けの場合は、ある学習データ画像について、ピクセルごとに独立した学習データ（ピクセル学習データ）としてＴｒｕｅまたはＦａｌｓｅ（ピクセルラベル）を指定する。例えば、画像内における人物領域の検出を行う場合には、人物が写っている領域のピクセルをＴｒｕｅ、それ以外の領域をＦａｌｓｅと指定するラベル付けが考えられる。領域を指定する方法としては、例えば、画像上で対象とする人物を囲うような長方形領域を指定するバウンディングボックスや、対象とする人物領域の画素を塗りつぶす方法がある。このような方法でラベル付けされた学習データ画像群から、ラベルを決定する際には、ピクセルごとに式（１）によってピクセルラベルを決定する。図４に領域指定タイプのラベル決定の例を示す。図４の１０〜１７はラベル付けをした結果であり、画像において特定の領域を塗りつぶしている。これら複数のラベルに対して各ピクセルでピクセルラベルを決定する。例えば左から３列目上から２段目のピクセルに注目すると、塗りつぶされているピクセル（黒）は図４の１０、１１、１２、１４、１５、１６、１７の７つ、塗りつぶされていないピクセル（白）は図４の１３の１つである。式１において、簡単のために自信度と信頼度はラベルによらず１．０、ｆ＿１＝ｆ＿２＝ｘとすると、Ｓ（黒）＝７、Ｓ（白）＝１であるから、このピクセルラベルは黒に決めることができる。これを各ピクセルについて行えば図４の１８に示すような結果が得られ、これをこの画像における決定ラベルとして扱えばよい。

バウンディングボックスで囲むような領域指定の場合には、図５の２０に示すように、バウンディングボックス内部を表す決定したピクセルラベルが長方形状にならない場合もある。その場合には、図５の２１に示すように、長方形の枠で近似してバウンディングボックスを設定すればよい。

また、ラベルとして対象とする物体の画像あるいは三次元空間内における座標値や姿勢を表す行列やベクトルなどの数値配列を指定するような、「数値指定タイプ」のラベル付けも考えられる。数値指定タイプのラベルの場合、式（１）のＳ（ｊ）を各ラベルにおける重みとして重み付き平均値としてラベルの数値を決定することができる。ただし、重み付き平均に限るものではなく、例えば、外れ値を考慮して公知技術であるＭ推定などのロバスト推定を行ったり、何かモデルを仮定して公知技術であるＲＡＮＳＡＣによって値を決定したりしてもよい。

次に本実施形態の情報処理装置１００００による処理の手順について図６、７を参照しながら説明する。大きな処理の流れとしては、学習データにラベル付けを行う処理を行い、その後で学習データに対応するラベルを決定する処理が行われる。ただし、ラベルを決定した後にラベル付けを行う処理に戻ってもよい。

まず、学習データにラベル付けを行う処理について説明する。図６はラベル付けを行う処理を示すフローチャートである。ステップＳ１００１において、ラベル属性情報管理部１１０が、学習データ１００に対してラベラーがラベルと属性情報をつけた結果を取得すしラベル・属性情報記憶部１０１に記憶する。属性情報はラベラーが直接入力してもよいし、ラベル属性情報におけるラベル付けを行った日時やラベラーのＩＤなどはラベル付けを行う情報処理装置から自動的に抽出してもよい。

次にステップＳ１００２において、ラベル属性情報管理部１１０が、上述した図２のような形式で、学習データ１００にラベル・属性情報１０１を対応付けて管理する。ステップＳ１００１およびＳ１００２において一度にラベル付けを行う単位は、学習データの数やラベルの数に依存せず、一つのラベルごとにラベル属性情報管理部１１０が対応付けを行ってもよい。また、複数の学習データに渡って複数のラベルをまとめて対応付けてもよい。

次にステップＳ１００３において、ラベル付けが完了したかどうかを確認し、完了していればラベルを決定する処理を行える状態となる。ラベル付けが完了していない場合には、ステップＳ１００１に戻る。また、ラベル付けを完了したかどうかの判断基準は、ラベルを決定するのに十分なラベルが付与されているかどうかで決める。例えば、各学習データに対してラベル付けがｘ個以上（所定数以上）行われたら完了などとしてもよい。ただし、これに限るものではなく、後述の第３の実施形態で述べる確定度が閾値を越えたら完了としてもよい。

これらの各機能部は、ＣＰＵ１８１０が、ＲＯＭ１８２０に格納されたプログラムをＲＡＭ１８３０に展開し、後述する各フローチャートに従った処理を実行することで実現されている。また例えば、ＣＰＵ１８１０を用いたソフトウェア処理の代替としてハードウェアを構成する場合には、ここで説明する各機能部の処理に対応させた演算部や回路を構成すればよい。

図７は本実施形態にかかる情報処理装置１００００による処理フローを示すフローチャートである。ステップＳ１１０１において、リクエスト受信部１１１がユーザやシステムからリクエストを受信する。リクエストの内容の例としては、「ある学習データに対するラベルを返せ」等である。リクエストを受け取ると、リクエスト受信部１１１はラベル属性情報管理部１１０に対して指定された学習データのＩＤを送ってラベルを要求する。この時リクエストされる学習データは一つに限らず、複数であってもよく、その場合はラベル属性情報管理部１１０に送る学習データのＩＤも対応して複数となる。

次にステップＳ１１０２において、ラベル属性情報管理部１１０はリクエスト受信部１１１から受け取った学習データＩＤに対応するラベルと属性情報を決定して、ラベル決定部１１２に渡す。

次にステップＳ１１０３において、ラベル決定部１１２が式（１）に基づいてラベル候補のスコアリングを行ってラベルを決定する。

そしてステップＳ１１０４において、ラベル決定部１１２はリクエストを出したユーザやシステムに決定したラベルを返す。

本実施形態は、上記説明した図７の順序で処理を行うことに限られない。例えば、リクエストを受ける前に、予め学習データに対して、ラベル属性情報管理部１１０が対応するラベルと属性情報をラベル決定部１１２に渡してラベルを決定しておき、その決定したラベルをデータ属性情報に格納しておくこともできる。その場合は、ステップＳ１１０１でリクエスト受信部１１１がラベルを要求すると、ラベル属性情報管理部１１０はデータ属性情報に保持された決定ラベルをラベル決定部１１２に渡す。そして、そのままラベル決定部１１２では計算処理を行わずに、リクエストを出したユーザやシステムに決定ラベルを受け渡してもよい。

本位実施形態によれば、ラベル属性情報管理部が各学習データに対して複数のラベルと各種属性情報を管理して、ラベル決定部によってそれらの情報からラベルを適切に決めるようにしている。これによって、たとえ一部にラベルの誤りが含まれていたとしても、その影響を抑えて正しいラベルを決定することができる。

（第１の実施形態の変形例１）
ラベル付けの自信度とラベラーの信頼度を考慮して図４の１８に示す結果を得る。より詳しい方法を以下に示す。

図４の１０〜１７において左から２列目上から５段目のピクセルを例として説明する。図４の１０、１１、・・・、１７をｉ＝１、２、・・・８番目に対応させると、Ｌ（２）＝Ｌ（６）＝黒、Ｌ（１）＝Ｌ（３）＝Ｌ（４）＝Ｌ（５）＝Ｌ（７）＝Ｌ（８）＝白である。ただし、ラベルは黒と白２種類あるものとして、Ｉ＿１＝黒、Ｉ＿２＝白とした。ここでラベラーが各画像に対して付けたピクセルラベルの自信度がＣ（１）＝０．８、Ｃ（２）＝０．４、Ｃ（３）＝０．６、Ｃ（４）＝０．８、Ｃ（５）＝０．９、Ｃ（６）＝０．８、Ｃ（７）＝０．２、Ｃ（８）＝０．５であるとする。さらに、各ラベラーの信頼度がＲ（Ａ（１））＝０．９、Ｒ（Ａ（２））＝０．５、Ｒ（Ａ（３））＝０．６、Ｒ（Ａ（４））＝０．７、Ｒ（Ａ（５））＝０．８、Ｒ（Ａ（６））＝０．２、Ｒ（Ａ（７））＝０．４、Ｒ（Ａ（８））＝０．４とする。また、ｆ＿１（ｘ）＝ｘ、ｆ＿２（ｘ）＝０（ｘ＜０．３のとき）、ｆ＿２（ｘ）＝２（ｘ−０．３）（ｘ＞＝０．３のとき）とする。このとき、式（１）に従って計算すると、黒ラベルのスコアＳ（１）＝０．１６、白ラベルのスコアＳ（２）＝３．０となり、Ｓ（１）＜Ｓ（２）であるため、決定ラベルはＩ＿２＝白に決めればよい。このピクセルに関しては、ラベラーＡ（１）、Ａ（３）、Ａ（４）、Ａ（５）、Ａ（７）、Ａ（８）が正しくラベル付けを行えており、ラベラーＡ（２）、Ａ（６）はラベル付けを誤ったと見なすことができる。このような結果を踏まえて、ラベラーの信頼度を計算し直す方法については後述する。

上記では式（１）を用いて、ラベル付けの自信度とラベラーの信頼度の両方に基づいてラベルを決定する方法について説明したが、これに限るものではない。例えば、ラベル付けの自信度だけに基づいてラベルを決定する場合には、式（１）においてｆ＿２（ｘ）＝１として考えればよい。このとき、上記の図４における左から２列目上から５段目のピクセルにおける例を用いれば、Ｓ（１）＝１．２、Ｓ（２）＝３．８より決定ラベルは白となる。また、ラベラーの信頼度だけに基づいてラベルを決定する場合には、式（１）においてｆ＿１（ｘ）＝１として考えればよい。このとき、上記の図４における左から２列目上から５段目のピクセルにおける例を用いれば、Ｓ（１）＝０．４、Ｓ（２）＝４．０より決定ラベルは白となる。また、ラベル付けの自信度やラベラーの信頼度に依らず、多数決によってラベルを決定する場合には、ｆ＿１（ｘ）＝１、ｆ＿２（ｘ）＝１として考えればよい。その場合は同様にしてＳ（１）＝２、Ｓ（２）＝６となり決定ラベルは白となる。このようにして、全てのピクセルに対してラベルを決定すれば、決定ラベルとして図４の１８を得ることができる。

決定ラベルが得られたら、今度はこの結果に基づいて、ラベラーの信頼度を計算し直す。決定ラベル（図４の１８）に対して、各ラベラーが付けたラベル付け結果（図４の１０から１７）との相関を取り、相関が高い場合はラベラーの信頼度を高く、相関が低い場合はラベラーの信頼度を低くする。信頼度の増減方法について特に限定はしないが、相関度合に基づいて、相関が高いほど信頼度の増加量を多くする。例えば、図４の１０と１２は全４８ピクセルのうち４７ピクセルが正しくラベル付けされているため、これらのラベルを付けたラベラーの信頼度を高くする。一方で、図４の１７は全４８ピクセルのうち４３ピクセルしか正しくラベル付けされていない。そのため、このラベルを付けたラベラーの信頼度を低くする、または、信頼度を高くするが、信頼度の増加量は図４の１０と１２をラベル付けしたラベラーのよりも少なくする。ただし、全ピクセルのうちの正しくラベル付けされた割合に限るものではない。例えば、黒く領域を指定したうちの正しくラベル付けされた数（Ｔｒｕｅｐｏｓｉｔｉｖｅ）が多いほど正しいことを指標として信頼度を計算してもよい。また、黒く領域指定したうちの誤ってラベル付けされてしまった数（Ｆａｌｓｅｐｏｓｉｔｉｖｅ）が少ないほど正しいことを指標として信頼度を計算してもよい。また、黒く領域指定されるべきなのに誤ってラベル付けし忘れている数（Ｆａｌｓｅｎｅｇａｔｉｖｅ）が少ないほど正しいことを指標として信頼度を計算してもよい。また、黒く領域指定していない領域のうち正しくラベル付けされた（白いまま）の数（Ｔｒｕｅｎｅｇａｔｉｖｅ）が多いほど正しいことを指標として信頼度を計算してもよい。または、上記指標の例を組み合わせて演算したもので信頼度を計算してもよい。

（第１の実施形態の変形例２）
第１の実施形態ではラベルとしてデータの属性情報、あるいは画像の領域を用いる説明を行った。ただし、ラベルはこれらに限定されるものではなく、画像の中に存在する対象物体をロボットにより吸着・把持するための位置や位置姿勢情報であってもよい。このとき、対象物体は画像中に１つとは限らない。位置や位置姿勢情報は画像に対して１つの場合もあるし、複数の場合もある。

まず、位置をラベル付けする場合について説明する。位置のラベル付けでは、ラベルは二値であり、位置を表す場合をＴｒｕｅ、そうではない場合をＦａｌｓｅとして、各ピクセルに対してＴｒｕｅ、またはＦａｌｓｅがラベルとして割り振られる。ただし、位置として何も指定しない場合には自動的にＦａｌｓｅのラベルが振られるものとして、位置に対応するＴｒｕｅだけを指定してもよい。位置を指定する方法としては、画像の座標を点や領域として指定する、または吸着や把持に対応させたオブジェクトを画像中で指定する方法がある。図１９に吸着や把持に対応させたマスクオブジェクトによって位置を指定する例を示す。ここでは、マスクオブジェクトは画像中の領域をある形状で領域指定するために用いるものであるとする。図１９の５０は画像中で吸着できる領域を指定するためのマスクオブジェクトであり、吸着する時に用いる吸着パッドが対象物体と接触する時の接触領域をかたどった形状をしている。図１９の５１はロボットが平行グリッパを用いて対象物体を把持する時に平行グリッパの二つの指を挿入する時の領域をかたどった形状をしている。

点で指定する場合、点は画像の座標系においてピクセル、またはサブピクセル単位で位置を指定する。複数のラベラーによってラベル付けを点で指定されると、指定された点を中心として半径ｒの円の内部を指定された領域と定義する。円で領域指定されると、第１の実施形態において図４を用いて説明した領域指定タイプのラベル決定方法を用いて、ラベルを決定することができる。

マスクオブジェクトで指定する場合、図１９の５０、５１で黒く塗りつぶした領域で領域指定したものとして考えることで、同様にして領域指定タイプのラベル決定方法でラベルを決定することができる。ただし、マスクオブジェクトで指定する時、図１９の５０，５１で黒く塗りつぶした領域だけを領域指定したものとして見なす方法に限るものではない。例えば、マスクオブジェクトの黒く塗りつぶされた領域に対して、さらに厚みを持たせたより広範囲の領域を領域指定したものと見なしてもよい。図１９の５２に平行グリッパのマスクオブジェクト（図１９の５１）を用いて、画像中の円筒の形をした対象物体を把持するための位置を指定した例を示す。このようにして、複数のラベラーが画像中の領域をマスクオブジェクトで指定してラベル付けを行い、それらの結果から、領域指定タイプのラベル決定により、決定ラベルを領域として取得することができる。ただし、こうして得られた決定ラベルの領域は、必ずしもマスクオブジェクトと同じ形状をしていない。図１９の５３に決定ラベルの領域がマスクオブジェクトと異なる形状をしている場合の例を示す。決定ラベル領域がマスクマスクオブジェクトと異なる形状をしている場合には、決定ラベルの領域に対して、マスクオブジェクトを使ってフィッティングを行い、尤もらしいマスクオブジェクトの位置を求める。図１９の５４にマスクオブジェクトを使ってフィッティングを行った結果の例を示す。

次に、位置姿勢をラベル付けする場合について説明する。位置に加えて姿勢も含めたラベル付けを行う場合には、ラベラーは位置として画像中の座標を指定するだけでなく、さらに姿勢を表すベクトルを指定する必要がある。ベクトルは指定した位置の各ピクセルに対して１つずつ異なるベクトルを定義してもよいし、指定した位置の領域に対応する複数のピクセルに対して１つずつベクトルを定義してもよい。ベクトルの指定方法としては、画像中で矢印の向きを指定してもよいし、ベクトルを数値列として表してもよい。いずれの場合も、姿勢を表す数値データに変換する。位置姿勢のラベル付けでは、位置として指定した領域に対して、ラベルは姿勢を表す数値データの範囲ごとに複数の異なるラベルを割り振る。また、位置として指定されていない領域には数値データは存在しないが、そのような領域には何もないラベルとしてＦａｌｓｅを割り振ればよい。数値データの範囲の決め方としては、事前に定めておいてもよいし、ラベル付けが行われた後に、数値データの分布からクラス分けによって範囲を決めてもよい。こうして位置に対応する領域と、姿勢を表す数値データをさらにラベルに変換することで、式１を用いて領域指定タイプのラベル決定方法と同様にして、ラベルを決めることができる。決定ラベルは位置を表す領域と、姿勢を表すラベルとして得られるため、ラベルを再び姿勢を表す数値データに変換する。このラベルは、注目する位置において決定ラベルと同じラベルを設定した複数のラベラーそれぞれに対応する数値データが入っている。そのため、それらの数値データの平均値や中央値など、このラベルを代表する数値データを計算して姿勢を表す数値データとすればよい。

このようにして、位置や位置姿勢をラベル付けすることによって、例えば画像の中に存在する対象物体をロボットにより吸着・把持するための学習データのラベル付けにも、本実施形態を適用することができる。

（第２の実施形態）
本発明の第２の実施形態にかかる情報処理装置２００００は、ラベラーがユーザである場合に、ユーザがラベル付けを行う際に、他のユーザによって付与されたラベルそのものや、現在自分が付与しようとしているラベルとの類似度を提示する。これにより、ラベル付けを行うユーザが効率良くラベル付けを行えるようにする。すなわち、第２の実施形態では、ある学習データにすでに他のユーザに付与されたラベルが存在している時、それをラベルや属性情報によって比較して見比べて、ラベル付けを行いやすくする。

図８は第２の実施形態に係るラベル付け装置２の構成を示す機能ブロック図である。第２の実施形態にかかるラベル付け装置２の構成は、図１に示した第１の実施形態における構成例と共通する部分があるため、差異があるリクエスト受信部２１１、ラベル比較部１１３と表示制御部１１４について説明する。また、第２の実施形態にかかる情報処理装置は、表示装置３０に有線、または無線を介して接続されている。表示装置としては、表示形式はなんでもよいが、本実施形態としてはタッチパネル式ディスプレイを用いるものとして説明する。しかしながら、有機ＥＬディスプレイ、ＣＲＴディスプレイなどでもよいし、また、壁などに投影することによって表示するプロジェクタを表示装置として用いてよい。また、表示装置への入力としてタッチパネル形式ではなく、キーボード、マウスを用いてもよい。

リクエスト受信部２１１は、第１の実施形態における機能に加えて、ユーザから参照したいラベルに関する要求を受け取り、ラベル属性情報管理部１１０に送る。ラベル属性情報管理部１１０はリクエスト受信部２１１の命令を受けてラベルや属性情報などの情報をラベル比較部１１３および表示部１１４に送出する。ラベル比較部１１３はラベル属性情報管理部１１０から関連する２組のラベルを受け取り、ラベル間の類似度を計算し、ラベル類似度を表示部１１４に渡す。表示部１１４はラベル属性情報管理部１１０からラベルや属性情報を、ラベル比較部１１３からラベル類似度を受け取り、それらを基にして例えば表示装置３０に表示を行う。

リクエスト受信部２１１がユーザから受け取るユーザ要求として、例えば、「ある学習データに対して各ラベラーが付けたラベルを参照したい」という要求の場合、ラベル属性情報管理部１１０は指定された学習データ内でのラベルを抽出する。そして、抽出したラベルを表示制御部１１４に送る。表示制御部１１４において表示装置３０に表示される際の表示の詳細な説明については後述する。

ラベル比較部１１３は、二つのラベル間（ラベルＡとラベルＢ）の類似度を計算する。まず、記号指定タイプのラベル付けにおける類似度の計算について説明する。ラベルＡが「猫」でラベルＢも「猫」のとき、ラベルＡとラベルＢは同一なので類似度は１．０である。ラベルＡが「猫」でラベルＢが「犬」のとき、ラベルＡとラベルＢは異なるので類似度は０となる。また、例えば、画像中に写る物体を列挙するような複数個のラベルを付ける場合、類似度は（ラベルＡとラベルＢに共通のラベルの個数）／（ラベルＡとラベルＢのいずれかに含まれるラベルの個数）として求める。例えば、ラベルＡが「犬、猫、猿」、ラベルＢが「犬、猫、馬、牛」であれば、類似度は（犬、猫：２）／（犬、猫、猿、馬、牛：５）＝０．４である。ただし、類似度の計算方法は上記で述べた式に限るものではなく、２つのラベル間で、ラベルが似ているほど高く、異なっているほど低い値になるものであればよい。例えば、ラベルＡをユーザが編集中のラベル、ラベルＢを他のラベラーが付けたラベルとして、ラベル比較部１１３で類似度や一致度を計算する。そして、後述するＵＩで参照することによって、ユーザは編集中のラベルが尤もらしいかどうかを検討しながらラベル付けを行うことができる。

また、ラベル比較部１１３は類似度だけでなく、ラベルの一致度を計算して求めることができる。一致度とは、自分が付けたラベルが、他のラベラーが付けた複数のラベルに対してどの程度一致しているかを示す指標である。具体的には、ある学習データに対して、（自分が付けたラベルと他のラベラーが付けた各ラベルとの類似度の総和）／（他のラベラーが付けたラベルの数）によって一致度を求めることができる。ある学習データに対するラベル群の選び方としては、例えば、そのデータに紐づけられた全てのラベルとする。ただし、これに限るものでは無く、信頼度の低いラベラーのラベルや、自信度の低いラベルを除いたラベル群を用いてもよいし、ユーザが任意に選んだラベル群でもよい。また、一致度は類似度と同様、表示部１１４で参照することができる。一致度を求めて参照することで、ミスや誤作動によるラベル付けの誤りを減らすことができる。

一方で、領域指定タイプのラベル付けにおける類似度の計算は、ピクセルごとにピクセルラベルが同一であるか異なるかに基づいて画素数に対する割合から求める。ｗはある画素がバウンディングボックス内部である、または塗りつぶされていることを示し、ｂはバウンディングボックス外または塗りつぶされていないことを示すとする。指定された学習データ画像において、ラベルＡでｗ、ラベルＢでｂの画素数をＮｗｂと表すものとし、同様にＮｗｗ、Ｎｂｂ、Ｎｂｗを定義する。この時、ラベルＡとラベルＢの類似度Ｒｅは以下の式で表される。

ここで、画像内に占めるバウンディングボックス内部の領域が狭い場合、または、塗りつぶした領域が少ない場合には、Ｎｗｗが他の変数に比べて圧倒的に大きくなるため、類似度Ｒｅが１．０に近い値で微小な違いしか得られない。そのような場合には、式（２）においてＮｗｗの値を小さな値で上書き（例えばＮｗｗ＝０）して類似度Ｒｅを計算することで、狭い領域であっても領域を指定したことに重みをつけて類似度を求めることができる。

また、数値指定タイプのラベル付けにおける類似度の計算は、ラベルＡとラベルＢの数値の差ｄを求め、ｄが０の時に１．０、ｄが大きくなると０．０に近付くような、図３のｆとは逆の単調減少の関数ｇを考え、ｇ（ｄ）によって類似度を定義すればよい。ただし、ここではラベルＡとラベルＢの数値の差としてｄを定義したが、これに限るものではなく、例えばラベルＡとラベルＢがベクトルや行列の場合には、ｄはＬ１ノルムやＬ２ノルムを用いてもよい。

領域指定タイプおよび数値指定タイプにおける一致度の計算方法については、それぞれ類似度を求めた後は、記号指定タイプで説明した方法と同様に一致度を求めることができるため省略する。

表示制御部１１４は、ラベル属性情報管理部１１０やラベル比較部１１３から必要な情報を受け取り、表示装置３０であるタッチパネル式ディスプレイに表示を行う。図９を参照しながら表示装置３０の外観およびその機能について説明する。図９は、記号指定タイプのラベル編集のための表示例である。

表示装置３０はタッチパネル式ディスプレイ、３１はタッチパネル液晶、３２はラベル付け対象の画像データ、３３は対象画像データのラベル入力部、３４は対象画像データのラベルリスト、３５はサムネイル画像データの表示領域である。また、３６は表示条件設定部、３７は類似度表示部、３８はラベル付け種類切替ボタン、３９は一時保存ボタン、４０は画像切替ボタンである。また更に、４１は戻る・進むボタン、４２はラベル転写ボタン、４３は確定ボタン、４４はラベル決定ボタン、４５はラベル比較ボタンである。

表示装置３０は、表示制御部１１４によって指示があった内容を表示する機能やリクエスト受信部が受信するリクエストを受け付ける機能を備えている。ラベル属性情報管理部１１０、ラベル決定部１１２、ラベル比較部１１３の機能も合わせて備えていてもよいし、それらは外部の情報処理装置にその機能を備え、通信手段によって情報をやり取りしてもよい。

タッチパネル液晶３１は画像やボタンなどの表示を行う。ここではタッチパネル液晶として説明するが、タッチパネルではないディスプレイでもよく、その場合はボタンの操作などは例えばマウスなどを使って行ってもよい。

ラベル付け対象の画像データ３２は、現在ユーザがラベル付けを行う対象となっている画像を表示する。表示される画像はユーザの操作によって任意の領域を拡大縮小することができる。

対象画像データのラベル入力部３３は、ラベル付け対象画像データ３２に表示されている画像に関するラベルを編集する領域である。ラベルはキーボードなどを用いて直接文字入力を行ってもよいし、ラベルとして選ぶ候補が決まっている場合にはボタンやリストによって選択できるようにしてもよい。また、ユーザ自身が既にラベル付けを行ったことのある画像データに対してラベル付けを行う際には、自身が過去に付けたラベルをラベル入力部３３に表示させることができる。

対象画像データのラベルリスト３４は、既に自身あるいは他のラベラーによって対象画像に付けられたラベルのリストを表示する領域である。ユーザはラベルリスト３４を参考にしながら、対象画像のラベルを考えることができる。また決定ラベルが求められている場合には、決定ラベルもこのリストの中に含まれる。

サムネイル画像データの表示領域３５は、学習データ画像のサムネイルが表示される。図９では４枚のサムネイル画像が表示されている例を示しているが、これに限るものではなく、表示を変更することで大きな画像や小さな画像、ファイル名などに表示を切り替えることができる。また、サムネイル画像データの表示領域３５はスクロール可能となっており、例えば表示領域をタッチして左右にスライドすることによって他の画像を閲覧することができる。また、サムネイルにはラベル付けされた数または決定ラベルがデータ属性情報に登録されているかどうかを表示することができ、ユーザはそれらの情報から次にラベル付けを行う画像を選択することができる。

表示条件設定部３６はラベルリスト３４に表示されるラベル、または、サムネイル画像データの表示領域３５に表示される画像の条件を設定する。どの条件を設定するかは表示条件設定部３６内で切替可能である。条件の例としては、前述した「ある学習データに対して各ラベラーが付けたラベルを参照したい」などが挙げられる。ラベルリスト３４の条件を設定するモードでは、ラベル属性情報やラベラー属性情報を基にして、ラベルリスト３４に反映される。例えば、ラベルの自信度０．８以上のラベルのみ表示させるという条件や、ラベラーの信頼度が降順になるようにラベルリストを並べるという条件などを設定することで、ラベルリスト３４に反映される。一方で、サムネイル画像データの表示領域３５の条件を設定するモードでは、データ属性情報やラベル属性情報を基にして、サムネイル画像データの表示領域３５に対象となるサムネイル画像を表示できる。例えば、２０１６年以降に撮影した画像のみを表示させるという条件や、ラベル付けの結果が５に満たない画像のみを表示させるという条件を設定することで、サムネイル画像データの表示領域３５に対象となるサムネイル画像を表示できる。このように、条件を設定して対応する画像データやラベル付け結果をフィルタリング・ソートしながら参照することによって、ユーザはラベル付けのルールをより具体的にイメージして、ラベル付けの精度を高めることができる。例えば、同じ画像データに対してラベラー信頼度が高い順にラベル付け結果を表示することで、尤もらしいラベルの傾向を確認し、ラベル付けの自信度を高めることができる。また、同じラベルが付けられている画像群をサムネイル表示することで、そのラベルが付けられる画像の傾向を知り、より正確なラベル付けを行うことができる。あるいは、これまでに自分が付けたラベルを参照することで、自分の中でのラベル付けルールに揺れが無いかを確認することができる。あるいは、ラベル付けルールが変更される日付以前にラベル付けされた画像群をフィルタリングして選び出すことによって、新ルールを適用できていない画像群にのみ効率良くラベルをつけ直すことができる。

類似度表示部３７はラベル入力部３３に設定したラベルとラベルリスト３４の中から選択したラベルとの類似度を表示する。類似度は、前述したラベル比較部１１３によって計算される。また、図示しない一致度切替ボタンによって、類似度表示部３７は類似度と一致度との表示を切り替えることができる。一致度は、前述したラベル比較部１１３によって計算される。

ラベル付け種類切替ボタン３８は、記号指定タイプのラベル付けと領域指定タイプのラベル付け、数値指定タイプのラベル付けといった、ユーザが定義するラベル付けの種類を切り替えるためのボタンである。ラベル付けの種類が切り替わると、対象とするべき画像データ群も変わるため、ラベル付け対象の画像データ３２やラベルリスト３４、サムネイル画像データの表示領域３５の内容などが更新される。ここではラベル付けの種類を切り替えるとして説明したが、これに限るものでは無く、画像データ群を切り替えることができ、画像データ群を指定すると、データ属性情報のラベル付け方法の種類に合わせてラベル付けの種類が更新されてもよい。

一時保存ボタン３９はラベル入力部３３の内容を一時的に保存するためのボタンである。保存を行うことで、他の画像データに切り替えて再び元の画像に戻ってきた場合でも、ラベルをもう一度保存状態から編集可能になる。ただし、一時保存ボタン３９は必ずしもボタン状である必要はなく、ラベル入力部３３が編集されると、常に自動で保存されてもよい。

画像切替ボタン４０はラベル付け対象の画像データ３２の内容を切り替える。切替はサムネイル画像データ表示領域３５に表示されたサムネイル画像を指定して行ってもよいし、指定しないでランダムに画像を切り替えてもよい。

戻る・進むボタン４１はユーザの行った操作の履歴から、戻るボタンによって前の履歴状態に戻ったり、次の履歴状態があれば進むボタンによって次の履歴状態に進んだりする。

ラベル転写ボタン４２はラベルリスト３４の中からラベルを選んで、そのラベルと同じラベルをラベル入力部３３に転写する。

確定ボタン４３はラベル入力部３３に書かれたラベルを確定してラベル・属性情報１０１に登録する。確定ボタンを押すと、ユーザのラベル付けに対する自信度を設定する画面が表示され、自信度も同時に属性情報として記録される。また、確定ボタン４３は、新たにユーザが付けたラベルと、決定ラベルとの類似度が低い場合には、ラベルに誤りが無いか確認を促すメッセージとラベル編集を行うかどうかの選択肢を表示する。もしくは、過去にユーザ自身がつけたラベルの傾向から新たに付けたラベルが大きく異なる場合には、ラベルに誤りが無いか確認を促すメッセージとラベル編集を行うかどうかの選択肢を表示する。これにより、ユーザは誤動作や勘違いでラベル誤りを登録してしまう可能性を減らすことができる。

ラベル決定ボタン４４は指定した画像データに対応するラベル群を基にして、ラベル決定部１１２を用いてラベルを決定する。ラベルが決定すると、ラベルリスト３４に決定ラベルが追加または更新される。

ラベル比較ボタン４５はラベル比較部１１３を用いて、ラベル入力部３３で編集中のラベル付け対象の画像データ３２に関するラベルと、ラベルリスト３４で指定したラベルとの比較を行い、類似度を計算する。求めた類似度は類似度表示部３７に表示される。ここではラベル比較ボタン４５として説明したが、これに限るものでは無く、ラベルリスト３４でラベルを指定するたびに自動的にラベル比較が行われて類似度が計算され、類似度表示部３７が更新されてもよい。

次に、図１０にタッチパネル式ディスプレイにおける領域指定タイプのラベル編集の表示例を示す。図１０の多くの機能は図９の同一であるため、異なる機能のみ説明を行う。

４６は比較対象のラベル付け画像データである。ラベル付け対象の画像データ３２と同じ画像において、既に付けられているラベルを選択して、画像データにラベルを重畳して表示させることができる。

ラベル付け対象の画像データ３２は、記号指定タイプの場合と同様に、現在ユーザがラベル付けを行う対象となっている画像を表示するが、この画像上で領域の指定を行ってラベルを付ける機能が追加されている。これに伴い、図９においてラベル入力部３３に対して行われていた処理はラベル付け対象の画像データ３２の機能として統合される。

サムネイル画像データの表示領域３５に表示されるサムネイル画像は、記号指定タイプの場合と同様に学習データ画像のサムネイル表示だけでない。ラベル付け対象画像データに対してラベル付けした結果を重畳した画像のサムネイルを表示させることができる。それに伴い、表示条件設定部３６では、ラベル付けした結果を重畳した画像というカテゴリを指定してさらに条件を設定することができる。

類似度表示部３７はラベル付け対象の画像データ３２に設定したラベルと比較対象のラベル付け画像データ４６のラベルとの類似度を表示する。

ラベル転写ボタン４２は比較対象のラベル付け画像データ４６に表示されているラベルをラベル付け対象の画像データ３２で編集中のラベルとして転写する。これにより、ユーザは過去のラベル付けから効率良くラベルを選択、編集してラベル付けを行うことができる。

上記では、タッチパネル液晶３１に各種ボタンが表示されているものとして説明したが、これに限るものではなく、ボタンの代わりにリストの中から処理内容を選んで実行してもよいし、キーボードによるショートカットキーに割り当ててあってもよい。

また、数値指定タイプの編集の表示例は、図９に示した記号指定タイプの例においてラベルとして文字入力など記号を選択する代わりに、数値を入力する点が異なるだけで、その他は記号指定タイプと同様であるため、説明を省略する。

次に、本実施形態の情報処理装置を用いてラベルの付与や確認を行う典型的な流れを図１１に示す。記号指定タイプ、領域指定タイプ、数値指定タイプのラベル付けいずれにおいても処理の流れはほぼ同様であるため、図１１を用いてまとめて説明する。ステップＳ２００１において、ユーザがタッチパネルディスプレイ３０を起動すると初期化処理が行われ、表示部１１４が図９または図１０に示すようなラベル付け作業を行うＵＩを表示する。初期化処理では、学習データ１００とラベル・属性情報１０１から必要なデータを読み込む処理等が含まれる。

次にステップＳ２００２において、ラベル属性情報管理部１１０は、ユーザがラベル付けを行う画像データを選択する。選択の際には、表示条件設定部３６とサムネイル画像データの表示領域３５を利用して画像を指定し、画像切替ボタン４０を押してラベル付け対象の画像データ３２に表示させる。または、画像を指定せず、画像切替ボタン４０を押すことで、ランダムに画像を表示させてもよい。

次にステップＳ２００３において、ラベル属性情報管理部はユーザがラベル付けした結果を受け取る。ユーザはラベル付けの際には、一時保存ボタン３９や戻る・進むボタン４１、ラベル転写ボタン４２などを用いてラベル付け作業を行う。

次にステップＳ２００４において、ラベル比較部は１１３、ラベルの比較および確認を行う。比較・確認にはこれまでラベル付けされた結果としてラベルリスト３４または比較対象のラベル付け画像データ４６を用いる。類似度を計算した結果が類似度表示部３７に表示されるので、それを見ながら比較対象のラベルとの違いを確認することができる。また、データのフィルタリングやソートについては、画像表示条件設定部３６やサムネイル画像を用いればよい。

次にステップＳ２００５において、ラベル属性情報管理部は、ラベル付けが完了したかどうかを確認する。まだラベル付けが完了していなければステップＳ２００３に戻る。完了していればステップＳ２００６に進む。ラベル付け完了の確認の際には、確定ボタン４３を押して、ラベル誤りの可能性が無いことの確認も行う。

次にステップＳ２００６において、ラベル属性情報管理部は、ユーザのラベル付けに対する自信度などの属性情報を追加して登録および管理する。登録の際には、ラベル属性情報管理部１１０が学習データとラベル・属性情報の対応付けを行う。

次にステップＳ２００７において、他の画像でラベル付けを続けるかどうかを決める。続ける場合はステップＳ２００２に戻る。続けない場合は終了とする。

本実施形態によれば、表示装置を用いたＵＩによって、ラベル比較部１１３によるラベルの類似度計算機能をはじめとするラベルの比較・参照・編集などの機能を用いて、ユーザは視覚的に他のラベルや画像データを確認しながらラベル付けを行うことができる。

（第３の実施形態）
第３の実施形態の情報処理装置３００００は、クラウドソーシングによって多数のラベラーにラベル付けを行ってもらい、大量のラベルから高精度にラベルを決定する。さらに、学習データの中でラベルが確定していないデータを求めることで、ラベラーに処理してもらう学習データを適切に抽出して、大量の学習データに効率良くラベルを付ける。

図１２は第３の実施形態にかかるクラウドソーシングによるラベル付け装置３の機能構成を示す機能ブロック図である。第３の実施形態における機能構成は、図８に示した第２の実施形態における構成と共通する部分があるため、差異があるクラウドソーシング１０２、確定度計算部１１５、データ抽出部１１６について詳細に説明する。

クラウドソーシング１０２は、ラベル付けを行う多数のラベラーから構成されており、ラベラーごとにデータ抽出部１１６で抽出した学習データ群に対してラベル付けを行う。そして、その結果をラベル・属性情報１０１に保存するようにラベル属性情報管理部１１０が管理する。ただし、１０２は必ずしもクラウドソーシングに限るものではなく、特定の人々を相手にしたアウトソーシングでもよいし、複数のＰＣにラベル付けを並列処理させてもよい。

確定度計算部１１５はラベル属性情報管理部１１０から各学習データについてラベル・属性情報１０１を受け取って、ラベル決定部１１２が決定するラベルが尤もらしい度合いとして確定度を計算する。計算した確定度は学習データごとにデータ属性情報として保存される。確定度が高いほどラベル決定部１１２が決定するラベルは尤もらしいため、ラベル付け作業をこれ以上行う必要が無いことを表す。確定度が低い場合には、ラベル決定部１１２が決定したラベルであっても正しくない可能性が高いことを示しており、ラベル付けをより多くのラベラーに行ってもらう必要がある。または、学習データ自体が一意にラベルを定めにくい難しいデータである可能性がある。

データ抽出部１１６は、学習データごとにデータ属性情報における確定度を基にして、クラウドソーシング１０２のラベラーにラベル付けを行ってもらう学習データを抽出する。確定度が高い学習データはラベル付けの必要性が低いため、データとして抽出されづらくし、逆に、確定度が低い学習データはラベル付けを行って確定度を上げていく必要があるため、データとして抽出されやすくする。抽出した学習データ群はクラウドソーシング１０２に受け渡して、ラベル付けを行ってもらう。

次に、確定度計算部１１５における確定度の計算方法（確定度導出）について詳細に説明する。確定度Ｆは式（１）で求めた各ラベル候補のスコアＳ（ｊ）を用いて以下の式で計算される。

ここでＷ（ｎ）はラベルの数に応じてＦの最大値を決める関数である。ｎが小さい場合はＷ（ｎ）も小さく、ｎが大きければ大きな値を与えるものとする。ただし、Ｗ（ｎ）の上限値は１．０である。このようなＷ（ｎ）を設けることによってラベルの総数が少ない（ｎが小さい）時に、Ｆが容易に高い確定度を出力しないようにしている。ただし、確定度の計算はこの式に限るものではなく、決定ラベルの比率が高いことを利用したものであればよい。例えば、式（３）の代わりに以下の式でもよい。

ここで、Ｓ［ｘ］はＳ（ｊ）（ｊ＝１、…、ｍ）を降順に並べた時のｘ番目の値のことを指す。つまりＳ［１］＝ｍａｘＳ（ｊ）であり、Ｓ［ｍ］＝ｍｉｎＳ（ｊ）である。このようにして各学習データにおいて確定度Ｆを求める。ただしｊ＞ｍの時、Ｓ［ｊ］＝０である。

次に、データ抽出部１１６におけるデータの抽出方法について説明する。抽出するデータの基本方針は次の３つである。（ｉ）確定度の低いデータを抽出する。（ｉｉ）ラベル数が増えても確定度が低いままのデータは例外とする。（ｉｉｉ）ラベラーの信頼度評価用に用いるテストデータを抽出する。それぞれの方針について説明する。

（ｉ）確定度が低いほど学習データ１００のデータ群の中から、次のラベラーにラベル付け処理を行ってもらい、より正しいラベルが選ばれやすくするためである。（ｉｉ）は学習データ自体に不備があることを示している。ある学習データに対してラベル数を増やしたとしても確定度が上がらないということは、式（３）や式（４）におけるＳ（ｊ）の分布において、複数のｊにおいてＳ（ｊ）のピークが生じていたり、Ｓ（ｊ）のピークが存在しなかったりする状態である。このような場合には、学習データ自体がラベル付け困難な画像である可能性が高く、例えば、画像内に対象物体が一部しか写っておらず、ラベルをつけようにも見分けがつかない場合が考えられる。そのような場合には、ラベル付けが困難であることを示す属性を定義して、データ属性情報に登録しておく。そうすることで、ラベル付け困難な学習データは、高精度にラベル付けを行える信頼度の高いラベラーにラベル付けを依頼するようにデータ抽出を行い、ラベル付けの誤りを減らすことができる。また、ラベル付け困難な学習データを学習データ対象から除外することで、学習データ群の品質を保ってもよい。（ｉｉｉ）はラベラーの信頼度をテストするための信頼度評価データセットである。予め真のラベルが既知のデータや、確定度が高いデータ群からなる信頼度を評価するためのデータセットを用意しておき、ラベラーがラベル付けを行うデータの中に、ラベラーに気付かれないようにこの信頼度評価データセットを一部混ぜておく。そして、ラベラーが信頼度評価データセットに対して付けたラベルを真のラベルと比較してどれだけ正しいかを評価することによって、そのラベラーの信頼度を求めることができる。クラウドソーシングを行う上で気を付けるべき点の一つに、悪意のあるユーザによる誤ったラベルの混入がある。信頼度評価データセットを用いることで、誤ったラベルを付けるラベラーの信頼度は下がるため、このような悪意のあるユーザが含まれていたとしても、その影響を低く抑えることができる。また、初期化時（ラベル付け開始時）には学習データ１００に対するラベル・属性情報１０１が全く定義されていない状態で、全ての学習データにおいて確定度が設定されておらず０である。そのため、データ抽出部１１６は全ての学習データの中から適当に分割して抽出したデータをクラウドソーシング１０２に渡せばよい。ただし、初期化時の振る舞いはこれに限るものではなく、初期化時にはラベル付けの見本となるようなデータをいくつか事前に登録しておき、それらを最初のラベル・属性情報１０１および信頼度評価データセットとして用いてデータの抽出を行ってもよい。

次に本実施形態の情報処理装置３００００の処理の手順について説明する。図１３はクラウドソーシングによるラベル付けの流れを示すフローチャートである。ステップＳ３００１において、リクエスト受信部２１１はクラウドソーシング１０２のラベラーからラベル付け作業を行いたいというリクエストを受信する。

次にステップＳ３００２において、データ抽出部１１６はラベル付けすべきデータを抽出する。抽出するデータは一つずつでもよいし、複数のデータ群をまとめて抽出してもよい。

次に、ステップＳ３００３において、抽出したデータをクラウドソーシング１０２のラベラーに渡してラベル付けを行う。ラベル付けの手順については、既に説明した図１１のフローチャートに従って行えばよい。

次に、ステップＳ３００４において、クラウドソーシング１０２からラベルと属性情報を得て、ラベル属性情報管理部１１０が学習データ１００と対応付けて管理する。この流れの詳細については、図６において説明したフローチャートに従って行えばよい。

次に、ステップＳ３００５において、各学習データにおいて確定度計算部１１５を用いて確定度を計算する。計算した確定度は学習データ１００に対して、データ属性情報として更新される。

次に、ステップＳ３００６において、ラベル決定部１１２を用いてラベルを決定する。ラベル決定の流れについては、既に説明した図７のフローチャートに従って行えばよい。

図１３のフローチャートでは図に示した順序で処理を行うものとして説明を行った。しかし、これに限るものではなく、例えば、ステップＳ３００６のラベルの決定は、ステップＳ３００５の確定度と同様に式（１）のＳ（ｊ）を用いて計算するため、確定度を計算する際に、同時にラベルの決定を行っていてもよい。また、ユースケースによっては、必ずしもラベルが確定していなくても、決定したラベルを必要とする場合もある。その場合には、確定度を用いた図１３のフローチャートとは独立に図７のフローチャートが任意のタイミングで実行されるようにしてもよい。

本実施形態によれば、ラベルが定まったかどうかを示す確定度を計算し、確定していないデータから優先的にデータを抽出することによって、ラベル付けが必要な学習データを効率良く選んでクラウドに渡すことができる。また、抽出するデータに信頼度評価データセットを混ぜることによって、クラウドソーシングにおける悪意のあるユーザによるラベル誤りの混入などの悪影響を最小限に抑えることが出来る。

（第３の実施形態の変形例）
第３の実施形態ではデータ抽出部１１６は抽出したデータをクラウドソーシング１０２に渡すものとして説明したが、データ抽出部１１６が抽出した学習データは、クラウドソーシング１０２に対してラベル付けを行うように依頼する形で受け渡してもよい。ラベル付けを依頼する際には、クラウドソーシング１０２のラベラーに対して、ラベル付けの方法がわかるように、ラベル付けを行ったデータとラベルの例とラベル付けの方針を明文化した文書のどちらか、または両方を提示する。このようにして、学習データは図示しない依頼部によってクラウドソーシング１０２に依頼がなされる。

（第４の実施形態）
第４の実施形態の情報処理装置４００００は、クラウドソーシングによって大量のラベルから誤りの少ないラベルを決定し、誤りの少ないラベルを用いて学習することで、高精度に認識を行う。

図１４は第４の実施形態にかかる情報処理装置４００００の機能構成を示す機能ブロック図である。第４の実施形態における機能構成は、図１２に示した第３の実施形態における構成例と共通する部分があるため、差異がある学習部１１７、認識部１１８について詳細に説明する。

学習部１１７は、リクエスト受信部２１１にリクエストを出すことで、ラベル決定部１１２において決定されたラベルと学習データ１００を受け取り、学習データ１００に対して対応するラベルを教師として、教師あり学習を行う。学習の方法は特に限定されず、深層学習を用いてもよいし、ランダムフォレストを用いてもよい。学習に用いるデータは確定度が閾値以上の学習データのみを用いる。こうすることで、誤りの少ないラベルで学習できるため、高精度な予測モデルを生成することができる。ただし、これに限るものでは無く、学習データすべてを用いて学習してもよい。学習を行うタイミングは学習データに対応する決定ラベルが得られる状態であれば、任意のタイミングでよい。

認識部１１８は、学習部１１７から予測モデルを受け取って、リクエスト受信部２１１からクエリデータを受け取ると、予測モデルに基づいて予測結果（出力ラベル）を返す。出力ラベルは、ラベル比較部１１３で他のラベルとの比較に用いられたり、表示部１１４で他のラベルとともに表示されたり、確定度計算部１１５で確定度を決める際に参考にしたりする。例えば、表示制御部１１４では、ラベルを編集中に出力ラベルとの比較を表示するように表示装置３０に表示させることによって、ユーザにラベルの修正を促すことができる。

次に、確定度計算部１１５における、出力ラベルが得られた場合における確定度の計算方法について説明する。確定度計算の方法については既に式（３）または式（４）のＦによって求めた。これに対し、出力ラベルが分かっている時には、さらに追加の項としてＢ（Ｉ＿ｄ、Ｉ＿ｏ）が追加される。ただしＩ＿ｄとＩ＿ｏはそれぞれ決定ラベルと出力ラベルである。また関数ＢはＩ＿ｄとＩ＿ｏが同じであれば大きな値、異なる場合には小さな値になるような類似度を表す関数である。ここでは、式（３）または式（４）にＢ（Ｉ＿ｄ、Ｉ＿ｏ）を足したものを確定度の計算とすることを述べたが、これに限るものではなく、式（３）または式（４）に掛けたものを確定度としてもよい。また、確定度計算部１１５は図１３において、確定度を計算した後で決定ラベルを求めるものとして説明した。この場合には、確定度を決める前にラベルを決定し、これを仮の決定ラベルとしておき、仮の決定ラベルと出力ラベルとが等しく確定度も高い場合には、最終的に仮の決定ラベルを決定ラベルとするようにしてもよい。

次に本実施形態の情報処理装置４００００の処理の手順について説明する。クラウドソーシングによる学習認識の流れを図１５に示す。ステップＳ４００１において、ラベル決定部１１２は、第３の実施形態と同様に図１３に示したフローでラベルを決定する。ここでは、学習データ１００のうち学習を行うデータはラベルを決定できる段階までラベル付けを完了させておく。また、条件によっては決定ラベルが付与されているだけでなく、各学習データにおける確定度が一定値以上であることも確認しておく。

次にステップＳ４００２において、学習部１１７は、学習データ１００と対応する決定ラベルを用いて教師あり学習を行い、予測モデルを推定する。

次にステップＳ４００３において、リクエスト受信部２１１は、クエリデータを受け取り、これを認識部１１８に送る。ここで、クエリデータとは、学習データ１００と同様の形式のデータであり、例えば画像ファイルである。画像ファイルは図示しない画像取得部で取得する。ステップＳ４００３は予測モデルが作成されると任意のタイミングで起こりうるイベントであり、一度Ｓ４００２で予測モデルを作成した後は、必ずしもＳ４００２の後に実行される必要はない。

次にステップＳ４００４において、認識部１１８は、クエリデータに対して、先ほど求めた予測モデルに基づいて結果を予測（認識）する。予測した結果はラベルと同様の形式をしている。例えば、記号指定タイプの場合では、クエリデータに写っている動物が「猫」である、ということを予測（認識）したり、領域指定タイプの場合では、例えば被写体の顔領域だけを塗りつぶした結果を予測したりする。また、数値指定タイプの場合では、対象物体の姿勢を表す行列や四元数を予測する。予測（認識）した結果を返すことで、認識システムとして利用してもよいし、確定度計算部１１５の計算を改善してもよい。表示制御部１１４での比較対象に用いてもよい。

また、本実施形態では、第３の実施形態の情報処理装置に学習部１１７と認識部１１８を追加した形式で学習部１１７と認識部１１８について説明した。しかし、これに限るものでは無く、第１の実施形態や第２の実施形態に対して同様に学習部１１７と認識部１１８を持たせることもできる。

本実施形態によれば、ラベル決定部が決定した誤りの少ないラベルを用いて学習を行って予測モデルを生成し、予測モデルを用いて認識を行うことによって、高精度な認識を行うことができる。さらに、認識した結果を用いて確定度を高精度に求めることで、より信頼できる決定ラベルを得たり、データ抽出の精度が向上したりする。また、表示部１１４で認識結果を表示し、編集中のラベルと比較を行うことで、ラベラーがラベル付けを行う際に誤りを減らす手助けにもなる。

（第５の実施形態）
第５の実施形態にかかる情報処理装置５００００は、ラベラーが付けたラベルと既存のラベルの比較を行い、ラベラーの信頼度を評価する機能を備える。ラベラーの評価を高精度に行うことによって、ラベル付け作業に対する報酬を適切に支払うことや、ラベラー自身のモチベーション向上や作業効率のアップにもつながる。また、誤ったラベルを付けようとする悪意のあるラベラーを特定することもできる。

図１６は第５の実施形態にかかる情報処理装置５００００の構成例を示すブロック図である。第５の実施形態における構成例は、図８に示した第２の実施形態における構成例と共通する部分が多いため、差異があるラベラー評価部１１９について説明する。なお、第５の実施形態にかかる情報処理装置は、図８に示した第２の実施形態にかかる情報処理装置と比して表示制御部１１４を備えていないが、ラベラー評価部１１９の評価結果を表示制御部１１４を介して表示装置３０に表示させるようにしてもよい。

ラベラー評価部１１９は、ラベラーが新たに付けたラベルについて、決定ラベルまたは出力ラベルとの比較を行い、新たに付けたラベルを評価する。そして、ラベラーが付けたラベル群全体の評価に基づいてラベラーの評価を行う。ラベラーの評価が成されると、ラベラーの信頼度がより精度よく求まるために、決定ラベルの誤りも減らすことができる。また、クラウドソーシング１０２において、ラベラーへの報酬を決める要素としても用いることができる。

まずラベルの評価方法について説明する。ラベラーが付けた新たなラベルが、ラベル決定部１１２で求めた決定ラベル、または認識部１１８で予測モデルを用いて求めた出力ラベルに対して、ラベル比較部１１３を用いて類似度を求めることで評価する。類似度の計算方法については、第２の実施形態で説明した通りである。評価値＝類似度などとして、類似性が高いほど高い評価となるように０〜１の範囲で評価値を定める。決定ラベルと出力ラベルは理想的には同じラベルになっていると考えられるため、どちらと類似度を求めてもよいし、両方との類似度を求めてそれらの平均値を評価値としてもよい。しかし、もし決定ラベルと出力ラベルが大きく異なっている場合には、ラベル決定部１１２における式（１）の計算において、属性情報に適切でない設定が成されている可能性や、学習部１１７における予測モデルの学習が失敗している可能性などが考えられる。そのような場合には、新たに付けたラベルに対して正確な評価ができないため、その学習データに対するラベルの評価は無効とする。

次にラベラーの評価方法について説明する。ここでは、ラベラーの報酬パラメータＲｗとラベラーの信頼度Ｒを求める。上述した方法によって、ラベラーが付けたラベルは、評価が無効なものを除けば、学習データごとに類似度に基づく上述の評価値ｖ（ｋ）（ｋ＝１、…、ｐ）が得られる。そして以下の式によってラベラーの報酬パラメータＲｗを求める。

Ｒｗ＝Σ_ｋｆ（Ｒ）＊ｖ（ｋ）（５）
ここで、ｆおよびＲは式（１）でも用いた単調増加の関数とラベラーの信頼度である。例えばｆ（Ｒ）＝１＋Ｒである。また信頼度Ｒについては後述の式（６）で求められる。ラベラーの報酬パラメータＲｗに基づいて、クラウドソーシングにおけるラベラーの報酬が決定する。学習データ１００に対してラベル付けが続けられている間は決定ラベルや予測モデル等は随時変化するため、その段階でＲｗを求めたとしても正確な値であるとは限らない。よって、学習データ１００に対して、ラベル付けが完了したと見なされたデータに対するラベルから、報酬パラメータが定義できるようになる。ただし、ラベラーの信頼度Ｒはその時点でのＲを用いるものとする。式（５）に示すようにＲｗはラベル付けが完了したデータごとに次々に加算していけばよい。次にラベラーの信頼度Ｒは以下の式で求める。

Ｒ＝Ｗ（ｐ）＊Π_ｋｖ（ｋ）（６）
ここで、Ｗ（ｐ）は式（３）におけるＷ（ｎ）と同様の関数であり、評価値の数ｐに応じてＲの最大値を決める０〜１の関数である。求めたラベラーの信頼度Ｒはラベラーの属性情報として更新される。ラベラーの信頼度Ｒが閾値未満になると、そのラベラーは誤りラベルばかりを付与する悪意のあるラベラーとして認識され、そのラベラーが付けて来たラベル情報を軽視。または削除する。また、報酬パラメータの重み係数を極端に小さくしたりするなどの対策を講じてもよい。逆にラベラーの信頼度Ｒが閾値以上の場合には、式（１）で定めたＳ（ｊ）の値が大きくなるため、ラベル決定部１１２や確定度計算部１１５で求める決定ラベルや確定度におけるそのラベラーの影響が大きくなる。

このようにして、ラベル付けされた結果からラベラーの信頼度Ｒを求めることで、ラベル誤りを付与する悪意のあるラベラーを容易に特定することができるようになる。さらに、ラベルを決定する際には、より信頼度の高いラベラーのラベルが優先されるため、ラベルの精度も向上する。また、悪意が無くとも時々に応じてラベル付けの精度が変わるラベラーに対して、信頼度Ｒが下がった時にアラートを出してもよい。こうすることで、ラベラーに対して正しいラベル付けの教育的効果や、不注意によるミスの防止などを知らせることができる。

次に、本実施形態の情報処理装置５００００による処理の手順について図１７を参照して説明する。まずステップＳ５００１において、対象のラベラーはラベル付けを行う。

次にステップＳ５００２において、対象としている学習データについてラベル付けが完了したか判定する。ラベル付けの完了判定基準としては、確定度が閾値以上であること、決定ラベルと出力ラベルの類似度が高いことのいずれかまたは両方とする。ラベル付けが完了していない場合にはステップＳ５０１１へ、ラベル付けが完了した場合にはステップＳ５００３へ進む。

次にステップ５００３において、ラベル比較部１１３が求めた類似度に基づいてラベラー評価部１１９がラベル評価値を求める。

次にステップＳ５００４において、ラベラー評価部１１９を用いて式（６）に基づいてラベラーの信頼度を求め、ラベル属性情報管理部１１０がラベラー信頼度を更新する。

次にステップＳ５００５において、ラベラー信頼度が閾値以上であるかを判定する。ラベラー信頼度が閾値未満の場合には、ステップＳ５０１２へ、閾値以上の場合には、ステップＳ５００６へ進む。

次にステップＳ５００６において、式（５）に基づいて報酬パラメータを計算する。

また、ステップＳ５０１１では、ラベル付けが完了するまで、データ抽出部１１６はデータを抽出してラベラーにラベル付けを依頼することを繰り返す。ただし、データ抽出部１１６が毎回１つずつデータを抽出する方法に限るものでは無く、データ抽出部１１６は最初にまとめてデータを抽出しておき、データがなくなるまでラベラーにラベル付けを依頼してもよい。

また、ステップＳ５０１２では、ラベラー信頼度が閾値未満の場合に、そのラベラーを悪意のあるラベラーとして認識し、そのラベラーが付けたラベルの情報を削除したり、重みを減らしたり、式（５）におけるｆ（Ｒ）を０または非常に小さな値に設定する。

本実施形態によれば、ラベル付け結果に基づいてラベラーの評価を行い、ラベラー信頼度を更新して、より信頼できる誤りの可能性の少ないラベルを求めることができる。また、ラベラー評価に基づいて、ラベラーへの報酬を定めることで、ラベラーのモチベーション向上や作業効率のアップを期待することができる。また、悪意のあるラベラーを特定することで、ラベルの決定や予測モデルの生成への悪影響を軽減することができる。

なお、上記説明した各実施形態にかかる情報処理装置の構成を適宜組み合わせて使用することができる。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

Claims

複数の学習データそれぞれに対して、学習データに対して付与されたラベルと前記ラベルに対応する属性情報とを対応付けて複数記憶する記憶手段と、
前記複数の学習データのうちの着目学習データについて、該着目学習データに対応する複数のラベルと該ラベルに対応する前記属性情報とに基づいて、前記着目学習データに対するラベルを決定するラベル決定手段とを備える情報処理装置。
更に、前記着目学習データに対して付与されている複数のラベルそれぞれに対する評価値を導出する評価手段を備え、
前記決定手段は、前記評価値に基づいて前記着目学習データに対応するラベルを決定することを特徴とする請求項１に記載の情報処理装置。
前記評価手段は、前記属性情報に基づいて前記評価値を導出することを特徴とする請求項２に記載の情報処理装置。
前記属性情報は、該属性情報に対応するラベルを付与したユーザが該ラベルが正しいとする自信の度合いを表す自信度であることを特徴とする請求項１乃至３のいずれか１項に記載の情報処理装置。
前記属性情報は、学習データのラベルを識別する識別器が前記学習データに対して付与した結果の尤度であることを特徴とする請求項１乃至４のいずれか１項に記載の情報処理装置。
更に、前記記憶手段に記憶されているラベルを表示装置に表示させる表示制御手段を備えることを特徴とする請求項１乃至３の何れか１項に記載の情報処理装置。
更に、前記記憶手段に記憶されている第１のラベルと第２のラベルとを比較するラベル比較手段を備え、
前記表示制御手段は、前記ラベル比較手段によって比較した結果を前記表示装置に表示させることを特徴とする請求項６に記載の情報処理装置。
前記ラベル比較手段は、複数のラベル間の類似度または一致度を算出し、
前記表示制御手段は、前記導出された類似度または前記一致度を表示させることを特徴とする請求項７に記載の情報処理装置。
前記表示制御手段は、前記属性情報に基づいて、前記ラベルをフィルタリングまたはソートして表示する機能を備える請求項６に記載の情報処理装置。
前記表示制御手段は、ユーザがラベル付けを行っている時に、前記表示装置にラベル付けを行っているデータに関連するラベル付きデータを比較して表示させることを備える請求項６に記載の情報処理装置。
更に、前記決定されたラベルの尤もらしさを表す確定度を前記ラベルと前記属性情報に基づいて計算するための確定度導出手段を備える請求項１に記載の情報処理装置。
更に、前記決定されたラベルを基にして予測モデルを学習するための学習手段と、
前記予測モデルを用いて認識を行う認識手段をさらに備えることを特徴とする請求項１１に記載の情報処理装置。
前記確定度導出手段は、前記認識手段で認識した結果に基づいて確定度を導出することを特徴とする請求項１２に記載の情報処理装置。
前記確定度に基づいて、学習データ群の中からラベル付けを依頼するデータ群を抽出するデータ抽出手段をさらに備える請求項１１乃至１３のいずれか１項に記載の情報処理装置。
前記データ抽出手段は、前記確定度が低いデータを優先して抽出することを特徴とする請求項１４に記載の情報処理装置。
前記データ抽出手段は、すでにラベルが付与されている学習データを所定数以上は含むように前記データ群を抽出することを特徴とする請求項１５に記載の情報処理装置。
更に、前記学習データに付与されているラベル付と前記ラベル決定手段によって決定されたラベルとの類似度を計算した結果に基づいて、前記学習データに付与されているラベル付けを評価するラベル評価手段を備えることを特徴とする請求項１乃至１６の何れか１項に記載の情報処理装置。
更に、前記ラベル評価手段によって評価されたラベルに基づいて、ラベル付けを行った人またはアルゴリズムの信頼度を導出する信頼度導出手段を備えることを特徴とする請求項１７に記載の情報処理装置。
複数の学習データそれぞれに対して、学習データに対して付与されたラベルと前記ラベルに対応する属性情報とを対応付けて複数記憶する記憶工程と、
前記複数の学習データのうちの着目学習データについて、該着目学習データに対応する複数のラベルと該ラベルに対応する前記属性情報とに基づいて、前記着目学習データに対するラベルを決定するラベル決定工程とを備える情報処理方法。
コンピュータを、請求項１乃至１８のいずれか１項に記載の情報処理装置の各手段として機能させることを特徴とするプログラム。