JP7063397B2 - 回答統合装置、回答統合方法および回答統合プログラム - Google Patents

回答統合装置、回答統合方法および回答統合プログラム Download PDF

Info

Publication number
JP7063397B2
JP7063397B2 JP2020554702A JP2020554702A JP7063397B2 JP 7063397 B2 JP7063397 B2 JP 7063397B2 JP 2020554702 A JP2020554702 A JP 2020554702A JP 2020554702 A JP2020554702 A JP 2020554702A JP 7063397 B2 JP7063397 B2 JP 7063397B2
Authority
JP
Japan
Prior art keywords
label
skill
annotator
answer
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020554702A
Other languages
English (en)
Other versions
JPWO2020090076A1 (ja
Inventor
邦紘 竹岡
昌史 小山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2020090076A1 publication Critical patent/JPWO2020090076A1/ja
Application granted granted Critical
Publication of JP7063397B2 publication Critical patent/JP7063397B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、教師データとして用いられるデータに対して付加すべきラベルについての回答を統合する回答統合装置、回答統合方法および回答統合プログラムに関する。
データ分析の需要の高まりから、大量のデータに基づく予測や分析が一般に行われている。予測や分析を行う際、収集されたデータに対するラベル付け(アノテーション)を行うことで、ラベル付けされたデータを教師データとして用いることが可能になる。
ラベルなしデータを大量に収集することは可能だが、収集されたデータへのラベル付け(すなわち、アノテーション)はコストが高い。ただし、アノテーションは、データ分析の準備として、人間(アノテータ)によって行われる必要がある。
ただし、人間がラベル付けを行った場合、一定のノイズが発生する可能性が高い。ラベル付きデータにノイズが含まれていると、学習に悪影響を与えてしまうため、品質の高い教師データの作成、および、モデルの学習に効果的な教師データの収集が必要になる。教師データの品質は、アノテータのスキルに依存する部分が多いため、アノテータのスキルを考慮した学習方法が各種提案されている。
非特許文献1には、アノテータのスキルを考慮して真のラベルを推定する方法が記載されている。非特許文献1に記載された方法では、多次元ベクトルによってアノテータのスキルやタスクの特徴をモデル化し、アノテーションの結果に関する生成モデルに基づいて同時分布を最大化するパラメータを求めることで、真のラベルを推定する。
また、非特許文献2には、より具体的な知識を獲得するために外部の知識を組み込む方法が記載されている。非特許文献2に記載された方法では、アノテータのスキルが一次元の信頼度で表され、ラベル間の構造を利用して回答が統合される。
なお、非特許文献3には、階層構造の各ノードに対応する数値(ベクトル)表現を獲得するための手法であるポアンカレ埋め込みについて記載されている。
Peter Welinder, Steve Branson, Serge Belongie, and Pietro Perona, "The Multidimensional Wisdom of Crowds", Advances in Neural Information Processing Systems 23, NIPS, 2010. Tao Han, Hailong Sun, Yangqiu Song, Yili Fang, Xudong Liu, "Incorporating External Knowledge into Crowd Intelligence for More Specific Knowledge Acquisition", IJCAI, 25th, 2016. Nickel M. et al., "Poincare Embeddings for Learning Hierarchical Representations", NIPS, 2017.
非特許文献1に記載された方法では、アノテータのスキルについて考慮される一方、付加するラベルについての考慮がなされていない。これに対し、非特許文献2に記載された方法では、ラベル間の構造を利用して回答が統合されるため、より統合する精度を向上させることは可能である。しかし、非特許文献2に記載された方法では、アノテータの信頼度およびタスクの難易度が一次元の変数のみで扱われており、アノテータのスキルやタスクの特徴が信頼度や難易度の多寡でしか測ることができない。そのため、非特許文献2に記載された方法では、アノテーションへの回答を統合する精度が十分とは言い切れない。
そこで、本発明では、教師データとして用いられるデータに対して付加すべきラベルについての回答を効率的に統合できる回答統合装置、回答統合方法および回答統合プログラムを提供することを目的とする。
本発明による回答統合装置は、アノテータの回答に基づいてラベルが付加されたデータであるアノテーション結果とラベル間の構造を示すラベル付加情報とを入力する入力部と、アノテーション結果を統合してデータのラベルを推定する回答統合部と、推定されたラベルとアノテーション結果に含まれるラベルとの差に基づいてアノテータのスキルを推定するスキル推定部と、ラベル付加情報に基づいてラベル間の構造が特定されるラベルをデータに対して付与するタスクの特徴を、推定されたアノテータのスキルに基づいて、アノテーション結果に合致するように更新する更新部と、回答統合部により推定されたラベルを出力する出力部とを備え、回答統合部が、ラベルに対するアノテータのスキルおよびタスクの特徴との近さに応じて算出される重みに基づいてラベルを推定することを特徴とする。
本発明による回答統合方法は、アノテータの回答に基づいてラベルが付加されたデータであるアノテーション結果とラベル間の構造を示すラベル付加情報とを入力し、アノテーション結果を統合してデータのラベルを推定し、推定されたラベルとアノテーション結果に含まれるラベルとの差に基づいてアノテータのスキルを推定し、ラベル付加情報に基づいてラベル間の構造が特定されるラベルをデータに対して付与するタスクの特徴を、推定されたアノテータのスキルに基づいて、アノテーション結果に合致するように更新し、推定されたラベルを出力し、アノテーション結果を統合する際、ラベルに対するアノテータのスキルおよびタスクの特徴との近さに応じて算出される重みに基づいてラベルを推定することを特徴とする。
本発明による回答統合プログラムは、コンピュータに、アノテータの回答に基づいてラベルが付加されたデータであるアノテーション結果とラベル間の構造を示すラベル付加情報とを入力する入力処理、アノテーション結果を統合してデータのラベルを推定する回答統合処理、推定されたラベルとアノテーション結果に含まれるラベルとの差に基づいてアノテータのスキルを推定するスキル推定処理、ラベル付加情報に基づいてラベル間の構造が特定されるラベルをデータに対して付与するタスクの特徴を、推定されたアノテータのスキルに基づいて、アノテーション結果に合致するように更新する更新処理、および、回答統合処理で推定されたラベルを出力する出力処理を実行させ、回答統合処理で、ラベルに対するアノテータのスキルおよびタスクの特徴との近さに応じて算出される重みに基づいてラベルを推定させることを特徴とする。
本発明によれば、アノテータのスキルやタスクの特徴が事前に不明な場合であっても、教師データとして用いられるデータに対して付加すべきラベルについての回答を効率的に統合できる。
本発明による回答統合装置の一実施形態の構成例を示すブロック図である。 ラベル付加情報の例を示す説明図である。 ラベル付加情報の他の例を示す説明図である。 アノテータのスキルを可視化した例を示す説明図である。 アノテータのスキルを可視化した他の例を示す説明図である。 回答統合装置の動作例を示すフローチャートである。 本発明による回答統合装置の概要を示すブロック図である。 少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
以下、本発明の実施形態を図面を参照して説明する。
図1は、本発明による回答統合装置の一実施形態の構成例を示すブロック図である。本実施形態の回答統合装置100は、記憶部10と、アノテーション結果入力部30と、回答統合部40と、スキル推定部50と、更新部60と、出力部70とを備えている。
記憶部10は、教師データとして用いられるデータに対して付加すべきラベルの付加情報(以下、単にラベル付加情報と記す。)を記憶する。本実施形態のラベル付加情報とは、ラベル間の構造を示す情報であり、具体的には、ラベル間の関連度合いや、近さ、類似度や、ラベルの意味を示すテキストなどである。
図2は、ラベル付加情報の例を示す説明図である。図2に示すラベル付加情報21は、ラベルの階層構造を木構造で表しており、各ノードの上位のラベルが、下位のノードの上位概念のラベルを表わしている。例えば、図2に示すラベル付加情報21は、「柴犬」は、「イヌ」に含まれ、「イヌ」は動物に含まれ、同じ「イヌ」に属する「柴犬」と「秋田犬」は、ラベル同士の結びつきが強い、などを意味している。
また、図2に例示するラベル付加情報21は、ベクトル表現によるラベル付加情報22でも表すことが可能である。図2に例示するラベル付加情報22は、ラベル付加情報21における「柴犬」と「秋田犬」をそれぞれベクトル表現で表した例を示す。図2に例示するベクトルは、パスが通るノードに1を設定したバイナリベクトルであり、最後の枝の部分22aのみ異なるため、ベクトル表現が近いことからも、ラベル同士の結びつきの強さを表わしていると言える。
なお、階層構造を表現する方法は木構造に限定されず、例えば、非特許文献3に記載されたポアンカレ埋め込みの技術を用いて階層構造を表現してもよい。このような階層構造のラベル付加情報を用いることで、重複する部分のスキル(図2に示す例では、「柴犬」に関するスキルと「イヌ」に関するスキル)を共通で使用することが可能になる。
また、図3は、ラベル付加情報の他の例を示す説明図である。図3に例示する付加情報31は、各ラベル間の類似度を行列形式で表していることを示す。例えば、「柴犬」と「秋田犬」は類似度が0.8で類似していることを示し、「柴犬」と「カモノハシ」は類似度が0.2で類似していないことを示す。このラベル付加情報によれば、「柴犬」に詳しいアノテータは、類似度の高い「秋田犬」にも詳しいが、類似度の低い「カモノハシ」については詳しいか否か不明であると想定できる。
なお、類似度(関係性)が保たれる表現であれば、図3に例示する表現に限定されず、例えば、次元圧縮(Spectral Embedding)によるベクトル表現など、任意の方法でラベル間の類似度が表されてもよい。
また、記憶部10は、各アノテータによるアノテーション結果を記憶する。ここで、アノテーション結果とは、アノテータによってラベルが付与されたデータである。このアノテーション結果に基づいて最終的な教師データの統合が行われることから、アノテーション結果のことを教師データ候補と言うこともできる。本実施形態では、このアノテーション結果がすでに得られている場合を想定する。
また、記憶部10は、アノテータのスキルを表わす情報およびタスクの特徴を表わす情報(以下、単に、アノテータのスキル、および、タスクの特徴と記す。)を記憶する。本実施形態のタスクとは、あるデータに対して付与されるラベルを問い合わせることである。特に、本実施形態では、タスクとは、ラベル付加情報に基づいてラベル間の構造が特定されるラベルをデータに対して付与することである。例えば、図2に示す例では、タスクとは、ある画像に対して「階層の末端ラベル」に示される「三毛猫かどうか(Yes/No)」を問い合わせることである。
タスクの特徴とは、あるデータに対して所定のラベルを付与することを抽象化した概念であり、具体的には、タスクの各特徴を示すベクトルで表される。特に、本実施形態では、ラベルの特徴は、ラベル付加情報を含めて表される。すなわち、同種のデータに対してラベルを付与する場合、ラベルの特徴は、ラベル付加情報が示すラベルの構造が近いほど、タスクの特徴も近くなる。例えば、図2に例示するラベル付加情報の場合、タスクの共通度合いが、ベクトル表現で表されているとも言える。
アノテータのスキルとは、あるタスクに対して付与するラベルについてのアノテータの専門性を表わす概念であり、具体的には、アノテータが付与するラベルに関するスキルを示すベクトルで表される。特に、本実施形態では、アノテータのスキルは、ラベル付加情報が示すラベルの構造が近いほど、アノテータのスキルも近いと想定する。例えば、ラベル「柴犬」とラベル「イヌ」が近い場合、「柴犬」に詳しいアノテータは、「イヌ」についても詳しいと想定される。
本実施形態では、複数のアノテータにタスクを割り当てて回答(アノテーション結果)を収集する。すなわち、本実施形態では、1つのデータに対して複数のアノテータによって回答された複数のアノテーション結果(教師データ候補)が存在する。複数のアノテータが関わっていることから、収集されたアノテーション結果にはノイズが含まれていることが想定されるため、本実施形態では、収集したアノテーション結果を統合して、各データに付与すべきラベルを決定する。
なお、複数のアノテータは、それぞれスキル(専門性)を有し、タスクもラベル付加情報に合わせた特徴を有するが、本実施形態では、アノテータのスキル(専門性)や、タスクの特徴は事前には不明であるとする。
アノテーション結果入力部30は、アノテーション結果およびラベル付加情報を回答統合部40に入力する。本実施形態では、アノテーション結果入力部30は、記憶部10に記憶されたアノテーション結果を取得して回答統合部40に入力するものとする。ただし、アノテーション結果入力部30は、他のストレージサーバ(図示せず)から、通信ネットワークを介してアノテーション結果を取得して、回答統合部40に入力してもよい。
なお、ラベル付加情報が、ラベルの意味を示すテキストで表されている場合、アノテーション結果入力部30は、各ラベルのテキストの類似度に基づいて、ラベル間の関連度合いを算出してもよい。テキストの類似度を算出する方法は広く知られており、ここでは詳細な説明は省略する。
回答統合部40は、アノテーション結果を統合して、各データのラベルを推定する。回答統合部40は、初期状態では、各データについて、付与されたラベルが最も多いラベルを各データのラベルとして推定してもよい。本実施形態では、回答統合部40は、アノテータのスキルおよびタスクの特徴に応じて、各データのラベルを推定する。
具体的には、回答統合部40は、各ラベルについてのアノテータのスキル(専門性)が高いほど大きくなるように重みを算出してもよい。また、回答統合部40は、タスクの特徴が近いラベルのスキル(専門性)が高いほど、アノテーション結果に対する重みが大きくなるように算出してもよい。そして、回答統合部40は、重みの総和が最も大きいラベルを、各データのラベルとして推定してもよい。これは、専門性の低いアノテータの回答よりも専門性の高いアノテータの回答を優先的に適用し、対象とするラベルと構造が近い(タスクの特徴が近い)ラベルのタスクについてのスキルを、より考慮に入れることを意味する。なお、アノテータのスキルおよびタスクの特徴を推定する方法については後述される。
回答統合部40は、例えば、タスクの特徴を表わす特徴ベクトルと、アノテータのスキルを表わすスキルベクトルとの内積を算出して、各アノテータが各タスクに対してどの程度適合するかを示す値(尤度)を算出し、算出された尤度を重みとして用いてもよい。この値は、あるアノテータがラベルの適否について、どの程度適切に回答しているかを表わす指標であるとも言える。また、アノテータのスキルと、タスクの特徴とがマッチしているほど、上述する特徴ベクトルとスキルベクトルとの内積は、大きく算出されることになる。
スキル推定部50は、アノテーション結果に基づいて、アノテータのスキルを推定する。具体的には、スキル推定部50は、回答統合部40によるラベルの推定結果と、各アノテータによるアノテーション結果との差が小さいほど、スキル(専門性)が高くなるように、アノテーションのスキルを推定する。アノテーション結果とラベルの推定結果とが一致するほど、ラベルを適切に選択するスキルがあると想定されるからである。スキル推定部50は、例えば、上述する尤度とラベルの推定結果との差が最小になるように各アノテータのスキルを最適化するようにしてもよい。
更新部60は、タスクの特徴を更新する。具体的には、更新部60は、スキル推定部50によって推定されたアノテータのスキルに基づいて、実際のアノテーション結果に合致するようにタスクの特徴を更新する。更新部60は、例えば、図2に例示する木構造のパスのベクトル表現をタスクの生成モデルのパラメータとして用いることで、ラベル付加情報を考慮したタスクの特徴を更新してもよい。また、更新部60は、例えば、図3に例示するラベル間の類似度行列をベクトル化してタスクの生成モデルのパラメータとして用いることで、ラベル付加情報を考慮したタスクの特徴を更新してもよい。
なお、本実施形態では、スキル推定部50と更新部60とが、それぞれ、スキルの推定およびタスクの特徴の更新を行う場合について説明した。ただし、スキル推定部50および更新部60が一体となって、スキルの推定およびタスクの特徴の更新を行ってもよい。
回答統合部40は、スキル推定部50によって推定されたアノテータのスキルの変化および更新部60により算出されたタスクの特徴の変化が収束したか否か判定する。変化が収束していない場合、回答統合部40は、アノテーション結果の再統合を行い、スキル推定部50および更新部60は、それぞれ、アノテータのスキルの推定処理、および、タスクの特徴の更新処理を繰り返す。収束したか否かを判定する基準は、予め定めておけばよい。
出力部70は、変化が収束したと判定された場合、回答統合部40により推定されたラベルを出力する。出力部70は、推定されたラベルと対応するデータとをディスプレイ装置などの表示装置(図示せず)に表示してもよく、推定ラベルとデータとを対応付けた結果を記憶部10に出力して記憶させてもよい。
また、出力部70は、推定された各アノテータのスキルを出力してもよい。本実施形態では、アノテータのスキルが、あるタスクに対して付与するラベルについてのアノテータの専門性を表わしており、かつ、各ラベルの構造は、ラベル付加情報によって特定される。そこで、出力部70は、ラベル付加情報で特定される各ラベルの構造に応じたアノテータのスキルを出力してもよい。
具体的には、出力部70は、ラベル付加情報で特定される各ラベルの構造を、アノテータのスキルに応じた態様で出力してもよい。例えば、ラベル付加情報がラベルの階層構造で表現されている場合、出力部70は、各ラベルについてのアノテータのスキルに応じて、階層構造において対応する各ノードのラベルを強調表示してもよい。このとき、出力部70は、アノテータのスキルが高いほど対応するノードのラベルを強調表示してもよい。すなわち、出力部70は、各ラベルについてのアノテータのスキルに応じて対応するノードが強調表示されたラベルの階層構造を出力してもよい。
図4は、アノテータのスキルを可視化した例を示す説明図である。図4は、ラベル付加情報が木構造で表される場合に、出力部70が木構造で特定されるアノテータのスキルを可視化したグラフの例を示す。具体的には、図4に例示するグラフは、ノードの色が濃いほどラベルに関するスキルが高い(専門性が高い)ことを示し、ノードの色が薄くなるにしたがってラベルに関するスキルが専門外になることを示す。
図4に例示するグラフ41の場合、アノテータが「イヌ」はとても詳しいが、鳥はほとんど把握していないことを示す。また、図4に例示するグラフ42の場合、アノテータが鳥はある程度詳しく、「イヌ」も多少は把握しているが、犬種までは把握していないことを示す。
なお、図4に示す例では、ノードの色の濃さで専門性の高さを強調表示したが、専門性の強調表示の方法は、色の態様を変化させる方法に限定されない。出力部70は、例えば、領域の大きさや外周の線の太さ、明度や輝度などを変更させて、各ノードのラベルを強調表示してもよいし、数値化したスキルをラベルに対応付けて各ノードのラベルを強調表示してもよい。
図5は、アノテータのスキルを可視化した他の例を示す説明図である。図5は、ラベル付加情報が各ラベル間の類似度を表す行列形式の場合に、出力部70が類似度の大きさに応じてアノテータのスキルを可視化したグラフの例を示す。図5に例示するグラフ51は、ラベル間の類似度が予め定めた閾値(例えば、0.5)以上の場合に、各ラベルを表わすノードをエッジで結んで表されたグラフである。
このように、出力部70が、ラベル付加情報で特定される各ラベルの構造に応じてアノテータのスキルを出力することで、アノテータのスキルを明示的に理解することが可能になる。
アノテーション結果入力部30と、回答統合部40と、スキル推定部50と、更新部60と、出力部70とは、プログラム(回答統合プログラム)に従って動作するコンピュータのプロセッサ(例えば、CPU(Central Processing Unit )、GPU(Graphics Processing Unit)、FPGA(field-programmable gate array ))によって実現される。
例えば、プログラムは、回答統合装置が備える記憶部10に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、アノテーション結果入力部30、回答統合部40、スキル推定部50、更新部60および出力部70として動作してもよい。また、回答統合装置の機能がSaaS(Software as a Service )形式で提供されてもよい。
アノテーション結果入力部30と、回答統合部40と、スキル推定部50と、更新部60と、出力部70とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路(circuitry )、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。
また、回答統合装置の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
次に、本実施形態の回答統合装置の動作を説明する。図6は、本実施形態の回答統合装置100の動作例を示すフローチャートである。アノテーション結果入力部30は、アノテーション結果およびラベル付加情報を回答統合部40に入力する(ステップS11)。回答統合部40は、アノテーション結果を統合してデータのラベルを推定する(ステップS12)。初期状態では、アノテーション結果を統合する際に用いるアノテータのスキルは推定されていないため、回答統合部40は、例えば、選択されたラベルの多数決により、データのラベルを推定してもよい。
スキル推定部50は、推定されたラベルとアノテーション結果に含まれるラベルとの差に基づいてアノテータのスキルを推定する(ステップS13)。更新部60は、推定されたアノテータのスキルに基づいて、アノテーション結果に合致するようにタスクの特徴を更新する(ステップS14)。ここで更新するタスクの特徴は、ラベル付加情報に基づいてラベル間の構造が特定されるラベルをデータに対して付与するタスクを表わすような特徴である。
回答統合部40は、アノテータのスキルの変化およびタスクの特徴の変化が収束しているか否か判断する(ステップS15)。変化が収束している場合(ステップS15におけるYes)、出力部70は、回答統合部40により推定されたラベルを出力する(ステップS16)。なお、出力部70は、推定されたラベル以外にも、推定されたアノテータのスキルを出力してもよい。
一方、変化が収束していない場合(ステップS15におけるNo)、回答統合部16は、ラベルに対するアノテータのスキルおよびタスクの特徴との近さに応じて算出される重みに基づいてアノテーション結果を統合することで、データのラベルを推定する(ステップS17)。以降、ステップS13以降の処理が繰り返される。
以上のように、本実施形態では、アノテーション結果入力部30が、アノテーション結果とラベル付加情報とを入力し、回答統合部40が、アノテーション結果を統合してデータのラベルを推定し、出力部70が、推定されたラベルを出力する。ここで、スキル推定部50が、推定されたラベルとアノテーション結果に含まれるラベルとの差に基づいてアノテータのスキルを推定し、更新部60が、推定されたアノテータのスキルに基づいて、アノテーション結果に合致するようにタスクの特徴を更新する。そして、回答統合部40は、ラベルに対するアノテータのスキルおよびタスクの特徴との近さに応じて算出される重みに基づいてアノテーション結果を統合することで、データのラベルを推定する。
このように、ラベル付加情報をアノテータのスキルおよびタスクの特徴に反映できるため、ラベル付加情報を活用して、効率的な回答統合(品質管理)ができる。すなわち、教師データとして用いられるデータに対して付加すべきラベルについての回答を効率的に統合できる。
例えば、非特許文献1に記載された方法では、ラベルそのものの構造を示すラベル付加情報を利用するという思想は存在しなかった。また、非特許文献2に記載された方法では、階層的な木構造で表される知識ラベルを利用することは記載されているが、アノテータのスキルそのものをラベル構造に対応させるという技術的思想は存在しなかった。一方、本実施形態では、ラベル付加情報を利用して、アノテータのスキルおよびタスクの特徴を効率的に学習できるため、高精度な回答統合が可能になる。
さらに、一般的には、アノテータのスキルは潜在的な特徴であったが、本実施形態では、出力部70が、ラベル付加情報で特定される各ラベルの構造に応じたアノテータのスキルを出力する。そのため、ラベル付加情報に対するアノテータのスキル(専門性)の依存関係を容易に示すことができる。
次に、本発明の概要を説明する。図7は、本発明による回答統合装置の概要を示すブロック図である。本発明による回答統合装置80(例えば、回答統合装置100)は、アノテータの回答に基づいてラベルが付加されたデータであるアノテーション結果とラベル間の構造を示すラベル付加情報とを入力する入力部81(例えば、アノテーション結果入力部30)と、アノテーション結果を統合してデータのラベルを推定する回答統合部82(例えば、回答統合部40)と、推定されたラベルとアノテーション結果に含まれるラベルとの差に基づいてアノテータのスキルを推定するスキル推定部83(例えば、スキル推定部50)と、ラベル付加情報に基づいてラベル間の構造が特定されるラベルをデータに対して付与するタスクの特徴を、推定されたアノテータのスキルに基づいて、アノテーション結果に合致するように更新する更新部84(例えば、更新部60)と、回答統合部82により推定されたラベルを出力する出力部85とを備えている。
回答統合部82は、ラベルに対するアノテータのスキルおよびタスクの特徴との近さに応じて算出される重みに基づいてラベルを推定する。
そのような構成により、アノテータのスキルやタスクの特徴が事前に不明な場合であっても、教師データとして用いられるデータに対して付加すべきラベルについての回答を効率的に統合できる。
また、出力部85は、ラベル付加情報で特定される各ラベルの構造を、アノテータのスキルに応じた態様で出力してもよい。そのような構成により、ラベル付加情報に対するアノテータのスキル(専門性)の依存関係を把握することが可能になる。
具体的には、出力部85は、ラベル付加情報がラベルの階層構造で表現されている場合、各ラベルについてのアノテータのスキルに応じて対応するノードが強調表示された前記階層構造を出力してもよい。
出力部85は、例えば、アノテータのスキルが高いほど対応するノードのラベルを強調表示してもよい。
また、回答統合部82は、アノテータのスキルおよびタスクの特徴に応じて、アノテーション結果に対する重みを算出し、重みの総和が最も大きいラベルを、データのラベルとして推定してもよい。
また、回答統合部82は、特徴ベクトルとスキルベクトルとの内積で算出される重みをアノテーション結果に対する重みとして算出してもよい。
また、回答統合部82は、アノテータのスキルの変化およびタスクの特徴の変化が収束していない場合、アノテーション結果を再統合してデータのラベルを推定してもよい。そのような構成により、付与すべきラベルの精度を向上させることが可能になる。
図8は、少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ1000は、プロセッサ1001、主記憶装置1002、補助記憶装置1003、インタフェース1004を備える。
上述の回答統合装置は、コンピュータ1000に実装される。そして、上述した各処理部の動作は、プログラム(回答統合プログラム)の形式で補助記憶装置1003に記憶されている。プロセッサ1001は、プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、当該プログラムに従って上記処理を実行する。
なお、少なくとも1つの実施形態において、補助記憶装置1003は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD-ROM(Compact Disc Read-only memory )、DVD-ROM(Read-only memory)、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000が当該プログラムを主記憶装置1002に展開し、上記処理を実行してもよい。
また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル(差分プログラム)であってもよい。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)アノテータの回答に基づいてラベルが付加されたデータであるアノテーション結果とラベル間の構造を示すラベル付加情報とを入力する入力部と、前記アノテーション結果を統合して前記データのラベルを推定する回答統合部と、推定されたラベルとアノテーション結果に含まれるラベルとの差に基づいてアノテータのスキルを推定するスキル推定部と、前記ラベル付加情報に基づいてラベル間の構造が特定されるラベルを前記データに対して付与するタスクの特徴を、推定されたアノテータのスキルに基づいて、前記アノテーション結果に合致するように更新する更新部と、前記回答統合部により推定されたラベルを出力する出力部とを備え、前記回答統合部は、前記ラベルに対するアノテータのスキルおよびタスクの特徴との近さに応じて算出される重みに基づいてラベルを推定することを特徴とする回答統合装置。
(付記2)出力部は、ラベル付加情報で特定される各ラベルの構造を、アノテータのスキルに応じた態様で出力する付記1記載の回答統合装置。
(付記3)出力部は、ラベル付加情報がラベルの階層構造で表現されている場合、各ラベルについてのアノテータのスキルに応じて対応するノードが強調表示された前記階層構造を出力する付記1または付記2に記載の回答統合装置。
(付記4)出力部は、アノテータのスキルが高いほど対応するノードのラベルを強調表示する付記3記載の回答統合装置。
(付記5)回答統合部は、アノテータのスキルおよびタスクの特徴に応じて、アノテーション結果に対する重みを算出し、重みの総和が最も大きいラベルを、データのラベルとして推定する付記1から付記4のうちのいずれか1つに記載の回答統合装置。
(付記6)回答統合部は、特徴ベクトルとスキルベクトルとの内積で算出される重みをアノテーション結果に対する重みとして算出する付記1から付記5のうちのいずれか1つに記載の回答統合装置。
(付記7)回答統合部は、アノテータのスキルの変化およびタスクの特徴の変化が収束していない場合、アノテーション結果を再統合してデータのラベルを推定する付記1から付記6のうちのいずれか1つに記載の回答統合装置。
(付記8)アノテータの回答に基づいてラベルが付加されたデータであるアノテーション結果とラベル間の構造を示すラベル付加情報とを入力し、前記アノテーション結果を統合して前記データのラベルを推定し、推定されたラベルとアノテーション結果に含まれるラベルとの差に基づいてアノテータのスキルを推定し、前記ラベル付加情報に基づいてラベル間の構造が特定されるラベルを前記データに対して付与するタスクの特徴を、推定されたアノテータのスキルに基づいて、前記アノテーション結果に合致するように更新し、推定されたラベルを出力し、前記アノテーション結果を統合する際、前記ラベルに対するアノテータのスキルおよびタスクの特徴との近さに応じて算出される重みに基づいてラベルを推定することを特徴とする回答統合方法。
(付記9)ラベル付加情報で特定される各ラベルの構造に応じたアノテータのスキルを出力する付記8記載の回答統合方法。
(付記10)コンピュータに、アノテータの回答に基づいてラベルが付加されたデータであるアノテーション結果とラベル間の構造を示すラベル付加情報とを入力する入力処理、前記アノテーション結果を統合して前記データのラベルを推定する回答統合処理、推定されたラベルとアノテーション結果に含まれるラベルとの差に基づいてアノテータのスキルを推定するスキル推定処理、前記ラベル付加情報に基づいてラベル間の構造が特定されるラベルを前記データに対して付与するタスクの特徴を、推定されたアノテータのスキルに基づいて、前記アノテーション結果に合致するように更新する更新処理、および、前記回答統合処理で推定されたラベルを出力する出力処理を実行させ、前記回答統合処理で、前記ラベルに対するアノテータのスキルおよびタスクの特徴との近さに応じて算出される重みに基づいてラベルを推定させるための回答統合プログラム。
(付記11)コンピュータに、出力処理で、ラベル付加情報で特定される各ラベルの構造に応じたアノテータのスキルを出力させる付記10記載の回答統合プログラム。
10 記憶部
30 アノテーション結果入力部
40 回答統合部
50 スキル推定部
60 更新部
70 出力部
100 回答統合装置

Claims (10)

  1. アノテータの回答に基づいてラベルが付加されたデータであるアノテーション結果とラベル間の構造を示すラベル付加情報とを入力する入力部と、
    前記アノテーション結果を統合して前記データのラベルを推定する回答統合部と、
    推定されたラベルとアノテーション結果に含まれるラベルとの差に基づいてアノテータのスキルを推定するスキル推定部と、
    前記ラベル付加情報に基づいてラベル間の構造が特定されるラベルを前記データに対して付与するタスクの特徴を、推定されたアノテータのスキルに基づいて、前記アノテーション結果に合致するように更新する更新部と、
    前記回答統合部により推定されたラベルを出力する出力部とを備え、
    前記回答統合部は、前記ラベルに対するアノテータのスキルおよびタスクの特徴との近さに応じて算出される重みに基づいてラベルを推定する
    ことを特徴とする回答統合装置。
  2. 出力部は、ラベル付加情報で特定される各ラベルの構造を、アノテータのスキルに応じた態様で出力する
    請求項1記載の回答統合装置。
  3. 出力部は、ラベル付加情報がラベルの階層構造で表現されている場合、各ラベルについてのアノテータのスキルに応じて対応するノードが強調表示された前記階層構造を出力する
    請求項1または請求項2に記載の回答統合装置。
  4. 出力部は、アノテータのスキルが高いほど対応するノードのラベルを強調表示する
    請求項3記載の回答統合装置。
  5. 回答統合部は、アノテータのスキルおよびタスクの特徴に応じて、アノテーション結果に対する重みを算出し、重みの総和が最も大きいラベルを、データのラベルとして推定する
    請求項1から請求項4のうちのいずれか1項に記載の回答統合装置。
  6. 回答統合部は、特徴ベクトルとスキルベクトルとの内積で算出される重みをアノテーション結果に対する重みとして算出する
    請求項1から請求項5のうちのいずれか1項に記載の回答統合装置。
  7. 回答統合部は、アノテータのスキルの変化およびタスクの特徴の変化が収束していない場合、アノテーション結果を再統合してデータのラベルを推定する
    請求項1から請求項6のうちのいずれか1項に記載の回答統合装置。
  8. アノテータの回答に基づいてラベルが付加されたデータであるアノテーション結果とラベル間の構造を示すラベル付加情報とを入力し、
    前記アノテーション結果を統合して前記データのラベルを推定し、
    推定されたラベルとアノテーション結果に含まれるラベルとの差に基づいてアノテータのスキルを推定し、
    前記ラベル付加情報に基づいてラベル間の構造が特定されるラベルを前記データに対して付与するタスクの特徴を、推定されたアノテータのスキルに基づいて、前記アノテーション結果に合致するように更新し、
    推定されたラベルを出力し、
    前記アノテーション結果を統合する際、前記ラベルに対するアノテータのスキルおよびタスクの特徴との近さに応じて算出される重みに基づいてラベルを推定する
    ことを特徴とする回答統合方法。
  9. ラベル付加情報で特定される各ラベルの構造に応じたアノテータのスキルを出力する
    請求項8記載の回答統合方法。
  10. コンピュータに、
    アノテータの回答に基づいてラベルが付加されたデータであるアノテーション結果とラベル間の構造を示すラベル付加情報とを入力する入力処理、
    前記アノテーション結果を統合して前記データのラベルを推定する回答統合処理、
    推定されたラベルとアノテーション結果に含まれるラベルとの差に基づいてアノテータのスキルを推定するスキル推定処理、
    前記ラベル付加情報に基づいてラベル間の構造が特定されるラベルを前記データに対して付与するタスクの特徴を、推定されたアノテータのスキルに基づいて、前記アノテーション結果に合致するように更新する更新処理、および、
    前記回答統合処理で推定されたラベルを出力する出力処理を実行させ、
    前記回答統合処理で、前記ラベルに対するアノテータのスキルおよびタスクの特徴との近さに応じて算出される重みに基づいてラベルを推定させる
    ための回答統合プログラム。
JP2020554702A 2018-11-01 2018-11-01 回答統合装置、回答統合方法および回答統合プログラム Active JP7063397B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/040638 WO2020090076A1 (ja) 2018-11-01 2018-11-01 回答統合装置、回答統合方法および回答統合プログラム

Publications (2)

Publication Number Publication Date
JPWO2020090076A1 JPWO2020090076A1 (ja) 2021-09-16
JP7063397B2 true JP7063397B2 (ja) 2022-05-09

Family

ID=70463657

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020554702A Active JP7063397B2 (ja) 2018-11-01 2018-11-01 回答統合装置、回答統合方法および回答統合プログラム

Country Status (3)

Country Link
US (1) US20210383255A1 (ja)
JP (1) JP7063397B2 (ja)
WO (1) WO2020090076A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114334067B (zh) * 2022-03-10 2022-07-19 上海柯林布瑞信息技术有限公司 临床数据的标签处理方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018106662A (ja) 2016-12-22 2018-07-05 キヤノン株式会社 情報処理装置、情報処理方法、プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9355359B2 (en) * 2012-06-22 2016-05-31 California Institute Of Technology Systems and methods for labeling source data using confidence labels
US11288595B2 (en) * 2017-02-14 2022-03-29 Groq, Inc. Minimizing memory and processor consumption in creating machine learning models
US11875230B1 (en) * 2018-06-14 2024-01-16 Amazon Technologies, Inc. Artificial intelligence system with intuitive interactive interfaces for guided labeling of training data for machine learning models

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018106662A (ja) 2016-12-22 2018-07-05 キヤノン株式会社 情報処理装置、情報処理方法、プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
鹿島久嗣、梶野洸,クラウドソーシングと機械学習,人工知能学会誌,日本,社団法人人工知能学会,2012年07月01日,第27巻, 第4号,pp.381-388,特にpp.382-384

Also Published As

Publication number Publication date
WO2020090076A1 (ja) 2020-05-07
US20210383255A1 (en) 2021-12-09
JPWO2020090076A1 (ja) 2021-09-16

Similar Documents

Publication Publication Date Title
Shang et al. Democratizing data science through interactive curation of ml pipelines
Joshi Artificial intelligence with python
KR102096301B1 (ko) 액티브 러닝 기법을 적용한 머신 러닝 프레임워크 운용 방법, 장치 및 컴퓨터 프로그램
JP6299759B2 (ja) 予測関数作成装置、予測関数作成方法、及びプログラム
JP7069029B2 (ja) 自動予測システム、自動予測方法および自動予測プログラム
KR101828215B1 (ko) Long Short Term Memory 기반 순환형 상태 전이 모델의 학습 방법 및 장치
Malhotra et al. Reliability modeling using particle swarm optimization
JP2014160457A (ja) 対話的変数選択装置、対話的変数選択方法および対話的変数選択プログラム
Henry et al. Active learning of timed automata with unobservable resets
JP7063397B2 (ja) 回答統合装置、回答統合方法および回答統合プログラム
Boselli et al. An AI planning system for data cleaning
Nguyen et al. Explaining how deep neural networks forget by deep visualization
CN112163132A (zh) 一种数据标注方法、装置、存储介质及电子设备
US20230222385A1 (en) Evaluation method, evaluation apparatus, and non-transitory computer-readable recording medium storing evaluation program
JP4328362B2 (ja) 言語解析モデル学習装置、言語解析モデル学習方法、言語解析モデル学習プログラム及びその記録媒体
JP7459406B2 (ja) 学習済みモデル検証システム
KR102413588B1 (ko) 학습 데이터에 따른 객체 인식 모델 추천 방법, 시스템 및 컴퓨터 프로그램
JP7355240B2 (ja) スキル可視化装置、スキル可視化方法およびスキル可視化プログラム
Ghule et al. An Evaluation of the Impact of AI on Data Access Optimization Performance
Serrano et al. Inter-task similarity measure for heterogeneous tasks
JP2023520313A (ja) 不確定区間を有する性能予測の生成
JP2021135930A5 (ja)
Urbanek et al. Using analytical programming and UCP method for effort estimation
CN114375447A (zh) 计算系统中的语言语句处理
Babbar et al. Blended environment of naive Bayes and support vector machine (SVM) for designing simulation based e-learning respiratory system

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210421

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210421

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220404

R151 Written notification of patent or utility model registration

Ref document number: 7063397

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151