JP5939587B2 - アノテーションの相関を計算する装置及び方法 - Google Patents

アノテーションの相関を計算する装置及び方法 Download PDF

Info

Publication number
JP5939587B2
JP5939587B2 JP2014066947A JP2014066947A JP5939587B2 JP 5939587 B2 JP5939587 B2 JP 5939587B2 JP 2014066947 A JP2014066947 A JP 2014066947A JP 2014066947 A JP2014066947 A JP 2014066947A JP 5939587 B2 JP5939587 B2 JP 5939587B2
Authority
JP
Japan
Prior art keywords
annotations
correlation
data group
certainty factors
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014066947A
Other languages
English (en)
Other versions
JP2015191348A (ja
Inventor
大介 宅間
大介 宅間
拓真 村上
拓真 村上
祐己 牧野
祐己 牧野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2014066947A priority Critical patent/JP5939587B2/ja
Priority to US14/658,347 priority patent/US9858266B2/en
Priority to US14/748,313 priority patent/US9858267B2/en
Publication of JP2015191348A publication Critical patent/JP2015191348A/ja
Application granted granted Critical
Publication of JP5939587B2 publication Critical patent/JP5939587B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24573Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、アノテーションの相関を計算する装置及び方法に関する。
テキスト等のデータに対しパターンマッチや自然言語処理等によって付与される情報をアノテーションと呼ぶ。例えば、文字列のパターンマッチにより抽出され付与された製品名や価格等のアノテーション、「煙が出た」、「においがした」といった表現を解釈することで付与された「熱の問題」というアノテーション等が考えられる。
このようなアノテーションについて、その相関を知りたい場合がある。例えば、商品aでは一般の商品に比べて問題bが起こり易いかどうかを調べるために、アノテーションa,bの相関を知りたい、といった場合である。
ここで、テキストに対するアノテーションの付与に関する技術は知られている(特許文献1参照)。特許文献1は、学習データ生成装置が、アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、学習データ候補クラスタリング部と、クラスタリング結果で得られた各クラスタを参照して、各クラスタ内の学習データ候補のラベルの分布を求め、求めた分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した学習データ候補を用いて学習データを生成する、学習データ生成部とを備えていることを開示する。
また、2つのファジィ集合の相関を計算する技術も知られている(例えば、非特許文献1参照)。非特許文献1は、スピアマンの順位相関係数を使って、2つのファジィ集合の相関を計算することを開示する。
WO2010/119615号公報
B.B.Chaudhuri,A.Bhattacharya,"On correlation between two fuzzy sets",Fuzzy Sets and Systems 118 (2001) 447-456
ところで、アノテーションの相関の推定値は、データにアノテーションを付与するアノテータの性能によって変化する。アノテータの性能が低いと、真のアノテーションの相関に近い推定値を求めることができないという問題がある。
尚、特許文献1及び非特許文献1の技術は、このような問題を解決する手法を提示するものではない。
本発明の目的は、アノテータの性能に関わらず、真のアノテーションの相関に近い推定値を計算できるようにすることにある。
かかる目的のもと、本発明は、アノテーションの相関を計算する装置であって、データが与えられるとデータに付与するアノテーションの確からしさを示す確信度を少なくとも出力するアノテータに、アノテーションを付与すべきかどうかを評価可能な第1のデータ群を与えることにより、第1のデータ群における複数のアノテーションのそれぞれの確からしさを示す複数の第1の確信度を取得する第1の取得部と、複数のアノテーションの相関の計算に用いる第2のデータ群をアノテータに与えることにより、第2のデータ群における複数のアノテーションのそれぞれの確からしさを示す複数の第2の確信度を取得する第2の取得部と、複数の第1の確信度と複数の第2の確信度とに基づいて、複数のアノテーションの相関の推定値を算出する算出部とを含む、装置を提供する。
この装置において、第1の取得部は、アノテーションを付与すべきでないと評価される第1のデータ群をアノテータに与えることにより、複数の第1の確信度を取得し、算出部は、複数の第1の確信度のそれぞれの第1のデータ群における第1の代表値を求める処理を複数の第1の確信度について行うことにより複数の第1の代表値を算出し、複数の第1の代表値と複数の第2の確信度とを用いて、複数のアノテーションの相関の推定値を算出する、ものであってよい。
その場合、算出部は、複数の第1の代表値の何れかが大きくなると複数のアノテーションの相関の基準値からの乖離が大きくなるような算出式により、複数のアノテーションの相関の推定値を算出する、ものであってよい。そして、算出部は、複数の第2の確信度の何れかの第2のデータ群における第2の代表値から複数の第1の代表値の何れかを減ずる式で除する項を含む算出式により、複数のアノテーションの相関の推定値を算出するに当たり、式の値を大きくする、ものであってよい。
また、算出部は、複数の第2の確信度の積の第2のデータ群における第3の代表値を、複数の第2の確信度のそれぞれの第2のデータ群における第2の代表値を求める処理を複数の第2の確信度について行うことにより得られた複数の第2の代表値の積で除する式を、複数の第1の代表値を用いて補正する算出式により、複数のアノテーションの相関の推定値を算出する、ものであってよい。
また、この装置において、第1の取得部は、アノテーションを付与すべきでないと評価される第1のデータ群をアノテータに与えることにより、第1のデータ群における2つのアノテーションのそれぞれの確からしさを示す2つの第1の確信度を取得し、第2の取得部は、2つのアノテーションの相関の計算に用いる第2のデータ群をアノテータに与えることにより、第2のデータ群における2つのアノテーションのそれぞれの確からしさを示す2つの第2の確信度を取得し、算出部は、2つの第1の確信度のそれぞれの第1のデータ群における平均値を求める処理を2つの第1の確信度について行うことにより2つの平均値μ a0,μ b0を算出し、2つの第2の確信度のそれぞれの第2のデータ群における平均値を求める処理を2つの第2の確信度について行うことにより2つの平均値E ,E を算出し、2つの第2の確信度の積の第2のデータ群における平均値E abを算出し、下記の算出式により、2つのアノテーションの相関の推定値cを算出する、ものであってよい。
Figure 0005939587
更に、本発明は、コンピュータがアノテーションの相関を計算する方法であって、コンピュータが、データが与えられるとデータに付与するアノテーションの確からしさを示す確信度を少なくとも出力するアノテータに、アノテーションを付与すべきかどうかを評価可能な第1のデータ群を与えることにより、第1のデータ群における複数のアノテーションのそれぞれの確からしさを示す複数の第1の確信度を取得するステップと、コンピュータが、複数のアノテーションの相関の計算に用いる第2のデータ群をアノテータに与えることにより、第2のデータ群における複数のアノテーションのそれぞれの確からしさを示す複数の第2の確信度を取得するステップと、コンピュータが、複数の第1の確信度と複数の第2の確信度とに基づいて、複数のアノテーションの相関の推定値を算出するステップとを含む、方法も提供する。
この方法において、複数の第1の確信度を取得するステップは、アノテーションを付与すべきでないと評価される第1のデータ群をアノテータに与えることにより、複数の第1の確信度を取得することを含み、複数のアノテーションの相関の推定値を算出するステップは、複数の第1の確信度のそれぞれの第1のデータ群における第1の代表値を求める処理を複数の第1の確信度について行うことにより複数の第1の代表値を算出し、複数の第1の代表値と複数の第2の確信度とを用いて、複数のアノテーションの相関の推定値を算出することを含む、ものであってよい。
更にまた、本発明は、アノテーションの相関を計算する装置として、コンピュータを機能させるプログラムであって、コンピュータに、上記の何れかの方法を実行させる、プログラムも提供する。
本発明によれば、アノテータの性能に関わらず、真のアノテーションの相関に近い推定値を計算できるようになる。
本発明の実施の形態における相関計算システムの全体構成例を示した図である。 アノテータが完璧でない場合に密度比が低めに算出される問題について説明するための図である。 本発明の実施の形態における相関計算装置の機能構成例を示したブロック図である。 本発明の実施の形態における相関計算装置のテスト情報記憶部に記憶されたテスト情報の一例を示した図である。 本発明の実施の形態における相関計算装置の計算対象情報記憶部に記憶された計算対象情報の一例を示した図である。 本発明の実施の形態における相関計算装置の密度比算出部の動作例を示したフローチャートである。 (a)はX=1の文書におけるスコアYの分布を示したグラフであり、(b)はX=0の文書におけるスコアYの分布を示したグラフである。 文書iにおけるアノテーションa,bの有無の4つのパターンのうち、各パターンに該当する場合のみ1となり,その他の場合に0となる確率変数を示した図である。 本発明の実施の形態の効果をファジィ集合で既存式を計算した場合と比較して示したグラフである。 本発明の実施の形態における相関計算装置のハードウェア構成例を示した図である。
以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。
[本実施の形態の相関計算システムの構成]
図1は、本実施の形態における相関計算システム1の全体構成例を示した図である。図示するように、この相関計算システム1は、アノテータ10と、相関計算装置20とを含む。
アノテータ10は、与えられたデータに対してアノテーション及びそのアノテーションの確からしさを示す確信度の一例としてのスコアを付与する装置である。
相関計算装置20は、アノテータ10がデータに付与した複数のアノテーションの相関を計算する装置である。
[本実施の形態の背景]
近年、アノテータ10のように、統計ベースの手法によりスコア付きのアノテーションをデータに付与する装置が増えてきたため、スコア付きのアノテーションどうしの相関を一般ユーザに分かり易い指標で提示したいというニーズがある。その際、アノテーションの相関を示す指標としては、如何なる指標を用いてもよいが、ユーザ受けのよい密度比(density ratio)の拡張として定義できるのが望ましい。
従って、アノテーションの相関を示す指標として、本実施の形態では、密度比を用いる。ここで、密度比とは、複数のアノテーションの全てが付与されたデータの密度の、複数のアノテーションのそれぞれが付与されたデータの密度の積に対する比率である、例えば、アノテーションa,bの相関を表す密度比をcとし、全データの集合をD、アノテーションaが付与されたデータを含むデータ集合をA、アノテーションbが付与されたデータを含むデータ集合をBとすると、密度比cは「c=#(A∩B)#D/(#A#B)」によって算出される(本明細書において「#S」は集合Sの要素数を表す)。これにより、「商品aでは一般の商品に比べて問題bがc倍起こりやすい」といった解釈が可能になり、ここ数年では機械学習の中での利用も多くなっている。
本実施の形態では、アノテータ10が完璧でない場合に、このような密度比が低めに算出される問題に着目する。
図2は、この問題について説明するための図である。この図でも、Dは全データの集合を表し、Aは真にアノテーションaを含むデータの集合を表し、Bは真にアノテーションbを含むデータの集合を表すものとする。すると、アノテーションa,bの真の密度比は、上述したように、#(A∩B)#D/(#A#B)である。このような状態で、アノテータ10のアノテーションbに関する適合率(precision)が低い場合には、アノテーションbが付与されたデータの集合はB’のようになる。このとき、アノテーションa,bの密度比として算出される値は、#(A∩B’)#D/(#A#B’)である。ここで、A,B,B’はDに比べて小さいので、#(A∩B)と#(A∩B’)とは大きく異ならない。しかしながら、分母において#Bよりも#B’が大きいことは無視できないので、アノテータ10のアノテーションbに関する適合率が低い場合に算出された密度比は、真の密度比よりも小さくなってしまうという問題がある。
そこで、本実施の形態では、アノテータ10のテスト段階で、負例データ(アノテーションを付けるべきでないデータ)に付与されたアノテーションのスコアの平均値が分かれば、それを用いて、真の密度比の推定値を計算する。
尚、以下では、アノテーションを付与するデータとして、文書を例にとり説明する。また、相関を計算する対象のデータに付与されるアノテーションとしては、2つのアノテーションa,bを例にとり説明する。
[本実施の形態の相関計算装置の構成]
図3は、本実施の形態における相関計算システムの特に相関計算装置20の機能構成例を示したブロック図である。図示するように、この相関計算装置20は、テスト情報取得部21と、テスト情報記憶部22と、計算対象情報取得部23と、計算対象情報記憶部24と、密度比算出部25とを備える。
テスト情報取得部21は、アノテータ10をテストするために用いるテスト文書群にアノテーションa,bのそれぞれを付与すべきかどうかを示す2つの正解情報と、テスト文書群にアノテータ10が付与したアノテーションa,bのそれぞれの確からしさを示す2つのスコアとからなるテスト情報を取得する。ここで、正解情報とは、教師あり学習では、テスト文書群の各テスト文書に既に設定されたアノテーションa,bを付与すべきかどうかの情報であり、教師なし学習では、テスト文書群の各テスト文書を評価することで得られるアノテーションa,bを付与すべきかどうかの情報である。即ち、テスト文書群は、正解情報がアノテーションa,bを付与すべきでないことを示す負例文書からなる負例文書群を含む。また、スコアは、0以上1以下の数値である。本実施の形態では、アノテーションを付与すべきかどうかを評価可能な第1のデータ群の一例として、テスト文書群を用いており、アノテーションを付与すべきでないと評価される第1のデータ群の一例として、負例文書群を用いており、第1のデータ群における複数のアノテーションのそれぞれの確からしさを示す複数の第1の確信度の一例として、2つのスコアを用いている。また、複数の第1の確信度を取得する第1の取得部の一例として、テスト情報取得部21を設けている。
テスト情報記憶部22は、テスト情報取得部21が取得したテスト情報を記憶する。テスト情報の具体例については後述する。
計算対象情報取得部23は、アノテーションa,bの相関を計算するために用いる計算対象文書群にアノテータ10が付与したアノテーションa,bのそれぞれの確からしさを示す2つのスコアからなる計算対象情報を取得する。ここで、スコアは、0以上1以下の数値であり、アノテーションa,bで検索した際にインデクスから取得する情報である。本実施の形態では、複数のアノテーションの相関の計算に用いる第2のデータ群の一例として、計算対象文書群を用いており、第2のデータ群における複数のアノテーションのそれぞれの確からしさを示す複数の第2の確信度の一例として、2つのスコアを用いている。また、複数の第2の確信度を取得する第2の取得部の一例として、計算対象情報取得部23を設けている。
計算対象情報記憶部24は、計算対象情報取得部23が取得した計算対象情報を記憶する。計算対象情報の具体例については後述する。
密度比算出部25は、テスト情報記憶部22に記憶されたテスト情報と、計算対象情報記憶部24に記憶された計算対象情報とを用いて、密度比の推定値を算出する。そして、この密度比の推定値を磁気ディスク装置20g(図10参照)等の記憶装置に記憶したり、表示機構20d(図10参照)に表示したりする。本実施の形態では、複数のアノテーションの相関の推定値の一例として、密度比の推定値を用いており、相関の推定値を算出する算出部の一例として、密度比算出部25を設けている。
図4は、テスト情報記憶部22に記憶されたテスト情報の一例を示した図である。図示するように、テスト情報は、文書IDと、アノテーションaに関する正解情報及びスコアと、アノテーションbに関する正解情報及びスコアとを対応付けたものである。例えば、文書ID「L1」の文書について、アノテーションaは付与すべきであり、実際に付与されたアノテーションaのスコアは0.8であり、アノテーションbは付与すべきでなく、実際に付与されたアノテーションbのスコアは0.1であることが示されている。
尚、本実施の形態では、テスト情報を正解情報とスコアとからなる情報として説明するが、アノテーションのスコアを0又は1で付けるアノテータ10で適合率が分かっている場合は、アノテーションを付加すべき文書の数をテスト情報としてもよい。密度比算出部25でアノテーションのスコアの平均値を算出するが、これは、「アノテーションを付与すべき文書の密度×(1−適合率)」により算出できるからである。
図5は、計算対象情報記憶部24に記憶された計算対象情報の一例を示した図である。図示するように、計算対象情報は、文書IDと、アノテーションaのスコアと、アノテーションbのスコアとを対応付けたものである。例えば、文書ID「D1」の文書について、実際に付与されたアノテーションaのスコアは0であり、実際に付与されたアノテーションbのスコアは0.2であることが示されている。
[本実施の形態の相関計算装置の動作]
本実施の形態における相関計算装置20では、上述したように、まず、テスト情報取得部21がテスト情報を取得してテスト情報記憶部22に記憶し、計算対象情報取得部23が計算対象情報を取得して計算対象情報記憶部24に記憶する。
その後、密度比算出部25が、テスト情報記憶部22に記憶されたテスト情報と、計算対象情報記憶部24に記憶された計算対象情報とを用いて、密度比の推定値を算出する。図6は、このときの密度比算出部25の動作例を示したフローチャートである。
図示するように、まず、密度比算出部25は、アノテーションaにとっての負例文書(アノテーションaを付けるべきでない文書)でのアノテーションaのスコアの平均値μ a0を算出する(ステップ201)。具体的には、テスト情報記憶部22に記憶されたテスト情報から、アノテーションaにとっての負例文書に関するテスト情報、つまり、アノテーションaに関する正解情報が「false」となっているテスト情報を抽出する。そして、このテスト情報に含まれるアノテーションaのスコアの平均値をμ a0とする。
また、密度比算出部25は、アノテーションbにとっての負例文書(アノテーションbを付けるべきでない文書)でのスコアの平均値μ b0を算出する(ステップ202)。具体的には、テスト情報記憶部22に記憶されたテスト情報から、アノテーションbにとっての負例文書に関するテスト情報、つまり、アノテーションbに関する正解情報が「false」となっているテスト情報を抽出する。そして、このテスト情報に含まれるアノテーションbのスコアの平均値をμ b0とする。
次に、密度比算出部25は、計算対象文書でのアノテーションaのスコアの平均値E を算出する(ステップ203)。具体的には、計算対象情報記憶部24に記憶された計算対象情報に含まれるアノテーションaのスコアの平均値をE とする。
また、密度比算出部25は、計算対象文書でのアノテーションbのスコアの平均値E を算出する(ステップ204)。具体的には、計算対象情報記憶部24に記憶された計算対象情報に含まれるアノテーションbのスコアの平均値をE とする。
更に、密度比算出部25は、計算対象文書でのアノテーションa,bのスコアの積の平均値E abを算出する(ステップ205)。具体的には、計算対象情報記憶部24に記憶された計算対象情報に含まれる文書ごとのアノテーションaのスコアとアノテーションbのスコアとの積の全文書における平均値をE abとする。
次いで、密度比算出部25は、密度比の推定値cを、ステップ201で算出したμ a0と、ステップ202で算出したμ b0と、ステップ203で算出したE と、ステップ204で算出したE と、ステップ205で算出したE abとを用いて算出する(ステップ206)。具体的には、次の算出式により、密度比の推定値cを算出する。
Figure 0005939587
ここで、μ a0,μ b0は、複数の第1の確信度のそれぞれの第1のデータ群における第1の代表値を求める処理を複数の第1の確信度について行うことにより得られた複数の第1の代表値の一例である。E ,E は、複数の第2の確信度のそれぞれの第2のデータ群における第2の代表値を求める処理を複数の第2の確信度について行うことにより得られた複数の第2の代表値の一例である。E abは、複数の第2の確信度の積の第2のデータ群における第3の代表値の一例である。即ち、本実施の形態では、μ a0,μ b0,E ,E ,E abを全て平均値としているが、これらは中央値等の他の代表値であってもよい。
尚、この算出式は、一般化して、μ a0又はμ b0が大きくなるとアノテーションa,bの相関の基準値からの乖離が大きくなるような算出式と捉えることができる。
但し、この算出式を用いると、(E −μ a0)又は(E −μ b0)が小さい場合、つまり、アノテータ10の精度が悪く、正例文書でのスコアと負例文書でのスコアとに差が出ない場合に、問題が生じる。それは、このような場合に、既存手法では無相関になるが、本実施の形態では、算出式が0÷0の不定形に近付き、値が不安定になるという問題である。この問題が生じることは、分母及び分子が小さいことにより判定できるので、(E −μ a0)及び(E −μ b0)の小さくなる方を区間推定等により大きめの値に変更することで、無相関(c=1)に近付くようにするとよい。この処理は、一般化して、E ,E の何れかからμ a0,μ b0の何れかを減ずる式で除する項を含む算出式により、アノテーションa,bの相関の推定値を算出するに当たり、式の値を大きくする処理と捉えることができる。
[密度比算出式の導出]
以下、この密度比の推定値cを算出する式の導出方法について詳細に説明する。
まず、あるアノテーションを確率pで含む無限個の文書からなる文書集合を考える。この文書集合からN個の文書を取り出すとき、文書i(i=0,1,…,N)に対して、真のアノテーションの有無を表す確率変数Xを定義する。具体的には、文書iにアノテーションが存在する場合にX=1、文書iにアノテーションが存在しない場合にX=0と定義する。これにより、確率変数Xがi.i.d(independent and identically distributed)、つまり、互いに独立で同じ分布に従うとすると、E(Xi) = pとなる。
ここで、アノテータ10によって実際に文書に付与されるアノテーションのスコアを、X=1の文書についてはYと定義し、X=0の文書についてはYと定義する。すると、真のアノテーションを知らずに無作為に抽出した文書でのアノテーションのスコアは、以下のように表すことができる。
Xi Y1 + (1 − Xi) Y0
尚、上記の式で、X=0のときのY及びX=1のときのYはスコアには影響しないため、便宜上、Y及びYはXによらず同じ分布に従う、即ち、Xと独立である、と定義している。
図7(a)はX=1の文書におけるスコアYの分布を示したグラフである。アノテータ10の精度が高ければ、グラフはY=1である確率が突出した形状になるであろうが、一般的には、図示するような、Y=1である確率が高く、Y=0に近付くに従って確率が低くなる形状を有する。グラフには、スコアYの平均値μ(μ1 = E(Y1))も示している。また、図7(b)はX=0の文書におけるスコアYの分布を示したグラフである。アノテータ10の精度が高ければ、グラフはY=0である確率が突出した形状になるであろうが、一般的には、図示するような、Y=0である確率が高く、Y=1に近付くに従って確率が低くなる形状を有する。グラフには、スコアYの平均値μ(μ0 = E(Y0))も示している。
次に、2種のアノテーションa,bのそれぞれについて、これまでの説明と同様に、真のアノテーションの存在確率をp,pで表し、真のアノテーションの有無を表す確率変数をXai,Xbiで表し、正例文書でのアノテーションのスコアを表す確率変数をYa1,Yb1で表し、負例文書でのアノテーションのスコアを表す確率変数をYa0,Yb0で表す。そして、スコアの平均値は以下のように定義する。
Ea := E(Xai Ya1+ (1 − Xai) Ya0),μa1:=E(Ya1),μa0:=E(Ya0)
Eb := E(Xbi Yb1+ (1 − Xbi) Yb0),μb1:=E(Yb1),μb0:=E(Yb0)
この状態で、アノテーションa,bが真に同一文書に付与される度合いを示す密度比をcとすると、アノテーションa,bが同一文書に付与される確率はcpとなる。そこで、Xabiを、文書iがアノテーションa,bの両方を含む場合は1となり、その他の場合は0となる確率変数とすると、以下のようになる。
E(Xabi) = c pa pb
図8は、文書iにおけるアノテーションa,bの有無の4つのパターンのうち、各パターンに該当する場合のみ1となり、その他の場合に0となる確率変数を示したものである。これを用いて、各文書におけるアノテーションa,bのスコアの積を表す以下の確率変数を考える。
Xabi Ya1 Yb1+ (Xai− Xabi) Ya1 Yb0 + (Xbi − Xabi) Ya0Yb1 + (1+Xabi− Xai − Xbi) Ya0 Yb0
= Xabi (Ya1 − Ya0) (Yb1− Yb0) + Xai(Ya1 − Ya0) Yb0 + Xbi (Yb1 − Yb0) Ya0 + Ya0 Yb0
尚、Ya1とYb1、及び、Ya0とYb0は、アノテーション自体が競合関係にある状況や、a=bである状況等の特殊な状況以外では独立とみなせる。
ここで、E(Xai) = pa,E(Xbi) = pb,E(Xab) = c pa pb,E(Ya1) = μa1,E(Ya0) = μa0,E(Yb1) = μb1,E(Yb0) = μb0を用いて、上記確率変数の期待値Eabを計算すると以下のようになる。
Eab = c pa pba1 − μa0) (μb1 − μb0)
+ paa1 − μa0) μb0 + pbb1 − μb0) μa0 + μa0 μb0
= c pa pba1 − μa0) (μb1 − μb0)
− pa pba1 − μa0) (μb1 − μb0)
+ pa pba1 − μa0) (μb1 − μb0)
+ paa1 − μa0) μb0 + pbb1 − μb0) μa0 + μa0 μb0
= (c − 1) pa pba1 − μa0) (μb1 − μb0)
+ (paa1 − μa0) +μa0) ( pbb1 − μb0) + μb0)
これを直接推定可能なE,E,Eab及びμa0,μb0で表すと、以下のようになる。
Eab = (c − 1) (Ea − μa0) (Eb − μb0) + Ea Eb
これにより、以下の式が得られる。
Figure 0005939587
ここで、E,E,μa0,μb0はE ,E ,μ a0,μ b0から推定でき、Eabは各文書におけるアノテーションa,bのスコアの積の全文書についての和を全文書数で割って得られたE abから推定できる。従って、cの推定値であるcは、観測可能な値のみから推定できることとなる。この推定値cは、一致推定量E,E,Eab,μa0,μb0の連続関数なので、一致推定量である。
尚、正例文書に対するアノテーションのスコアを1とし、負例文書に対するアノテーションのスコアを0とする完全なアノテータ10では、通常の密度比を表す式に一致する。
[本実施の形態の効果]
ところで、このようなアノテーションの相関を表す密度比は、ファジィ集合の演算で計算することも考えられる。従って、ここでは、本実施の形態の効果を、ファジィ集合で既存式を計算した場合と比較して説明する。
効果を測定するに当たっては、以下の条件を採用した。即ち、全文書数は100万とした。アノテーションa,bを含む文書の文書密度をそれぞれ2%、5%とした。また、真の密度比を2.5とした。μ a0,μ b0を計算するためのテスト文書の数を1万とした。
図9は、このような条件で効果を測定した結果を示したグラフである。グラフにおいて、縦軸は、密度比の推定値と真の密度比との差分の100回の測定における平均値を表す。また、横軸は、アノテータ10のスコアのモデルを表す。01-error(p, r)は、1又は0を適合率がp、再現率がrとなるように付与するモデルである。また、Beta(α, β) & Beta(β, α)は、ベータ分布に従うモデルであって、正例をBeta(α, β)で表し、負例をBeta(β, α)で表したモデルである。そして、黒塗りの系列が、ファジィ集合で既存式を計算した場合であり、斜線ハッチングの系列が本実施の形態の手法を用いた場合である。
このグラフから、ファジィ集合で既存式を計算した場合は、アノテータ10の性能の影響を受け、適合度が低いと密度比の推定値が真の密度比から乖離し易くなることが分かる。
[3つ以上のアノテーションの相関]
ここまでは、2つのアノテーションの相関を算出する場合について述べたが、n個のアノテーションa,a,…,aの相関についても、同様に以下のようにして得たものを用いて計算すればよい(n≧3)。
第1段階として、各文書におけるアノテーションa,a,…,aのスコアの積を表す確率変数を考え、その期待値を以下の値で表す。
・密度比
・負例文書におけるアノテーションa,a,…,aのスコアの期待値
・各文書におけるアノテーションa,a,…,aのうちの1個乃至(n−1)個のアノテーションのスコアの積の期待値(アノテーションaのスコアの期待値、アノテーションa,aのスコアの積の期待値、アノテーションa,a,aのスコアの積の期待値等)
第2段階として、第1段階で立てた式を密度比について解く。
以下に、一例として、n=3の場合の密度比の推定値cの算出式を記す。
Figure 0005939587
尚、ここでは、3つのアノテーションをアノテーションu,v,wとする。また、E ,E ,E はそれぞれ計算対象文書におけるアノテーションu,v,wのスコアの平均値とし、E uv,E uw,E vw,E uvwはそれぞれ計算対象文書におけるアノテーションu,v、アノテーションu,w、アノテーションv,w、及び、アノテーションu,v,wのスコアの積の平均値とし、μ u0,μ v0,μ w0はそれぞれ負例文書におけるアノテーションu,v,wのスコアの平均値とする。
以上述べたように、本実施の形態では、n個のアノテーションのそれぞれのスコアの負例文書群における平均値と、n個のアノテーションのそれぞれのスコアの計算対象文書群における平均値と、各計算対象文書におけるn個のアノテーションのスコアの積の計算対象文書群における平均値とを算出し、これらの平均値に基づいて、n個のアノテーションの相関の推定値を算出するようにした。これにより、アノテータの性能に関わらず、真のアノテーションの相関に近い推定値を計算できるようになった。
[本実施の形態の相関計算装置20のハードウェア構成]
図10は、本実施の形態における相関計算装置20のハードウェア構成例を示した図である。図示するように、相関計算装置20は、演算手段であるCPU(Central Processing Unit)20aと、M/B(マザーボード)チップセット20bを介してCPU20aに接続されたメインメモリ20cと、同じくM/Bチップセット20bを介してCPU20aに接続された表示機構20dとを備える。また、M/Bチップセット20bには、ブリッジ回路20eを介して、ネットワークインターフェイス20fと、磁気ディスク装置(HDD)20gと、音声機構20hと、キーボード/マウス20iと、光学ドライブ20jとが接続されている。
尚、図10において、各構成要素は、バスを介して接続される。例えば、CPU20aとM/Bチップセット20bの間や、M/Bチップセット20bとメインメモリ20cの間は、CPUバスを介して接続される。また、M/Bチップセット20bと表示機構20dとの間は、AGP(Accelerated Graphics Port)を介して接続されてもよいが、表示機構20dがPCI Express対応のビデオカードを含む場合、M/Bチップセット20bとこのビデオカードの間は、PCI Express(PCIe)バスを介して接続される。また、ブリッジ回路20eと接続する場合、ネットワークインターフェイス20fについては、例えば、PCI Expressを用いることができる。また、磁気ディスク装置20gについては、例えば、シリアルATA(AT Attachment)、パラレル転送のATA、PCI(Peripheral Components Interconnect)を用いることができる。更に、キーボード/マウス20i、及び、光学ドライブ20jについては、USB(Universal Serial Bus)を用いることができる。
ここで、本発明は、全てハードウェアで実現してもよいし、全てソフトウェアで実現してもよい。また、ハードウェア及びソフトウェアの両方により実現することも可能である。また、本発明は、コンピュータ、データ処理システム、コンピュータプログラムとして実現することができる。このコンピュータプログラムは、コンピュータにより読取り可能な媒体に記憶され、提供され得る。ここで、媒体としては、電子的、磁気的、光学的、電磁的、赤外線又は半導体システム(装置又は機器)、或いは、伝搬媒体が考えられる。また、コンピュータにより読取り可能な媒体としては、半導体、ソリッドステート記憶装置、磁気テープ、取り外し可能なコンピュータディスケット、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、リジッド磁気ディスク、及び光ディスクが例示される。現時点における光ディスクの例には、コンパクトディスク−リードオンリーメモリ(CD−ROM)、コンパクトディスク−リード/ライト(CD−R/W)及びDVDが含まれる。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態には限定されない。本発明の精神及び範囲から逸脱することなく様々に変更したり代替態様を採用したりすることが可能なことは、当業者に明らかである。
10…アノテータ、20…相関計算装置、21…テスト情報取得部、22…テスト情報記憶部、23…計算対象情報取得部、24…計算対象情報記憶部、25…密度比算出部

Claims (13)

  1. アノテーションの相関を計算する装置であって、
    データが与えられると当該データに付与するアノテーションの確からしさを示す確信度を少なくとも出力するアノテータに、アノテーションを付与すべきかどうかを評価可能な第1のデータ群を与えることにより、当該第1のデータ群における複数のアノテーションのそれぞれの確からしさを示す複数の第1の確信度を取得する第1の取得部と、
    前記複数のアノテーションの相関の計算に用いる第2のデータ群を前記アノテータに与えることにより、当該第2のデータ群における当該複数のアノテーションのそれぞれの確からしさを示す複数の第2の確信度を取得する第2の取得部と、
    前記複数の第1の確信度と前記複数の第2の確信度とに基づいて、前記複数のアノテーションの相関の推定値を算出する算出部と
    を含む、装置。
  2. 前記第1の取得部は、アノテーションを付与すべきでないと評価される前記第1のデータ群を前記アノテータに与えることにより、前記複数の第1の確信度を取得し、
    前記算出部は、前記複数の第1の確信度のそれぞれの前記第1のデータ群における第1の代表値を求める処理を当該複数の第1の確信度について行うことにより複数の第1の代表値を算出し、当該複数の第1の代表値と前記複数の第2の確信度とを用いて、前記複数のアノテーションの相関の推定値を算出する、請求項1の装置。
  3. 前記算出部は、前記複数の第1の代表値の何れかが大きくなると前記複数のアノテーションの相関の基準値からの乖離が大きくなるような算出式により、当該複数のアノテーションの相関の推定値を算出する、請求項2の装置。
  4. 前記算出部は、前記複数の第2の確信度の何れかの前記第2のデータ群における第2の代表値から前記複数の第1の代表値の何れかを減ずる式で除する項を含む前記算出式により、前記複数のアノテーションの相関の推定値を算出するに当たり、当該式の値を大きくする、請求項3の装置。
  5. 前記算出部は、前記複数の第2の確信度の積の前記第2のデータ群における第3の代表値を、前記複数の第2の確信度のそれぞれの前記第2のデータ群における第2の代表値を求める処理を当該複数の第2の確信度について行うことにより得られた複数の第2の代表値の積で除する式を、前記複数の第1の代表値を用いて補正する算出式により、前記複数のアノテーションの相関の推定値を算出する、請求項2の装置。
  6. 前記第1の取得部は、アノテーションを付与すべきでないと評価される前記第1のデータ群を前記アノテータに与えることにより、当該第1のデータ群における2つのアノテーションのそれぞれの確からしさを示す2つの第1の確信度を取得し、
    前記第2の取得部は、前記2つのアノテーションの相関の計算に用いる前記第2のデータ群を前記アノテータに与えることにより、当該第2のデータ群における当該2つのアノテーションのそれぞれの確からしさを示す2つの第2の確信度を取得し、
    前記算出部は、前記2つの第1の確信度のそれぞれの前記第1のデータ群における平均値を求める処理を当該2つの第1の確信度について行うことにより2つの平均値μ a0,μ b0を算出し、前記2つの第2の確信度のそれぞれの前記第2のデータ群における平均値を求める処理を当該2つの第2の確信度について行うことにより2つの平均値E ,E を算出し、前記2つの第2の確信度の積の前記第2のデータ群における平均値E abを算出し、下記の算出式により、前記2つのアノテーションの相関の推定値cを算出する、請求項1の装置。
    Figure 0005939587
  7. コンピュータがアノテーションの相関を計算する方法であって、
    前記コンピュータが、データが与えられると当該データに付与するアノテーションの確からしさを示す確信度を少なくとも出力するアノテータに、アノテーションを付与すべきかどうかを評価可能な第1のデータ群を与えることにより、当該第1のデータ群における複数のアノテーションのそれぞれの確からしさを示す複数の第1の確信度を取得するステップと、
    前記コンピュータが、前記複数のアノテーションの相関の計算に用いる第2のデータ群を前記アノテータに与えることにより、当該第2のデータ群における当該複数のアノテーションのそれぞれの確からしさを示す複数の第2の確信度を取得するステップと、
    前記コンピュータが、前記複数の第1の確信度と前記複数の第2の確信度とに基づいて、前記複数のアノテーションの相関の推定値を算出するステップと
    を含む、方法。
  8. 前記複数の第1の確信度を取得するステップは、アノテーションを付与すべきでないと評価される前記第1のデータ群を前記アノテータに与えることにより、前記複数の第1の確信度を取得することを含み、
    前記複数のアノテーションの相関の推定値を算出するステップは、前記複数の第1の確信度のそれぞれの前記第1のデータ群における第1の代表値を求める処理を当該複数の第1の確信度について行うことにより複数の第1の代表値を算出し、当該複数の第1の代表値と前記複数の第2の確信度とを用いて、前記複数のアノテーションの相関の推定値を算出することを含む、請求項7の方法。
  9. 前記複数のアノテーションの相関の推定値を算出するステップは、前記複数の第1の代表値の何れかが大きくなると前記複数のアノテーションの相関の基準値からの乖離が大きくなるような算出式により、当該複数のアノテーションの相関の推定値を算出することを含む、請求項8の方法。
  10. 前記複数のアノテーションの相関の推定値を算出するステップは、前記複数の第2の確信度の何れかの前記第2のデータ群における第2の代表値から前記複数の第1の代表値の何れかを減ずる式で除する項を含む前記算出式により、前記複数のアノテーションの相関の推定値を算出するに当たり、当該式の値を大きくすることを含む、請求項9の方法。
  11. 前記複数のアノテーションの相関の推定値を算出するステップは、前記複数の第2の確信度の積の前記第2のデータ群における第3の代表値を、前記複数の第2の確信度のそれぞれの前記第2のデータ群における第2の代表値を求める処理を当該複数の第2の確信度について行うことにより得られた複数の第2の代表値の積で除する式を、前記複数の第1の代表値を用いて補正する算出式により、前記複数のアノテーションの相関の推定値を算出することを含む、請求項8の方法。
  12. 前記複数の第1の確信度を取得するステップは、アノテーションを付与すべきでないと評価される前記第1のデータ群を前記アノテータに与えることにより、当該第1のデータ群における2つのアノテーションのそれぞれの確からしさを示す2つの第1の確信度を取得することを含み、
    前記複数の第2の確信度を取得するステップは、前記2つのアノテーションの相関の計算に用いる前記第2のデータ群を前記アノテータに与えることにより、当該第2のデータ群における当該2つのアノテーションのそれぞれの確からしさを示す2つの第2の確信度を取得することを含み、
    前記複数のアノテーションの相関の推定値を算出するステップは、前記2つの第1の確信度のそれぞれの前記第1のデータ群における平均値を求める処理を当該2つの第1の確信度について行うことにより2つの平均値μ a0,μ b0を算出し、前記2つの第2の確信度のそれぞれの前記第2のデータ群における平均値を求める処理を当該2つの第2の確信度について行うことにより2つの平均値E ,E を算出し、前記2つの第2の確信度の積の前記第2のデータ群における平均値E abを算出し、下記の算出式により、前記2つのアノテーションの相関の推定値cを算出することを含む、請求項7の方法。
    Figure 0005939587
  13. アノテーションの相関を計算する装置として、コンピュータを機能させるプログラムであって、
    前記コンピュータに、請求項7乃至12の何れかに記載の方法を実行させる、プログラム。
JP2014066947A 2014-03-27 2014-03-27 アノテーションの相関を計算する装置及び方法 Expired - Fee Related JP5939587B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2014066947A JP5939587B2 (ja) 2014-03-27 2014-03-27 アノテーションの相関を計算する装置及び方法
US14/658,347 US9858266B2 (en) 2014-03-27 2015-03-16 Calculating correlations between annotations
US14/748,313 US9858267B2 (en) 2014-03-27 2015-06-24 Calculating correlations between annotations

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014066947A JP5939587B2 (ja) 2014-03-27 2014-03-27 アノテーションの相関を計算する装置及び方法

Publications (2)

Publication Number Publication Date
JP2015191348A JP2015191348A (ja) 2015-11-02
JP5939587B2 true JP5939587B2 (ja) 2016-06-22

Family

ID=54190691

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014066947A Expired - Fee Related JP5939587B2 (ja) 2014-03-27 2014-03-27 アノテーションの相関を計算する装置及び方法

Country Status (2)

Country Link
US (2) US9858266B2 (ja)
JP (1) JP5939587B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6930179B2 (ja) * 2017-03-30 2021-09-01 富士通株式会社 学習装置、学習方法及び学習プログラム
US11232255B2 (en) * 2018-06-13 2022-01-25 Adobe Inc. Generating digital annotations for evaluating and training automatic electronic document annotation models
US11263272B2 (en) 2020-04-23 2022-03-01 International Business Machines Corporation Ranking candidate documents for human annotation task in real-time
JP7466808B2 (ja) 2022-03-24 2024-04-12 三菱電機株式会社 二項分類装置及び二項分類装置のアノテーション補正方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7020561B1 (en) * 2000-05-23 2006-03-28 Gene Logic, Inc. Methods and systems for efficient comparison, identification, processing, and importing of gene expression data
US7747943B2 (en) * 2001-09-07 2010-06-29 Microsoft Corporation Robust anchoring of annotations to content
JP4587165B2 (ja) * 2004-08-27 2010-11-24 キヤノン株式会社 情報処理装置及びその制御方法
US20070150802A1 (en) * 2005-12-12 2007-06-28 Canon Information Systems Research Australia Pty. Ltd. Document annotation and interface
US7596549B1 (en) * 2006-04-03 2009-09-29 Qurio Holdings, Inc. Methods, systems, and products for analyzing annotations for related content
US7996762B2 (en) * 2007-09-21 2011-08-09 Microsoft Corporation Correlative multi-label image annotation
WO2010119615A1 (ja) 2009-04-15 2010-10-21 日本電気株式会社 学習データ生成装置、及び固有表現抽出システム
US20120002884A1 (en) * 2010-06-30 2012-01-05 Alcatel-Lucent Usa Inc. Method and apparatus for managing video content
JP5530476B2 (ja) * 2012-03-30 2014-06-25 株式会社Ubic 文書分別システム及び文書分別方法並びに文書分別プログラム

Also Published As

Publication number Publication date
US9858267B2 (en) 2018-01-02
US20150293907A1 (en) 2015-10-15
JP2015191348A (ja) 2015-11-02
US20150278312A1 (en) 2015-10-01
US9858266B2 (en) 2018-01-02

Similar Documents

Publication Publication Date Title
US11604956B2 (en) Sequence-to-sequence prediction using a neural network model
RU2672394C1 (ru) Способы и системы для оценки обучающих объектов посредством алгоритма машинного обучения
JP5751251B2 (ja) 意味抽出装置、意味抽出方法、および、プログラム
CN111382255B (zh) 用于问答处理的方法、装置、设备和介质
JP6231944B2 (ja) 学習モデル作成装置、判定システムおよび学習モデル作成方法
US10552433B2 (en) Evaluating quality of annotation
JP5939587B2 (ja) アノテーションの相関を計算する装置及び方法
CN107644051B (zh) 用于同类实体分组的系统和方法
CN112131322B (zh) 时间序列分类方法及装置
US20230045330A1 (en) Multi-term query subsumption for document classification
JP2015075993A (ja) 情報処理装置及び情報処理プログラム
CN113988157A (zh) 语义检索网络训练方法、装置、电子设备及存储介质
JPWO2014073206A1 (ja) 情報処理装置、及び、情報処理方法
US20140317121A1 (en) Supporting acquisition of information
JP2015018372A (ja) 表現抽出モデル学習装置、表現抽出モデル学習方法、および、コンピュータ・プログラム
JP5210224B2 (ja) アノテーションデータ解析装置、アノテーションデータ解析プログラムおよびそのプログラムを記録した記録媒体
JP5175585B2 (ja) 文書処理装置、電子カルテ装置および文書処理プログラム
EP2638481A1 (en) Seed set expansion
US20170293863A1 (en) Data analysis system, and control method, program, and recording medium therefor
CN107608996B (zh) 用于数据和信息源可靠性估计的系统和方法
CN113868424A (zh) 文本主题的确定方法、装置、计算机设备及存储介质
CN113254650A (zh) 一种基于知识图谱的评估推送方法、系统、设备和介质
CN112712866A (zh) 一种确定文本信息相似度的方法及装置
JP2015203960A (ja) 部分情報抽出システム
CN114861667B (zh) 一种命名实体标签识别方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160105

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20160115

TRDD Decision of grant or rejection written
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20160414

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160419

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20160419

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160511

R150 Certificate of patent or registration of utility model

Ref document number: 5939587

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees