JP5939587B2

JP5939587B2 - アノテーションの相関を計算する装置及び方法

Info

Publication number: JP5939587B2
Application number: JP2014066947A
Authority: JP
Inventors: 大介宅間; 拓真村上; 祐己牧野
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2014-03-27
Filing date: 2014-03-27
Publication date: 2016-06-22
Anticipated expiration: 2034-03-27
Also published as: US9858267B2; US20150293907A1; JP2015191348A; US20150278312A1; US9858266B2

Description

本発明は、アノテーションの相関を計算する装置及び方法に関する。

テキスト等のデータに対しパターンマッチや自然言語処理等によって付与される情報をアノテーションと呼ぶ。例えば、文字列のパターンマッチにより抽出され付与された製品名や価格等のアノテーション、「煙が出た」、「においがした」といった表現を解釈することで付与された「熱の問題」というアノテーション等が考えられる。

このようなアノテーションについて、その相関を知りたい場合がある。例えば、商品ａでは一般の商品に比べて問題ｂが起こり易いかどうかを調べるために、アノテーションａ，ｂの相関を知りたい、といった場合である。

ここで、テキストに対するアノテーションの付与に関する技術は知られている（特許文献１参照）。特許文献１は、学習データ生成装置が、アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、学習データ候補クラスタリング部と、クラスタリング結果で得られた各クラスタを参照して、各クラスタ内の学習データ候補のラベルの分布を求め、求めた分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した学習データ候補を用いて学習データを生成する、学習データ生成部とを備えていることを開示する。

また、２つのファジィ集合の相関を計算する技術も知られている（例えば、非特許文献１参照）。非特許文献１は、スピアマンの順位相関係数を使って、２つのファジィ集合の相関を計算することを開示する。

ＷＯ２０１０／１１９６１５号公報

B.B.Chaudhuri，A.Bhattacharya，"On correlation between two fuzzy sets"，Fuzzy Sets and Systems 118 (2001) 447-456

ところで、アノテーションの相関の推定値は、データにアノテーションを付与するアノテータの性能によって変化する。アノテータの性能が低いと、真のアノテーションの相関に近い推定値を求めることができないという問題がある。

尚、特許文献１及び非特許文献１の技術は、このような問題を解決する手法を提示するものではない。

本発明の目的は、アノテータの性能に関わらず、真のアノテーションの相関に近い推定値を計算できるようにすることにある。

かかる目的のもと、本発明は、アノテーションの相関を計算する装置であって、データが与えられるとデータに付与するアノテーションの確からしさを示す確信度を少なくとも出力するアノテータに、アノテーションを付与すべきかどうかを評価可能な第１のデータ群を与えることにより、第１のデータ群における複数のアノテーションのそれぞれの確からしさを示す複数の第１の確信度を取得する第１の取得部と、複数のアノテーションの相関の計算に用いる第２のデータ群をアノテータに与えることにより、第２のデータ群における複数のアノテーションのそれぞれの確からしさを示す複数の第２の確信度を取得する第２の取得部と、複数の第１の確信度と複数の第２の確信度とに基づいて、複数のアノテーションの相関の推定値を算出する算出部とを含む、装置を提供する。

この装置において、第１の取得部は、アノテーションを付与すべきでないと評価される第１のデータ群をアノテータに与えることにより、複数の第１の確信度を取得し、算出部は、複数の第１の確信度のそれぞれの第１のデータ群における第１の代表値を求める処理を複数の第１の確信度について行うことにより複数の第１の代表値を算出し、複数の第１の代表値と複数の第２の確信度とを用いて、複数のアノテーションの相関の推定値を算出する、ものであってよい。

その場合、算出部は、複数の第１の代表値の何れかが大きくなると複数のアノテーションの相関の基準値からの乖離が大きくなるような算出式により、複数のアノテーションの相関の推定値を算出する、ものであってよい。そして、算出部は、複数の第２の確信度の何れかの第２のデータ群における第２の代表値から複数の第１の代表値の何れかを減ずる式で除する項を含む算出式により、複数のアノテーションの相関の推定値を算出するに当たり、式の値を大きくする、ものであってよい。

また、算出部は、複数の第２の確信度の積の第２のデータ群における第３の代表値を、複数の第２の確信度のそれぞれの第２のデータ群における第２の代表値を求める処理を複数の第２の確信度について行うことにより得られた複数の第２の代表値の積で除する式を、複数の第１の代表値を用いて補正する算出式により、複数のアノテーションの相関の推定値を算出する、ものであってよい。

また、この装置において、第１の取得部は、アノテーションを付与すべきでないと評価される第１のデータ群をアノテータに与えることにより、第１のデータ群における２つのアノテーションのそれぞれの確からしさを示す２つの第１の確信度を取得し、第２の取得部は、２つのアノテーションの相関の計算に用いる第２のデータ群をアノテータに与えることにより、第２のデータ群における２つのアノテーションのそれぞれの確からしさを示す２つの第２の確信度を取得し、算出部は、２つの第１の確信度のそれぞれの第１のデータ群における平均値を求める処理を２つの第１の確信度について行うことにより２つの平均値μ^＊ _ａ０，μ^＊ _ｂ０を算出し、２つの第２の確信度のそれぞれの第２のデータ群における平均値を求める処理を２つの第２の確信度について行うことにより２つの平均値Ｅ^＊ _ａ，Ｅ^＊ _ｂを算出し、２つの第２の確信度の積の第２のデータ群における平均値Ｅ^＊ _ａｂを算出し、下記の算出式により、２つのアノテーションの相関の推定値ｃ^＊を算出する、ものであってよい。

更に、本発明は、コンピュータがアノテーションの相関を計算する方法であって、コンピュータが、データが与えられるとデータに付与するアノテーションの確からしさを示す確信度を少なくとも出力するアノテータに、アノテーションを付与すべきかどうかを評価可能な第１のデータ群を与えることにより、第１のデータ群における複数のアノテーションのそれぞれの確からしさを示す複数の第１の確信度を取得するステップと、コンピュータが、複数のアノテーションの相関の計算に用いる第２のデータ群をアノテータに与えることにより、第２のデータ群における複数のアノテーションのそれぞれの確からしさを示す複数の第２の確信度を取得するステップと、コンピュータが、複数の第１の確信度と複数の第２の確信度とに基づいて、複数のアノテーションの相関の推定値を算出するステップとを含む、方法も提供する。

この方法において、複数の第１の確信度を取得するステップは、アノテーションを付与すべきでないと評価される第１のデータ群をアノテータに与えることにより、複数の第１の確信度を取得することを含み、複数のアノテーションの相関の推定値を算出するステップは、複数の第１の確信度のそれぞれの第１のデータ群における第１の代表値を求める処理を複数の第１の確信度について行うことにより複数の第１の代表値を算出し、複数の第１の代表値と複数の第２の確信度とを用いて、複数のアノテーションの相関の推定値を算出することを含む、ものであってよい。

更にまた、本発明は、アノテーションの相関を計算する装置として、コンピュータを機能させるプログラムであって、コンピュータに、上記の何れかの方法を実行させる、プログラムも提供する。

本発明によれば、アノテータの性能に関わらず、真のアノテーションの相関に近い推定値を計算できるようになる。

本発明の実施の形態における相関計算システムの全体構成例を示した図である。アノテータが完璧でない場合に密度比が低めに算出される問題について説明するための図である。本発明の実施の形態における相関計算装置の機能構成例を示したブロック図である。本発明の実施の形態における相関計算装置のテスト情報記憶部に記憶されたテスト情報の一例を示した図である。本発明の実施の形態における相関計算装置の計算対象情報記憶部に記憶された計算対象情報の一例を示した図である。本発明の実施の形態における相関計算装置の密度比算出部の動作例を示したフローチャートである。（ａ）はＸ_ｉ＝１の文書におけるスコアＹ_１の分布を示したグラフであり、（ｂ）はＸ_ｉ＝０の文書におけるスコアＹ_０の分布を示したグラフである。文書ｉにおけるアノテーションａ，ｂの有無の４つのパターンのうち、各パターンに該当する場合のみ１となり，その他の場合に０となる確率変数を示した図である。本発明の実施の形態の効果をファジィ集合で既存式を計算した場合と比較して示したグラフである。本発明の実施の形態における相関計算装置のハードウェア構成例を示した図である。

以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。

［本実施の形態の相関計算システムの構成］
図１は、本実施の形態における相関計算システム１の全体構成例を示した図である。図示するように、この相関計算システム１は、アノテータ１０と、相関計算装置２０とを含む。

アノテータ１０は、与えられたデータに対してアノテーション及びそのアノテーションの確からしさを示す確信度の一例としてのスコアを付与する装置である。

相関計算装置２０は、アノテータ１０がデータに付与した複数のアノテーションの相関を計算する装置である。

［本実施の形態の背景］
近年、アノテータ１０のように、統計ベースの手法によりスコア付きのアノテーションをデータに付与する装置が増えてきたため、スコア付きのアノテーションどうしの相関を一般ユーザに分かり易い指標で提示したいというニーズがある。その際、アノテーションの相関を示す指標としては、如何なる指標を用いてもよいが、ユーザ受けのよい密度比（density ratio）の拡張として定義できるのが望ましい。

従って、アノテーションの相関を示す指標として、本実施の形態では、密度比を用いる。ここで、密度比とは、複数のアノテーションの全てが付与されたデータの密度の、複数のアノテーションのそれぞれが付与されたデータの密度の積に対する比率である、例えば、アノテーションａ，ｂの相関を表す密度比をｃとし、全データの集合をＤ、アノテーションａが付与されたデータを含むデータ集合をＡ、アノテーションｂが付与されたデータを含むデータ集合をＢとすると、密度比ｃは「ｃ＝＃（Ａ∩Ｂ）＃Ｄ／（＃Ａ＃Ｂ）」によって算出される（本明細書において「＃Ｓ」は集合Ｓの要素数を表す）。これにより、「商品ａでは一般の商品に比べて問題ｂがｃ倍起こりやすい」といった解釈が可能になり、ここ数年では機械学習の中での利用も多くなっている。

本実施の形態では、アノテータ１０が完璧でない場合に、このような密度比が低めに算出される問題に着目する。

図２は、この問題について説明するための図である。この図でも、Ｄは全データの集合を表し、Ａは真にアノテーションａを含むデータの集合を表し、Ｂは真にアノテーションｂを含むデータの集合を表すものとする。すると、アノテーションａ，ｂの真の密度比は、上述したように、＃（Ａ∩Ｂ）＃Ｄ／（＃Ａ＃Ｂ）である。このような状態で、アノテータ１０のアノテーションｂに関する適合率（precision）が低い場合には、アノテーションｂが付与されたデータの集合はＢ’のようになる。このとき、アノテーションａ，ｂの密度比として算出される値は、＃（Ａ∩Ｂ’）＃Ｄ／（＃Ａ＃Ｂ’）である。ここで、Ａ，Ｂ，Ｂ’はＤに比べて小さいので、＃（Ａ∩Ｂ）と＃（Ａ∩Ｂ’）とは大きく異ならない。しかしながら、分母において＃Ｂよりも＃Ｂ’が大きいことは無視できないので、アノテータ１０のアノテーションｂに関する適合率が低い場合に算出された密度比は、真の密度比よりも小さくなってしまうという問題がある。

そこで、本実施の形態では、アノテータ１０のテスト段階で、負例データ（アノテーションを付けるべきでないデータ）に付与されたアノテーションのスコアの平均値が分かれば、それを用いて、真の密度比の推定値を計算する。

尚、以下では、アノテーションを付与するデータとして、文書を例にとり説明する。また、相関を計算する対象のデータに付与されるアノテーションとしては、２つのアノテーションａ，ｂを例にとり説明する。

［本実施の形態の相関計算装置の構成］
図３は、本実施の形態における相関計算システムの特に相関計算装置２０の機能構成例を示したブロック図である。図示するように、この相関計算装置２０は、テスト情報取得部２１と、テスト情報記憶部２２と、計算対象情報取得部２３と、計算対象情報記憶部２４と、密度比算出部２５とを備える。

テスト情報取得部２１は、アノテータ１０をテストするために用いるテスト文書群にアノテーションａ，ｂのそれぞれを付与すべきかどうかを示す２つの正解情報と、テスト文書群にアノテータ１０が付与したアノテーションａ，ｂのそれぞれの確からしさを示す２つのスコアとからなるテスト情報を取得する。ここで、正解情報とは、教師あり学習では、テスト文書群の各テスト文書に既に設定されたアノテーションａ，ｂを付与すべきかどうかの情報であり、教師なし学習では、テスト文書群の各テスト文書を評価することで得られるアノテーションａ，ｂを付与すべきかどうかの情報である。即ち、テスト文書群は、正解情報がアノテーションａ，ｂを付与すべきでないことを示す負例文書からなる負例文書群を含む。また、スコアは、０以上１以下の数値である。本実施の形態では、アノテーションを付与すべきかどうかを評価可能な第１のデータ群の一例として、テスト文書群を用いており、アノテーションを付与すべきでないと評価される第１のデータ群の一例として、負例文書群を用いており、第１のデータ群における複数のアノテーションのそれぞれの確からしさを示す複数の第１の確信度の一例として、２つのスコアを用いている。また、複数の第１の確信度を取得する第１の取得部の一例として、テスト情報取得部２１を設けている。

テスト情報記憶部２２は、テスト情報取得部２１が取得したテスト情報を記憶する。テスト情報の具体例については後述する。

計算対象情報取得部２３は、アノテーションａ，ｂの相関を計算するために用いる計算対象文書群にアノテータ１０が付与したアノテーションａ，ｂのそれぞれの確からしさを示す２つのスコアからなる計算対象情報を取得する。ここで、スコアは、０以上１以下の数値であり、アノテーションａ，ｂで検索した際にインデクスから取得する情報である。本実施の形態では、複数のアノテーションの相関の計算に用いる第２のデータ群の一例として、計算対象文書群を用いており、第２のデータ群における複数のアノテーションのそれぞれの確からしさを示す複数の第２の確信度の一例として、２つのスコアを用いている。また、複数の第２の確信度を取得する第２の取得部の一例として、計算対象情報取得部２３を設けている。

計算対象情報記憶部２４は、計算対象情報取得部２３が取得した計算対象情報を記憶する。計算対象情報の具体例については後述する。

密度比算出部２５は、テスト情報記憶部２２に記憶されたテスト情報と、計算対象情報記憶部２４に記憶された計算対象情報とを用いて、密度比の推定値を算出する。そして、この密度比の推定値を磁気ディスク装置２０ｇ（図１０参照）等の記憶装置に記憶したり、表示機構２０ｄ（図１０参照）に表示したりする。本実施の形態では、複数のアノテーションの相関の推定値の一例として、密度比の推定値を用いており、相関の推定値を算出する算出部の一例として、密度比算出部２５を設けている。

図４は、テスト情報記憶部２２に記憶されたテスト情報の一例を示した図である。図示するように、テスト情報は、文書ＩＤと、アノテーションａに関する正解情報及びスコアと、アノテーションｂに関する正解情報及びスコアとを対応付けたものである。例えば、文書ＩＤ「Ｌ１」の文書について、アノテーションａは付与すべきであり、実際に付与されたアノテーションａのスコアは０．８であり、アノテーションｂは付与すべきでなく、実際に付与されたアノテーションｂのスコアは０．１であることが示されている。

尚、本実施の形態では、テスト情報を正解情報とスコアとからなる情報として説明するが、アノテーションのスコアを０又は１で付けるアノテータ１０で適合率が分かっている場合は、アノテーションを付加すべき文書の数をテスト情報としてもよい。密度比算出部２５でアノテーションのスコアの平均値を算出するが、これは、「アノテーションを付与すべき文書の密度×（１−適合率）」により算出できるからである。

図５は、計算対象情報記憶部２４に記憶された計算対象情報の一例を示した図である。図示するように、計算対象情報は、文書ＩＤと、アノテーションａのスコアと、アノテーションｂのスコアとを対応付けたものである。例えば、文書ＩＤ「Ｄ１」の文書について、実際に付与されたアノテーションａのスコアは０であり、実際に付与されたアノテーションｂのスコアは０．２であることが示されている。

［本実施の形態の相関計算装置の動作］
本実施の形態における相関計算装置２０では、上述したように、まず、テスト情報取得部２１がテスト情報を取得してテスト情報記憶部２２に記憶し、計算対象情報取得部２３が計算対象情報を取得して計算対象情報記憶部２４に記憶する。

その後、密度比算出部２５が、テスト情報記憶部２２に記憶されたテスト情報と、計算対象情報記憶部２４に記憶された計算対象情報とを用いて、密度比の推定値を算出する。図６は、このときの密度比算出部２５の動作例を示したフローチャートである。

図示するように、まず、密度比算出部２５は、アノテーションａにとっての負例文書（アノテーションａを付けるべきでない文書）でのアノテーションａのスコアの平均値μ^＊ _ａ０を算出する（ステップ２０１）。具体的には、テスト情報記憶部２２に記憶されたテスト情報から、アノテーションａにとっての負例文書に関するテスト情報、つまり、アノテーションａに関する正解情報が「ｆａｌｓｅ」となっているテスト情報を抽出する。そして、このテスト情報に含まれるアノテーションａのスコアの平均値をμ^＊ _ａ０とする。

また、密度比算出部２５は、アノテーションｂにとっての負例文書（アノテーションｂを付けるべきでない文書）でのスコアの平均値μ^＊ _ｂ０を算出する（ステップ２０２）。具体的には、テスト情報記憶部２２に記憶されたテスト情報から、アノテーションｂにとっての負例文書に関するテスト情報、つまり、アノテーションｂに関する正解情報が「ｆａｌｓｅ」となっているテスト情報を抽出する。そして、このテスト情報に含まれるアノテーションｂのスコアの平均値をμ^＊ _ｂ０とする。

次に、密度比算出部２５は、計算対象文書でのアノテーションａのスコアの平均値Ｅ^＊ _ａを算出する（ステップ２０３）。具体的には、計算対象情報記憶部２４に記憶された計算対象情報に含まれるアノテーションａのスコアの平均値をＥ^＊ _ａとする。

また、密度比算出部２５は、計算対象文書でのアノテーションｂのスコアの平均値Ｅ^＊ _ｂを算出する（ステップ２０４）。具体的には、計算対象情報記憶部２４に記憶された計算対象情報に含まれるアノテーションｂのスコアの平均値をＥ^＊ _ｂとする。

更に、密度比算出部２５は、計算対象文書でのアノテーションａ，ｂのスコアの積の平均値Ｅ^＊ _ａｂを算出する（ステップ２０５）。具体的には、計算対象情報記憶部２４に記憶された計算対象情報に含まれる文書ごとのアノテーションａのスコアとアノテーションｂのスコアとの積の全文書における平均値をＥ^＊ _ａｂとする。

次いで、密度比算出部２５は、密度比の推定値ｃ^＊を、ステップ２０１で算出したμ^＊ _ａ０と、ステップ２０２で算出したμ^＊ _ｂ０と、ステップ２０３で算出したＥ^＊ _ａと、ステップ２０４で算出したＥ^＊ _ｂと、ステップ２０５で算出したＥ^＊ _ａｂとを用いて算出する（ステップ２０６）。具体的には、次の算出式により、密度比の推定値ｃ^＊を算出する。

ここで、μ^＊ _ａ０，μ^＊ _ｂ０は、複数の第１の確信度のそれぞれの第１のデータ群における第１の代表値を求める処理を複数の第１の確信度について行うことにより得られた複数の第１の代表値の一例である。Ｅ^＊ _ａ，Ｅ^＊ _ｂは、複数の第２の確信度のそれぞれの第２のデータ群における第２の代表値を求める処理を複数の第２の確信度について行うことにより得られた複数の第２の代表値の一例である。Ｅ^＊ _ａｂは、複数の第２の確信度の積の第２のデータ群における第３の代表値の一例である。即ち、本実施の形態では、μ^＊ _ａ０，μ^＊ _ｂ０，Ｅ^＊ _ａ，Ｅ^＊ _ｂ，Ｅ^＊ _ａｂを全て平均値としているが、これらは中央値等の他の代表値であってもよい。

尚、この算出式は、一般化して、μ^＊ _ａ０又はμ^＊ _ｂ０が大きくなるとアノテーションａ，ｂの相関の基準値からの乖離が大きくなるような算出式と捉えることができる。

但し、この算出式を用いると、（Ｅ^＊ _ａ−μ^＊ _ａ０）又は（Ｅ^＊ _ｂ−μ^＊ _ｂ０）が小さい場合、つまり、アノテータ１０の精度が悪く、正例文書でのスコアと負例文書でのスコアとに差が出ない場合に、問題が生じる。それは、このような場合に、既存手法では無相関になるが、本実施の形態では、算出式が０÷０の不定形に近付き、値が不安定になるという問題である。この問題が生じることは、分母及び分子が小さいことにより判定できるので、（Ｅ^＊ _ａ−μ^＊ _ａ０）及び（Ｅ^＊ _ｂ−μ^＊ _ｂ０）の小さくなる方を区間推定等により大きめの値に変更することで、無相関（ｃ^＊＝１）に近付くようにするとよい。この処理は、一般化して、Ｅ^＊ _ａ，Ｅ^＊ _ｂの何れかからμ^＊ _ａ０，μ^＊ _ｂ０の何れかを減ずる式で除する項を含む算出式により、アノテーションａ，ｂの相関の推定値を算出するに当たり、式の値を大きくする処理と捉えることができる。

［密度比算出式の導出］
以下、この密度比の推定値ｃ^＊を算出する式の導出方法について詳細に説明する。

まず、あるアノテーションを確率ｐで含む無限個の文書からなる文書集合を考える。この文書集合からＮ個の文書を取り出すとき、文書ｉ（ｉ＝０，１，…，Ｎ）に対して、真のアノテーションの有無を表す確率変数Ｘ_ｉを定義する。具体的には、文書ｉにアノテーションが存在する場合にＸ_ｉ＝１、文書ｉにアノテーションが存在しない場合にＸ_ｉ＝０と定義する。これにより、確率変数Ｘ_ｉがi.i.d（independent and identically distributed）、つまり、互いに独立で同じ分布に従うとすると、E(X_i) = pとなる。

ここで、アノテータ１０によって実際に文書に付与されるアノテーションのスコアを、Ｘ_ｉ＝１の文書についてはＹ_１と定義し、Ｘ_ｉ＝０の文書についてはＹ_０と定義する。すると、真のアノテーションを知らずに無作為に抽出した文書でのアノテーションのスコアは、以下のように表すことができる。
X_i Y₁ ＋ (1 − X_i) Y₀

尚、上記の式で、Ｘ_ｉ＝０のときのＹ_１及びＸ_ｉ＝１のときのＹ_０はスコアには影響しないため、便宜上、Ｙ_１及びＹ_０はＸ_ｉによらず同じ分布に従う、即ち、Ｘ_ｉと独立である、と定義している。

図７（ａ）はＸ_ｉ＝１の文書におけるスコアＹ_１の分布を示したグラフである。アノテータ１０の精度が高ければ、グラフはＹ_１＝１である確率が突出した形状になるであろうが、一般的には、図示するような、Ｙ_１＝１である確率が高く、Ｙ_１＝０に近付くに従って確率が低くなる形状を有する。グラフには、スコアＹ_１の平均値μ_１（μ₁ = E(Y₁)）も示している。また、図７（ｂ）はＸ_ｉ＝０の文書におけるスコアＹ_０の分布を示したグラフである。アノテータ１０の精度が高ければ、グラフはＹ_０＝０である確率が突出した形状になるであろうが、一般的には、図示するような、Ｙ_０＝０である確率が高く、Ｙ_０＝１に近付くに従って確率が低くなる形状を有する。グラフには、スコアＹ_０の平均値μ_０（μ₀ = E(Y₀)）も示している。

次に、２種のアノテーションａ，ｂのそれぞれについて、これまでの説明と同様に、真のアノテーションの存在確率をｐ_ａ，ｐ_ｂで表し、真のアノテーションの有無を表す確率変数をＸ_ａｉ，Ｘ_ｂｉで表し、正例文書でのアノテーションのスコアを表す確率変数をＹ_ａ１，Ｙ_ｂ１で表し、負例文書でのアノテーションのスコアを表す確率変数をＹ_ａ０，Ｙ_ｂ０で表す。そして、スコアの平均値は以下のように定義する。
E_a := E(X_ai Y_a1＋ (1 − X_ai) Y_a0)，μ_a1:=E(Y_a1)，μ_a0:=E(Y_a0)
E_b := E(X_bi Y_b1＋ (1 − X_bi) Y_b0)，μ_b1:=E(Y_b1)，μ_b0:=E(Y_b0)

この状態で、アノテーションａ，ｂが真に同一文書に付与される度合いを示す密度比をｃとすると、アノテーションａ，ｂが同一文書に付与される確率はｃｐ_ａｐ_ｂとなる。そこで、Ｘ_ａｂｉを、文書ｉがアノテーションａ，ｂの両方を含む場合は１となり、その他の場合は０となる確率変数とすると、以下のようになる。
E(X_abi) = c p_a p_b

図８は、文書ｉにおけるアノテーションａ，ｂの有無の４つのパターンのうち、各パターンに該当する場合のみ１となり、その他の場合に０となる確率変数を示したものである。これを用いて、各文書におけるアノテーションａ，ｂのスコアの積を表す以下の確率変数を考える。
X_abi Y_a1 Y_b1＋ (X_ai− X_abi) Y_a1 Y_b0 ＋ (X_bi − X_abi) Y_a0Y_b1 ＋ (1＋X_abi− X_ai − X_bi) Y_a0 Y_b0
= X_abi (Y_a1 − Y_a0) (Y_b1− Y_b0) ＋ X_ai(Y_a1 − Y_a0) Y_b0 ＋ X_bi (Y_b1 − Y_b0) Y_a0 ＋ Y_a0 Y_b0

尚、Ｙ_ａ１とＹ_ｂ１、及び、Ｙ_ａ０とＹ_ｂ０は、アノテーション自体が競合関係にある状況や、ａ＝ｂである状況等の特殊な状況以外では独立とみなせる。

ここで、E(X_ai) = p_a，E(X_bi) = p_b，E(X_ab) = c p_a p_b，E(Y_a1) = μ_a1，E(Y_a0) = μ_a0，E(Y_b1) = μ_b1，E(Y_b0) = μ_b0を用いて、上記確率変数の期待値Ｅ_ａｂを計算すると以下のようになる。
E_ab = c p_a p_b(μ_a1 − μ_a0) (μ_b1 − μ_b0)
＋ p_a (μ_a1 − μ_a0) μ_b0 ＋ p_b(μ_b1 − μ_b0) μ_a0 ＋ μ_a0 μ_b0
= c p_a p_b (μ_a1 − μ_a0) (μ_b1 − μ_b0)
− p_a p_b (μ_a1 − μ_a0) (μ_b1 − μ_b0)
＋ p_a p_b (μ_a1 − μ_a0) (μ_b1 − μ_b0)
＋ p_a (μ_a1 − μ_a0) μ_b0 ＋ p_b(μ_b1 − μ_b0) μ_a0 ＋ μ_a0 μ_b0
= (c − 1) p_a p_b (μ_a1 − μ_a0) (μ_b1 − μ_b0)
＋ (p_a (μ_a1 − μ_a0) ＋μ_a0) ( p_b (μ_b1 − μ_b0) ＋ μ_b0)

これを直接推定可能なＥ_ａ，Ｅ_ｂ，Ｅ_ａｂ及びμ_ａ０，μ_ｂ０で表すと、以下のようになる。
E_ab = (c − 1) (E_a − μ_a0) (E_b − μ_b0) ＋ E_a E_b

これにより、以下の式が得られる。

ここで、Ｅ_ａ，Ｅ_ｂ，μ_ａ０，μ_ｂ０はＥ^＊ _ａ，Ｅ^＊ _ｂ，μ^＊ _ａ０，μ^＊ _ｂ０から推定でき、Ｅ_ａｂは各文書におけるアノテーションａ，ｂのスコアの積の全文書についての和を全文書数で割って得られたＥ^＊ _ａｂから推定できる。従って、ｃの推定値であるｃ^＊は、観測可能な値のみから推定できることとなる。この推定値ｃ^＊は、一致推定量Ｅ_ａ，Ｅ_ｂ，Ｅ_ａｂ，μ_ａ０，μ_ｂ０の連続関数なので、一致推定量である。

尚、正例文書に対するアノテーションのスコアを１とし、負例文書に対するアノテーションのスコアを０とする完全なアノテータ１０では、通常の密度比を表す式に一致する。

［本実施の形態の効果］
ところで、このようなアノテーションの相関を表す密度比は、ファジィ集合の演算で計算することも考えられる。従って、ここでは、本実施の形態の効果を、ファジィ集合で既存式を計算した場合と比較して説明する。

効果を測定するに当たっては、以下の条件を採用した。即ち、全文書数は１００万とした。アノテーションａ，ｂを含む文書の文書密度をそれぞれ２％、５％とした。また、真の密度比を２．５とした。μ^＊ _ａ０，μ^＊ _ｂ０を計算するためのテスト文書の数を１万とした。

図９は、このような条件で効果を測定した結果を示したグラフである。グラフにおいて、縦軸は、密度比の推定値と真の密度比との差分の１００回の測定における平均値を表す。また、横軸は、アノテータ１０のスコアのモデルを表す。01-error(p, r)は、１又は０を適合率がｐ、再現率がｒとなるように付与するモデルである。また、Beta(α, β) & Beta(β, α)は、ベータ分布に従うモデルであって、正例をBeta(α, β)で表し、負例をBeta(β, α)で表したモデルである。そして、黒塗りの系列が、ファジィ集合で既存式を計算した場合であり、斜線ハッチングの系列が本実施の形態の手法を用いた場合である。

このグラフから、ファジィ集合で既存式を計算した場合は、アノテータ１０の性能の影響を受け、適合度が低いと密度比の推定値が真の密度比から乖離し易くなることが分かる。

［３つ以上のアノテーションの相関］
ここまでは、２つのアノテーションの相関を算出する場合について述べたが、ｎ個のアノテーションａ_１，ａ_２，…，ａ_ｎの相関についても、同様に以下のようにして得たものを用いて計算すればよい（ｎ≧３）。

第１段階として、各文書におけるアノテーションａ_１，ａ_２，…，ａ_ｎのスコアの積を表す確率変数を考え、その期待値を以下の値で表す。
・密度比
・負例文書におけるアノテーションａ_１，ａ_２，…，ａ_ｎのスコアの期待値
・各文書におけるアノテーションａ_１，ａ_２，…，ａ_ｎのうちの１個乃至（ｎ−１）個のアノテーションのスコアの積の期待値（アノテーションａ_１のスコアの期待値、アノテーションａ_１，ａ_２のスコアの積の期待値、アノテーションａ_１，ａ_２，ａ_３のスコアの積の期待値等）

第２段階として、第１段階で立てた式を密度比について解く。

以下に、一例として、ｎ＝３の場合の密度比の推定値ｃ^＊の算出式を記す。

尚、ここでは、３つのアノテーションをアノテーションｕ，ｖ，ｗとする。また、Ｅ^＊ _ｕ，Ｅ^＊ _ｖ，Ｅ^＊ _ｗはそれぞれ計算対象文書におけるアノテーションｕ，ｖ，ｗのスコアの平均値とし、Ｅ^＊ _ｕｖ，Ｅ^＊ _ｕｗ，Ｅ^＊ _ｖｗ，Ｅ^＊ _ｕｖｗはそれぞれ計算対象文書におけるアノテーションｕ，ｖ、アノテーションｕ，ｗ、アノテーションｖ，ｗ、及び、アノテーションｕ，ｖ，ｗのスコアの積の平均値とし、μ^＊ _ｕ０，μ^＊ _ｖ０，μ^＊ _ｗ０はそれぞれ負例文書におけるアノテーションｕ，ｖ，ｗのスコアの平均値とする。

以上述べたように、本実施の形態では、ｎ個のアノテーションのそれぞれのスコアの負例文書群における平均値と、ｎ個のアノテーションのそれぞれのスコアの計算対象文書群における平均値と、各計算対象文書におけるｎ個のアノテーションのスコアの積の計算対象文書群における平均値とを算出し、これらの平均値に基づいて、ｎ個のアノテーションの相関の推定値を算出するようにした。これにより、アノテータの性能に関わらず、真のアノテーションの相関に近い推定値を計算できるようになった。

［本実施の形態の相関計算装置２０のハードウェア構成］
図１０は、本実施の形態における相関計算装置２０のハードウェア構成例を示した図である。図示するように、相関計算装置２０は、演算手段であるＣＰＵ（Central Processing Unit）２０ａと、Ｍ／Ｂ（マザーボード）チップセット２０ｂを介してＣＰＵ２０ａに接続されたメインメモリ２０ｃと、同じくＭ／Ｂチップセット２０ｂを介してＣＰＵ２０ａに接続された表示機構２０ｄとを備える。また、Ｍ／Ｂチップセット２０ｂには、ブリッジ回路２０ｅを介して、ネットワークインターフェイス２０ｆと、磁気ディスク装置（ＨＤＤ）２０ｇと、音声機構２０ｈと、キーボード／マウス２０ｉと、光学ドライブ２０ｊとが接続されている。

尚、図１０において、各構成要素は、バスを介して接続される。例えば、ＣＰＵ２０ａとＭ／Ｂチップセット２０ｂの間や、Ｍ／Ｂチップセット２０ｂとメインメモリ２０ｃの間は、ＣＰＵバスを介して接続される。また、Ｍ／Ｂチップセット２０ｂと表示機構２０ｄとの間は、ＡＧＰ（Accelerated Graphics Port）を介して接続されてもよいが、表示機構２０ｄがＰＣＩＥｘｐｒｅｓｓ対応のビデオカードを含む場合、Ｍ／Ｂチップセット２０ｂとこのビデオカードの間は、ＰＣＩＥｘｐｒｅｓｓ（ＰＣＩｅ）バスを介して接続される。また、ブリッジ回路２０ｅと接続する場合、ネットワークインターフェイス２０ｆについては、例えば、ＰＣＩＥｘｐｒｅｓｓを用いることができる。また、磁気ディスク装置２０ｇについては、例えば、シリアルＡＴＡ（AT Attachment）、パラレル転送のＡＴＡ、ＰＣＩ（Peripheral Components Interconnect）を用いることができる。更に、キーボード／マウス２０ｉ、及び、光学ドライブ２０ｊについては、ＵＳＢ（Universal Serial Bus）を用いることができる。

ここで、本発明は、全てハードウェアで実現してもよいし、全てソフトウェアで実現してもよい。また、ハードウェア及びソフトウェアの両方により実現することも可能である。また、本発明は、コンピュータ、データ処理システム、コンピュータプログラムとして実現することができる。このコンピュータプログラムは、コンピュータにより読取り可能な媒体に記憶され、提供され得る。ここで、媒体としては、電子的、磁気的、光学的、電磁的、赤外線又は半導体システム（装置又は機器）、或いは、伝搬媒体が考えられる。また、コンピュータにより読取り可能な媒体としては、半導体、ソリッドステート記憶装置、磁気テープ、取り外し可能なコンピュータディスケット、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、リジッド磁気ディスク、及び光ディスクが例示される。現時点における光ディスクの例には、コンパクトディスク−リードオンリーメモリ（ＣＤ−ＲＯＭ）、コンパクトディスク−リード／ライト（ＣＤ−Ｒ／Ｗ）及びＤＶＤが含まれる。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態には限定されない。本発明の精神及び範囲から逸脱することなく様々に変更したり代替態様を採用したりすることが可能なことは、当業者に明らかである。

１０…アノテータ、２０…相関計算装置、２１…テスト情報取得部、２２…テスト情報記憶部、２３…計算対象情報取得部、２４…計算対象情報記憶部、２５…密度比算出部

Claims

アノテーションの相関を計算する装置であって、
データが与えられると当該データに付与するアノテーションの確からしさを示す確信度を少なくとも出力するアノテータに、アノテーションを付与すべきかどうかを評価可能な第１のデータ群を与えることにより、当該第１のデータ群における複数のアノテーションのそれぞれの確からしさを示す複数の第１の確信度を取得する第１の取得部と、
前記複数のアノテーションの相関の計算に用いる第２のデータ群を前記アノテータに与えることにより、当該第２のデータ群における当該複数のアノテーションのそれぞれの確からしさを示す複数の第２の確信度を取得する第２の取得部と、
前記複数の第１の確信度と前記複数の第２の確信度とに基づいて、前記複数のアノテーションの相関の推定値を算出する算出部と
を含む、装置。
前記第１の取得部は、アノテーションを付与すべきでないと評価される前記第１のデータ群を前記アノテータに与えることにより、前記複数の第１の確信度を取得し、
前記算出部は、前記複数の第１の確信度のそれぞれの前記第１のデータ群における第１の代表値を求める処理を当該複数の第１の確信度について行うことにより複数の第１の代表値を算出し、当該複数の第１の代表値と前記複数の第２の確信度とを用いて、前記複数のアノテーションの相関の推定値を算出する、請求項１の装置。
前記算出部は、前記複数の第１の代表値の何れかが大きくなると前記複数のアノテーションの相関の基準値からの乖離が大きくなるような算出式により、当該複数のアノテーションの相関の推定値を算出する、請求項２の装置。
前記算出部は、前記複数の第２の確信度の何れかの前記第２のデータ群における第２の代表値から前記複数の第１の代表値の何れかを減ずる式で除する項を含む前記算出式により、前記複数のアノテーションの相関の推定値を算出するに当たり、当該式の値を大きくする、請求項３の装置。
前記算出部は、前記複数の第２の確信度の積の前記第２のデータ群における第３の代表値を、前記複数の第２の確信度のそれぞれの前記第２のデータ群における第２の代表値を求める処理を当該複数の第２の確信度について行うことにより得られた複数の第２の代表値の積で除する式を、前記複数の第１の代表値を用いて補正する算出式により、前記複数のアノテーションの相関の推定値を算出する、請求項２の装置。
前記第１の取得部は、アノテーションを付与すべきでないと評価される前記第１のデータ群を前記アノテータに与えることにより、当該第１のデータ群における２つのアノテーションのそれぞれの確からしさを示す２つの第１の確信度を取得し、
前記第２の取得部は、前記２つのアノテーションの相関の計算に用いる前記第２のデータ群を前記アノテータに与えることにより、当該第２のデータ群における当該２つのアノテーションのそれぞれの確からしさを示す２つの第２の確信度を取得し、
前記算出部は、前記２つの第１の確信度のそれぞれの前記第１のデータ群における平均値を求める処理を当該２つの第１の確信度について行うことにより２つの平均値μ^＊ _ａ０，μ^＊ _ｂ０を算出し、前記２つの第２の確信度のそれぞれの前記第２のデータ群における平均値を求める処理を当該２つの第２の確信度について行うことにより２つの平均値Ｅ^＊ _ａ，Ｅ^＊ _ｂを算出し、前記２つの第２の確信度の積の前記第２のデータ群における平均値Ｅ^＊ _ａｂを算出し、下記の算出式により、前記２つのアノテーションの相関の推定値ｃ^＊を算出する、請求項１の装置。
コンピュータがアノテーションの相関を計算する方法であって、
前記コンピュータが、データが与えられると当該データに付与するアノテーションの確からしさを示す確信度を少なくとも出力するアノテータに、アノテーションを付与すべきかどうかを評価可能な第１のデータ群を与えることにより、当該第１のデータ群における複数のアノテーションのそれぞれの確からしさを示す複数の第１の確信度を取得するステップと、
前記コンピュータが、前記複数のアノテーションの相関の計算に用いる第２のデータ群を前記アノテータに与えることにより、当該第２のデータ群における当該複数のアノテーションのそれぞれの確からしさを示す複数の第２の確信度を取得するステップと、
前記コンピュータが、前記複数の第１の確信度と前記複数の第２の確信度とに基づいて、前記複数のアノテーションの相関の推定値を算出するステップと
を含む、方法。
前記複数の第１の確信度を取得するステップは、アノテーションを付与すべきでないと評価される前記第１のデータ群を前記アノテータに与えることにより、前記複数の第１の確信度を取得することを含み、
前記複数のアノテーションの相関の推定値を算出するステップは、前記複数の第１の確信度のそれぞれの前記第１のデータ群における第１の代表値を求める処理を当該複数の第１の確信度について行うことにより複数の第１の代表値を算出し、当該複数の第１の代表値と前記複数の第２の確信度とを用いて、前記複数のアノテーションの相関の推定値を算出することを含む、請求項７の方法。
前記複数のアノテーションの相関の推定値を算出するステップは、前記複数の第１の代表値の何れかが大きくなると前記複数のアノテーションの相関の基準値からの乖離が大きくなるような算出式により、当該複数のアノテーションの相関の推定値を算出することを含む、請求項８の方法。
前記複数のアノテーションの相関の推定値を算出するステップは、前記複数の第２の確信度の何れかの前記第２のデータ群における第２の代表値から前記複数の第１の代表値の何れかを減ずる式で除する項を含む前記算出式により、前記複数のアノテーションの相関の推定値を算出するに当たり、当該式の値を大きくすることを含む、請求項９の方法。
前記複数のアノテーションの相関の推定値を算出するステップは、前記複数の第２の確信度の積の前記第２のデータ群における第３の代表値を、前記複数の第２の確信度のそれぞれの前記第２のデータ群における第２の代表値を求める処理を当該複数の第２の確信度について行うことにより得られた複数の第２の代表値の積で除する式を、前記複数の第１の代表値を用いて補正する算出式により、前記複数のアノテーションの相関の推定値を算出することを含む、請求項８の方法。
前記複数の第１の確信度を取得するステップは、アノテーションを付与すべきでないと評価される前記第１のデータ群を前記アノテータに与えることにより、当該第１のデータ群における２つのアノテーションのそれぞれの確からしさを示す２つの第１の確信度を取得することを含み、
前記複数の第２の確信度を取得するステップは、前記２つのアノテーションの相関の計算に用いる前記第２のデータ群を前記アノテータに与えることにより、当該第２のデータ群における当該２つのアノテーションのそれぞれの確からしさを示す２つの第２の確信度を取得することを含み、
前記複数のアノテーションの相関の推定値を算出するステップは、前記２つの第１の確信度のそれぞれの前記第１のデータ群における平均値を求める処理を当該２つの第１の確信度について行うことにより２つの平均値μ^＊ _ａ０，μ^＊ _ｂ０を算出し、前記２つの第２の確信度のそれぞれの前記第２のデータ群における平均値を求める処理を当該２つの第２の確信度について行うことにより２つの平均値Ｅ^＊ _ａ，Ｅ^＊ _ｂを算出し、前記２つの第２の確信度の積の前記第２のデータ群における平均値Ｅ^＊ _ａｂを算出し、下記の算出式により、前記２つのアノテーションの相関の推定値ｃ^＊を算出することを含む、請求項７の方法。
アノテーションの相関を計算する装置として、コンピュータを機能させるプログラムであって、
前記コンピュータに、請求項７乃至１２の何れかに記載の方法を実行させる、プログラム。