JP5210224B2

JP5210224B2 - アノテーションデータ解析装置、アノテーションデータ解析プログラムおよびそのプログラムを記録した記録媒体

Info

Publication number: JP5210224B2
Application number: JP2009083524A
Authority: JP
Inventors: 具治岩田; 武士山田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2009-03-30
Filing date: 2009-03-30
Publication date: 2013-06-12
Anticipated expiration: 2029-03-30
Also published as: JP2010237864A

Description

本発明は、アノテーション（注釈、タグ）が付与されている文書データなど、各データが離散値のベクトルとして表現することが可能なデータを示すアノテーションデータの集合を解析する技術に関する。

近年、ソーシャルアノテーションービスが注目されている。ソーシャルアノテーションサービスでは、ユーザがコンテンツ（データの内容）に自由にアノテーションを付与できる。このようなソーシャルアノテーションサービスとしては、例えば、ウェブページ、写真、ブログ記事、動画、音楽、科学論文など、様々なコンテンツを扱うサービスが提供されている。

従来、例えば、アノテーションが付与された画像データとしてのアノテーションデータの解析法が知られている（非特許文献１参照）。非特許文献１に記載の解析法は、隠れディリクレ配列法（ＬＤＡ：latent Dirichlet allocation）を改良した手法であり、correspondence latent Dirichlet allocation（Corr-LDA）と呼ばれている。このアノテーションは、写真（画像）のキャプションであり、画像の領域と、キャプション中の単語とが対応付けられている。

David M. Blei and Michael I. Jordan, "Modeling Annotated Data", SIGIR'03: Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, p.127-134, 2003

ソーシャルアノテーションサービスで付与されたアノテーションには、内容に関連のないアノテーションが数多く含まれる。例えば、写真の場合、その写真を撮ったカメラの機種名や、「2008」「11月」などの撮った日付など、内容自身を表してはいないアノテーションがユーザによって付与されている。他の例としては、「あとで読む」などリマインダーとして用いるためのものや、「すごい」など評価を表すもの、またそのコンテンツの所有者を表すものなどがある。

内容に関連のないアノテーションは、情報検索の場合にノイズとなる場合がある。また、自動画像アノテーションや文書分類など、機械学習問題の学習データとして用いる場合にもノイズとなる。そのため、内容に関連のないアノテーションを除去することができれば、情報検索、機械学習の性能を向上させることが期待できる。ところが、従来の非特許文献１に記載のアノテーションデータ解析法では、各アノテーションの内容の関連性をモデル化しておらず、内容に関連のないアノテーションの除去に用いることはできない。

そこで、本発明は、以上のような問題点を鑑みてなされたものであり、データに付与されたアノテーションがデータの内容と関連があるか否かを判別することのできるアノテーションデータ解析技術を提供することを目的とする。

本発明は、前記課題を解決するために創案されたものであり、本発明のアノテーションデータ解析装置は、構成要素が離散値のベクトルとして表現されたデータと、前記データに付与されるアノテーションとの組みを示すアノテーションデータを確率モデルに基づいて解析するアノテーションデータ解析装置であって、解析対象として与えられる前記アノテーションデータの集合を示すアノテーションデータ集合を入力する入力部と、前記入力されたアノテーションデータ集合と、推定対象のパラメータ群とを含む情報を記憶する記憶部と、前記記憶された情報に基づいて所定の演算を行う演算部と、前記演算結果として、前記アノテーションのうち、データの内容との関連がないアノテーションの情報を出力する出力部とを備え、前記記憶部が、前記推定対象のパラメータ群として、前記アノテーションデータ集合に含まれる前記構成要素が帰属するトピックの集合を示すデータ帰属トピック集合と、前記アノテーションデータ集合に含まれる前記アノテーションが帰属するトピックの集合を示すアノテーション帰属トピック集合と、前記アノテーションデータ集合に含まれる前記アノテーションと、当該アノテーションが付与されたデータの内容との関連の有無を表す関連性の集合を示す関連性集合と、前記確率モデルにおける複数のハイパーパラメータと、を記憶し、前記演算部が、前記推定対象の各集合の要素を初期化する初期化部と、前記推定対象の各集合および複数のハイパーパラメータの推定処理および更新処理を、前記推定対象の各集合が前記アノテーションデータ集合を尤もらしく説明できている度合いを表す尤度を最大化する予め定められた目的関数が収束するまで繰り返す繰り返し制御部とを備え、前記繰り返し制御部が、各データに含まれる各構成要素が所定のトピックに帰属する帰属度を予め定められた全トピックについて算出した結果に基づいて新たなトピックを割り当てることで前記データ帰属トピック集合を推定するデータ帰属トピック推定部と、各データに付与された各アノテーションが所定のトピックに帰属する帰属度を予め定められた全トピックについて算出した結果に基づいて新たなトピックを割り当てることで前記アノテーション帰属トピック集合を推定するアノテーション帰属トピック推定部と、前記トピック毎に前記アノテーションが生成される確率に基づいて、関連性がある確率と関連性がない確率との両方をアノテーション毎に算出した結果に基づいて新たな関連性を割り当てることで前記関連性集合を推定する関連性推定部と、前記推定された各集合および複数のハイパーパラメータを入力として前記尤度を算出し、算出した尤度に基づいて前記目的関数の収束を判定し、前記目的関数が収束していない場合、前記入力に用いたハイパーパラメータを所定の更新式により更新するパラメータ推定部とを備えることを特徴とする。

かかる構成によれば、アノテーションデータ解析装置は、記憶手段に、与えられたアノテーションデータ集合を記憶すると共に、推定すべきパラメータとして、データ帰属トピック集合と、アノテーション帰属トピック集合と、関連性集合と、複数のハイパーパラメータとを記憶する。ここで、アノテーションデータ解析装置が解析対象とするデータは、例えば、文書データなど、構成要素が離散値のベクトルとして表現されたデータである。つまり、解析対象とするデータは、連続値のベクトルとして表現されるものではない。なお、連続値のベクトルは、確率分布の概念を連続値の場合に拡張したものであって、確率変数の分布が確率密度関数を用いて記述されるベクトルである。また、解析対象とするデータが、例えば、文書データである場合、データの構成要素は単語を指し、アノテーションは例えばユーザにより文書に付与された注釈を示す。トピックは、解析対象とするデータに埋め込まれるクラスやベクトルで表すことが可能である。トピックは、例えばデータのジャンルを表す。

そして、アノテーションデータ解析装置は、繰り返し制御部によって、推定対象の各集合および複数のハイパーパラメータの推定処理および更新処理を目的関数が収束するまで繰り返す。ここで、データ帰属トピック推定部は、データに含まれる各構成要素が所定のトピックに帰属する帰属度を算出し、アノテーション帰属トピック推定部は、データに付与された各アノテーションが所定のトピックに帰属する帰属度を算出する。これらは、データの構成要素のトピックと、アノテーションのトピックとが一致すれば、アノテーションとデータの内容との関連性があると判定するために求めるものである。このために、目的関数には、アノテーションのトピックが、データの構成要素のトピックと同じ比率の多項分布から生成されるという仮定を用いることができる。そして、関連性推定部は、トピック毎のアノテーション生成確率に基づいて、関連性がある確率と関連性がない確率との両方をアノテーション毎に算出するので、各アノテーションを、付与されたデータの内容との関連性で２つに分類できる。したがって、目的関数が収束したときに、アノテーションデータ解析装置の記憶手段に記憶されているデータ帰属トピック集合、アノテーション帰属トピック集合、関連性集合および複数のハイパーパラメータは、与えられたアノテーションデータ集合に対して最適値となっている。そのため、関連性集合において関連性なしと割り当てられたアノテーションの情報を抽出し、与えられたアノテーションデータ集合から、このアノテーションを削除すれば、そのアノテーションが付与されていたデータから、内容と関連のないアノテーションを除去することができる。

また、本発明のアノテーションデータ解析装置は、前記繰り返し制御部が、前記推定対象の各集合の要素を割り当てた回数を予め定められた基準で逐次集計し、前記基準で集計された集合を、割当回数集合として前記記憶部に格納し、前記割当回数集合が、前記アノテーションデータ集合に含まれるアノテーションが、付与されたデータの内容との関連がないとされた回数の集合と、前記アノテーションデータ集合に含まれるアノテーションが、付与されたデータの内容との関連があるとされ、かつ、当該アノテーションがトピックに割り当てられたトピック毎の回数の集合との和を示す関連性割当回数集合を含み、前記関連性推定部が、前記関連性割当回数集合と、前記トピック毎に前記アノテーションが生成される確率の事前分布を示すハイパーパラメータと、内容と関係がある確率の事前分布を示すハイパーパラメータとを含むパラメータ群を読み込むパラメータ読込部と、前記読み込んだパラメータ群を用いて、割り当て対象とするデータに付与されたアノテーションについて当該データの内容と関連性がないことを表す第１関連度と、関連性があることを表す第２関連度とをそれぞれ算出する関連度算出部と、前記第１関連度および第２関連度のいずれを採用するかを確率モデルに基づいて決定し、前記割り当て対象とするデータに対して、前記決定された関連度に対応した新たな関連性を割り当てる関連性決定部とを備えることが好ましい。

かかる構成によれば、アノテーションデータ解析装置は、繰り返し制御部によって、推定対象の各集合の要素を割り当てた回数を逐次集計した結果を、関連性割当回数集合として記憶部に格納する。そして、アノテーションデータ解析装置は、関連性推定部によって、推定処理の演算を行う時点で集計されていた関連性割当回数集合を用いて、トピック毎のアノテーション生成確率と、内容と関係がある確率とを反映した第１および第２関連度を算出し、算出した第１および第２関連度の一方を確率モデルに基づいて決定し、新たな関連性を割り当てる。したがって、アノテーションとその内容に関して、与えられたアノテーションデータ集合に対して尤もらしい関連性を推定できる。

また、本発明のアノテーションデータ解析装置は、前記演算部が、前記アノテーションデータ集合に含まれるアノテーションデータのうちアノテーションが組み合わされていないデータに対してアノテーションを付与するアノテーション付与部をさらに備え、前記割当回数集合が、前記アノテーションデータ集合に含まれるデータでトピックを割り当てられた前記データの構成要素の数の集合であるトピック割当回数集合をさらに含み、前記アノテーション付与部が、前記関連性割当回数集合と、前記トピック割当回数集合と、前記トピック毎に前記アノテーションが生成される確率の事前分布を示すハイパーパラメータとを含むパラメータ群を読み込むパラメータ読込部と、前記読み込んだパラメータ群を用いて、アノテーションに割り当てられるトピックの種類の数の割合を示すアノテーショントピック比率を推定するアノテーショントピック比率推定部と、前記読み込んだパラメータ群を用いて、アノテーションがデータの内容と関連性がある確率を表す関連ありアノテーション生成確率を推定する関連アノテーション生成確率推定部と、トピック毎の前記アノテーショントピック比率と前記関連ありアノテーション生成確率との積の総和である関連ありアノテーション付与確率を、アノテーション別に算出する関連アノテーション付与確率算出部と、前記アノテーション別に算出された関連ありアノテーション付与確率の上位から予め定められた数だけのアノテーションを決定するアノテーション決定部とを備えることが好ましい。

かかる構成によれば、アノテーションデータ解析装置は、アノテーション付与部によって、アノテーション付与処理の演算を行う時点で集計されていた関連性割当回数集合およびトピック割当回数集合を用いて、アノテーショントピック比率と関連ありアノテーション生成確率とを推定し、これら推定値から算出した関連ありアノテーション付与確率に基づいて、付与すべきアノテーションを決定する。したがって、決定されたアノテーションは、対象とするデータの内容に対して尤もらしい関連性があるアノテーションとなる。これにより、当初からアノテーションが付与されていなかったデータにアノテーションを付与することができる。

また、本発明のアノテーションデータ解析プログラムは、前記いずれかのアノテーションデータ解析装置を構成する各部として、コンピュータを機能させるためのプログラムである。このように構成されることにより、このプログラムをインストールされたコンピュータは、このプログラムに基づいた各機能を実現することができる。

また、本発明のコンピュータ読み取り可能な記録媒体は、前記アノテーションデータ解析プログラムが記録されたことを特徴とする。このように構成されることにより、この記録媒体を装着されたコンピュータは、この記録媒体に記録されたプログラムに基づいた各機能を実現することができる。

本発明によれば、アノテーションデータ集合を解析することにより、アノテーションが内容と関連があるか否かを自動的に判別できる。その結果、情報検索や機械学習の性能を向上させることができる。

本発明の実施形態に係るアノテーションデータ解析装置の構成を示すブロック図である。図１に示したパラメータ集合の一例を示す図である。図１に示したアノテーションデータ解析装置による処理の流れを示すフローチャートである。図１に示したデータ帰属トピック推定部の構成を示す機能ブロック図である。図１に示したアノテーション帰属トピック推定部の構成を示す機能ブロック図である。図１に示した関連性推定部の構成を示す機能ブロック図である。図１に示したパラメータ推定部の構成を示す機能ブロック図である。図１に示したアノテーション付与部の構成を示す機能ブロック図である。本発明の実施形態に係るアノテーションデータ解析装置により内容と関連のあるアノテーションを予測したときの予測誤差を示すグラフである。本発明の実施形態に係るアノテーションデータ解析装置によりアノテーションと内容との関連性を予測したときの予測精度を示すグラフである。本発明の実施形態に係るアノテーションデータ解析装置によりアノテーションと内容との関連性を予測したときに関連性ありと推定した比率を示すグラフである。

以下、本発明のアノテーションデータ解析装置を実施するための形態（以下、「実施形態」という）について図面を参照して説明する。

［アノテーションデータ解析装置の構成の概要］
図１に示すアノテーションデータ解析装置１は、構成要素が離散値のベクトルとして表現されたデータと、データに付与されるアノテーションとの組みを示すアノテーションデータを確率モデルに基づいて解析する装置である。ここで、構成要素が離散値のベクトルとして表現されたデータとは、例えば、文書データ、画像データ、購買データなどである。例えば、文書データの場合、構成要素とは単語を指す。以下では、簡単のためデータを文書データとして説明する。

このアノテーションデータ解析装置１は、図１に示すように、演算部２と、入力部４と、記憶部６と、出力部８とを備えている。各部２，４，６，８はバスライン１１に接続されている。

演算部２は、例えば、ＣＰＵ（Central Processing Unit）およびＲＡＭ（Random Access Memory）から構成される主制御装置である。この演算部２は、図１に示すように、初期化部２１と、繰り返し制御部２２と、アノテーション付与部２３と、メモリ２４とを含んで構成される。このうち、繰り返し制御部２２は、データ帰属トピック推定部３１と、アノテーション帰属トピック推定部３２と、関連性推定部３３と、パラメータ推定部３４とを備える。

演算部２は、記憶部６から、初期化プログラム４１、データ帰属トピック推定プログラム４２、アノテーション帰属トピック推定プログラム４３、関連性推定プログラム４４、パラメータ推定プログラム４５およびアノテーション付与プログラム４６をそれぞれ読み込み、メモリ２４に格納し、実行することで、前記した初期化部２１と、データ帰属トピック推定部３１と、アノテーション帰属トピック推定部３２と、関連性推定部３３と、パラメータ推定部３４と、アノテーション付与部２３とをそれぞれ実現する。なお、これら初期化部２１、データ帰属トピック推定部３１、アノテーション帰属トピック推定部３２、関連性推定部３３、パラメータ推定部３４およびアノテーション付与部２３の詳細については後記する。

入力部４は、例えば、キーボード、マウス、ディスクドライブ装置などから構成される。記憶部６は、例えば、一般的なハードディスク装置などから構成され、プログラム格納部４０と、データ格納部５０と、を含む。

プログラム格納部４０には、演算部２で用いられるプログラムとして、初期化プログラム４１と、データ帰属トピック推定プログラム４２と、アノテーション帰属トピック推定プログラム４３と、関連性推定プログラム４４と、パラメータ推定プログラム４５と、アノテーション付与プログラム４６と、を記憶させておくことが可能である。また、データ格納部５０には、演算部２で用いられる各種データとして、入力アノテーションデータ５１、データ帰属トピック集合５２、アノテーション帰属トピック集合５３、関連性集合５４、パラメータ集合５５を記憶する。ここで、入力アノテーションデータ５１は入力部４を介して入力され、記憶部６のデータ格納部５０に記憶される構成とすることが可能である。また、データ帰属トピック集合５２、アノテーション帰属トピック集合５３、関連性集合５４、パラメータ集合５５は、演算部２の演算処理結果を示すデータであり、その詳細については後記する。

出力部８は、例えば、グラフィックボード（出力インタフェース）およびそれに接続されたモニタである。モニタは、例えば、液晶ディスプレイ等から構成され、アノテーションデータ解析を行った結果等を表示する。

［アノテーションデータ解析装置で扱うデータの概要］
（入力アノテーションデータ５１）
入力アノテーションデータ５１は、学習データ集合Ｄとして与えられるものである。ここでは、入力データとして、Ｄ個の文書データの集合が与えられたとする。各文書データは、内容を表すための複数の単語を含んでいる。なお、文書の言語は任意である。ｄ（ｄ＝１〜Ｄ）番目の文書（以下、文書ｄと呼ぶ）は、式（１ａ）〜（１ｄ）、式（２ａ），（２ｂ）、式（３ａ），（３ｂ）で示すように、単語集合とアノテーション集合のペアで表現される。以下の数式中において、アルファベットの書体がイタリックの場合には変数を示し、ボールドの場合には集合を示す。なお、アルファベットの大文字と小文字は指し示す内容が異なる。

式（２ａ）において、ｗ_dは、文書ｄにおいて、内容を表す文書に含まれる単語の集合を表す。また、式（２ａ）において、ｗ_dnは、文書ｄにおいて、内容を表す文書に含まれるｎ番目の単語を示す。Ｎ_dは、文書ｄにおいて、内容を表す文書に含まれる単語を順番に並べたときの単語数である。例えば、単語数Ｎ_d＝３００ならば、文書ｄにおいて、内容を表す文書は３００単語で構成される。ここでは、単語ｗ_dnを、式（２ｂ）に示すように、扱う単語として予め定められた語彙数Ｗのうちの何番目の単語であるかによって識別することとした。単語ｗ_dnを特に区別しない場合には、単に単語ｗと表記する。また、１≦ｗ≦Ｗである。つまり、単語ｗは、便宜上、数値で表される。なお、語彙数Ｗは例えば数万〜数十万である。文書ｄには、例えば、日本語であれば「は」、英語であれば「ａ」のように、同じ単語が複数回出現するのが通常である。

式（３ａ）において、ｔ_dは、文書ｄに付与されたアノテーションの集合を表す。また、式（３ａ）において、ｔ_dmは、文書ｄにおいて、既に付与されているｍ番目のアノテーションを示す。Ｍ_dは、文書ｄに付与されたアノテーション数である。ここでは、アノテーションｔ_dmを、式（３ｂ）に示すように、予め定められたアノテーション語彙数Ｔのうちの何番目の単語であるかによって識別することとした。例えば、アノテーション数Ｍ_d＝３ならば、アノテーションは、ｔ_d1，ｔ_d2，ｔ_d3で表される。アノテーションｔ_dmを特に区別しない場合には、単にアノテーションｔと表記する。また、１≦ｔ≦Ｔである。つまり、アノテーションｔは、便宜上、数値で表される。なお、アノテーション語彙数Ｔは、単語の語彙数Ｗより小さければよく、例えば、１０〜１００とする。

（データ帰属トピック集合５２）
各文書データは、文書データ集合の中で分類される。この分類により、文書間の関係が理解されるように可視化する場合もある。なお、可視化する空間は２次元または３次元空間である。本実施形態では、文書データを、例えば、トピック毎に分類するものとする。トピックは、文書の内容を示すデータに埋め込まれるクラスやベクトルで表すことが可能である。トピックは、例えばジャンルを表し、文書データ集合を可視化する場合に、そのデータ構造を直感的に理解させることができる。ここでは、データに埋め込まれるトピックと、データに付与されるアノテーション（ラベル）とを区別することとする。例えば、トピックの種類が、政治トピック、経済トピック、法律トピック、文学トピック、科学トピック、芸術トピックであれば、トピック数は６である。また、ある文書Ａ中の「国会」という単語は、“政治トピック”に属する。
対象とする文書データに含まれる単語が帰属するトピックの集合を式（４ａ）の集合Ｚで表す。

この式（４ａ）で示された集合Ｚは、推定する必要がある未知パラメータであり、データ帰属トピック集合５２として計算される。トピックｚ_dnを特に区別しない場合には、単にトピックｚと表記する。また、１≦ｚ≦Ｚである。つまり、トピックｚは、便宜上、数値で表される。

（アノテーション帰属トピック集合５３）
対象とする文書データに付与されたアノテーションが帰属するトピックの集合を式（５ａ）の集合Ｃで表す。

この式（５ａ）で示された集合Ｃは、推定する必要がある未知パラメータであり、アノテーション帰属トピック集合５３として計算される。トピックｃ_dmを特に区別しない場合には、単にトピックｃと表記する。また、１≦ｃ≦Ｚである。つまり、トピックｃは、便宜上、数値で表される。ｃ＝ｚの場合、トピックｃとトピックｚは、同じトピックを意味する。例えば、前記した６種類のトピックがあって、ある文書Ａの１番目のアノテーションが「国会」、２番目のアノテーションが「経済」であれば、「国会」というアノテーションは、“政治トピック”に属し、「経済」というアノテーションは、“経済トピック”に属する。

（関連性集合５４）
対象とする文書データに付与されたアノテーションと、その文書データの内容との関連性を式（６）の集合Ｒで表す。

この式（６ａ）で示された集合Ｒは、推定する必要がある未知パラメータであり、関連性集合５４として計算される。なお、「関連あり」のときにｒ_dm＝０、「関連なし」のときにｒ_dm＝１としてもよいことはもちろんである。また、「関連あり」と「関連なし」を異なる数値に対応させるのであれば、０と１のペアに限定されない。ここまでに数式に現れた記号の意味を表１にまとめて記載する。

（パラメータ集合５５）
パラメータ集合５５の一例を図２に示す。詳細は、後記するが、パラメータ集合５５は、推定されるパラメータ群と、集計されるパラメータ群に大別できる。
推定されるパラメータ群は、繰り返し制御部２２における確率分布の計算のスムージングのために導入したハイパーパラメータα、β、γ、ηである。これらは推定する必要がある未知パラメータであり、パラメータ推定部３４で推定される。
集計されるパラメータ群は、繰り返し制御部２２における演算処理の結果として、前記したデータ帰属トピック集合５２、アノテーション帰属トピック集合５３、関連性集合５４の各要素を割り当てた回数の集合（以下、割当回数集合という）を示す。割当回数集合Ａ₁，Ａ₂，Ａ₃は、文書毎、かつ、トピック毎に集計されたものである。また、割当回数集合Ａ₄は、アノテーション毎、かつ、トピック毎に集計されたものである。

［アノテーションデータ解析装置の処理の概要］
（処理の全体の流れ）
図３は、図１に示したアノテーションデータ解析装置による処理の流れを示すフローチャートである。まず、アノテーションデータ解析装置１は、入力アノテーションデータ５１（学習データ）を読み込む（ステップＳ１）。次に、アノテーションデータ解析装置１は、式（４ａ）に示すデータトピック集合Ｚ、式（５ａ）に示すアノテーショントピック集合Ｃ、式（６ａ）に示す関連性集合Ｒをランダムに初期化する（ステップＳ２）。つまり、データトピック集合Ｚ、アノテーショントピック集合Ｃ、関連性集合Ｒのそれぞれの初期状態は、集合の各要素がランダムな値を有した集合として設定される。

続いて、アノテーションデータ解析装置１は、データ帰属トピック推定部３１においてデータ帰属トピック集合５２を推定する処理（ステップＳ３）、アノテーション帰属トピック推定部３２においてアノテーション帰属トピック集合５３を推定する処理（ステップＳ４）、関連性推定部３３において関連性集合５４を推定する処理（ステップＳ５）、パラメータ推定部３４においてパラメータ集合５５を推定する処理（ステップＳ６）を一連の演算処理として、この一連の演算処理を、例えば、後記する式（７）の目的関数が収束するまで繰り返し（ステップＳ７：Ｎｏ）、目的関数が収束したときに、そのときの関連性集合５４にて「ｒ_dm＝０」が割り当てられたアノテーションｔ_dmの情報を出力する（ステップ８）。つまり、ｒ_dm＝０が割り当てられている文書データｄのｍ番目のアノテーションは、内容との関連がないものであると決定できる。これにより、入力アノテーションデータ５１から、内容と関連のないアノテーションを削除できる。

（目的関数）
ステップＳ７において値の収束が判別される目的関数は、「データ帰属トピック集合５２、アノテーション帰属トピック集合５３、関連性集合５４が、どのくらい入力アノテーションデータ５１を尤もらしく説明できているかを表す尤度」を示す関数である。つまり、「目的関数が収束するまで繰り返す」とは、「データ帰属トピック集合５２、アノテーション帰属トピック集合５３、関連性集合５４の計算された時点における推定値が、どのくらい入力アノテーションデータ５１を尤もらしく説明できているかを表す尤度が収束するまで繰り返す」ことを意味する。ここで、尤度が収束した状態、すなわち、尤度が高くなる状態とは、例えば、次の（１）〜（５）のような状態になることである。

（１）データ（単語）のトピックとそのデータに付与されているアノテーションのトピックが同じであれば、アノテーションと文書の内容とに関連性があり（ｒ_dm＝１）、尤度は高くなる。
（２）ある文書ｄに含まれる各単語ｗに割り当てられるトピックｚの種類の数が少ない場合、尤度は高くなる。
（３）ある文書ｄに付与されたアノテーションｔに割り当てられるトピックｃの種類の数が少ない場合に、尤度は高くなる。
（４）あるトピックｚが付与される単語ｗが特定の単語集合である場合、尤度は高くなる。つまり、数が少ない単語集合のみにトピックｚが付与される場合には、尤度が高くなる。例えば、３つの単語（単語１、単語２、単語３）があったときに、あるトピックＡが、単語１、単語２、単語３に付与される場合に、尤度は低いが、あるトピックＡが、単語１にだけ付与される場合に、尤度は高くなる。
（５）同様に、あるトピックｃが付与されるアノテーションｔが特定のアノテーション集合である場合に、尤度は高くなる。

この尤度計算において、一例として、式（７）に示すＰ（Ｗ，Ｔ，Ｚ，Ｃ，Ｒ｜α，β，γ，η）を尤度として採用することができる。

式（７）の右辺は、５つの確率分布の積を表している。以下では、それぞれの確率分布を第１の確率分布〜第５の確率分布とよび、それらの具体的な表式を示す。

＜第１の確率分布＞
第１の確率分布Ｐ（Ｚ｜α）は、第１の条件の下では、式（８）で表すことができる。第１の条件は、文書毎のトピック生成分布として多項分布（Multinomial distribution）、その事前分布としてパラメータ（ハイパーパラメータ）αを持つディリクレ分布（Dirichlet distribution）を用いるという条件である。

＜第２の確率分布＞
第２の確率分布Ｐ（Ｗ｜Ｚ，β）は、第２の条件の下では、式（９ａ）で表すことができる。第２の条件は、トピック毎の単語生成分布として多項分布、その事前分布としてパラメータ（ハイパーパラメータ）βを持つディリクレ分布を用いるという条件である。

＜第３の確率分布＞
第３の確率分布Ｐ（Ｔ｜Ｃ，Ｒ，γ）は、第３の条件の下では、式（１０ａ）で表すことができる。第３の条件は、トピック毎のアノテーション生成分布として多項分布、その事前分布としてパラメータ（ハイパーパラメータ）γを持つディリクレ分布を用いるという条件である。

＜第４の確率分布＞
第４の確率分布Ｐ（Ｒ｜η）は、第４の条件の下では、式（１１）で表すことができる。第４の条件は、内容と関係がある確率をベルヌーイ分布、その事前分布としてパラメータηを持つベータ分布を用いるという条件である。

なお、ｍ₁は、文書ｄに関するアノテーション数Ｍ_dと同じものである。ただし、文書ｄを前提として、関連性の観点から、ｍ₁をｍ₀と共に用いることとした。

＜第５の確率分布＞
第５の確率分布Ｐ（Ｃ｜Ｚ）は、第５の条件の下では、式（１２）で表すことができる。第５の条件は、アノテーションのトピックは、単語のトピックと同じ比率の多項分布から生成されるという仮定を用いるという条件である。

［アノテーションデータ解析装置の構成の詳細］
次に、演算部２の各部の構成の詳細を説明する。以下では、マルコフ連鎖モンテカルロ法に基づいて、データ帰属トピック推定、アノテーション帰属トピック推定、関連性推定、パラメータ推定を行う場合について記述する。

＜初期化部＞
初期化部２１は、推定対象の各集合５２，５３，５４の要素を初期化するものである。初期化部２１は、前記した式（４ａ）に示すデータトピック集合Ｚ、式（５ａ）に示すアノテーショントピック集合Ｃ、式（６ａ）に示す関連性集合Ｒをランダムに初期化する。

＜繰り返し制御部＞
繰り返し制御部２２は、推定対象の各集合５２，５３，５４およびハイパーパラメータα，β，γ，ηの推定処理および更新処理を、推定対象の各集合５２，５３，５４が入力アノテーションデータ５１を尤もらしく説明できている度合いを表す尤度を最大化する予め定められた目的関数が収束するまで繰り返すものである。

≪データ帰属トピック推定部≫
図４は、図１に示したデータ帰属トピック推定部の構成を示す機能ブロック図である。
データ帰属トピック推定部３１は、各文書データに含まれる各単語が所定のトピックに帰属する帰属度を全トピックについて算出した結果に基づいて新たなトピックを割り当てることでデータ帰属トピック集合５２を推定するものである。このために、データ帰属トピック推定部３１は、図４に示すように、第１パラメータ読込部３１１と、第１帰属割当部３１２と、第１帰属書込部３１３とを備えている。

第１パラメータ読込部３１１は、パラメータ集合５５から、次の式（１３）に示す割当回数集合Ａ₁と、式（１４）に示す割当回数集合Ａ₂と、式（１５）に示す割当回数集合Ａ₃と、前記したハイパーパラメータα，βを読み込み、第１帰属割当部３１２に出力する。

式（１３）に示す割当回数集合（トピック割当回数集合）Ａ₁は、文書ｄでトピックｚを割り当てられた単語数ｎ_zdの集合である。
式（１４）に示す割当回数集合Ａ₂は、単語ｗにトピックｚが割り当てられた数ｎ_zwの集合である。
式（１５）に示す割当回数集合Ａ₃は、文書ｄにおいてトピックｚが割り当てられたアノテーション数

の集合である。

第１帰属割当部３１２は、第１帰属度算出部３１４と、第１正規化部３１５と、第１乱数発生部３１６と、第１帰属トピック決定部３１７とを備えている。

第１帰属度算出部３１４は、各文書ｄ＝１，…，Ｄに含まれる各単語ｗ（ｎ＝１，…，Ｎ_d）がどのトピック（ｚ＝１，…，Ｚ）に帰属するかを表す帰属度を計算する。
帰属度は、入力として、
１）文書のトピック比率、
２）トピック毎の単語生成確率、
３）アノテーションのトピック比率、
４）アノテーション帰属トピック数
をとり、これらの値を考慮したものである必要がある。

ここで、
１）文書のトピック比率は、ある文書ｄに含まれる各単語ｗに割り当てられるトピックの種類の数の割合である。
２）トピック毎の単語生成確率は、トピック毎の単語生成分布のことであり、ここでは、多項分布を仮定している。
３）アノテーションのトピック比率は、ある文書ｄに付与された各アノテーションに割り当てられるトピックの種類の数の割合である。
４）アノテーション帰属トピック数は、文書ｄにおいてトピックｚが割り当てられたアノテーション数を表す

のことである。

本実施形態では、第１帰属度算出部３１４は、例えば、次の式（１６）により帰属度を算出することとした。

第１正規化部３１５、第１乱数発生部３１６、第１帰属トピック決定部３１７は、協働して、以下のようにしてルーレットを回すようにトピックを割り当てる。
第１正規化部３１５は、トピック数Ｚの個数だけ求めた各帰属度の計算結果をすべて足して「１」になるように正規化する。つまり、各帰属度から帰属確率を求める。
第１乱数発生部３１６は、０〜１の乱数を１つ発生させる。
第１帰属トピック決定部３１７は、第１帰属度算出部３１４で計算された帰属度に基づいて、新たなトピックｚ_jを割り当てる。この第１帰属トピック決定部３１７は、前記した式（１３）に示す割当回数集合（トピック割当回数集合）Ａ₁と、前記した式（１４）に示す割当回数集合Ａ₂とを集計し、記憶部６のパラメータ集合５５に格納する。

具体的には、Ｚ＝３の場合、ｋ＝１、ｋ＝２、ｋ＝３である。これらを、各帰属度の合計が１になるように正規化するとき、例えば、ｋ＝１のとき帰属度「０．５」、ｋ＝２のとき帰属度「０．３」、ｋ＝３のとき帰属度「０．２」になったとする。発生させた乱数が、０〜０．５の場合、ｋ＝１とする。発生させた乱数が、０．５〜０．８の場合、ｋ＝２とする。発生させた乱数が、０．８〜１．０の場合、ｋ＝３とする。これにより、第１帰属トピック決定部３１７は、新たなトピックｚ_jを割り当てることができる。

第１帰属書込部３１３は、第１帰属トピック決定部３１７で決定されたｚ_jをデータ帰属トピック集合５２として記憶部６に格納する。

≪アノテーション帰属トピック推定部≫
図５は、図１に示したアノテーション帰属トピック推定部の構成を示す機能ブロック図である。アノテーション帰属トピック推定部３２は、各文書データに付与された各アノテーションが所定のトピックに帰属する帰属度を全トピックについて算出した結果に基づいて新たなトピックを割り当てることでアノテーション帰属トピック集合５３を推定するものである。このために、アノテーション帰属トピック推定部３２は、第２パラメータ読込部３２１と、第２帰属割当部３２２と、第２帰属書込部３２３とを備えている。

第２パラメータ読込部３２１は、パラメータ集合５５から、前記した式（１３）に示す割当回数集合Ａ₁と、式（１７）に示す割当回数集合Ａ₄と、ハイパーパラメータγを読み込み、第２帰属割当部３２２に出力する。

式（１７）に示す割当回数集合（関連性割当回数集合）Ａ₄は、ｚ′≠０の場合にアノテーションｔがその文書の内容と関連があり、かつ、トピックｚ′に割り当てられた回数の集合と、ｚ′＝０の場合にアノテーションｔがその文書の内容と関連がないとされた回数の集合とを示す集合である。

第２帰属割当部３２２は、第２帰属度算出部３２４と、第２正規化部３２５と、第２乱数発生部３２６と、第２帰属トピック決定部３２７とを備える。
第２帰属度算出部３２４は、各文書ｄ＝１，…，Ｄの各アノテーションｍ＝１，…，Ｍ_dがどのトピックに帰属するかを表す帰属度を計算する。
帰属度は、入力として、前記した３）アノテーションのトピック比率に加え、
５）トピック毎のアノテーション生成確率、
６）関連性集合Ｒにおける関連性ｒ_dmをとり、これらの値を考慮したものである必要がある。

ここで、５）トピック毎のアノテーション生成確率は、トピック毎のアノテーション生成分布のことであり、ここでは、多項分布を仮定している。
６）関連性ｒ_dmは、第２パラメータ読込部３２１で読み込む前記した式（１７）に示す割当回数集合Ａ₄に基づくものである。

関連性がある場合（ｒ_i＝１）、３）アノテーションのトピック比率と、５）トピック毎のアノテーション生成確率の両方を考慮する。この場合、第２帰属度算出部３２４は、例えば、式（１８）により帰属度を計算することができる。

一方、関連性がない場合（ｒ_i＝０）、３）アノテーションのトピック比率のみを考慮する。この場合、第２帰属度算出部３２４は、例えば、式（１９）により帰属度を計算することができる。

第２正規化部３２５、第２乱数発生部３２６、第２帰属トピック決定部３２７は、前記した第１正規化部３１５、第１乱数発生部３１６、第１帰属トピック決定部３１７と同様な処理を行うものなので、説明を省略する。これらにより、第２帰属トピック決定部３２７は、第２帰属度算出部３２４で計算された帰属度に基づいて、新たなトピックｃ_iを割り当てる。そして、第２帰属書込部３２３は、推定したトピックｃ_iをアノテーション帰属トピック集合５３に格納する。なお、第２帰属トピック決定部３２７は、前記した式（１５）に示す割当回数集合Ａ₃を集計し、記憶部６のパラメータ集合５５に格納する。

≪関連性推定部≫
図６は、図１に示した関連性推定部の構成を示す機能ブロック図である。
関連性推定部３３は、トピック毎にアノテーションが生成される確率に基づいて、関連性がある確率と関連性がない確率との両方をアノテーション毎に算出した結果に基づいて新たな関連性を割り当てることで関連性集合５４を推定するものである。このために、関連性推定部３３は、第３パラメータ読込部３３１と、関連性割当部３３２と、関連性書込部３３３とを備える。

第３パラメータ読込部３３１は、パラメータ集合５５から、前記した式（１７）に示す割当回数集合（関連性割当回数集合）Ａ₄と、前記したハイパーパラメータγ、ηを読み込み、関連性割当部３３２に出力する。

関連性割当部３３２は、関連度算出部３３４と、第３正規化部３３５と、第３乱数発生部３３６と、関連性決定部３３７とを備える。
関連度算出部３３４は、各文書ｄ＝１，…，Ｄの各アノテーションｍ＝１，…，Ｍ_dについて内容との関連性があるか否かを表す関連度を計算する。
関連度は、入力として、
前記した５）トピック毎のアノテーション生成確率に加え、
７）関連性がある確率
をとり、これらの値を考慮したものである必要がある。

ここで、７）関連性がある確率は、例えば、式（２１ｂ）で表され、一方、関連性がない確率は、例えば、式（２０ｂ）で表される。

関連度算出部３３４は、読み込んだパラメータ群を用いて、割り当て対象とするデータに付与されたアノテーションについて当該データの内容との関連性がないことを表す関連度（第１関連度）を例えば式（２０ａ）により算出し、関連性があることを表す関連度（第２関連度）を例えば式（２１ａ）により算出する。

なお、式（２０ｂ）からスムージングのηを除外すれば、分母が「アノテーション数」、分子が「関連なしとされたアノテーション数」となるので、式（２０ｂ）は関連性がない確率を示す。また、式（２１ｂ）からスムージングのηを除外すれば、分母が「アノテーション数」、分子が「関連ありとされたアノテーション数」となるので、式（２１ｂ）は、関連性がある確率を示す。

第３正規化部３３５と、第３乱数発生部３３６と、関連性決定部３３７は、協働して、以下のようにしてルーレットを回すようにトピックを割り当てる。
本実施形態では、関連度算出部３３４は、あるｉ＝（ｄ，ｍ）について、まず、式（２０ａ）と式（２１ａ）の両方の関連度を計算する。
第３正規化部３３５は、関連度の２つの計算結果を足して「１」になるように正規化する。例えば、式（２０ａ）の正規化の結果が“０．９”となり、式（２１ａ）の正規化の結果が“０．１”となったとする。関連性決定部３３７は、第３乱数発生部３３６で発生した乱数が例えば“０．９”より小さければ、新たな関連性ｒ_i＝０とし、乱数が“０．９”より大きければ、新たな関連性ｒ_i＝１とする。これにより、関連性決定部３３７は、関連度算出部３３４で計算された関連度に基づいて、新たな関連性ｒ_iを割り当てる。そして、関連性書込部３３３は、推定した関連性ｒ_i（０または１）を関連性集合５４に格納する。なお、この関連性決定部３３７は、前記した式（１７）に示す割当回数集合（関連性割当回数集合）Ａ₄を集計し、記憶部６のパラメータ集合５５に格納する。

≪パラメータ推定部≫
図７は、図１に示したパラメータ推定部の構成を示す機能ブロック図である。
パラメータ推定部３４は、推定された各集合５２，５３，５４およびハイパーパラメータα，β，γ，ηを入力として、推定対象の各集合５２，５３，５４が入力アノテーションデータ５１を尤もらしく説明できている度合いを表す尤度を算出する。また、パラメータ推定部３４は、算出した尤度に基づいて目的関数の収束を判定し、目的関数が収束していない場合、入力に用いたハイパーパラメータα，β，γ，ηを所定の更新式により更新する。このために、パラメータ推定部３４は、第４パラメータ読込部３４１と、パラメータ割当部３４２と、パラメータ書込部３４３とを備える。

第４パラメータ読込部３４１は、パラメータ集合５５から、前記した式（１３）に示す割当回数集合Ａ₁と、前記した式（１４）に示す割当回数集合Ａ₂と、前記した式（１５）に示す割当回数集合Ａ₃と、前記した式（１７）に示す割当回数集合Ａ₄と、ハイパーパラメータα，β，γ，ηを読み込み、パラメータ割当部３４２に出力する。

パラメータ割当部３４２は、尤度算出部３４４と、収束判定部３４５と、パラメータ更新部３４６とを備える。
尤度算出部３４４は、前記した目的関数、すなわち、式（７）の「集合が、入力として受け付けた各データをどのくらい尤もらしく説明できているか」を表す尤度を、最大にするように、例えば準ニュートン法などの最適化法を用いて求めることとした。
収束判定部３４５は、前記した式（７）の目的関数が収束したか否かを判別する。
パラメータ更新部３４６は、収束判定部３４５の判別の結果、収束していなければ、例えば、式（２２）〜式（２６）の更新式により、各パラメータを更新し、データ帰属トピック推定部３１、アノテーション帰属トピック推定部３２、関連性推定部３３、パラメータ推定部３４による一連の処理を繰り返す制御を行う。なお、ハイパーパラメータα，β，γ，ηの初期値は０以外の値に予め設定されている。

パラメータ書込部３４３は、収束判定部３４５の判別の結果、収束していれば、推定に用いたパラメータα、β、γ、ηをパラメータ集合５５の最終結果格納領域に格納する。

このようにパラメータ集合５５が最終的に決定したときに、記憶部６の関連性集合５４に、「関連性なし（ｒ_dm＝０）」が割り当てられているｒ_dmから、ｄとｍの情報を抽出し、記憶部６の入力アノテーションデータ５１において、文書ｄのｍ番目のアノテーションｔ_dmを削除すれば、この文書ｄに付与されているＭ_d個のアノテーションの中から、内容と関連のないアノテーションを除去することができる。

＜アノテーション付与部＞
図８は、図１に示したアノテーション付与部の構成を示す機能ブロック図である。
アノテーション付与部２３は、入力アノテーションデータ５１に含まれるアノテーションデータのうちアノテーションが組み合わされていないデータに対してアノテーションを付与するものである。このために、アノテーション付与部２３は、第５パラメータ読込部２３１と、関連アノテーション推定部２３２と、アノテーション書込部２３３とを備えている。

第５パラメータ読込部２３１は、パラメータ集合５５から、前記した式（１３）に示す割当回数集合Ａ₁と、前記した式（１７）に示す割当回数集合（関連性割当回数集合）Ａ₄と、前記したハイパーパラメータγを読み込み、関連アノテーション推定部２３２に出力する。

関連アノテーション推定部２３２は、アノテーショントピック比率推定部２３４と、関連アノテーション生成確率推定部２３５と、関連アノテーション付与確率算出部２３６と、アノテーション決定部２３７とを備える。
アノテーショントピック比率推定部２３４は、読み込んだパラメータ群を用いて、アノテーションに割り当てられるトピックの種類の数の割合を示すアノテーショントピック比率を推定するものである。ここでは、式（２８）により推定することとした。
関連アノテーション生成確率推定部２３５は、読み込んだパラメータ群を用いて、アノテーションがデータの内容と関連性がある確率を表す関連ありアノテーション生成確率を推定するものである。ここでは、式（２９）により推定することとした。
関連アノテーション付与確率算出部２３６は、トピック毎のアノテーショントピック比率と関連ありアノテーション生成確率との積の総和である関連ありアノテーション付与確率を、アノテーション別に算出するものである。ここでは、式（２７）により推定することとした。

アノテーション決定部２３７は、アノテーション別に算出された関連ありアノテーション付与確率の上位から予め定められた数だけのアノテーションを決定するものである。そして、アノテーション書込部２３３は、決定されたアノテーションをアノテーション帰属トピック集合５３に格納する。

具体的には、関連アノテーション付与確率算出部２３６が、学習データ集合Ｄのある文書ｄについて、あるアノテーションｔにおいて、トピックｚを１〜Ｚまで変え、かつ、アノテーションｔを１〜Ｔまで変えて、式（２７）に示すＰ（ｔ｜ｄ，Ｄ）を求める。すると、式（２７）に示すＰ（ｔ｜ｄ，Ｄ）が合計Ｔ個求まる。仮に、この学習データ集合Ｄのある文書ｄについて、１つのアノテーションｔを付与したいならば、アノテーション決定部２３７は、求められたＴ個のＰ（ｔ｜ｄ，Ｄ）のうち、最大の確率となるときのアノテーションｔを付与する。また、２つのアノテーションｔを付与したいならば、アノテーション決定部２３７は、求められたＴ個のＰ（ｔ｜ｄ，Ｄ）のうち、第１位および第２位の確率となるときのアノテーションｔをそれぞれ付与する。

なお、アノテーションデータ解析装置１は、一般的なコンピュータを、アノテーションデータ解析装置１を構成する前記した各部として機能させるプログラム（アノテーションデータ解析プログラム）により動作させることで実現することができる。このプログラムは、通信回線を介して提供することも可能であるし、ＣＤ−ＲＯＭ等の記録媒体に書き込んで配布することも可能である。

本実施形態によれば、アノテーションデータ解析装置１は、繰り返し制御部２２によって、推定対象の各集合５２，５３，５４およびハイパーパラメータα，β，γ，ηの推定処理および更新処理を目的関数が収束するまで繰り返す中で、関連性推定部３３によって、トピック毎のアノテーション生成確率に基づいて、各アノテーションを、付与されたデータの内容との関連性があるものと、関連性がないものとに分類できる。したがって、目的関数が収束したときに、アノテーションデータ解析装置１の記憶部６に記憶されている関連性集合５４において関連性なし（ｒ_dm＝０）と割り当てられたアノテーションの情報を抽出し、入力アノテーションデータ５１から、このアノテーションを削除すれば、そのアノテーションが付与されていた文書データから、内容と関連のないアノテーションを除去することができる。

以上、本発明の実施形態について説明したが、本発明はこれに限定されるものではなく、その趣旨を変えない範囲で実施することができる。例えば、アノテーションデータ解析装置１が、前記したステップＳ７において値の収束を判別するための目的関数としては、式（７）の尤度（関数）に限定されるものではない。前記した式（７）の尤度の代わりに、事後確率など同等の性質を持つ値を用いることも可能である。

また、本実施形態では、アノテーションデータ解析装置１の繰り返し制御部２２の行う処理について、マルコフ連鎖モンテカルロ法に基づいて記述したが、代わりに、変分ベイズ法等を用いることも可能である。

また、本実施形態では、簡単のためデータを文書データとして説明したが、離散データであれば、画像データ、購買データなど任意のデータに適用可能である。解析対象とするデータが、例えば、画像データである場合、データの構成要素は画像の一部の領域を指し、アノテーションは、例えば画像作成者が画像に付与したキャプションを示す。

また、本実施形態では、アノテーション付与部２３を備えるベストモードで説明したが、本発明は、これに限らず、アノテーション付与部２３を備えない構成とすることもできる。なお、本実施形態のように、アノテーション付与部２３を備える場合、あるデータにおいて、関連なしと割り当てられたアノテーションを削除した後に、関連性があるアノテーションを新たに付与することも可能である。

本発明による内容との関連性を考慮したアノテーションデータ自動解析の効果を確認するために、本実施形態に係るアノテーションデータ解析装置１によって複数の実験（実験１〜実験４）を行った。

［学習データ］
一例として２０カテゴリに予め分類された文書データ集合を基に、大別して２種類の学習データ（以下、データ１、データ２と呼ぶ）を作成した。まず、基にした文書データ集合において、文書が分類された２０個のカテゴリを、「内容と関連のあるアノテーション」と想定した。そして、「内容と関係のないアノテーション」をランダムに各文書に付与することで、学習データを作成した。

＜データ１＞
データ１では、全アノテーションの語彙数Ｔのうち、後から付与した「内容と関係のないアノテーション」の語彙数（関連なしアノテーション語彙数）を“１０”に固定した。そして、各文書ｄに付与するアノテーション数Ｍ_dのうち、後から付与した「内容と関係のないアノテーション」の数（関連なしアノテーション数）を“１”から“１０”まで変化させた。つまり、各文書における関連なしアノテーションの付与数を、“１”から“１０”まで変化させた。なお、関連なしアノテーションを付与しない文書（付与数＝０）も取り扱った。

＜データ２＞
データ２では、各文書ｄに付与するアノテーション数Ｍ_dのうち、後から付与した「内容と関係のないアノテーション」の数（関連なしアノテーション数）を“１”に固定した。そして、全アノテーションの語彙数Ｔのうち、後から付与した「内容と関係のないアノテーション」の語彙数（関連なしアノテーション語彙数）を“１”から“１０”まで変化させた。つまり、関連なしアノテーション語彙数を、“１”から“１０”まで変化させた。なお、関連なしアノテーション語彙数＝０の場合も取り扱った。

［実験１］
実験１は、内容と関連のあるアノテーションを予測したものである。ここでは、内容と関連のあるアノテーションに対する予測精度を、アノテーションデータ解析における予測誤差（パープレキシティ）で評価した。
本発明において、内容との関連性があるアノテーションが付与される確率は、前記した式（２７）で計算できる。本発明においてデータ１を用いたときの実験結果を実施例１とする。また、本発明においてデータ２を用いたときの実験結果を実施例２とする。

＜本発明との比較対象の従来手法＞
比較手法として、最大エントロピー法（MaxEnt）と、Correspondence-LDA（Corr-LDA）とをそれぞれ用いた。
MaxEntは識別的教師あり学習法である。
Corr-LDAは関連性を考慮しない手法である（非特許文献１参照）。
MaxEntにおいてデータ１を用いたときの実験結果を比較例１ａとする。
MaxEntにおいてデータ２を用いたときの実験結果を比較例２ａとする。
Corr-LDAにおいてデータ１を用いたときの実験結果を比較例１ｂとする。
Corr-LDAにおいてデータ２を用いたときの実験結果を比較例２ｂとする。

＜実験結果＞
実施例１と、比較例１ａ，１ｂとの比較結果を図９（ａ）に示す。図９（ａ）は、学習データとしてデータ１を用いた場合の結果を示すグラフであり、横軸は、各文書における関連なしアノテーションの付与数を表し、縦軸は、予測誤差（パープレキシティ）を表している。なお、パープレキシティの値が小さいほど、予測精度が高い良い結果を示す。図９（ａ）に示すように、実施例１（Proposed：実線）は、比較例１ａ（MaxEnt：破線）、比較例１ｂ（Corr-LDA：一点鎖線）よりも、パープレキシティが小さくなった。

実施例２と、比較例２ａ，２ｂとの比較結果を図９（ｂ）に示す。図９（ｂ）は、学習データとしてデータ２を用いた場合の結果を示すグラフであり、横軸は、関連なしアノテーション語彙数を表し、縦軸は、予測誤差（パープレキシティ）を表している。図９（ｂ）に示すように、実施例２（Proposed：実線）は、比較例２ａ（MaxEnt：破線）、比較例２ｂ（Corr-LDA：一点鎖線）よりも、パープレキシティが小さくなった。

実験１の結果により、内容とは関連のないアノテーションがあるすべての場合において、本発明（Proposed）の予測誤差が最も低く、高い精度で内容と関係のあるアノテーションを予測できていることがわかる。

［実験２］
実験２は、内容との関連性を正確に予測できるかを測定した。ここでは、内容と関連があるアノテーションに対する予測精度（Ｆ値）で評価した。
本発明は、文書データの単語のトピックと、アノテーションのトピックとが一致すれば、アノテーションと文書データの内容との関連性があるとしている。
本発明においてデータ１を用いたときの実験結果を実施例３とする。また、本発明においてデータ２を用いたときの実験結果を実施例４とする。

＜本発明との比較対象の方法＞
比較対象の方法として、アノテーション中に含まれる単語が文書中に含まれる場合、関連性があるとする手法（以下、Baselineという）を用いた。
Baselineにおいてデータ１を用いたときの実験結果を比較例３とする。
Baselineにおいてデータ２を用いたときの実験結果を比較例４とする。

＜実験結果＞
実施例３と、比較例３との比較結果を図１０（ａ）に示す。図１０（ａ）は、学習データとしてデータ１を用いた場合の結果を示すグラフであり、横軸は、各文書における関連なしアノテーションの付与数を表し、縦軸は、予測精度（Ｆ値）を表している。なお、Ｆ値が大きいほど、予測精度が高い良い結果を示す。図１０（ａ）に示すように、実施例３（Proposed：実線）は、比較例３（Baseline：破線）よりも、Ｆ値が格段に大きくなった。

実施例４と、比較例４との比較結果を図１０（ｂ）に示す。図１０（ｂ）は、学習データとしてデータ２を用いた場合の結果を示すグラフであり、横軸は、関連なしアノテーション語彙数を表し、縦軸は、予測精度（Ｆ値）を表している。図１０（ｂ）に示すように、実施例４（Proposed：実線）は、比較例４（Baseline：破線）よりも、Ｆ値が格段に大きくなった。

実験２の結果により、内容とは関連のないアノテーションがあるすべての場合において、本発明（Proposed）の予測精度が高く、関連性を正確に予測できていることがわかる。

［実験３］
実験３は、関連性を正確に予測できるかを測定した。ここでは、アノテーションと内容との関連性があるものと推定された比率を真の比率で評価した。
本実施形態では、関連性がある確率を前記した式（２１ｂ）で表した。同様に、実施例では、本発明により推定された関連性ありの比率を式（３０）のλ＾（以下、単にラムダという）で表す。なお、本明細書において、「＾」は、直前の文字を修飾するためにその文字の真上に表示される記号を意味する。

本発明においてデータ１を用いたときの実験結果を実施例５とする。
また、本発明においてデータ２を用いたときの実験結果を実施例６とする。
比較対象は、真の値（以下、Trueという）である。
Trueにおいてデータ１を用いたときの実験結果を比較例５とする。
Trueにおいてデータ２を用いたときの実験結果を比較例６とする。

＜実験結果＞
実施例５と、比較例５との比較結果を図１１（ａ）に示す。図１１（ａ）は、学習データとしてデータ１を用いた場合の結果を示すグラフであり、横軸は、各文書における関連なしアノテーションの付与数を表し、縦軸は、関連性ありの比率（ラムダ）を表している。なお、ラムダの最大値は１である。図１１（ａ）に示すように、実施例５（Estimated：実線）は、比較例５（True：破線）と同様な傾向となった。また、実施例５と比較例５との差分は僅かであった。

実施例６と、比較例６との比較結果を図１１（ｂ）に示す。図１１（ｂ）は、学習データとしてデータ２を用いた場合の結果を示すグラフであり、横軸は、関連なしアノテーション語彙数を表し、縦軸は、関連性ありの比率（ラムダ）を表している。図１１（ｂ）に示すように、実施例６（Estimated：実線）は、比較例６（True：破線）と同様な傾向にあり、実施例６と比較例６との差分は僅かであった。

実験３の結果により、本発明（Estimate）においてアノテーションと内容との関連性があるものと推定された比率は、真の比率とほぼ同じであり、高い予測精度で推定できていることがわかる。

［実験４］
＜実験内容＞
実験４では、データ１およびデータ２の代わりに、実際のソーシャルアノテーションサービス（ソーシャルブックマークサービス）のデータを、学習データとして用いた。ここで、文書データはウェブページである。本実施形態に係るアノテーションデータ解析装置１によって、入力アノテーションデータ５１として、ユーザが自由にアノテーションを付与したウェブページ（文書データ）を用いた。

＜実験結果＞
目的関数が収束したときに、内容と関連のない場合に付与されやすいアノテーションを抽出した。すなわち、記憶部６の関連性集合５４に、「関連性なし（ｒ_dm＝０）」が割り当てられているｒ_dmから、ｄとｍの情報を抽出した。抽出結果のアノテーションは、「あとでよむ」、「?」、「気になる」、「記事」、「メモ」、「未読」などであった。これら実験４で抽出されたアノテーションは、実際に内容と関連のないアノテーションであった。すなわち、本発明は、実際のソーシャルアノテーションサービス（ソーシャルブックマークサービス）のデータを用いた場合においても、内容と関連のないアノテーションを高い予測精度で推定できることがわかった。

１アノテーションデータ解析装置
２演算部
４入力部
６記憶部
８出力部
１１バスライン
２１初期化部
２２繰り返し制御部
２３アノテーション付与部
２３１第５パラメータ読込部
２３２関連アノテーション推定部
２３３アノテーション書込部
２３４アノテーショントピック比率推定部
２３５関連アノテーション生成確率推定部
２３６関連アノテーション付与確率算出部
２３７アノテーション決定部
２４メモリ
３１データ帰属トピック推定部
３１１第１パラメータ読込部
３１２第１帰属割当部
３１３第１帰属書込部
３１４第１帰属度算出部
３１５第１正規化部
３１６第１乱数発生部
３１７第１帰属トピック決定部
３２アノテーション帰属トピック推定部
３２１第２パラメータ読込部
３２２第２帰属割当部
３２３第２帰属書込部
３２４第２帰属度算出部
３２５第２正規化部
３２６第２乱数発生部
３２７第２帰属トピック決定部
３３関連性推定部
３３１第３パラメータ読込部
３３２関連性割当部
３３３関連性書込部
３３４関連度算出部
３３５第３正規化部
３３６第３乱数発生部
３３７関連性決定部
３４パラメータ推定部
３４１第４パラメータ読込部
３４２パラメータ割当部
３４３パラメータ書込部
３４４尤度算出部
３４５収束判定部
３４６パラメータ更新部
４０プログラム格納部
４１初期化プログラム
４２データ帰属トピック推定プログラム
４３アノテーション帰属トピック推定プログラム
４４関連性推定プログラム
４５パラメータ推定プログラム
４６アノテーション付与プログラム
５０データ格納部
５１入力アノテーションデータ
５２データ帰属トピック集合
５３アノテーション帰属トピック集合
５４関連性集合
５５パラメータ集合

Claims

構成要素が離散値のベクトルとして表現されたデータと、前記データに付与されるアノテーションとの組みを示すアノテーションデータを確率モデルに基づいて解析するアノテーションデータ解析装置であって、
解析対象として与えられる前記アノテーションデータの集合を示すアノテーションデータ集合を入力する入力部と、
前記入力されたアノテーションデータ集合と、推定対象のパラメータ群とを含む情報を記憶する記憶部と、
前記記憶された情報に基づいて所定の演算を行う演算部と、
前記演算結果として、前記アノテーションのうち、データの内容との関連がないアノテーションの情報を出力する出力部とを備え、
前記記憶部は、
前記推定対象のパラメータ群として、
前記アノテーションデータ集合に含まれる前記構成要素が帰属するトピックの集合を示すデータ帰属トピック集合と、
前記アノテーションデータ集合に含まれる前記アノテーションが帰属するトピックの集合を示すアノテーション帰属トピック集合と、
前記アノテーションデータ集合に含まれる前記アノテーションと、当該アノテーションが付与されたデータの内容との関連の有無を表す関連性の集合を示す関連性集合と、
前記確率モデルにおける複数のハイパーパラメータと、を記憶し、
前記演算部は、
前記推定対象の各集合の要素を初期化する初期化部と、
前記推定対象の各集合および複数のハイパーパラメータの推定処理および更新処理を、前記推定対象の各集合が前記アノテーションデータ集合を尤もらしく説明できている度合いを表す尤度を最大化する予め定められた目的関数が収束するまで繰り返す繰り返し制御部とを備え、
前記繰り返し制御部は、
各データに含まれる各構成要素が所定のトピックに帰属する帰属度を予め定められた全トピックについて算出した結果に基づいて新たなトピックを割り当てることで前記データ帰属トピック集合を推定するデータ帰属トピック推定部と、
各データに付与された各アノテーションが所定のトピックに帰属する帰属度を予め定められた全トピックについて算出した結果に基づいて新たなトピックを割り当てることで前記アノテーション帰属トピック集合を推定するアノテーション帰属トピック推定部と、
前記トピック毎に前記アノテーションが生成される確率に基づいて、関連性がある確率と関連性がない確率との両方をアノテーション毎に算出した結果に基づいて新たな関連性を割り当てることで前記関連性集合を推定する関連性推定部と、
前記推定された各集合および複数のハイパーパラメータを入力として前記尤度を算出し、算出した尤度に基づいて前記目的関数の収束を判定し、前記目的関数が収束していない場合、前記入力に用いたハイパーパラメータを所定の更新式により更新するパラメータ推定部と、
を備えることを特徴とするアノテーションデータ解析装置。
前記繰り返し制御部は、前記推定対象の各集合の要素を割り当てた回数を予め定められた基準で逐次集計し、前記基準で集計された集合を、割当回数集合として前記記憶部に格納し、
前記割当回数集合は、
前記アノテーションデータ集合に含まれるアノテーションが、付与されたデータの内容との関連がないとされた回数の集合と、
前記アノテーションデータ集合に含まれるアノテーションが、付与されたデータの内容との関連があるとされ、かつ、当該アノテーションがトピックに割り当てられたトピック毎の回数の集合との和を示す関連性割当回数集合を含み、
前記関連性推定部は、
前記関連性割当回数集合と、前記トピック毎に前記アノテーションが生成される確率の事前分布を示すハイパーパラメータと、内容と関係がある確率の事前分布を示すハイパーパラメータとを含むパラメータ群を読み込むパラメータ読込部と、
前記読み込んだパラメータ群を用いて、割り当て対象とするデータに付与されたアノテーションについて当該データの内容と関連性がないことを表す第１関連度と、関連性があることを表す第２関連度とをそれぞれ算出する関連度算出部と、
前記第１関連度および第２関連度のいずれを採用するかを確率モデルに基づいて決定し、前記割り当て対象とするデータに対して、前記決定された関連度に対応した新たな関連性を割り当てる関連性決定部とを備えることを特徴とする請求項１に記載のアノテーションデータ解析装置。
前記演算部は、
前記アノテーションデータ集合に含まれるアノテーションデータのうちアノテーションが組み合わされていないデータに対してアノテーションを付与するアノテーション付与部をさらに備え、
前記割当回数集合は、前記アノテーションデータ集合に含まれるデータでトピックを割り当てられた前記データの構成要素の数の集合であるトピック割当回数集合をさらに含み、
前記アノテーション付与部は、
前記関連性割当回数集合と、前記トピック割当回数集合と、前記トピック毎に前記アノテーションが生成される確率の事前分布を示すハイパーパラメータとを含むパラメータ群を読み込むパラメータ読込部と、
前記読み込んだパラメータ群を用いて、アノテーションに割り当てられるトピックの種類の数の割合を示すアノテーショントピック比率を推定するアノテーショントピック比率推定部と、
前記読み込んだパラメータ群を用いて、アノテーションがデータの内容と関連性がある確率を表す関連ありアノテーション生成確率を推定する関連アノテーション生成確率推定部と、
トピック毎の前記アノテーショントピック比率と前記関連ありアノテーション生成確率との積の総和である関連ありアノテーション付与確率を、アノテーション別に算出する関連アノテーション付与確率算出部と、
前記アノテーション別に算出された関連ありアノテーション付与確率の上位から予め定められた数だけのアノテーションを決定するアノテーション決定部とを備えることを特徴とする請求項２に記載のアノテーションデータ解析装置。
請求項１乃至請求項３のいずれか一項に記載のアノテーションデータ解析装置を構成する各部としてコンピュータを機能させるためのアノテーションデータ解析プログラム。
請求項４に記載のアノテーションデータ解析プログラムが記録されたことを特徴とするコンピュータ読み取り可能な記録媒体。