JP2011227825A

JP2011227825A - タグ付与装置、変換規則生成装置およびタグ付与プログラム

Info

Publication number: JP2011227825A
Application number: JP2010099032A
Authority: JP
Inventors: Hiromi Ishisaki; 広海石先; Keiichiro Hoashi; 啓一郎帆足; Yasuhiro Takishima; 康弘滝嶋
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2010-04-22
Filing date: 2010-04-22
Publication date: 2011-11-10
Anticipated expiration: 2030-04-22
Also published as: JP5444106B2

Abstract

【課題】マイナーな言語において自動タグ付与の精度を向上させることができるタグ付与装置、変換規則生成装置およびタグ付与プログラムを提供する。
【解決手段】、Ｗｅｂ上での使用度の低いマイナー言語によるタグをコンテンツに対して付与するタグ付与装置１２０であって、コンテンツの特徴量とメジャー言語によるタグとを対応付けたタグ選択用データを参照して、対象コンテンツから検出された特徴量に応じて、対象コンテンツに適したメジャー言語によるタグを選択するタグ選択部１２１と、所定の変換規則により選択されたメジャー言語によるタグをこれと同時に付与されやすいマイナー言語によるタグに変換するタグ変換部１２２とを備える。
【選択図】図１

Description

本発明は、Ｗｅｂ上での使用度の低いマイナー言語によるタグをコンテンツに対して付与するタグ付与装置、変換規則生成装置およびタグ付与プログラムに関する。

従来、コンテンツのメタデータを生成したり、タグ付けしたりする方法が知られている。特許文献1では、文書に適切なタグを付与して文書の整理を行うために、閲覧者を支援することができ、また、タグを精度良く付与できる自動タグ付与装置を提供している。タグ付きの文書をインターネットから収集し、タグ付き文書から、そのタグが設定された文書集合中の特徴的な語句を基に、同一の意味を示すタグ同士を統合し、各タグに対して、特徴的な語句を基に、そのタグが特定の話題を示すかどうかを判定する。さらに、タグの重要性判断と、統合結果との判断結果に基づいて自動で文書にタグを付与する方法に関して記述されている。

非特許文献１では、事前に正解タグ情報が付与された画像と単語の学習データセットを利用する方法が開示されている。その方法では、pLSA( probabilistic Latent Semantic Analysis )と呼ばれる共起確率モデルを利用し、学習データセットから、未知の入力画像testを入力する際に最適なトピックを算出することで、未知入力画像に対して自動でタグを付与させている。

非特許文献２では、あらかじめカテゴリ情報が付与された画像を学習データとして、２DMHMM（２次元多段階解像度隠れマルコフモデル）と呼ばれる、画像と特徴の関連付けモデルを利用して画像に対する索引情報を付与させる方法が開示されている。

非特許文献３では、学習データとして、Flickrから画像およびタグ情報を用いて、pLSAモデルを利用した自動タグ付与技術が提案されている。非特許文献４では、非特許文献１などで利用されているpLSAについて記述されている。なお、Flickrとは、不特定多数が写真や動画を投稿・共有し、自由にタグ付けすることができる外部写真共有サイトの一種である。

非特許文献５では、非特許文献１、２などで利用されている、SIFT特徴量について記載されている。SIFT特徴量とは、局所的な画像パターンを表現することが可能であり、例えば、学習画像データ群の特徴量をk-meansクラスタリングし、C種類のコードブックを作成する。各画像はこのC種類のコードブックの集合として表現される。

特開２００８−３１０６２６号公報

Florent Monay and Daniel Gatica-Perez, "PLSA-based image auto-annotation: constraining the latent space ", Proc. of ACM Multimedia, pp. 348-351, 2004. Jia Li and James Ze Wang. Automatic linguistic indexing of pictures by a statistical modeling approach. IEEE Trans. Pattern Anal. Mach. Intell, 25(10):1075_1088, 2003. Stefan Romberg, Eva Horster, Rainer Lienhart, Multimodal pLSA on visual features and tags, Proc. of ICME 2009, pp 414-417, 2009 T. Hofmann, "Unsupervised Learning by Probabilistic Latent Semantic Analysis", Machine Leaning, vol.42, pp.177-196 (2001). David G. Lowe, "Object Recognition from Local Scale-Invariant Features," iccv, vol. 2, pp.1150, Seventh International Conference on Computer Vision (ICCV'99) - Volume 2, 1999

特許文献１では、インターネットに存在する文書などから、特徴的かつ類似するタグ情報を未知文書に自動で付与することができる。しかし、学習データが十分でない場合には付与精度に関しては保証されていない。例えば、膨大な学習データに基づいて付与されたタグ情報と、少量学習データに基づいて付与されたタグ情報の精度に差が出る可能性がある。

非特許文献１、２では、事前に正解情報(タグ)が付与された学習データを利用している。これは正解情報が付与された学習データが多く存在していることが前提となっており、文献中では手動で付与されたデータが利用されている。

このように、手動で正解情報が付与された学習データを多く収集することは困難であり、非特許文献３などでは、学習データとして、Flickrの画像情報と、タグ情報を利用して自動タグ付与システムを構築している。

一方で、これら技術では対象となる言語情報は英語などのメジャーな言語(メジャー言語システム)を対象としており、日本語などのマイナーな言語を利用してシステム(マイナー言語システム)を構築した場合には、メジャー言語システムの精度に比べて、精度が劣化する可能性がある。

実際に、英語のタグとして、「car, dog, fireworks, flower, food, hanami, ski, sumo, tokyotower, sea, bird, bike」、日本語のタグとして、「車、犬、花火、花、食べ物、花見、スキー、相撲、東京タワー、海、鳥、自転車」として入力した場合のFlickrでの検索結果の違いを下表に示す。検索の際、skiとskiing、食べ物と食物、スキーとスキー場は、それぞれ別クエリとして入力した。また、全ての英語のクエリに対して、japanとjapaneseを組み合わせて検索した。さらに、収集した画像に付与されているタグはストップワードの削除などを経て、下表の数値を得た。なお、検索対象期間は2005年10月1日から、2009年10月1日までとした。タグ数は、全ての画像データに付与されたタグ数の総数で、ユニークタグ数とは、重複するタグを削除したものである。

このように、メジャー言語とマイナー言語間においてタグの数や、画像データの数などに差が大きくあり、これらを学習データとして自動タグ付与システムを構築した場合には、精度が大きく異なる可能性がある。

本発明は、このような事情に鑑みてなされたものであり、マイナーな言語において自動タグ付与の精度を向上させることができるタグ付与装置、変換規則生成装置およびタグ付与プログラムを提供することを目的とする。

（１）上記の目的を達成するため、本発明のタグ付与装置は、Ｗｅｂ上での使用度の低いマイナー言語によるタグをコンテンツに対して付与するタグ付与装置であって、コンテンツの特徴量とメジャー言語によるタグとを対応付けたタグ選択用データを参照して、対象コンテンツから検出された特徴量に応じて、前記対象コンテンツに適したメジャー言語によるタグを選択するタグ選択部と、所定の変換規則により前記選択されたメジャー言語によるタグをこれと同時に付与されやすいマイナー言語によるタグに変換するタグ変換部とを備えることを特徴としている。

このように本発明のタグ付与装置では、特徴量に応じて付与されたメジャー言語によるタグをこれと同時に付与されやすいマイナー言語によるタグに変換する。その結果、日本語などのマイナーな言語においても、英語などのメジャーな言語を学習データとした場合と同等に自動タグ付与の精度を向上させることができる。

（２）また、本発明のタグ付与装置は、前記タグ変換部が、前記所定の変換規則としてＷｅｂ上の情報を用いて動的に更新される規則を用いることを特徴としている。これにより、Ｗｅｂ上の情報に基づいて動的に変換規則を更新できるため、比較的新しい語句や辞書に載っていない俗語などについても適切に変換できる。たとえば、Flickrなどが提供している画像検索ＡＰＩなどを利用することでキーワードに該当する画像データおよびタグ情報を取得することができる。

（３）また、本発明のタグ付与装置は、前記タグ変換部が、メジャー言語のタグとマイナー言語のタグとが同一のコンテンツに付与される共起頻度を反映した変換規則を用いることを特徴としている。これにより、共起頻度を利用してメジャー言語のタグと関連の強いマイナー言語のタグに変換することができる。

（４）また、本発明のタグ付与装置は、前記タグ変換部が、前記変換規則として変換マトリクスを用いることを特徴としている。これにより、容易に変換規則を生成することができ、生成された変換マトリクスだけ取得してタグをメジャー言語からマイナー言語に変換できる。

（５）また、本発明の変換規則生成装置は、メジャー言語による語句からマイナー言語による語句への変換規則を生成する変換規則生成装置であって、不特定のユーザによりメジャー言語およびメジャー言語よりＷｅｂ上での使用度の低いマイナー言語のタグが付けられたコンテンツをＷｅｂ上から取得するコンテンツ取得部と、前記取得されたコンテンツおよびタグを格納するデータベースと、前記格納されたコンテンツおよびタグを用いて、メジャー言語によるタグをこれと同時に付与されやすいマイナー言語によるタグに変換する変換規則を動的に生成する変換規則生成部とを備えることを特徴としている。これにより、メジャー言語によるタグをこれと同時に付与されやすいマイナー言語によるタグに変換する変換規則を動的に生成することができる。その結果、手動による労力を要することなく、自動でタグを付与するシステムを構築することが可能になる。

（６）また、本発明のタグ付与システムは、上記のタグ付与装置と、上記の変換規則生成装置とを備えることを特徴としている。これにより、変換規則生成装置が生成した変換規則を用いて、タグ付与装置はメジャー言語のタグをマイナー言語のタグに変換することができる。

（７）また、本発明のタグ付与プログラムは、Ｗｅｂ上での使用度の低いマイナー言語によるタグをコンテンツに対して付与するためにコンピュータに実行させるタグ付与プログラムであって、コンテンツの特徴量とメジャー言語によるタグとを対応付けたタグ選択用データを参照して、対象コンテンツから検出された特徴量に応じて、前記対象コンテンツに適したメジャー言語によるタグを選択する処理と、所定の変換規則により前記選択されたメジャー言語によるタグをこれと同時に付与されやすいマイナー言語によるタグに変換する処理とを含むことを特徴としている。

本発明によれば、マイナーな言語において自動タグ付与の精度を向上させることができる。また、変換規則を用いることから、手動による労力を要することなく、自動でタグ付与できる。

本発明に係るタグ付与システムの構成を示すブロック図である。本発明に係る変換規則生成装置の動作の一例を示すフローチャートである。本発明に係るタグ付与装置の動作を示すフローチャートである。タグ付与処理の一例を示す図である。各タグ付与方法に対する精度平均および標準偏差を示すグラフである。各タグ付与方法に対するランキング評価結果平均および標準偏差である。変換マトリクスと辞書システムのそれぞれの変換結果例を示す図である。

以下に、本発明の実施の形態について、図面を参照しながら説明する。説明の理解を容易にするため、各図面において同一の構成要素に対しては同一の参照番号を付し、重複する説明は省略する。

（タグ付与システムの構成）
図１は、タグ付与システム１００の構成を示すブロック図である。図１に示すように、タグ付与システム１００は、変換規則生成装置１１０と、タグ付与装置１２０とを備えている。なお、以下で説明するタグ付与システム１００では、変換規則生成装置１１０と、タグ付与装置１２０とはネットワークで接続されているが、一つの装置であってもよい。

（変換規則生成装置の構成）
変換規則生成装置１１０は、コンテンツ取得部１１１、データベース１１２、タグ付与モデル構築部１１３および変換規則生成部１１４を備え、メジャー言語による語句からマイナー言語による語句への変換規則を生成する。これにより、メジャー言語によるタグをこれと同時に付与されやすいマイナー言語によるタグに変換する変換規則を生成することができる。

その結果、手動による労力を要することなく、自動でタグを付与するシステムを構築することが可能になる。変換規則生成装置１１０は、たとえばサーバとしてタグ付与装置１２０とは別個に設けられてもよいし、タグ付与装置１２０と一体にＰＣとして設けられてもよい。

コンテンツ取得部１１１は、不特定のユーザによりメジャー言語およびメジャー言語よりＷｅｂ上での使用度の低いマイナー言語のタグが付けられたコンテンツをＷｅｂ上から取得する。たとえば、写真共有サイト１８０からタグ付きのコンテンツを取得する。コンテンツには、画像データに限らず、音楽データ、動画データ、テキストデータ等も含まれる。たとえば、学習データとなる画像データ群および画像データ群に対応するタグ情報を外部ＡＰＩ１９０などから収集する。また、収集された画像データ群およびタグ情報をデータベース１１２に格納する。

データベース１１２は、メジャー言語学習データベース（メジャー言語学習ＤＢ）１１２ａおよびマイナー言語学習データベース（マイナー言語学習ＤＢ）１１２ｂを備え、取得されたコンテンツおよびタグを格納する。なお、データベース１１２をネットワークを介して外部に設けることも可能である。また、データベース１１２は、必ずしもメジャー言語学習ＤＢ１１２ａとマイナー言語学習ＤＢ１１２ｂとに区分されて構成されている必要は無い。

メジャー言語学習ＤＢ１１２ａは、メジャー言語によってタグが付与された画像データ群と、画像データ群に対応するタグ情報を格納する。画像データ群のファイル形式は、Ｊｐｅｇ形式や、ＰＮＧ形式などを利用できるが、これらに限られない。また、タグ情報とは、ユーザが付与したテキスト情報や、撮影日時、ＧＰＳ情報等を表している。

マイナー言語学習ＤＢ１１２ｂは、メジャー言語学習ＤＢ１１２ａと同様、マイナー言語によってタグが付与された画像データ群と、画像データ群に対応するタグ情報を格納する。ただし、格納するデータについて、マイナー言語学習ＤＢ１１２ｂよりもデータ量(画像数、タグ数、ユニークタグ数)が多いか、もしくはクオリティが高いものをメジャー言語学習ＤＢ１１２ａとする。したがって、例えば、データ数が少ないデータベースを自動的にマイナー言語学習ＤＢ１１２ｂとして選択し、メジャー言語、マイナー言語を切り替えることなども可能である。

タグ付与モデル構築部１１３は、メジャー言語学習データベース１１２ａに格納されたコンテンツおよびタグを用いてタグ付与モデルを構築する。タグ付与モデル構築部１１３は、メジャー言語学習ＤＢ１１２ａに格納された画像データ・タグ情報群に基づいて、自動タグ付与に必要なタグ付与モデルを構築する。例えば、事前にタグが付与された学習データを利用し、特徴量とタグとの対応関係を構築する。また、その他にも、学習データに基づいて構築されるモデルであれば、タグ付与モデル構築部１１３として利用することが可能である。

変換規則生成部１１４は、格納されたコンテンツおよびタグを用いて、メジャー言語によるタグをこれと同時に付与されやすいマイナー言語によるタグに変換する変換規則を動的に生成する。これにより、Ｗｅｂ上の情報に基づいて動的に変換規則を更新できるため、比較的新しい語句や辞書に載っていない俗語などについても適切に変換できる。たとえば、Flickrなどが提供している画像検索ＡＰＩなどを利用することでキーワードに該当する画像データおよびタグ情報を取得することができる。

変換規則生成部１１４は、データベース１１２から、メジャー言語をマイナー言語に変換するための変換規則を生成する。例えば、両者の言語によるタグを含む画像データを抽出し、共起頻度を計算することで、変換マトリクスを計算する。これにより、共起頻度を利用してメジャー言語のタグと関連の強いマイナー言語のタグに変換することができる。なお、以下で説明する例では変換規則として変換マトリクスを用いるが、既存の辞書変換システムの対応関係を用いてもよい。また、変換マトリクスの生成と辞書システムの利用とを互いに補完的に行なってもよい。

メジャー言語をL_｛A}、マイナー言語をL_{B}と表すと、言語L_{A}およびL_{B}におけるボキャブラリは以下の式（１）、（２）のように表せる。

ここで、M、Nはそれぞれの言語におけるボキャブラリのサイズを表しており、w_{mA}、w_{nB}は各ボキャブラリ内でのタグを表現している。W_{A}、W_{B}に基づいて変換マトリクスT_{L_{A}→L_{B}}を表現すると、M×Nのマトリクスとして式（３）のようにあらわせる。

ここで、要素t_{(m,n)}は、タグw_{mA}とw_{nB}がどの程度共起してタグとして付与されているかを表しており、タグw_{mA}とw_{nB}の共起回数cnt(w_{mA},w_{nB})などにより表せる。また、共起確率として表現してもよい。

（タグ付与装置の構成）
タグ付与装置１２０は、タグ選択部１２１およびタグ変換部１２２を備え、Ｗｅｂ上での使用度の低いマイナー言語によるタグをコンテンツに対して付与する。これにより、日本語などのマイナーな言語においても、英語などのメジャーな言語に変換することでメジャーな言語を学習データとした場合と同等に自動タグ付与の精度を向上させることができる。タグ付与モデル構築部１１３によって得られたタグ付与モデルを利用して、未知の入力画像データに対し、自動でメジャー言語によるタグを付与することができる。

タグ付与装置１２０は、たとえば携帯端末やＰＣとして変換規則生成装置１１０とは別個に設けられてもよいし、変換規則生成装置１１０と一体にＰＣとして設けられてもよい。たとえば、携帯端末でタグ付与を行う場合には、変換規則の生成をサーバ等の別個の装置で行なった方が効率的である。ただし、携帯端末を用いる場合には、頻度により上位の所定件数のみ用いる等のパラメータによる制限が可能である。

タグ選択部１２１は、コンテンツの特徴量とメジャー言語によるタグとを対応付けたタグ選択用データを参照して、対象コンテンツから検出された特徴量に応じて、対象コンテンツに適したメジャー言語によるタグを選択する。これにより、画像データの特徴に応じた適切なタグを付与することができる。タグ選択部１２１は、タグ付与モデル構築部１１３によって得られたタグ付与モデルを利用して、未知の入力画像データに対し、自動でメジャー言語によるタグを付与する。

タグ変換部１２２は、所定の変換規則により選択されたメジャー言語によるタグをこれと同時に付与されやすいマイナー言語によるタグに変換する。タグ変換部１２２は、Ｗｅｂ上の情報を用いて動的に更新される所定の変換規則を用いる。タグ変換部１２２は、メジャー言語のタグとマイナー言語のタグとが同一のコンテンツに付与される共起頻度を反映した変換規則を用いる。タグ変換部１２２は、変換規則として変換マトリクスを用いる。これにより、容易に変換規則を生成することができ、生成された変換マトリクスだけ取得してタグをメジャー言語からマイナー言語に変換できる。

タグ変換部１２２は、タグ選択部１２１によって付与された未知画像データに対するメジャー言語のタグ情報を、変換規則生成部１１４によって得られた変換マトリクスに基づいて、マイナー言語に変換する。w_{mA}をマイナー言語w_{nB}に変換するためには、式（３）に記載されている変換マトリクスを利用して、cnt(w_{mA},w_{nB})が最大となるw_{m_{max}A}に変換する。また、タグ変換部１２２は、複数の同じ変換結果が得られた場合には、cnt{w_{mA},w_{nB}}の高い値を保持するものを変換結果として利用できる。

さらに、タグ変換部１２２は、外部ＷＥＢＡＰＩなどを利用して、メジャー言語のタグを、単純に辞書変換などを適用した結果と統合して最終結果とすることもできる。例えば、参考情報に記載のサイトを利用して、変換結果を利用することなどが可能である。

なお、タグ変換部１２２は、タグ付与モデル構築部１１３において、音楽やブログなど、画像以外のタグ付与モデルを適用することで、その他のメディアに対する自動タグ付与方式において同様の処理を実現することができる。

（変換規則生成装置の動作）
次に、変換規則生成装置１１０の動作を説明する。図２は、変換規則生成装置１１０の動作の一例を示すフローチャートである。まず、メジャー言語およびマイナー言語による検索キーワードを設定する（ステップＳ１）。メジャー言語を英語、マイナー言語を日本語とした場合には、「car, dog, fireworks, flower, food, hanami, ski, sumo, tokyotower, sea, bird, bike」、「車、犬、花火、花、食べ物、花見、スキー、相撲、東京タワー、海、鳥、自転車」など、それぞれの言語において、対応するキーワードを設定する。言語は、例えばそのほかにも、中国語や、スペイン語など、様々なものを利用することが可能である。

次に、メジャー言語で設定したキーワード群に基づいて外部写真共有サイトなどから画像データおよびタグ情報を取得する（ステップＳ２）。例えば、Flickrなどが提供している画像検索ＡＰＩなどを利用することでキーワードに該当する画像データおよびタグ情報を取得することができる。取得した画像データおよびタグ情報は、メジャー言語学習ＤＢ１１２ａへと格納する（ステップＳ３）。

次に、マイナー言語で設定したキーワード群に基づいて外部写真共有サイトなどから画像データおよびタグ情報を取得する（ステップＳ４）。そして、取得した画像データおよびタグ情報は、マイナー言語学習ＤＢ１１２ｂへと格納する（ステップＳ５）。次に、メジャー言語学習ＤＢ１１２ａに格納されたデータをもとにしてタグ付与モデルを生成する（ステップＳ６）。最後に、データベース１１２に格納されたデータをもとにして変換規則を作成して（ステップＳ７）、動作を終了する。

（タグ付与装置の動作）
次に、タグ付与装置１２０の動作を説明する。図３は、タグ付与装置１２０の動作を示すフローチャートである。まず、変換規則生成装置１１０からタグ付与モデルを取得する（ステップＴ１）。また、同様に変換規則を変換規則生成装置１１０から取得する（ステップＴ２）。

次に、タグ付与の対象となる対象コンテンツについて取得したタグ付与モデルを用いてメジャー言語によるタグを選択する（ステップＴ３）。そして、選択されたメジャー言語によるタグを、変換規則を用いてマイナー言語のタグに変換する（ステップＴ４）。そして、対象コンテンツとマイナー言語のタグを対応付けて記憶して（ステップＴ５）、動作を終了する。以上の各動作は、プログラムをコンピュータに実行させることで実現可能である。

（タグ付与処理の一例）
図４は、タグ付与処理の一例を示す図である。たとえば、データベース１１２に画像データ群２１１およびそのそれぞれに対して付与されている英語と日本語によるタグ２１２が格納されている。図４に示す例では、海辺の写真には英語の「sea, beach, japan」と日本語の「日本、海」のタグが付与され、魚が泳ぐ水中の写真には英語の「fish, blue, japan」と日本語の「日本、青」のタグが付与されている。また、海岸の写真には英語の「sea, blue, beach, rocks」と日本語の「青、海、岩」のタグが付与され、地上に突き出た岩の写真には、英語の「rocks」と日本語の「岩」のタグが付与されている。

このような場合に、「sea, beach, japan, blue, rocks」の行２２１と「海、日本、青、岩」の列２２２との変換マトリクス２２３を、共起頻度を用いて作成できる。たとえば、「sea」行の「海」列に該当するマトリクスの要素は、上記の海辺の写真および海岸の写真の２つで共起しているため、２である。同様に各要素を共起頻度で表すことで変換マトリクス２２３を作成できる。この変換マトリクス２２３を用いてもっとも頻度の高い語句を選択することで、英語のタグから日本語のタグへの変換２３０が可能になる。

上記のようなタグ付与システム１００を用いて、ユーザは携帯電話機で撮った大量の写真の画像データをＰＣに取り込み、自動で最適なタグを付与することができる。このとき、自分でタグを考えて打ち込むという煩雑な作業を省くことができる。そして、検索機能を用いて、撮った場所や状況に応じてフィルタリングすることができる。たとえば、海で撮影したあの写真にアクセスしたいという場合に「海」というキーワードを用いることで「海」の写った写真の候補を絞ることができる。なお、上記の例では、メジャー言語として英語を選び、マイナー言語として日本語を選択しているが、メジャー言語としてスペイン語を選択したり、マイナー言語としてアラビア語を選択することもできる。

（用いられるタグ付与システム）
上記のタグ付与システム１００を用いて実験を行った。本実験では、英語を学習データとしてタグ付与モデルを構築し、変換規則生成部１１４として共起変換および辞書変換を用いた実施例のシステム(共起変換システム、辞書変換システム)を用いた。辞書変換システムには、Ｇｏｏｇｌｅ（登録商標）翻訳のＡＰＩを利用した。また、比較例のシステムとして、変換規則生成部１１４に代えて学習データに日本語学習データを用いて構築したタグ付与モデルを利用した。したがって、合計３システムを構築した。

実験データは、両言語が同時に付与されている画像データ群（116,273枚）を利用し、全ての収集した画像データにおいて、BoVW特徴量３００次元、色相特徴量１５０次元、LBP250次元、エッジ方向ヒストグラム７３次元の合計７７３次元の特徴量を抽出した。そして、BoVW特徴量は実験データからランダムに１０%の画像データを選択し、SIFT特徴量を抽出したのち、k-means 法によりコードブックを作成した。各言語において９０%の画像データを学習データとし、１０%のデータをテストデータとして利用した。

（実験方法）
テストデータは表１に記載の項目からそれぞれ５枚の画像データをランダムに選択し、合計６０枚の画像データを実験に用いた。全ての画像データに対してシステムから得られたタグの上位１０位までのタグを付与した。（合計３０タグ）１２名の被験者は全ての画像データと３手法の結果を閲覧しながら各タグについて画像データに適しているか評価を付与した。評価基準は、correct，incorrect，unknownの三項目で、各項目の評価基準は以下の表のように設定した。

そして、全てのシステムに対して、順位を付与することでランキング評価を行った。まず、システムによって付与された個々のタグにおける精度について説明する。付与されたタグに対する被験者の評価から、画像毎にcorrect評価平均を計算した。

さらに、全体に対する平均を求めた結果を図５、図６に示す。図５は、各タグ付与方法に対する精度平均および標準偏差を示すグラフである。図６は、各タグ付与方法に対するランキング評価結果平均および標準偏差である。日本語システムでは平均１１．１%（標準偏差：７．９８）、辞書変換および共起変換システムの平均はそれぞれ１９．８%、１７．５%（標準偏差：１１．８、９．５８）となった。

さらに各システムに対するランキング評価結果の平均は、日本語タグ付与システムが２．３（標準偏差：０．３６）、辞書変換システムおよび共起変換システムでは、それぞれ１．９、１．８（標準偏差：０．２０、０．３３）となった。また、ｔ検定により、日本語システムのタグ精度およびランキング評価結果に対し、辞書変換および共起変換システムの評価結果の平均の差は統計的に有意であることを確認した（α=０．０５、ｐ＜０．０１）。

これら結果により、英語を学習データとした翻訳システムの主観評価値は、日本語タグ付与システムの結果よりも高くなることが確認され、学習データとしてタグ情報量の多い英語学習データを利用し、日本語タグへと変換することで主観評価値が上がることが確認できた。

また、辞書変換と共起変換システムの精度は統計的な差は確認されなかった。ただし、辞書変換システムに比べて共起変換システムでは、辞書に登録されていない単語へ変換することが可能であり、より人間の感覚に近い変換ができた例も存在する。タグの学習データが多くなればさらに精度も向上することが期待できる。図７は、変換マトリクスと辞書システムのそれぞれの変換結果例を示す図である。図７では、英語のタグ３１０に対して、変換マトリクスにより変換されたタグ３２０と辞書変換システムにより変換されたタグ３３０が表示されている。辞書変換と共起変換結果をうまく統合させることでより高い精度が期待できる。

１００タグ付与システム
１１０変換規則生成装置
１１１コンテンツ取得部
１１２データベース
１１２ａメジャー言語学習ＤＢ
１１２ｂマイナー言語学習ＤＢ
１１３タグ付与モデル構築部
１１４変換規則生成部
１２０タグ付与装置
１２１タグ選択部
１２２タグ変換部
２１１画像データ群
２１２タグ
２２１行
２２２列
２２３変換マトリクス

Claims

Ｗｅｂ上での使用度の低いマイナー言語によるタグをコンテンツに対して付与するタグ付与装置であって、
コンテンツの特徴量とメジャー言語によるタグとを対応付けたタグ選択用データを参照して、対象コンテンツから検出された特徴量に応じて、前記対象コンテンツに適したメジャー言語によるタグを選択するタグ選択部と、
所定の変換規則により前記選択されたメジャー言語によるタグをこれと同時に付与されやすいマイナー言語によるタグに変換するタグ変換部とを備えることを特徴とするタグ付与装置。
前記タグ変換部は、前記所定の変換規則としてＷｅｂ上の情報を用いて動的に更新される規則を用いることを特徴とする請求項１記載のタグ付与装置。
前記タグ変換部は、メジャー言語のタグとマイナー言語のタグとが同一のコンテンツに付与される共起頻度を反映した変換規則を用いることを特徴とする請求項１または請求項２記載のタグ付与装置。
前記タグ変換部は、前記変換規則として変換マトリクスを用いることを特徴とする請求項１から請求項３のいずれかに記載のタグ付与装置。
メジャー言語による語句からマイナー言語による語句への変換規則を生成する変換規則生成装置であって、
不特定のユーザによりメジャー言語およびメジャー言語よりＷｅｂ上での使用度の低いマイナー言語のタグが付けられたコンテンツをＷｅｂ上から取得するコンテンツ取得部と、
前記取得されたコンテンツおよびタグを格納するデータベースと、
前記格納されたコンテンツおよびタグを用いて、メジャー言語によるタグをこれと同時に付与されやすいマイナー言語によるタグに変換する変換規則を動的に生成する変換規則生成部とを備えることを特徴とする変換規則生成装置。
請求項２から請求項４のいずれかに記載のタグ付与装置と、
請求項５記載の変換規則生成装置とを備えることを特徴とするタグ付与システム。
Ｗｅｂ上での使用度の低いマイナー言語によるタグをコンテンツに対して付与するためにコンピュータに実行させるタグ付与プログラムであって、
コンテンツの特徴量とメジャー言語によるタグとを対応付けたタグ選択用データを参照して、対象コンテンツから検出された特徴量に応じて、前記対象コンテンツに適したメジャー言語によるタグを選択する処理と、
所定の変換規則により前記選択されたメジャー言語によるタグをこれと同時に付与されやすいマイナー言語によるタグに変換する処理とを含むことを特徴とするタグ付与プログラム。