JP6039518B2

JP6039518B2 - 情報処理装置、情報抽出装置、及びプログラム

Info

Publication number: JP6039518B2
Application number: JP2013171586A
Authority: JP
Inventors: 数藤　恭子; 恭子数藤; 島村　潤; 潤島村; 行信谷口
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2013-08-21
Filing date: 2013-08-21
Publication date: 2016-12-07
Anticipated expiration: 2033-08-21
Also published as: JP2015041225A

Description

本発明は、画像情報とテキスト情報とを関連付けて処理する情報処理装置、情報抽出装置、及びプログラムに関する。

従来、料理の画像を認識し、画像の特徴に基づいて料理の栄養などを推定する方法（非特許文献１）や、画像の特徴から料理の品目を識別する方法がある（非特許文献２）。非特許文献２の識別方法は複数品目が含まれる画像においても有効である。
ユーザは、上記の方法によって、画像から料理の情報を取得することができる。ユーザは、料理のレシピに関して、専門家が作成したレシピ情報を掲載する料理レシピサイト（非特許文献３〜４）を参照することもできる。

FoodLog:画像による食の記録と解析、相澤清晴、日本色彩学会誌第３６巻第４号 pp.293-296, 2012. 候補領域推定による食事画像の複数品目認識、松田裕司、甫足創、柳井啓司、情報処理学会研究報告Vol.2011-CVIM-176, No.9,2011. "ホームクッキング〔キッコーマン〕"、［online］、［平成25年8月21日検索］、インターネット〈URL：http://www.kikkoman.co.jp/homecook/〉 "レシピレシピ大百科〔AJINOMOTO PARK〕"、［online］、［平成25年8月21日検索］、インターネット〈URL：http://park.ajinomoto.co.jp/〉

しかし、上記の情報取得方法には、次のような問題点が生じていた。
非特許文献１の方法を利用するためには、予め、人手で画像に栄養素などの正解情報を与える必要があり、学習データを用意する手間を要することが問題である。また、必ずしも画像の見た目と栄養素の相関が高くない場合があった。

また、非特許文献２の方法は、「オムライス」や「カレー」などのような通有性を有する料理名によってカテゴリ分類可能な料理画像については比較的有効であるが、昨今の料理レシピサイトに多く掲載される、叙述によって特定される料理名にはあまり有効でなかった。
叙述によって特定される料理名とは「えびとヤングコーンの炒めもの」「トマトとチンゲン菜のスープ」「ベーコンとほうれんそうのキッシュ」「舌びらめのムニエルのサフランライス添え」「海の幸のクリームシチュー」などである。
このような叙述によって特定される料理名を持つ料理品目においては、同一の調理形態でも材料が異なるバリエーションが多く存在し、有効な画像の特徴である色特徴が料理品目毎に大きく異なる。そのため、上記の従来技術では、画像の特徴に基づく料理品目の識別精度が必ずしも良好ではなかった。

このような理由から、画像と関連付けられたテキスト情報を用いて、人手を要しない学習機能によってより多くのデータ量を蓄積し、より共起性の高いテキスト情報を画像に関連付けることのできるモデルが求められていた。

上記事情に鑑み、本発明は、学習データにおける画像と関連付けられたテキスト情報を用いて、より共起性の高いテキスト情報を画像に関連付けるモデルを提供する情報処理装置、情報抽出装置、及びプログラムを提供することにある。

本発明の一態様は、学習データとして入力された第１画像データ及び当該第１画像データに関連するテキストデータに基づいた学習処理を行う情報処理装置であって、前記第１画像データの画像特徴を示す第１画像特徴量を抽出する第１画像特徴抽出部と、形態素解析処理によって前記テキストデータに含まれる名詞または名詞接尾辞を抽出し、当該名詞または名詞接尾辞の登場頻度に基づいてテキスト特徴量を抽出するテキスト特徴抽出部と、学習処理によって前記第１画像特徴量と前記テキスト特徴量との組を複数のクラスに分類するクラスタリング部と、前記第１画像特徴量と前記テキスト特徴量とを基に当該テキスト特徴量が属する前記クラスに対応するテキスト情報を特定する特徴生成モデルを生成する特徴生成モデル抽出部とを備える情報処理装置である。

また、本発明の一態様においては、前記第１画像データの一部を切り出す画像切り出し部を更に備え、前記第１画像特徴抽出部は、前記画像切り出し部が切り出した画像データの画像特徴を示す第１画像特徴量を抽出する。

また、本発明の一態様においては、前記第１画像特徴量を基に前記クラスを識別する代表ベクトルを生成する代表ベクトル抽出部と、前記代表ベクトルと前記特徴生成モデルとを組にして生成する生成部とを更に備える。

また、本発明の一態様は、上記の情報処理装置によって生成された前記代表ベクトルと前記特徴生成モデルとの組からテキスト情報を抽出する情報抽出装置であって、入力された第２画像データの第２画像特徴量を抽出する第２画像特徴抽出部と、前記第２画像特徴量に対応する画像ベクトルを、前記代表ベクトルと比較することにより、一の代表ベクトルと組をなす特徴生成モデルを識別する識別部とを備える情報抽出装置である。

また、本発明の一態様においては、前記識別部は、識別した特徴生成モデルが特定するテキスト情報に基づいて、データベース装置に記憶された情報を抽出する。

また、本発明の一態様は、上記の情報処理装置によって生成された前記特徴生成モデルからテキスト情報を抽出する情報抽出装置であって、入力された第２画像データの第２画像特徴量を抽出する第２画像特徴抽出部と、前記第２画像特徴量に対応する画像ベクトルが前記特徴生成モデルから生成される尤度を計算し、最も高い尤度に対応するクラスを特定し、当該クラスに対応するテキスト情報を抽出する識別部とを備える情報抽出装置である。

また、本発明の一態様は、コンピュータを、上記の情報処理装置における各部、又は、上記の情報抽出装置における各部として機能させるためのプログラムである。

本発明によれば、学習データにおける画像と関連付けられたテキスト情報を用いて、より共起性の高いテキスト情報を画像に関連付けるモデルを提供することが可能となる。

本発明の一実施形態による情報処理装置の構成を示す機能ブロック図である。本発明の一実施形態による情報抽出装置の構成を示す機能ブロック図である。情報処理装置のテキスト特徴抽出部が、テキストデータを形態素解析したテキストの例を示す図である。情報処理装置のクラスタリング部が用いるトピックモデルの例を示す図である。情報処理装置の学習部におけるクラスタリングと特徴生成モデルとのイメージを示す図である。

〔１．情報処理装置〕
以下、図面を参照して、本発明の一実施形態による情報処理装置を説明する。
図１は、情報処理装置１００の構成を示す機能ブロック図である。
情報処理装置１００は、料理レシピサイトのデータのようなテキストデータＴ１を料理画像Ｉ１とともにカテゴリ学習の対象として入力することにより、料理画像に関連付けたテキスト情報またはテキストに関連する情報をモデル・パラメータ・代表ベクトル・特徴生成モデル記憶部５００（以下、単に「記憶部５００」と記載する）に記憶させる。

情報処理装置１００は、画像切り出し部１１０、特徴ベクトル抽出部１２０、学習部１３０を備えている。学習部１３０の出力データは、記憶部５００に出力されて記憶される。記憶部５００は、情報処理装置１００の内部に備えられてもよい。情報処理装置１００の学習データは、画像データＩ１と、画像データＩ１に関連付けられたテキストデータＴ１とを含む。

画像切り出し部１１０は、学習データとして入力された画像データＩ１から解析対象画像部分（この実施形態では背景を除いた料理の撮像部分）を切り出す。画像データＩ１から解析対象画像部分を切り出すには、円検出、サリエンシー領域の抽出など、任意の切り出し方法を組み合わせればよい。画像切り出し部１１０は、切り出し画像を特徴ベクトル抽出部１２０に送信する。画像切り出し部１１０は、画像データＩ１を切り取らずにそのまま特徴ベクトル抽出部１２０に送信してもよい。また、解析対象画像部分を更に小領域に分割して特徴ベクトル抽出部１２０に送信してもよい。

特徴ベクトル抽出部１２０は、テキストデータＴ１から所定のテキスト特徴を抽出するテキスト特徴抽出部１２０ａと、画像切り出し部１１０が出力した画像データから所定の画像特徴を抽出する画像特徴抽出部１２０ｂとを備える。
テキスト特徴抽出部１２０ａのテキスト特徴抽出手法については後述する。

画像特徴抽出部１２０ｂは、画像切り出し部１１０が出力した画像データにおいて料理画像の見た目の属性に関わる特徴量を抽出する。例えば、特徴量として、ＳＩＦＴ（Scale-Invariant Feature Transform）などの局所特徴量、勾配特徴や周波数特徴などテクスチャや輝度勾配に基づく特徴量、色ヒストグラム（ＲＧＢ、Ｌａｂ、ＨＳＶ）やカラーＳＩＦＴなど色や形の特徴に基づく特徴量、さらに、これら特徴量を学習画像集合から抽出してクラスタリングしたビジュアルワード（Visual Words）でヒストグラムのビン（bin）を構成しなおしたものを抽出する。画像特徴抽出部１２０ｂが、スケールや回転によらない形の特徴や色の特徴を抽出すれば、後述の学習処理や識別処理を安定したものとすることができる。画像特徴抽出部１２０ｂは、抽出した特徴量を特徴ベクトルとして学習部１３０に出力する。

テキスト特徴抽出部１２０ａは、テキストデータＴ１に含まれる料理名やレシピから単語をタグとして抽出する。例えば、形態素解析をして名詞、名詞接尾辞に注目することでより効果的に自動的にタグを抽出することができる。とりわけ料理名を解析した場合、その中に含まれる名詞と名詞接尾辞は概ね材料名や調理法名になっている。名詞と名詞接尾辞とを解析することにより、材料名や調理法の情報を効果的に抽出できることが、料理名やレシピなど料理関連情報の特徴である。
ただし、テキストデータＴ１に含まれるレシピ（材料リストや作り方）を解析する場合、レシピには調理器具や調味料や時間など料理の特徴と無関係な不要単語が頻出するため、これら不要単語のリストを予め別に用意しておき、これら不要単語を除いてからタグを抽出するとよい。

テキスト特徴抽出部１２０ａは、テキストデータＴ１から抽出した単語から頻度の高い単語を選択する。テキスト特徴抽出部１２０ａは、選択した単語をビン（bin）として、テキストに含まれるか含まれないかを、１（含まれる）又は０（含まれない）の数字で表現することで特徴ベクトルとする。ビン（bin）に対応する単語群の情報は、学習時および識別時に必要となるため、学習部１３０に出力する。学習部１３０に出力された上記の情報は、特徴生成モデルの一部として記憶部５００に記憶される。

テキスト特徴抽出部１２０ａ及び画像特徴抽出部１２０ｂにおいては、画像データＩ１（またはその切り出し画像）やテキストデータＴ１の特徴量を得たのちに特徴量を連結して特徴ベクトルとしてもよいし、クラスタリングによって量子化してから並べたものを特徴ベクトルとしてもよいし、上記の特徴量を連結した新たな特徴量としてからクラスタリングによって量子化して特徴ベクトルとしてもよい。

学習部１３０は、クラスタリング部１３０ａと代表ベクトル抽出部１３０ｂと特徴生成モデル抽出部１３０ｃとを備える。学習部１３０は、特徴ベクトル抽出部１２０で得られた特徴ベクトル群のモデルを学習する。

クラスタリング部１３０ａは、教師なしクラスタリングを行う。クラスタリング部１３０ａは、特徴ベクトル抽出部１２０で得られた特徴ベクトル群をトピックモデル分析によって複数のトピックに割り当てる。特徴ベクトル抽出部１２０で得られた特徴ベクトル群は、画像データＩ１（またはその切り出し画像）の画像特徴とテキストデータＴ１のタグから成るテキスト特徴とから生成されている。
クラスタリング部１３０ａは、上記の特徴ベクトル群が生成されやすいカテゴリ名（例えば料理カテゴリ）をトピックと考えてトピックモデルにあてはめて推定することで、画像特徴とテキスト特徴の共起性に注目したモデルを推定する。

クラスタリング部１３０ａによるクラスタリングは、上記のトピックモデル分析による手法に限られるものではない。
例えば、クラスタリング部１３０ａは、ｋ−平均法などによって単純にクラスタリングしてもよい。また、クラスタリング部１３０ａは、多クラスのＳＶＭ（Support vector machine）によって識別モデルを生成してもよい。

代表ベクトル抽出部１３０ｂは、後の識別時に用いる代表ベクトルを生成する。代表ベクトル抽出部１３０ｂは、クラスタリング部１３０ａでクラスタリングしたクラスごとに代表ベクトルを求めて出力する。例えば、代表ベクトルとしては、各クラスタに属するサンプルに対応する画像特徴抽出部１２０ｂで得られた画像特徴ベクトル群の平均ベクトルを用いる。代表ベクトルは単一であっても複数であってもよい。ＳＶＭによって識別モデルを生成した場合には、サポートベクタやＳＶＭのパラメータを代表ベクトルとする。なお、代表ベクトル抽出部１３０ｂを備えるか否かは任意である。学習部１３０をクラスタリング部１３０ａと特徴生成モデル抽出部１３０ｃとのみを備える形で構成することも可能である。

特徴生成モデル抽出部１３０ｃは、各クラスタに属するサンプルに対応する、テキスト特徴抽出部１２０ａで得られたテキストデータの特徴ベクトル群から、そのクラスタにおいて発生しやすいテキストを推定し、発生しやすさの確率モデルを特徴生成モデルとして出力する。

学習部１３０は、クラスタリング部１３０ａが出力したモデルのパラメータ、代表ベクトル抽出部１３０ｂが出力した代表ベクトル、特徴生成モデル抽出部１３０ｃが出力した特徴生成モデルを記憶部５００に出力する。この際、学習部１３０は、代表ベクトルと特徴生成モデルとを組にして生成する。記憶部５００は、これらデータを記憶する。

〔２．情報抽出装置〕
以下、図面を参照して、本発明の一実施形態による情報抽出装置を説明する。
情報抽出装置２００は、情報処理装置１００により記憶部５００に記憶された情報に基づいて、所定の画像データＩ２に関連するテキスト情報を抽出する装置である。

図２（ａ）は、情報抽出装置２００の構成を示す機能ブロック図である。情報抽出装置２００は、画像切り出し部２１０、特徴ベクトル抽出部２２０、識別部２３０を備えている。識別部２３０は、記憶部５００と接続されている。

画像切り出し部２１０は、入力された画像データＩ２から解析対象画像部分（この実施形態では背景を除いた料理の撮像部分）を切り出す。画像データＩ２から解析対象画像部分を切り出すには、円検出、サリエンシー領域の抽出など、任意の切り出し方法を組み合わせればよい。画像切り出し部２１０は、切り出し画像を特徴ベクトル抽出部２２０に送信する。画像切り出し部２１０は、画像データＩ２を切り取らずにそのまま特徴ベクトル抽出部２２０に送信してもよい。

特徴ベクトル抽出部２２０は、所定のテキスト特徴を抽出するテキスト特徴抽出部２２０ａと、画像切り出し部２１０が出力した画像データから所定の画像特徴を抽出する画像特徴抽出部２２０ｂとを備える。

画像特徴抽出部２２０ｂは、情報処理装置１００の画像特徴抽出部１２０ｂと同一の手法によって、画像切り出し部２１０が出力した画像データの特徴量を示す特徴ベクトルを生成して識別部２３０に出力する。

識別部２３０は、画像特徴抽出部２２０ｂが出力した特徴ベクトルを、記憶部５００に記憶された代表ベクトルと比較し、両ベクトルのベクトル間距離を算出することによって代表ベクトルと最も近いクラス（類似する料理のカテゴリ）を推定する。
または、クラスタリング部１３０ａが出力したモデルがトピックモデル等の確率モデルの場合、その確率モデルによって画像特徴抽出部２２０ｂが出力した特徴ベクトルから、これに含まれるトピック分布を推定し、それに基づいて尤度を最大化するテキストを推定する。すなわち、識別部２３０は、入力された画像データの画像特徴量に対応する画像ベクトルが特徴生成モデルから生成される尤度を計算し、最も高い尤度に対応するクラスを特定し、そのクラスに対応するテキスト情報を抽出する。識別部２３０は、上記のクラスの特徴生成モデルによって、画像データＩ２の画像と関連付けられたテキスト情報（例えば、単語やその組み合わせ）を生成する。
前述のテキスト特徴について補足すれば、名詞は主に料理の材料名、名詞接尾辞は主に料理の調理法と対応することが多いため、これらを分けてテキスト特徴としてもよい。その場合、例えば発生確率が上位２位の名詞として例えば「Ｎ１」及び「Ｎ２」を選択し、発生確率が上位１位の名詞接尾辞「Ｃ１」を選択することで、「Ｎ１とＮ２とのＣ１」のように料理名を疑似的に推測することができる。

また、図２（ｂ）に示すように、情報抽出装置２００の識別部２３０は、記憶部５００に加えて料理名データベース６００と接続されてもよい。料理名データベースには、料理名情報、レシピ情報、栄養情報などが多数蓄積されている。
図２（ｂ）の構成の場合、識別部２３０は、画像データＩ２の画像と関連付けられたテキスト情報（例えば、単語やその組み合わせ）に基づいて、料理名データベース６００の蓄積情報を参照する。
例えば、識別部２３０は、料理名データベース６００の料理名情報を参照し、上記テキスト情報と少なくとも部分的に一致する料理名が存在すれば、その料理に関する情報を任意に抽出することができる。これにより、情報抽出装置２００は、画像データＩ２の画像に関する料理名情報を抽出したり、レシピ情報を抽出したりすることができる。

〔３．データ例〕
図３は、情報処理装置１００のテキスト特徴抽出部１２０ａが、テキストデータＴ１を形態素解析したテキストの例を示す図である。
テキストデータＴ１として「いかと白菜の煮物」を入力した場合、テキスト特徴抽出部１２０ａは、「イカ」「ハクサイ」「ニモノ」という名詞、「ト」「ノ」という格助詞を抽出する。
また、テキストデータＴ１として「キムチ鍋」を入力した場合、テキスト特徴抽出部１２０ａは、「キムチ」という名詞、「ナベ」という名詞接尾辞を抽出する。
また、テキストデータＴ１として「たことチンゲン菜のにんにく炒め」を入力した場合、テキスト特徴抽出部１２０ａは、「タコ」「チンゲンサイ」「ニンニク」という名詞、「イタメ」という名詞接尾辞を生成する。
これらの例から、料理関連情報を含むテキストデータＴ１においては、名詞および名詞接尾辞が材料名や調理法になっていることがわかる。

図４は、情報処理装置１００のクラスタリング部１３０ａが用いるトピックモデルの例を示す図である。図４においては、「word」が特徴ベクトルを示し、「topic」が推定される料理のカテゴリを示している。α、θ、βは推定されるパラメータである。ワードのトピックはトピック分布θに従って発生する。ワードのトピックからはパラメータβに従ってワードが生成される。βはこのトピックとワードのパラメータ組み合わせ、すなわちトピックごとのワードの生成確率のマトリクスである。θが料理のカテゴリの分布、トピックは個々のレシピのトピック、ワードはそのレシピに含まれる画像とテキストの特徴ベクトルとしてモデルにあてはめ、パラメータを推定する。パラメータαはトピック分布θをディリクレ分布に従って生成する際のパラメータであり、適用するユースケースにおいてどのようなカテゴリの料理が多いかというイメージに相当する。

図５は、情報処理装置１００の学習部１３０におけるクラスタリングと特徴生成モデルとのイメージを示す図である。
図５（ａ）は、画像特徴空間において、５つのトピック「topic1」「topic2」「topic3」「topic4」「topic5」が分布している様子を示すグラフである。なお、各トピックの示す領域は、必ずしも分離されているとは限らない。
図５（ｂ）は、「野菜」「ソース」「エビ」「ニワトリ」「豚肉」「牛肉」「キノコ」の名詞について、各トピックの「topic1」「topic2」「topic3」「topic4」「topic5」にどの程度当てはまっているかを示すグラフである。

上記の情報処理装置１００によれば、学習データにおける画像と関連付けられたテキスト情報を用いて、より共起性の高いテキスト情報を画像に関連付けるモデルを提供することが可能となる。
また、上記の情報抽出装置２００によれば、情報処理装置１００によって提供されたモデルに基づいて、所定の画像から、より共起性の高いテキスト情報またはその関連情報を抽出することが可能となる。例えば、情報抽出装置２００によれば、所定の料理の画像に基づいて、料理名情報、レシピ情報、栄養情報などを適宜抽出することができる。

また、図１又は図２の各機能ブロックを実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳ（Operating System）や周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ(Read Only Memory)、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計も含まれる。なお、当然ながら、上述した実施の形態および複数の変形例は、その内容が相反しない範囲で組み合わせることができる。また、上述した実施の形態および変形例では、各部の構造などを具体的に説明したが、その構造などは本願発明を満足する範囲で各種に変更することができる。

１００…情報処理装置，１１０…画像切り出し部，１２０…特徴ベクトル抽出部，１２０ａ…テキスト特徴抽出部，１２０ｂ…画像特徴抽出部，１３０…学習部，１３０ａ…クラスタリング部，１３０ｂ…代表ベクトル抽出部，１３０ｃ…特徴生成モデル抽出部，２００…情報抽出装置，２１０…画像切り出し部，２２０…特徴ベクトル抽出部，２２０ａ…テキスト特徴抽出部，２２０ｂ…画像特徴抽出部，２３０…識別部，５００…モデル・パラメータ・代表ベクトル・特徴生成モデル記憶部，６００…料理名データベース

Claims

学習データとして入力された第１画像データ及び当該第１画像データに関連するテキストデータに基づいた学習処理を行う情報処理装置であって、
前記第１画像データの画像特徴を示す第１画像特徴量を抽出する第１画像特徴抽出部と、
形態素解析処理によって前記テキストデータに含まれる名詞または名詞接尾辞を抽出し、当該名詞または名詞接尾辞の登場頻度に基づいてテキスト特徴量を抽出するテキスト特徴抽出部と、
前記第１画像特徴量と前記テキスト特徴量とを連結し、連結した前記第１画像特徴量及び前記テキスト特徴量を学習処理によって複数のクラスに分類するクラスタリング部と、
前記第１画像特徴量と前記テキスト特徴量とを基に当該テキスト特徴量が属する前記クラスに対応するテキスト情報を特定する特徴生成モデルを生成する特徴生成モデル抽出部とを備える情報処理装置。
前記第１画像特徴量を基に前記クラスを識別する代表ベクトルを生成する代表ベクトル抽出部と、
前記代表ベクトルと前記特徴生成モデルとを組にして生成する生成部とを更に備える請求項１に記載の情報処理装置。
請求項２に記載の情報処理装置によって生成された前記代表ベクトルと前記特徴生成モデルとの組からテキスト情報を抽出する情報抽出装置であって、
入力された第２画像データの第２画像特徴量を抽出する第２画像特徴抽出部と、
前記第２画像特徴量に対応する画像ベクトルを、前記代表ベクトルと比較することにより、一の代表ベクトルと組をなす特徴生成モデルを識別する識別部とを備える情報抽出装置。
学習データとして入力された第１画像データ及び当該第１画像データに関連するテキストデータに基づいた学習処理を行う情報処理装置であって、前記第１画像データの画像特徴を示す第１画像特徴量を抽出する第１画像特徴抽出部と、形態素解析処理によって前記テキストデータに含まれる名詞または名詞接尾辞を抽出し、当該名詞または名詞接尾辞の登場頻度に基づいてテキスト特徴量を抽出するテキスト特徴抽出部と、学習処理によって前記第１画像特徴量と前記テキスト特徴量との組を複数のクラスに分類するクラスタリング部と、前記第１画像特徴量と前記テキスト特徴量とを基に当該テキスト特徴量が属する前記クラスに対応するテキスト情報を特定する特徴生成モデルを生成する特徴生成モデル抽出部とを備える情報処理装置によって生成された前記特徴生成モデルからテキスト情報を抽出する情報抽出装置であって、
入力された第２画像データの第２画像特徴量を抽出する第２画像特徴抽出部と、
前記第２画像特徴量に対応する画像ベクトルが前記特徴生成モデルから生成される尤度を計算し、最も高い尤度に対応するクラスを特定し、当該クラスに対応するテキスト情報を抽出する識別部とを備える情報抽出装置。
コンピュータを、請求項１若しくは２に記載の情報処理装置における各部、又は、請求項３若しくは４に記載の情報抽出装置における各部として機能させるためのプログラム。