JP2019197337A

JP2019197337A - メタデータ生成装置、画像表示システム、メタデータ生成方法、及びプログラム

Info

Publication number: JP2019197337A
Application number: JP2018090251A
Authority: JP
Inventors: 敬由阿部; Noriyuki Abe
Original assignee: Toppan Printing Co Ltd
Current assignee: Toppan Inc
Priority date: 2018-05-08
Filing date: 2018-05-08
Publication date: 2019-11-14

Abstract

【課題】画像内における所望の要素画像を、手間をかけることなく閲覧することができるメタデータ生成装置を提供する。【解決手段】複数の要素画像が掲載されている全体画像のデータに基づいて、前記全体画像から前記要素画像が掲載されている要素画像領域の前記全体画像における位置を示す位置情報を抽出する要素画像領域抽出部と、前記位置情報により特定される前記要素画像領域における前記要素画像に対応する属性情報を取得する属性情報取得部と、前記位置情報に、前記属性情報取得部により取得された前記属性情報を関連付けたメタデータを生成するメタデータ生成部とを備える。【選択図】図２

Description

本発明は、メタデータ生成装置、画像表示システム、メタデータ生成方法、及びプログラムに関する。

従来の新聞の折り込みチラシや雑誌等を、ユーザの携帯端末装置にあるアプリケーションにより電子コンテンツとして閲覧するシステムがある。携帯端末装置に表示させる際には、従来のチラシ等をスキャナなどで読み込むことによりチラシ等の画像の電子データ（以下、単にデータという）を取得し、取得したデータに基づき電子コンテンツを作成する。このようなチラシや雑誌等の画像や、動画、ドキュメントなどの電子コンテンツには、メタデータが付与されている場合がある。メタデータは、電子コンテンツに付随する情報であり、例えば、電子コンテンツに含まれる画像を説明する文字列や物体の名称等であり、電子コンテンツが伝達したい情報が含まれる。このようなメタデータは、例えば、ユーザが所望の電子コンテンツを検索するためのキーワードとして利用される。

電子コンテンツに対するメタデータの付与は、例えば、人間が視認により画像に含まれる文字列や物体画像等の情報を読み取る等の作業により付与される場合もある。この場合には、電子コンテンツの数や、電子コンテンツから取得するメタデータの数によっては膨大な手間がかかってしまう。このため、光学文字認識（ＯＣＲ；ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）や、物体検知等を用いて、電子コンテンツにおける文字列や物体画像等の情報を自動で抽出し、抽出した情報を、電子コンテンツに対するメタデータとして付与する場合がある。

例えば、動画像の電子コンテンツにおいて、予めメタデータを抽出するための条件（メタデータ項目名や文字列として認識する画像領域の条件等）を定めておき、条件に合致した文字列の文字認識結果とメタデータ項目名をペアとして対応づけたメタデータを付与する技術が開示されている（例えば、特許文献１）。
また、スキャンした複数ページのドキュメントに対して文字認識を実行し、認識した文字列とドキュメントのページ番号等の情報とを対応させた情報をメタデータとして付与する技術が開示されている（例えば、特許文献２）。特許文献２では、所望のキーワード（文字列）が含まれる、あるいはページ番号等の情報に対応するドキュメントを検索するために当該メタデータを使用することができる。
また、画像等の電子コンテンツからメタデータを抽出する際に用いられる光学文字認識や物体検知等の技術に用いられる手法として、例えば、畳み込みニューラルネットワークを用いる手法がある（例えば、非特許文献１〜３）。

特許第４４７３８１３号公報特許第５２４７３９４号公報

ＹａｎｎＬｅＣｕｎｅｔａｌ．，"Ｇｒａｄｉｅｎｔ−ＢａｓｅｄＬｅａｒｎｉｎｇＡｐｐｌｉｅｄｔｏＤｏｃｕｍｅｎｔＲｅｃｏｇｎｉｔｉｏｎ"，Ｎｏｖｅｍｂｅｒ１９９８，Ｐｒｏｃ．ｏｆｔｈｅＩＥＥＥ．ＴａｏＷａｎｇｅｔａｌ．，"Ｅｎｄ−ｔｏ−ｅｎｄｔｅｘｔｒｅｃｏｇｎｉｔｉｏｎｗｉｔｈｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓ"，２０１２，ＩＣＰＲ．ＳｈａｏｑｉｎｇＲｅｎｅｔａｌ．，"ＦａｓｔｅｒＲ−ＣＮＮ：ＴｏｗａｒｄｓＲｅａｌ−ＴｉｍｅＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎｗｉｔｈＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋｓ"，２０１５，ＮＩＰＳ．

上述したような画像等の電子コンテンツにおけるメタデータは、複数の画像や動画像、或いはドキュメント群の中から、所望の電子コンテンツを検索することができる。しかしながら、メタデータが画像等の電子コンテンツに付与されており、画像等の電子コンテンツの中での位置情報が付与されていないため、画像等の電子コンテンツから、所望の内容が示されている箇所を特定することができない。例えば、雑誌やチラシ等では１枚のチラシの中に大量の要素（アイテム、商品など）とその要素に関する事柄（商品の画像や商品名、値段等）が含まれているが、これらの要素が含まれていることが判っても、１枚のチラシの中の何処に所望の要素が記載されているのかが判らない。

そのため、ユーザは、大量の要素画像の各々に対して、閲覧したい要素画像か否かを目視により探索したり、探索した要素画像を選択したり表示の中央に移動させたり、探索した要素画像を拡大させたり縮小させたりするような操作を繰り返すことになり、所望の要素画像を適切に表示させて要素画像に示された情報を取得するまでに多くの時間を費やしてしまうという課題があった。

本発明は上記の点に鑑みてなされたものであり、本発明は、画像内における所望の要素画像を、手間をかけることなく閲覧することができるメタデータ生成装置、画像表示システム、メタデータ生成方法、及びプログラムを提供することを目的とする。

本発明の一態様に係るメタデータ生成装置は、複数の要素画像が掲載されている全体画像のデータに基づいて、前記全体画像から前記要素画像が掲載されている要素画像領域の前記全体画像における位置を示す位置情報を抽出する要素画像領域抽出部と、前記位置情報により特定される前記要素画像領域における前記要素画像に対応する属性情報を取得する属性情報取得部と、前記位置情報に、前記属性情報取得部により取得された前記属性情報を関連付けたメタデータを生成するメタデータ生成部とを備える。

本発明の一態様に係るメタデータ生成装置では、前記要素画像領域抽出部は、複数の文字列画像が掲載されている画像のデータに基づいて、前記画像から前記文字列画像が掲載されている文字列画像領域を抽出し、前記属性情報取得部は、前記文字列画像領域における画像のデータに基づいて、前記文字列画像に対応する文字列を認識し、認識した文字列を属性情報として取得する。

本発明の一態様に係るメタデータ生成装置では、前記要素画像領域抽出部は、複数の物体画像が掲載されている画像のデータに基づいて、前記画像から前記物体画像が掲載されている物体画像領域を抽出し、前記属性情報取得部は、前記物体画像領域における画像のデータに基づいて、前記物体画像に対応する物体の名称を物体認識により取得し、取得した名称を属性情報として取得する。

本発明の一態様に係るメタデータ生成装置では、前記メタデータ生成部により生成されたメタデータに基づいて、前記属性情報に、前記属性情報を分類する分類情報を関連付けた分類タグを付与する分類タグ付与部を更に備える。

本発明の一態様に係るメタデータ生成装置では、前記メタデータ生成部により生成されたメタデータに基づいて、前記要素画像領域に、前記要素画像領域が抽出された画像を識別する画像識別インデックスを付与する画像識別インデックス付与部を更に備える。

本発明の一態様に係る画像表示システムは、上記に記載のメタデータ生成装置と、ユーザにより指定された前記属性情報を取得し、取得した前記属性情報、前記全体画像のデータ、及び前記メタデータ生成装置により生成されたメタデータに基づいて、ユーザにより指定された前記属性情報に対応する前記要素画像を表示する表示装置を備える。

本発明の一態様に係るメタデータ生成方法は、要素画像領域抽出部が、複数の要素画像が掲載されている全体画像のデータに基づいて、前記全体画像から前記要素画像が掲載されている要素画像領域の前記全体画像における位置を示す位置情報を抽出する要素画像領域抽出過程と、属性情報取得部が、前記位置情報により特定される前記要素画像領域における前記要素画像に対応する属性情報を取得する属性情報取得過程と、メタデータ生成部が、前記位置情報に、前記属性情報取得部により取得された前記属性情報を関連付けたメタデータを生成するメタデータ生成過程とを有する。

本発明の一態様に係るプログラムは、コンピュータに、複数の要素画像が掲載されている全体画像のデータに基づいて、前記全体画像から前記要素画像が掲載されている要素画像領域の前記全体画像における位置を示す位置情報を抽出する要素画像領域抽出手段と、前記位置情報により特定される前記要素画像領域における前記要素画像に対応する属性情報を取得する属性情報取得手段と、前記位置情報に、前記属性情報取得手段により取得された前記属性情報を関連付けたメタデータを生成するメタデータ生成手段とを実行させるためのプログラムである。

本発明によれば、画像内における所望の要素画像を、手間をかけることなく閲覧することができる。

実施形態に係る画像表示システム１の構成例を示すブロック図である。実施形態に係るメタデータ生成装置１０の構成例を示すブロック図である。実施形態に係る画像と要素画像とを説明する図である。実施形態に係る要素画像の位置情報を説明する図である。実施形態に係るメタデータの構成例を示す図である。実施形態に係る画像表示システム１の動作例を示すフローチャートである。

以下、実施形態の画像表示システム、メタデータ生成装置を、図面を参照しながら説明する。

＜画像表示システム２０の構成＞
まず、画像表示システム２０の構成について図１を参照しながら説明する。
図１は、実施形態に係る画像表示システム２０の構成例を示すブロック図である。画像表示システム２０は、例えば、メタデータ生成装置３０、及び表示装置４０を備える。また、画像表示システム２０は、チラシをスキャナ等でスキャンすることにより得られたチラシ画像１０のデータを取得する。

チラシ画像１０には、例えば、「各種飲料」の文字列を示す画像１０Ａ、「ブロッコリ」を示す画像１０Ｂ、「ナス」を示す画像１０Ｃ、「リンゴ」を示す画像１０Ｄ，及び「しいたけ」を示す物体画像である画像１０Ｅが含まれる。

ここで、チラシ画像１０は、例えば、商品等の画像（物体画像）、及び商品名や値段などを示す文字や文字列の画像（文字列画像）が多数掲載されている。チラシ画像１０に掲載されている物体画像、及び文字列画像はチラシ画像１０を構成する要素となる画像（要素画像）である。つまり、チラシ画像１０には複数の要素画像が掲載されており、チラシ画像１０は「全体画像」の一例である。

メタデータ生成装置３０は、チラシ画像１０のデータを取得し、取得したデータに基づいて、チラシ画像１０のメタデータを生成する。メタデータ生成装置３０は、生成したチラシ画像１０のメタデータを表示装置４０に送信する。

ここで、メタデータ生成装置３０により生成されるメタデータは、チラシ画像１０に含まれる要素画像の位置を示す位置情報と、その要素画像の属性を示す属性情報とを対応させた情報である。属性情報は、要素画像の内容を説明する情報である。
例えば、画像１０Ａのメタデータは、チラシ画像１０における画像１０Ａの位置を示す情報と、画像１０Ａを説明する属性情報としての「各種飲料」を示す情報とを対応させた情報である。また、画像１０Ｂのメタデータは、チラシ画像１０における画像１０Ｂの位置を示す情報と、画像１０Bを説明する属性情報としての「ブロッコリ」を示す情報とを対応させた情報である。

表示装置４０は、ユーザが使用する携帯端末であり、例えば、携帯電話、スマートフォン、タブレット端末などである。表示装置４０は、画像表示アプリケーション（以下、アプリケーションという）がインストールされる。ユーザは、アプリケーションを起動することにより、所望のチラシ画像１０を閲覧することができる。

表示装置４０は、例えば、タッチパネル等の操作入力機能を有する表示画面４０Ａ、４０Ｂを備える。表示装置４０は、メタデータ生成装置３０により生成されたメタデータを取得し、取得したメタデータに基づいて、チラシ画像１０のメタデータに含まれる属性情報の全部又は一部を表示画面４０Ｂに表示する。
例えば、表示装置４０は、表示画面４０Ｂに、画像１０Ａの属性情報である「各種飲料」、画像１０Ｂの属性情報である「ブロッコリ」、画像１０Ｃの属性情報である「ナス」、画像１０Ｄの属性情報である「リンゴ」、及び画像１０Ｅの属性情報である「しいたけ」の文字列を表示する。

表示装置４０は、表示画面４０Ｂに表示した属性情報のうち、ユーザの入力操作により入力された属性情報に対応する入力情報を取得する。表示装置４０は、例えば、ユーザにより画面に触れた状態で指を滑らせるスワイプ操作がなされる等して選択された属性情報が選択窓４０Ｃに表示された状態で、ユーザにより選択窓４０Ｃに触れるタッチ操作がなされる等して確定された属性情報を、ユーザにより入力された入力情報として取得する。

表示装置４０は、チラシ画像１０のデータを取得し、取得したデータに対応するチラシ画像１０に含まれる複数の要素画像のうち、入力情報に示された属性情報に対応する要素画像を表示画面４０Ａに表示する。表示装置４０は、例えば、ユーザにより画像１０Ｅの属性情報である「しいたけ」が選択された場合、その属性情報に対応する要素画像である画像１０Ｅ（「しいたけ」の画像）を表示する。

なお、上記では、画像表示システム２０がチラシ画像１０のデータを取得する場合を例示して説明したが、これに限定されることはない。画像表示システム２０は、複数の要素画像が掲載されている画像のデータを取得すればよく、チラシ画像１０のみならず、雑誌やカタログ、パンフレット等のデータを取得してもよい。また、画像表示システム２０は、一枚のチラシ画像１０のデータを取得する場合を例示して説明したが、これに限定されることはなく、複数のチラシ画像１０のデータを取得するようにしてもよい。

＜メタデータ生成装置３０の構成＞
メタデータ生成装置３０の構成について図２を参照しながら説明する。
図２は、実施形態に係るメタデータ生成装置３０の構成例を示すブロック図である。メタデータ生成装置３０は、例えば、データ取得部３０１と、文字列画像領域抽出部３０２と、物体画像領域抽出部３０３と、文字認識部３０４と、物体認識部３０５と、文字列画像メタデータ生成部３０６と、物体画像メタデータ生成部３０７と、分類タグ付与部３０８と、画像識別インデックス付与部３０９と、メタデータ生成部３１０と、記憶部３１１と、制御部３１２と、を備える。

ここで、文字列画像領域抽出部３０２及び物体画像領域抽出部３０３は、「要素画像領域抽出部」の一例である。また、文字認識部３０４及び物体認識部３０５は、「属性情報取得部」の一例である。また、文字列画像メタデータ生成部３０６、物体画像メタデータ生成部３０７及びメタデータ生成部３１０は、「メタデータ生成部」の一例である。

データ取得部３０１は、複数の要素画像が掲載されている画像であるチラシ画像１０のデータを取得する。データ取得部３０１は、例えば、スキャナ等により読み取られたチラシ画像１０のデータを取得する。データ取得部３０１は、取得したデータを記憶部３１１に記憶させる。

文字列画像領域抽出部３０２は、データに基づいて、チラシ画像１０から文字列画像が示された領域である文字列画像領域を抽出する。文字列画像領域抽出部３０２により抽出される文字列画像領域は、例えば、文字列が描画された部分を囲む矩形で示された領域（以下、矩形領域という）である。ここで、文字列画像領域抽出部３０２により抽出される文字列画像は、「要素画像」の一例である。

文字列画像領域抽出部３０２は、例えば、画像から文字列画像領域を推定する推定モデルに、データを入力することにより得られた推定結果に基づいて、チラシ画像１０から文字列画像領域を抽出する。ここで、推定モデルは、例えば、文字列や物体等が示された画像に、その画像における文字列画像領域を対応付けた学習データを用いて機械学習を実行することにより生成された学習済みモデルである。

また、文字列画像領域抽出部３０２は、チラシ画像１０から抽出した文字列画像領域について、チラシ画像１０における位置情報を取得する。位置情報は、例えば、文字列画像領域に対応する矩形領域の基準となる点（例えば、左上の点）の位置を示す座標値、及び、矩形領域の面積を示す情報（例えば、矩形領域の幅と高さとで示される情報）である。

なお、矩形領域の基準となる点の座標値は、例えば、チラシ画像１０において基準となる位置（例えば、画像の左下の点）を原点、チラシ画像１０の横方向をＸ軸、縦方向をＹ軸とする二次元座標系により示されてよい。また、矩形領域の幅（Ｘ軸方向の長さ）と高さ（Ｙ軸方向の長さ）とは、例えば、画像における基準となる長さの単位（例えば、１ピクセルや、１インチなど）に基づいて示されてよい。

文字列画像領域抽出部３０２は、チラシ画像１０から抽出した文字列画像領域のデータを文字認識部３０４に出力する。また、文字列画像領域抽出部３０２は、チラシ画像１０から抽出した文字列画像領域の位置情報を文字列画像メタデータ生成部３０６に出力する。

文字認識部３０４は、文字列画像領域抽出部３０２により抽出された文字列画像領域のデータに含まれる文字列画像に対応する文字列を認識する。文字認識部３０４は、例えば、文字列画像に光学文字認識を実施することにより、文字列画像に対応する文字列を認識する。文字認識部３０４は、認識した文字列を示す文字コードの情報を文字列画像メタデータ生成部３０６に出力する。ここで、文字認識部３０４により認識される文字列画像に対応する文字列は、「属性情報」の一例である。

文字列画像メタデータ生成部３０６は、文字認識部３０４により認識された文字列画像に対応する文字列を示す情報に基づいて、当該文字列をメタデータとして用いるか否かを判定する。文字列画像メタデータ生成部３０６は、例えば、商品の名称として示されている文字列を、メタデータとして用いると判定する。一方、文字列画像メタデータ生成部３０６は、例えば、商品の名称ではない文字列を、メタデータとして用いないと判定する。

文字列画像メタデータ生成部３０６は、メタデータとして用いると判定した文字列を、文字列画像領域抽出部３０２により抽出された文字列画像領域の位置情報に対応づけることにより、文字列画像領域におけるメタデータ（文字列画像領域メタデータ）を生成する。文字列画像メタデータ生成部３０６は、生成した文字列画像領域メタデータをメタデータ生成部３１０に出力する。

物体画像領域抽出部３０３は、チラシ画像１０において物体画像が示された領域である物体画像領域を抽出する。物体画像領域抽出部３０３により抽出される物体画像領域は、例えば、商品等を示す物体画像が描画された部分を囲む矩形領域である。ここで、物体画像領域抽出部３０３により抽出される物体画像は、「要素画像」の一例である。

物体画像領域抽出部３０３は、例えば、画像に様々な矩形の枠（セル）をあてはめることによりチラシ画像１０に撮像された様々な物体画像を抽出する。具体的には、物体画像領域抽出部３０３は、例えば、チラシ画像１０に様々な矩形の枠（セル）をあてはめることで複数の画像に分割し、分割した画像の各々について色やエッジ等に基づいて予め設定した物体毎の種類（クラス）に所属する確率（スコア）を算出する。物体画像領域抽出部３０３は、算出したスコアが高い画像に物体があると判定し、その枠で囲まれた領域を抽出することで画像から物体画像を抽出する。

また、物体画像領域抽出部３０３は、チラシ画像１０における物体画像領域の位置情報を取得する。位置情報は、例えば、チラシ画像１０における物体画像領域に対応する矩形領域の基準となる点（例えば、左上の点）の位置を示す座標値、及び、矩形領域の面積を示す情報（例えば、矩形領域の幅と高さとで示される情報）である。

物体画像領域抽出部３０３は、チラシ画像１０から抽出した物体画像領域のデータを物体認識部３０５に出力する。また、物体画像領域抽出部３０３は、チラシ画像１０から抽出した物体画像領域の位置情報を物体画像メタデータ生成部３０７に出力する。

物体認識部３０５は、文字列画像領域抽出部３０２により抽出された物体画像領域のデータに基づいて、物体画像に対応する物体の名称等、物体に関する情報を認識する。物体認識部３０５は、例えば、物体画像に撮像された物体を推定する物体推定モデルにデータを入力することにより得られた推定結果に基づいて、物体画像から物体を推定する。ここで、物体推定モデルは、例えば、様々な物体を、様々な撮像条件により撮像した画像に、その物体の名称を対応付けた学習データを用いて機械学習を実行することにより生成された学習済みモデルである。物体認識部３０５は、認識した物体の名称等の物体に関する情報を物体画像メタデータ生成部３０７に出力する。ここで、物体認識部３０５により認識される物体画像に対応する物体の名称は、「属性情報」の一例である。

物体画像メタデータ生成部３０７は、物体認識部３０５により認識された物体画像に対応する物体に関する情報に基づいて、当該物体をメタデータとして用いるか否かを判定する。物体画像メタデータ生成部３０７は、例えば、商品として示されている物体を、メタデータとして用いると判定する。一方、文字列画像メタデータ生成部３０６は、例えば、商品として示されていない物体を、メタデータとして用いないと判定する。

物体画像メタデータ生成部３０７は、メタデータとして用いると判定した物体に関する情報に物体画像領域抽出部３０３により抽出された物体画像領域の位置情報に対応づけることにより物体画像領域におけるメタデータ（物体画像領域メタデータ）を生成する。物体画像メタデータ生成部３０７は、生成した物体画像領域メタデータをメタデータ生成部３１０に出力する。

メタデータ生成部３１０は、文字列画像メタデータ生成部３０６により生成された文字列領域メタデータと、物体画像メタデータ生成部３０７により生成された画像領域メタデータとに基づいて、チラシ画像１０のメタデータを生成する。メタデータ生成部３１０により生成されるチラシ画像１０のメタデータは、例えば、文字列領域メタデータと画像領域メタデータとを含む情報である。メタデータ生成部３１０は、生成したメタデータを記憶部３１１に記憶させる。

分類タグ付与部３０８は、メタデータ生成部３１０により生成されたチラシ画像１０のメタデータに基づいて、要素画像の各々の属性情報に、属性情報を分類する分類タグを示す情報を付与する。分類タグ付与部３０８は、例えば、チラシ画像１０に掲載され得る商品群について、ＪＩＣＦＳ（ＪＡＮＩｔｅｍＣｏｄｅＦｉｌｅＳｅｒｖｉｃｅ）分類のような、商品群における分類体系を示すデータベースを、予め記憶部３１１に記憶させておく。分類タグ付与部３０８は、要素画像の各々の属性情報に基づいて当該データベースを参照することにより分類タグを取得する。分類タグ付与部３０８は、取得した分類タグを、記憶部３１１に記憶されたメタデータの属性情報に対応づけて記憶させる。

画像識別インデックス付与部３０９は、メタデータ生成部３１０により生成されたチラシ画像１０のメタデータに基づいて、要素画像の各々に、要素画像が掲載されたチラシ画像１０を一意に識別する識別インデックスを付与する。画像識別インデックス付与部３０９は、識別インデックスを、記憶部３１１に記憶されたメタデータの要素画像に対応づけて記憶させる。

記憶部３１１は、メタデータ生成装置３０において用いられる各種のコンピュータプログラムやデータ等を記憶する。また、記憶部３１１は、メタデータ生成装置３０における各種の演算処理等において用いられる一時的な記憶領域としての機能も有する。記憶部３１１は、記憶媒体、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、フラッシュメモリ、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓｒｅａｄ／ｗｒｉｔｅＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、又はそれらの任意の組み合わせを含んで構成される。

記憶部３１１は、メタデータ生成部３１０により生成されたメタデータ、分類タグ付与部３０８により取得された分類タグを示す情報、及び画像識別インデックス付与部３０９により取得された識別インデックスを示す情報を記憶する。また、記憶部３１１は、分類タグ付与部３０８により参照される商品群における分類体系を示すデータベースを記憶する。

制御部３１２は、メタデータ生成装置３０における各種の処理を制御する。制御部３１２は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を含んで構成される。制御部３１２は、例えば、チラシ画像１０のデータに基づいて、各種の事前処理を行う。制御部３１２は、前処理として、例えば、データが示す画像の傾きを補正したり、データが示す画像の色を分解したりする処理を行う。制御部３１２により事前処理が行われることで、データを用いた各種処理、例えば、文字列画像領域を抽出する処理、文字を認識する処理、物体画像領域を抽出する処理、物体を認識する処理が、容易となり、或いは抽出や認識の精度を向上させることが可能となる。

ここで、文字列画像領域抽出部３０２による文字列画像領域を抽出する処理、及び物体画像領域抽出部３０３による物体画像領域の抽出する処理について、図３を参照しながら説明する。
図３は、実施形態に係る要素画像を説明する図である。図３に示すように、チラシ画像１０には、要素画像となる画像１０Ｅ〜１０Ｉを含んでいる。この例では、要素画像には、「しいたけ」の画像１０Ｅ、「＜国内産＞」の文字列の画像１０Ｆ、「しいたけ」の文字列の画像１０Ｇ、「一袋」の文字列を四角で囲んだ文字列の画像１０Ｈ、及び「１５８円（税込）」の文字列を特殊フォントで示す画像１０Ｉが含まれる例を示している。

（文字列画像領域抽出部３０２による文字列画像領域の抽出）
文字列画像領域抽出部３０２は、例えば、非特許文献２に記載するようなニューラルネットワークにより示される数学モデルを用いて、チラシ画像１０に含まれる要素画像の中から文字列の特徴を有する画像を、文字列画像領域として抽出する。

文字列画像領域抽出部３０２は、例えば、画像１０Ｅ〜１０Ｉの各々から、学習済みである文字列の特徴量と一致、又は類似する特徴量が検出された場合、その画像を文字列画像と推定する。一方、文字列画像領域抽出部３０２は、画像１０Ｅ〜１０Ｉの各々から、学習済みである文字列の特徴量と一致、又は類似する特徴量が検出されない場合、その画像を文字列画像ではないと推定する。文字列の特徴量は、例えば、文字列の特徴を示す物理量であり、例えば、画像における濃度特性や、色彩特性である。このような濃度特性や、色彩特性は、例えば、文字列が同一の色で示される場合が多く傾向にあるのに対し、物体は様々な色で示される傾向にある場合などに文字列の特徴量として用いることができる。文字列画像領域抽出部３０２は、例えば、画像１０Ｆ、１０Ｇ、１０Ｈを、文字列画像領域として抽出する。

なお、画像１０Ｉについては、特殊フォントにより描画された数値等の文字列であることから、人間が視認すれば文字列として認識される可能性が高い。しかし、文字列画像領域抽出部３０２が用いる数学モデルに、特殊フォントによる文字列画像を文字として認識するという学習がなされていない場合には、文字列画像領域抽出部３０２が画像１０Ｉを文字列画像として抽出する可能性が低い。
また、仮に、文字列画像領域抽出部３０２が用いる数学モデルに特殊フォントによる文字列画像を文字として認識するように学習させることにより、画像１０Ｉを文字列画像として抽出することができたとしても、特殊フォントで記載された文字であることから画像１０Ｉが従来の光学文字認識により正しく文字認識がなされる可能性が低い。
このため、本実施形態では、メタデータとして特殊フォントにより描画された文字や文字列の画像を用いない。これにより、文字列画像領域抽出部３０２が用いる数学モデルに特定の追加学習を行ったり、光学文字認識による文字認識に特殊フォントを対応させたりする手間を省くことが可能となる。

（物体画像領域抽出部３０３による物体画像領域の抽出）
物体画像領域抽出部３０３は、例えば、非特許文献３に記載するようなニューラルネットワークにより示される数学モデルを用いて、チラシ画像１０に含まれる要素画像の中から物体の特徴を有する画像を、物体画像領域として抽出する。

物体画像領域抽出部３０３は、例えば、画像１０Ｅ〜１０Ｉの各々から、学習済みである物体の特徴量と一致、又は類似する特徴量が検出された場合、その画像を物体画像と推定する。一方、物体画像領域抽出部３０３は、画像１０Ｅ〜１０Ｉの各々から、学習済みである物体の特徴量と一致、又は類似する特徴量が検出されない場合、その画像を物体画像ではないと推定する。物体の特徴量は、物体の特徴を示す物理量であり、例えば、画像における濃度特性や、色彩特性である。このような濃度特性や、色彩特性は、例えば、物体が様々な色で示される傾向にあり、同一又は似たような色で示される背景画像や文字列画像とは異なる特徴を示す傾向にある場合に、物体の特徴量として用いることができる。文字列画像領域抽出部３０２は、例えば、画像１０Ｅ、１０Ｉを、物体画像領域として抽出する。

ここで、文字列画像領域抽出部３０２による文字列画像領域の位置情報を抽出する処理、及び物体画像領域抽出部３０３による物体画像領域の位置情報を抽出する処理について、図４を参照しながら説明する。
図４は、実施形態に係る要素画像の位置情報を説明する図である。図４（ａ）は、文字列画像領域として抽出された画像１０Ｇ、図４（ｂ）は、物体画像領域として抽出された画像１０Ｅをそれぞれ示している。

（文字列画像領域抽出部３０２による文字列画像領域の位置情報を抽出する処理）
文字列画像領域抽出部３０２は、例えば、文字列画像領域として抽出した画像１０Ｇの位置情報として、文字列画像領域に対応する矩形の左上の点１１Ｇにおける水平方向座標及び垂直方向座標、矩形の右下の点１４Ｇにおける水平方向座標及び垂直方向座標の４つの数値を用いる。
或いは、文字列画像領域抽出部３０２は、文字列画像領域として抽出した画像１０Ｇの位置情報として、点１１Ｇにおける水平方向座標及び垂直方向座標と、矩形の幅を示す点１２Ｇから点１４Ｇまでの長さ、及び高さを示す点１３Ｇから点１４Ｇまでの長さを用いるようにしても良い。

（物体画像領域抽出部３０３による物体画像領域の位置情報を抽出する処理）
物体画像領域抽出部３０３は、例えば、物体画像領域として抽出した画像１０Ｅの位置情報として、文字列画像領域に対応する矩形の左上の点１１Ｅにおける水平方向座標及び垂直方向座標、矩形の右下の点１４Ｅにおける水平方向座標及び垂直方向座標の４つの数値を用いる。
或いは、物体画像領域抽出部３０３は、文字列画像領域として抽出した画像１０Ｅの位置情報として、点１１Ｅにおける水平方向座標及び垂直方向座標と、矩形の幅を示す点１２Ｅから点１４Ｅまでの長さ、及び高さを示す点１３Ｅから点１４Ｅまでの長さを用いるようにしても良い。

（文字認識部３０４による文字の認識）
ここで、文字認識部３０４による文字の認識について説明する。
文字認識部３０４は、文字列画像領域に示される文字列画像について、非特許文献２に記載のニューラルネットワーク、或いは光学文字認識を用いることによって、文字列として示された画像から文字を認識する。文字認識部３０４は、図３の例に示すように、画像１０Ｆ、１０Ｇ、及び１０Ｈが文字列画像領域として認識された場合、画像１０Ｆに対応する文字として「国内産」、画像１０Ｇに対応する文字として「しいたけ」、及び画像１０Ｈに対応する文字として「１袋」という文字列をそれぞれ認識する。

（文字列画像メタデータ生成部３０６による文字列画像領域メタデータの生成）
ここで、文字列画像メタデータ生成部３０６による文字列画像領域メタデータの生成について説明する。
文字列画像メタデータ生成部３０６は、文字認識部３０４により認識された文字や文字列について、メタデータとして用いるか否かを判定する。文字列画像メタデータ生成部３０６は、例えば、画像１０Ｇに対応する「しいたけ」をメタデータとして用い、画像１０Ｆに対応する「国内産」や、画像１０Ｈに対応する「１袋」をメタデータとして用いないと判定する。

なお、文字列画像メタデータ生成部３０６は、メタデータとして用いるか否かを判定する際の判断基準を、表示対象とする画像に含まれる要素画像の性質や、画像を閲覧する対象となるユーザに応じて任意に設定してよい。文字列画像メタデータ生成部３０６は、例えば、上記のように商品名をメタデータとして用いる判断基準としてもよいし、店舗名や特売期間、割引率、原産地等の情報をメタデータとして用いる判断基準とするようにしてもよい。

文字列画像メタデータ生成部３０６は、メタデータとして用いると判定した文字列に、その文字列画像領域の位置情報に対応づけた情報を文字列画像領域メタデータとする。文字列と位置情報とが対応づけられることにより、ユーザにより選択された文字列に基づいて、対応する文字列画像の位置を取得することができる。このため、取得した位置を基準として表示画面４０Ａに文字列画像を表示させることが可能となる。つまり、文字列と位置情報から成る文字列画像領域メタデータがアプリケーションで使用されることで、所望のキーワード（文字列）に対応する文字列画像を中心に表示させることができ、例えば、表示画面のサイズを考慮して所望の画像を閲覧しやすい大きさに拡大表示させることが可能となる。

（物体認識部３０５による文字の認識）
ここで、物体認識部３０５による文字の認識について説明する。
物体認識部３０５は、物体画像領域に示される物体画像について、非特許文献３に記載のニューラルネットワークで示される数学モデル等を用いることによって、物体として示された画像から物体名称等を認識する。物体認識部３０５は、図３の例に示すように、画像１０Ｅ、及び１０Ｉが物体画像領域として認識された場合、画像１０Ｅに対応する物体名称として「しいたけ」を認識する。また、物体認識部３０５は、自身が用いる数学モデルに画像１０Ｉに対応する物体名称が学習されている場合には、画像１０Ｉの物体名称（例えば、「特殊フォント」等）を認識する。或いは、物体認識部３０５は、自身が用いる数学モデルに画像１０Ｉに対応する物体名称が学習されていない場合には、画像１０Ｉの物体名称を「不明」として認識する。

（物体画像メタデータ生成部３０７による物体画像領域メタデータの生成）
ここで、物体画像メタデータ生成部３０７による文字列画像領域メタデータの生成について説明する。
物体画像メタデータ生成部３０７は、物体認識部３０５により認識された物体名称について、メタデータとして用いるか否かを判定する。物体画像メタデータ生成部３０７は、例えば、画像１０Ｅに対応する「しいたけ」をメタデータとして用い、画像１０Ｉに対応する物体名称（「特殊フォント」或いは「不明」）をメタデータとして用いないと判定する。

物体画像メタデータ生成部３０７は、メタデータとして用いると判定した物体名称に、その物体画像領域の位置情報に対応づけた情報を物体画像領域メタデータとする。物体名称と位置情報とが対応づけられることにより、ユーザにより選択された物体名称に基づいて、対応する物体画像の位置を取得することができる。このため、取得した位置を基準として表示画面４０Ａに物体画像を表示させることが可能となる。つまり、物体名称と位置情報から成る物体画像領域メタデータがアプリケーションで使用されることで、所望のキーワード（物体名称）に対応する物体画像を中心に表示させることができ、例えば、表示画面のサイズを考慮して所望の物体画像を閲覧しやすい大きさに拡大表示させることが可能となる。

（メタデータ生成部３１０によるメタデータの生成）
ここで、メタデータ生成部３１０によるメタデータの生成について説明する。
メタデータ生成部３１０は、文字列画像領域メタデータと、物体画像領域メタデータとを共に、画像のメタデータとして生成する。メタデータ生成部３１０により生成されたメタデータは、例えば、アプリケーション上で要素画像を検索するための検索キーワードとして表示画面４０Ｂに表示させる情報として用いられる。また、表示画面４０Ｂに表示させた検索キーワードに対応して表示画面４０Ａに表示させる画像の位置情報に用いられる。
メタデータ生成部３１０は、文字列画像領域メタデータと、物体画像領域メタデータとの各々に、表示画面４０Ｂに表示させる情報として用いられる場合の重みづけをしたメタデータを生成してもよい。メタデータ生成部３１０は、例えば、文字列画像領域メタデータよりも、物体画像領域メタデータの方が、表示画面４０Ｂに表示させる情報として優先されるように重みづけを行う。この場合、表示画面４０Ｂに表示させる情報として、物体画像領域メタデータが優先して表示されるため、ユーザにより物体画像領域メタデータに対応する物体名称が選択されることになり、物体画像が文字列画像よりも優先して表示される。

（分類タグ付与部３０８による分類タグの付与）
ここで、分類タグ付与部３０８による分類タグの付与について説明する。
分類タグ付与部３０８は、メタデータ生成部３１０により生成されたメタデータに基づいて、文字列画像の文字列、及び物体画像の物体名称の各々を分類する分類タグを付与する。分類タグ付与部３０８は、例えば、画像１０Ｇに対応する文字列「しいたけ」を分類する分類タグとして、「しいたけ」が属する要素分類名及びその要素分類が属する上位の要素分類名を取得し、取得した要素分類名や上位の要素分類名に対応する名称（例えば、「野菜」）を分類タグとする。また、分類タグ付与部３０８は、例えば、画像１０Ｅに対応する物体名称「しいたけ」を分類する分類タグとして、例えば、「野菜」を分類タグとする。

（画像識別インデックス付与部３０９による分類タグの付与）
ここで、画像識別インデックス付与部３０９による画像識別インデックスの付与について説明する。
画像識別インデックス付与部３０９は、メタデータ生成部３１０により生成されたメタデータに基づいて、文字列画像、及び物体画像を掲載する画像に識別インデックスを付与する。画像識別インデックス付与部３０９は、例えば、チラシ画像１０が複数毎ある場合に、それぞれのチラシ画像を識別する識別インデックスを付与する。画像識別インデックス付与部３０９により付与される識別インデックスは、例えば、アプリケーション上で要素画像を表示する際に、画像を特定させる情報として用いられる。

（記憶部３１１に記憶されるメタデータ）
ここで、記憶部３１１に記憶されるメタデータについて図５を参照しながら説明する。
図５は、実施形態に係るメタデータの構成例を示す図である。
図５に示すように、記憶部３１１に記憶されるメタデータは、例えば、要素画像識別番号、画像種別、座標情報、領域情報、属性情報、分類タグ、及び画像インデックス番号の各々の項目を有する。

要素画像識別番号には、要素画像としての文字列画像及び物体画像の各々を一意に識別する識別番号が記憶される。画像種別には、画像の種別が記憶され、例えば、要素画像が文字列画像であるか物体画像であるかが記憶される。座標情報には、要素画像として抽出された矩形の領域において基準となる位置（例えば、矩形の左上の点）の位置座標が記憶される。領域情報には、要素画像として抽出された矩形の領域の面積を示す情報（例えば、横幅と高さとを示す情報）が記憶される。属性情報には、要素画像の属性情報として、文字列画像の文字列又は物体画像の物体名称、例えば「しいたけ」、「ナス」、「リンゴ」等が記憶される。これらの、要素画像識別番号、画像種別、座標情報、領域情報、属性情報は、メタデータ生成部３１０により記憶部３１１に記憶される。

分類タグには、属性情報を分類する情報、例えば「しいたけ」及び「ナス」に対して「野菜」、「リンゴ」に対して「果物」が記憶される。分類タグは、分類タグ付与部３０８により記憶部３１１に記憶される。画像インデックス番号には、要素画像が掲載された画像を識別する情報が記憶される。画像インデックス番号は、画像識別インデックス付与部３０９により記憶部３１１に記憶される。

（メタデータ生成装置３０の動作）
ここで、メタデータ生成装置３０の動作について図６を参照しながら説明する。
図６は、実施形態に係るメタデータ生成装置３０の動作例を示すフローチャートである。本フローチャートは、チラシ画像１０のデータが、データ取得部３０１に入力される際に開始される。

（ステップｓｔ０１）まず、メタデータ生成装置３０のデータ取得部３０１は、チラシ画像１０のデータを取得する。その後、ステップｓｔ０２へ進む。
（ステップｓｔ０２）次に、メタデータ生成装置３０の制御部３１２は、データに基づいて前処理を行う。その後、ステップｓｔ０３へ進む。
（ステップｓｔ０３）次に、メタデータ生成装置３０の文字列画像領域抽出部３０２は、データが示す画像から、文字列画像領域を抽出する。文字列画像領域抽出部３０２は、文字列画像領域のデータ、及び文字列画像領域の位置情報を抽出する。その後、ステップｓｔ０４へ進む。
（ステップｓｔ０４）次に、メタデータ生成装置３０の文字認識部３０４は、文字列画像領域抽出部３０２により抽出された文字列画像領域のデータが示す画像から、文字列画像の文字を認識する。その後、ステップｓｔ０５へ進む。

（ステップｓｔ０５）次に、メタデータ生成装置３０の物体画像領域抽出部３０３は、データが示す画像から、物体画像領域を抽出する。物体画像領域抽出部３０３は、物体画像領域のデータ、及び物体画像領域の位置情報を抽出する。その後、ステップｓｔ０６へ進む。
（ステップｓｔ０６）次に、メタデータ生成装置３０の物体認識部３０５は、物体画像領域抽出部３０３により抽出された物体画像領域のデータが示す画像から、物体画像の物体名称を認識する。その後、ステップｓｔ０７へ進む。
（ステップｓｔ０７）次に、メタデータ生成装置３０の文字列画像メタデータ生成部３０６は、文字認識部３０４により認識された文字列画像の文字に基づいて、文字列画像のメタデータを生成する。その後、ステップｓｔ０８へ進む。
（ステップｓｔ０８）次に、メタデータ生成装置３０の物体画像メタデータ生成部３０７は、物体認識部３０５により認識された物体画像の物体名称に基づいて、物体画像のメタデータを生成する。その後、ステップｓｔ０９へ進む。
（ステップｓｔ０９）次に、メタデータ生成装置３０のメタデータ生成部３１０は、文字列画像、及び物体画像のメタデータに基づいて、チラシ画像１０のメタデータを生成する。その後、ステップｓｔ１０へ進む。
（ステップｓｔ１０）次に、メタデータ生成装置３０の分類タグ付与部３０８は、チラシ画像１０のメタデータに基づいて、メタデータに分類タグを付与する。その後、ステップｓｔ１１へ進む。
（ステップｓｔ１１）そして、メタデータ生成装置３０の画像識別インデックス付与部３０９は、チラシ画像１０のメタデータに基づいて、要素画像に画像識別インデックスを付与する。以上で、本フローチャートに示される処理が終了する。

以上説明したように、実施形態のメタデータ生成装置３０は、複数の要素画像（例えば、文字列画像や物体画像）が掲載されているチラシ画像１０のデータに基づいて、チラシ画像１０から要素画像が掲載されている要素画像領域（例えば、文字列画像領域や物体画像領域）のチラシ画像１０における位置を示す位置情報を抽出する文字列画像領域抽出部３０２及び物体画像領域抽出部３０３と、要素画像領域における要素画像に対応する属性情報（例えば、文字列画像の文字列や物体画像の物体名称）を取得する文字認識部３０４及び物体認識部３０５と、位置情報に属性情報を関連付けたメタデータを生成する文字列画像メタデータ生成部３０６、物体画像メタデータ生成部３０７及びメタデータ生成部３１０とを備える。これにより、実施形態のメタデータ生成装置３０は、チラシ画像１０における各要素画像について、属性情報と位置情報とを対応付けたメタデータを生成することができ、要素画像の属性情報に基づいて、その要素画像の位置情報を取得することができる。このため、要素画像を画像全体から目視で探索したり、表示を選択したり拡大させたり移動させたりといった手間をかけることなく、画像内における所望の要素画像を、閲覧することができる。

特に、ユーザの携帯端末装置の表示画面の大きさは、雑誌やチラシ等の紙媒体の大きさと比較して小さい場合が多い。このため、携帯端末装置にあるアプリケーションによりチラシ画像を閲覧しようとした場合、チラシ画像の全体を表示画面に表示させると、チラシ画像に含まれる文字や画像が視認するには困難である程に小さく表示されてしまう。この場合、文字や画像に示される詳細な内容を解読することが困難となる。このため、アプリケーションでチラシ画像等を閲覧して、詳細な内容を解読しようとする際には、ユーザは自らが注目する要素が示されている箇所の領域が表示画面の中央となるように画像を移動させ、移動させた領域を拡大させる等して、所望の要素に対応する画像（要素画像）を閲覧する必要があり手間がかかる。
これに対し、本実施形態のメタデータ生成装置３０では、ユーザにより選択された属性情報の位置情報を取得することができるため、対応する要素画像を表示画面の中央などに、視認しやすい倍率で表示させることが可能である。つまり、画像全体から目視で探索したり、表示を選択したり拡大させたり移動させたりといった手間をかけることなく、画像内における所望の要素画像を閲覧することができる。

また、実施形態のメタデータ生成装置３０では、文字列画像領域抽出部３０２は、複数の文字列画像が掲載されている画像のデータに基づいて、画像から文字列画像が掲載されている文字列画像領域を抽出し、文字認識部３０４は、文字列画像領域における画像のデータに基づいて、文字列画像に対応する文字列を認識し、認識した文字列を属性情報として取得する。これにより、実施形態のメタデータ生成装置３０は、チラシ画像１０に掲載された文字列画像の文字列とその文字列画像の位置を対応付けたメタデータを生成することができる。

また、実施形態のメタデータ生成装置３０では、物体画像領域抽出部３０３は、複数の物体画像が掲載されている画像のデータに基づいて、画像から物体画像が掲載されている物体画像領域を抽出し、物体認識部３０５は、物体画像領域における画像のデータに基づいて、物体画像に対応する物体の名称を認識し、認識した名称を属性情報として取得する。これにより、実施形態のメタデータ生成装置３０は、チラシ画像１０に掲載された物体画像の物体名称とその物体画像の位置を対応付けたメタデータを生成することができる。

また、実施形態のメタデータ生成装置３０では、メタデータ生成部３１０により生成されたメタデータに基づいて、属性情報に、属性情報を分類する分類情報を関連付けた分類タグを付与する分類タグ付与部３０８を更に備える。これにより、実施形態のメタデータ生成装置３０は、文字列画像の文字列や物体画像の物体名称を分類することができる。

また、実施形態のメタデータ生成装置３０では、メタデータ生成部３１０により生成されたメタデータに基づいて、要素画像領域に、要素画像領域が抽出された画像を識別する画像識別インデックスを付与する画像識別インデックス付与部３０９を更に備える。これにより、実施形態のメタデータ生成装置３０は、文字列画像や物体画像が掲載された画像が複数ある場合であっても、各々の画像を識別することができる。

また、実施形態の画像表示システム２０は、メタデータ生成装置３０と、ユーザにより指定された属性情報を取得し、取得した属性情報、チラシ画像１０のデータ、及びメタデータ生成装置３０により生成されたメタデータに基づいて、ユーザにより指定された属性情報に対応する要素画像を表示する表示装置４０を備える。これにより、実施形態の画像表示システム２０は、メタデータ生成装置３０により生成されたメタデータを用いて、画像の全体表示させることなく、ユーザが選択した検索キーワードに対応する要素画像を表示させることができる。

上述した実施形態における画像表示システム２０、及びメタデータ生成装置３０の全部または一部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、ＦＰＧＡ等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１０…チラシ画像、２０…画像表示システム、３０…メタデータ生成装置、４０…表示装置、３０２…文字列画像領域抽出部、３０３…物体画像領域抽出部、３０４…文字認識部、３０５…物体認識部、３０６…文字列画像メタデータ生成部、３０７…物体画像メタデータ生成部、３０８…分類タグ付与部、３０９…画像識別インデックス付与部、３１０…メタデータ生成部

Claims

複数の要素画像が掲載されている全体画像のデータに基づいて、前記全体画像から前記要素画像が掲載されている要素画像領域の前記全体画像における位置を示す位置情報を抽出する要素画像領域抽出部と、
前記位置情報により特定される前記要素画像領域における前記要素画像に対応する属性情報を取得する属性情報取得部と、
前記位置情報に、前記属性情報取得部により取得された前記属性情報を関連付けたメタデータを生成するメタデータ生成部と
を備えることを特徴とするメタデータ生成装置。
前記要素画像領域抽出部は、複数の文字列画像が掲載されている画像のデータに基づいて、前記画像から前記文字列画像が掲載されている文字列画像領域を抽出し、
前記属性情報取得部は、前記文字列画像領域における画像のデータに基づいて、前記文字列画像に対応する文字列を認識し、認識した文字列を属性情報として取得する
請求項１に記載のメタデータ生成装置。
前記要素画像領域抽出部は、複数の物体画像が掲載されている画像のデータに基づいて、前記画像から前記物体画像が掲載されている物体画像領域を抽出し、
前記属性情報取得部は、前記物体画像領域における画像のデータに基づいて、前記物体画像に対応する物体の名称を物体認識により取得し、取得した名称を属性情報として取得する
請求項１又は請求項２に記載のメタデータ生成装置。
前記メタデータ生成部により生成されたメタデータに基づいて、前記属性情報に、前記属性情報を分類する分類情報を関連付けた分類タグを付与する分類タグ付与部
を更に備える
請求項１から請求項３の何れか一項に記載のメタデータ生成装置。
前記メタデータ生成部により生成されたメタデータに基づいて、前記要素画像領域に、前記要素画像領域が抽出された画像を識別する画像識別インデックスを付与する画像識別インデックス付与部
を更に備える
請求項１から請求項４の何れか一項に記載のメタデータ生成装置。
請求項１から請求項５の何れか一項に記載のメタデータ生成装置と、
ユーザにより指定された前記属性情報を取得し、取得した前記属性情報、前記全体画像のデータ、及び前記メタデータ生成装置により生成されたメタデータに基づいて、ユーザにより指定された前記属性情報に対応する前記要素画像を表示する表示装置
を備える画像表示システム。
要素画像領域抽出部が、複数の要素画像が掲載されている全体画像のデータに基づいて、前記全体画像から前記要素画像が掲載されている要素画像領域の前記全体画像における位置を示す位置情報を抽出する要素画像領域抽出過程と、
属性情報取得部が、前記位置情報により特定される前記要素画像領域における前記要素画像に対応する属性情報を取得する属性情報取得過程と、
メタデータ生成部が、前記位置情報に、前記属性情報取得部により取得された前記属性情報を関連付けたメタデータを生成するメタデータ生成過程と
を有することを特徴とするメタデータ生成方法。
コンピュータに、
複数の要素画像が掲載されている全体画像のデータに基づいて、前記全体画像から前記要素画像が掲載されている要素画像領域の前記全体画像における位置を示す位置情報を抽出する要素画像領域抽出手段と、
前記位置情報により特定される前記要素画像領域における前記要素画像に対応する属性情報を取得する属性情報取得手段と、
前記位置情報に、前記属性情報取得手段により取得された前記属性情報を関連付けたメタデータを生成するメタデータ生成手段と
を実行させるためのプログラム。