JP2019197337A - メタデータ生成装置、画像表示システム、メタデータ生成方法、及びプログラム - Google Patents
メタデータ生成装置、画像表示システム、メタデータ生成方法、及びプログラム Download PDFInfo
- Publication number
- JP2019197337A JP2019197337A JP2018090251A JP2018090251A JP2019197337A JP 2019197337 A JP2019197337 A JP 2019197337A JP 2018090251 A JP2018090251 A JP 2018090251A JP 2018090251 A JP2018090251 A JP 2018090251A JP 2019197337 A JP2019197337 A JP 2019197337A
- Authority
- JP
- Japan
- Prior art keywords
- image
- metadata
- character string
- attribute information
- metadata generation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
また、スキャンした複数ページのドキュメントに対して文字認識を実行し、認識した文字列とドキュメントのページ番号等の情報とを対応させた情報をメタデータとして付与する技術が開示されている(例えば、特許文献2)。特許文献2では、所望のキーワード(文字列)が含まれる、あるいはページ番号等の情報に対応するドキュメントを検索するために当該メタデータを使用することができる。
また、画像等の電子コンテンツからメタデータを抽出する際に用いられる光学文字認識や物体検知等の技術に用いられる手法として、例えば、畳み込みニューラルネットワークを用いる手法がある(例えば、非特許文献1〜3)。
まず、画像表示システム20の構成について図1を参照しながら説明する。
図1は、実施形態に係る画像表示システム20の構成例を示すブロック図である。画像表示システム20は、例えば、メタデータ生成装置30、及び表示装置40を備える。また、画像表示システム20は、チラシをスキャナ等でスキャンすることにより得られたチラシ画像10のデータを取得する。
例えば、画像10Aのメタデータは、チラシ画像10における画像10Aの位置を示す情報と、画像10Aを説明する属性情報としての「各種飲料」を示す情報とを対応させた情報である。また、画像10Bのメタデータは、チラシ画像10における画像10Bの位置を示す情報と、画像10Bを説明する属性情報としての「ブロッコリ」を示す情報とを対応させた情報である。
例えば、表示装置40は、表示画面40Bに、画像10Aの属性情報である「各種飲料」、画像10Bの属性情報である「ブロッコリ」、画像10Cの属性情報である「ナス」、画像10Dの属性情報である「リンゴ」、及び画像10Eの属性情報である「しいたけ」の文字列を表示する。
メタデータ生成装置30の構成について図2を参照しながら説明する。
図2は、実施形態に係るメタデータ生成装置30の構成例を示すブロック図である。メタデータ生成装置30は、例えば、データ取得部301と、文字列画像領域抽出部302と、物体画像領域抽出部303と、文字認識部304と、物体認識部305と、文字列画像メタデータ生成部306と、物体画像メタデータ生成部307と、分類タグ付与部308と、画像識別インデックス付与部309と、メタデータ生成部310と、記憶部311と、制御部312と、を備える。
図3は、実施形態に係る要素画像を説明する図である。図3に示すように、チラシ画像10には、要素画像となる画像10E〜10Iを含んでいる。この例では、要素画像には、「しいたけ」の画像10E、「<国内産>」の文字列の画像10F、「しいたけ」の文字列の画像10G、「一袋」の文字列を四角で囲んだ文字列の画像10H、及び「158円(税込)」の文字列を特殊フォントで示す画像10Iが含まれる例を示している。
文字列画像領域抽出部302は、例えば、非特許文献2に記載するようなニューラルネットワークにより示される数学モデルを用いて、チラシ画像10に含まれる要素画像の中から文字列の特徴を有する画像を、文字列画像領域として抽出する。
また、仮に、文字列画像領域抽出部302が用いる数学モデルに特殊フォントによる文字列画像を文字として認識するように学習させることにより、画像10Iを文字列画像として抽出することができたとしても、特殊フォントで記載された文字であることから画像10Iが従来の光学文字認識により正しく文字認識がなされる可能性が低い。
このため、本実施形態では、メタデータとして特殊フォントにより描画された文字や文字列の画像を用いない。これにより、文字列画像領域抽出部302が用いる数学モデルに特定の追加学習を行ったり、光学文字認識による文字認識に特殊フォントを対応させたりする手間を省くことが可能となる。
物体画像領域抽出部303は、例えば、非特許文献3に記載するようなニューラルネットワークにより示される数学モデルを用いて、チラシ画像10に含まれる要素画像の中から物体の特徴を有する画像を、物体画像領域として抽出する。
図4は、実施形態に係る要素画像の位置情報を説明する図である。図4(a)は、文字列画像領域として抽出された画像10G、図4(b)は、物体画像領域として抽出された画像10Eをそれぞれ示している。
文字列画像領域抽出部302は、例えば、文字列画像領域として抽出した画像10Gの位置情報として、文字列画像領域に対応する矩形の左上の点11Gにおける水平方向座標及び垂直方向座標、矩形の右下の点14Gにおける水平方向座標及び垂直方向座標の4つの数値を用いる。
或いは、文字列画像領域抽出部302は、文字列画像領域として抽出した画像10Gの位置情報として、点11Gにおける水平方向座標及び垂直方向座標と、矩形の幅を示す点12Gから点14Gまでの長さ、及び高さを示す点13Gから点14Gまでの長さを用いるようにしても良い。
物体画像領域抽出部303は、例えば、物体画像領域として抽出した画像10Eの位置情報として、文字列画像領域に対応する矩形の左上の点11Eにおける水平方向座標及び垂直方向座標、矩形の右下の点14Eにおける水平方向座標及び垂直方向座標の4つの数値を用いる。
或いは、物体画像領域抽出部303は、文字列画像領域として抽出した画像10Eの位置情報として、点11Eにおける水平方向座標及び垂直方向座標と、矩形の幅を示す点12Eから点14Eまでの長さ、及び高さを示す点13Eから点14Eまでの長さを用いるようにしても良い。
ここで、文字認識部304による文字の認識について説明する。
文字認識部304は、文字列画像領域に示される文字列画像について、非特許文献2に記載のニューラルネットワーク、或いは光学文字認識を用いることによって、文字列として示された画像から文字を認識する。文字認識部304は、図3の例に示すように、画像10F、10G、及び10Hが文字列画像領域として認識された場合、画像10Fに対応する文字として「国内産」、画像10Gに対応する文字として「しいたけ」、及び画像10Hに対応する文字として「1袋」という文字列をそれぞれ認識する。
ここで、文字列画像メタデータ生成部306による文字列画像領域メタデータの生成について説明する。
文字列画像メタデータ生成部306は、文字認識部304により認識された文字や文字列について、メタデータとして用いるか否かを判定する。文字列画像メタデータ生成部306は、例えば、画像10Gに対応する「しいたけ」をメタデータとして用い、画像10Fに対応する「国内産」や、画像10Hに対応する「1袋」をメタデータとして用いないと判定する。
ここで、物体認識部305による文字の認識について説明する。
物体認識部305は、物体画像領域に示される物体画像について、非特許文献3に記載のニューラルネットワークで示される数学モデル等を用いることによって、物体として示された画像から物体名称等を認識する。物体認識部305は、図3の例に示すように、画像10E、及び10Iが物体画像領域として認識された場合、画像10Eに対応する物体名称として「しいたけ」を認識する。また、物体認識部305は、自身が用いる数学モデルに画像10Iに対応する物体名称が学習されている場合には、画像10Iの物体名称(例えば、「特殊フォント」等)を認識する。或いは、物体認識部305は、自身が用いる数学モデルに画像10Iに対応する物体名称が学習されていない場合には、画像10Iの物体名称を「不明」として認識する。
ここで、物体画像メタデータ生成部307による文字列画像領域メタデータの生成について説明する。
物体画像メタデータ生成部307は、物体認識部305により認識された物体名称について、メタデータとして用いるか否かを判定する。物体画像メタデータ生成部307は、例えば、画像10Eに対応する「しいたけ」をメタデータとして用い、画像10Iに対応する物体名称(「特殊フォント」或いは「不明」)をメタデータとして用いないと判定する。
ここで、メタデータ生成部310によるメタデータの生成について説明する。
メタデータ生成部310は、文字列画像領域メタデータと、物体画像領域メタデータとを共に、画像のメタデータとして生成する。メタデータ生成部310により生成されたメタデータは、例えば、アプリケーション上で要素画像を検索するための検索キーワードとして表示画面40Bに表示させる情報として用いられる。また、表示画面40Bに表示させた検索キーワードに対応して表示画面40Aに表示させる画像の位置情報に用いられる。
メタデータ生成部310は、文字列画像領域メタデータと、物体画像領域メタデータとの各々に、表示画面40Bに表示させる情報として用いられる場合の重みづけをしたメタデータを生成してもよい。メタデータ生成部310は、例えば、文字列画像領域メタデータよりも、物体画像領域メタデータの方が、表示画面40Bに表示させる情報として優先されるように重みづけを行う。この場合、表示画面40Bに表示させる情報として、物体画像領域メタデータが優先して表示されるため、ユーザにより物体画像領域メタデータに対応する物体名称が選択されることになり、物体画像が文字列画像よりも優先して表示される。
ここで、分類タグ付与部308による分類タグの付与について説明する。
分類タグ付与部308は、メタデータ生成部310により生成されたメタデータに基づいて、文字列画像の文字列、及び物体画像の物体名称の各々を分類する分類タグを付与する。分類タグ付与部308は、例えば、画像10Gに対応する文字列「しいたけ」を分類する分類タグとして、「しいたけ」が属する要素分類名及びその要素分類が属する上位の要素分類名を取得し、取得した要素分類名や上位の要素分類名に対応する名称(例えば、「野菜」)を分類タグとする。また、分類タグ付与部308は、例えば、画像10Eに対応する物体名称「しいたけ」を分類する分類タグとして、例えば、「野菜」を分類タグとする。
ここで、画像識別インデックス付与部309による画像識別インデックスの付与について説明する。
画像識別インデックス付与部309は、メタデータ生成部310により生成されたメタデータに基づいて、文字列画像、及び物体画像を掲載する画像に識別インデックスを付与する。画像識別インデックス付与部309は、例えば、チラシ画像10が複数毎ある場合に、それぞれのチラシ画像を識別する識別インデックスを付与する。画像識別インデックス付与部309により付与される識別インデックスは、例えば、アプリケーション上で要素画像を表示する際に、画像を特定させる情報として用いられる。
ここで、記憶部311に記憶されるメタデータについて図5を参照しながら説明する。
図5は、実施形態に係るメタデータの構成例を示す図である。
図5に示すように、記憶部311に記憶されるメタデータは、例えば、要素画像識別番号、画像種別、座標情報、領域情報、属性情報、分類タグ、及び画像インデックス番号の各々の項目を有する。
ここで、メタデータ生成装置30の動作について図6を参照しながら説明する。
図6は、実施形態に係るメタデータ生成装置30の動作例を示すフローチャートである。本フローチャートは、チラシ画像10のデータが、データ取得部301に入力される際に開始される。
(ステップst02)次に、メタデータ生成装置30の制御部312は、データに基づいて前処理を行う。その後、ステップst03へ進む。
(ステップst03)次に、メタデータ生成装置30の文字列画像領域抽出部302は、データが示す画像から、文字列画像領域を抽出する。文字列画像領域抽出部302は、文字列画像領域のデータ、及び文字列画像領域の位置情報を抽出する。その後、ステップst04へ進む。
(ステップst04)次に、メタデータ生成装置30の文字認識部304は、文字列画像領域抽出部302により抽出された文字列画像領域のデータが示す画像から、文字列画像の文字を認識する。その後、ステップst05へ進む。
(ステップst06)次に、メタデータ生成装置30の物体認識部305は、物体画像領域抽出部303により抽出された物体画像領域のデータが示す画像から、物体画像の物体名称を認識する。その後、ステップst07へ進む。
(ステップst07)次に、メタデータ生成装置30の文字列画像メタデータ生成部306は、文字認識部304により認識された文字列画像の文字に基づいて、文字列画像のメタデータを生成する。その後、ステップst08へ進む。
(ステップst08)次に、メタデータ生成装置30の物体画像メタデータ生成部307は、物体認識部305により認識された物体画像の物体名称に基づいて、物体画像のメタデータを生成する。その後、ステップst09へ進む。
(ステップst09)次に、メタデータ生成装置30のメタデータ生成部310は、文字列画像、及び物体画像のメタデータに基づいて、チラシ画像10のメタデータを生成する。その後、ステップst10へ進む。
(ステップst10)次に、メタデータ生成装置30の分類タグ付与部308は、チラシ画像10のメタデータに基づいて、メタデータに分類タグを付与する。その後、ステップst11へ進む。
(ステップst11)そして、メタデータ生成装置30の画像識別インデックス付与部309は、チラシ画像10のメタデータに基づいて、要素画像に画像識別インデックスを付与する。以上で、本フローチャートに示される処理が終了する。
これに対し、本実施形態のメタデータ生成装置30では、ユーザにより選択された属性情報の位置情報を取得することができるため、対応する要素画像を表示画面の中央などに、視認しやすい倍率で表示させることが可能である。つまり、画像全体から目視で探索したり、表示を選択したり拡大させたり移動させたりといった手間をかけることなく、画像内における所望の要素画像を閲覧することができる。
Claims (8)
- 複数の要素画像が掲載されている全体画像のデータに基づいて、前記全体画像から前記要素画像が掲載されている要素画像領域の前記全体画像における位置を示す位置情報を抽出する要素画像領域抽出部と、
前記位置情報により特定される前記要素画像領域における前記要素画像に対応する属性情報を取得する属性情報取得部と、
前記位置情報に、前記属性情報取得部により取得された前記属性情報を関連付けたメタデータを生成するメタデータ生成部と
を備えることを特徴とするメタデータ生成装置。 - 前記要素画像領域抽出部は、複数の文字列画像が掲載されている画像のデータに基づいて、前記画像から前記文字列画像が掲載されている文字列画像領域を抽出し、
前記属性情報取得部は、前記文字列画像領域における画像のデータに基づいて、前記文字列画像に対応する文字列を認識し、認識した文字列を属性情報として取得する
請求項1に記載のメタデータ生成装置。 - 前記要素画像領域抽出部は、複数の物体画像が掲載されている画像のデータに基づいて、前記画像から前記物体画像が掲載されている物体画像領域を抽出し、
前記属性情報取得部は、前記物体画像領域における画像のデータに基づいて、前記物体画像に対応する物体の名称を物体認識により取得し、取得した名称を属性情報として取得する
請求項1又は請求項2に記載のメタデータ生成装置。 - 前記メタデータ生成部により生成されたメタデータに基づいて、前記属性情報に、前記属性情報を分類する分類情報を関連付けた分類タグを付与する分類タグ付与部
を更に備える
請求項1から請求項3の何れか一項に記載のメタデータ生成装置。 - 前記メタデータ生成部により生成されたメタデータに基づいて、前記要素画像領域に、前記要素画像領域が抽出された画像を識別する画像識別インデックスを付与する画像識別インデックス付与部
を更に備える
請求項1から請求項4の何れか一項に記載のメタデータ生成装置。 - 請求項1から請求項5の何れか一項に記載のメタデータ生成装置と、
ユーザにより指定された前記属性情報を取得し、取得した前記属性情報、前記全体画像のデータ、及び前記メタデータ生成装置により生成されたメタデータに基づいて、ユーザにより指定された前記属性情報に対応する前記要素画像を表示する表示装置
を備える画像表示システム。 - 要素画像領域抽出部が、複数の要素画像が掲載されている全体画像のデータに基づいて、前記全体画像から前記要素画像が掲載されている要素画像領域の前記全体画像における位置を示す位置情報を抽出する要素画像領域抽出過程と、
属性情報取得部が、前記位置情報により特定される前記要素画像領域における前記要素画像に対応する属性情報を取得する属性情報取得過程と、
メタデータ生成部が、前記位置情報に、前記属性情報取得部により取得された前記属性情報を関連付けたメタデータを生成するメタデータ生成過程と
を有することを特徴とするメタデータ生成方法。 - コンピュータに、
複数の要素画像が掲載されている全体画像のデータに基づいて、前記全体画像から前記要素画像が掲載されている要素画像領域の前記全体画像における位置を示す位置情報を抽出する要素画像領域抽出手段と、
前記位置情報により特定される前記要素画像領域における前記要素画像に対応する属性情報を取得する属性情報取得手段と、
前記位置情報に、前記属性情報取得手段により取得された前記属性情報を関連付けたメタデータを生成するメタデータ生成手段と
を実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018090251A JP2019197337A (ja) | 2018-05-08 | 2018-05-08 | メタデータ生成装置、画像表示システム、メタデータ生成方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018090251A JP2019197337A (ja) | 2018-05-08 | 2018-05-08 | メタデータ生成装置、画像表示システム、メタデータ生成方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019197337A true JP2019197337A (ja) | 2019-11-14 |
Family
ID=68538410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018090251A Pending JP2019197337A (ja) | 2018-05-08 | 2018-05-08 | メタデータ生成装置、画像表示システム、メタデータ生成方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019197337A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022140731A (ja) * | 2021-03-05 | 2022-09-27 | 凸版印刷株式会社 | 電子チラシ管理装置、電子チラシ管理方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009271892A (ja) * | 2008-05-12 | 2009-11-19 | Canon Inc | 情報処理装置、データ処理方法およびプログラム |
JP2015097101A (ja) * | 2014-12-22 | 2015-05-21 | キヤノン株式会社 | 情報処理装置、情報処理方法、情報処理システム、コンピュータプログラム |
JP2015197685A (ja) * | 2014-03-31 | 2015-11-09 | 凸版印刷株式会社 | 電子チラシ情報処理システム及び電子チラシ情報処理方法 |
-
2018
- 2018-05-08 JP JP2018090251A patent/JP2019197337A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009271892A (ja) * | 2008-05-12 | 2009-11-19 | Canon Inc | 情報処理装置、データ処理方法およびプログラム |
JP2015197685A (ja) * | 2014-03-31 | 2015-11-09 | 凸版印刷株式会社 | 電子チラシ情報処理システム及び電子チラシ情報処理方法 |
JP2015097101A (ja) * | 2014-12-22 | 2015-05-21 | キヤノン株式会社 | 情報処理装置、情報処理方法、情報処理システム、コンピュータプログラム |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022140731A (ja) * | 2021-03-05 | 2022-09-27 | 凸版印刷株式会社 | 電子チラシ管理装置、電子チラシ管理方法 |
JP2023036804A (ja) * | 2021-03-05 | 2023-03-14 | 凸版印刷株式会社 | 電子チラシ管理装置、電子チラシ管理方法 |
JP7255736B2 (ja) | 2021-03-05 | 2023-04-11 | 凸版印刷株式会社 | 電子チラシ管理装置、電子チラシ管理方法 |
JP2023084136A (ja) * | 2021-03-05 | 2023-06-16 | 凸版印刷株式会社 | 電子チラシ管理装置、電子チラシシステム、電子チラシ管理方法 |
JP7327628B2 (ja) | 2021-03-05 | 2023-08-16 | 凸版印刷株式会社 | 電子チラシ管理装置、電子チラシ管理方法 |
JP7377423B2 (ja) | 2021-03-05 | 2023-11-10 | Toppanホールディングス株式会社 | 電子チラシ管理装置、電子チラシシステム、電子チラシ管理方法 |
JP7377424B2 (ja) | 2021-03-05 | 2023-11-10 | Toppanホールディングス株式会社 | 端末装置、電子チラシ管理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10867171B1 (en) | Systems and methods for machine learning based content extraction from document images | |
EP3437019B1 (en) | Optical character recognition in structured documents | |
US9762528B2 (en) | Generating a conversation in a social network based on mixed media object context | |
JP5181887B2 (ja) | 電子書類を照合するシステム及び照合方法 | |
US9886669B2 (en) | Interactive visualization of machine-learning performance | |
JP5181888B2 (ja) | グラフィカルユーザインターフェースを生成する方法及びシステム | |
CN109685052A (zh) | 文本图像处理方法、装置、电子设备及计算机可读介质 | |
CA2917256C (en) | Screenshot-based e-commerce | |
US20140254942A1 (en) | Systems and methods for obtaining information based on an image | |
US20150339348A1 (en) | Search method and device | |
JP2007286864A (ja) | 画像処理装置、画像処理方法、プログラムおよび記録媒体 | |
CN101558416A (zh) | 移动通信设备的文本检测 | |
JP2009020888A (ja) | インビジブルジャンクションを生成する方法及びシステム | |
EP3175375A1 (en) | Image based search to identify objects in documents | |
US9256805B2 (en) | Method and system of identifying an entity from a digital image of a physical text | |
EP3910496A1 (en) | Search method and device | |
JP5354747B2 (ja) | アプリケーション状態認識方法、装置及びプログラム | |
JP5480008B2 (ja) | マンガコンテンツの要約を生成する要約マンガ画像生成装置、プログラム及び方法 | |
KR102086600B1 (ko) | 상품 구매 정보 제공 장치 및 방법 | |
JP2019197337A (ja) | メタデータ生成装置、画像表示システム、メタデータ生成方法、及びプログラム | |
US20220269396A1 (en) | Dynamic targeting of preferred objects in video stream of smartphone camera | |
US10095802B2 (en) | Methods and systems for using field characteristics to index, search for, and retrieve forms | |
JP5811435B2 (ja) | 表示装置及び表示制御プログラム | |
JPWO2020044537A1 (ja) | 画像照合装置、画像照合方法、及びプログラム | |
US11620038B2 (en) | Restoring full online documents from scanned paper fragments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210421 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220315 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220322 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220517 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220927 |