JP2012221148A - 画像処理方法、及び、画像処理システム - Google Patents

画像処理方法、及び、画像処理システム Download PDF

Info

Publication number
JP2012221148A
JP2012221148A JP2011085250A JP2011085250A JP2012221148A JP 2012221148 A JP2012221148 A JP 2012221148A JP 2011085250 A JP2011085250 A JP 2011085250A JP 2011085250 A JP2011085250 A JP 2011085250A JP 2012221148 A JP2012221148 A JP 2012221148A
Authority
JP
Japan
Prior art keywords
image
document
storage unit
processor
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011085250A
Other languages
English (en)
Other versions
JP5665125B2 (ja
Inventor
Naoto Akira
直人 秋良
Atsushi Hiroike
敦 廣池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2011085250A priority Critical patent/JP5665125B2/ja
Priority to US13/438,249 priority patent/US9430716B2/en
Publication of JP2012221148A publication Critical patent/JP2012221148A/ja
Application granted granted Critical
Publication of JP5665125B2 publication Critical patent/JP5665125B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/421Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation by analysing segments intersecting the pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour

Abstract

【課題】画像の単位が明確でない文書データから検索に適した画像を抽出する。
【解決手段】プロセッサを有する画像処理システムは、複数の画像を保持する記憶部を有し、プロセッサは、画像を含むデータを取得し、第1の抽出手順によって、取得されたデータが作成されたソフトウェアの種類に従って、取得されたデータから第1の画像領域を抽出し、第2の抽出手順によって、取得されたデータと、記憶部に保持される各画像とを比較することによって、第2の画像領域を、取得されたデータから抽出し、第3の抽出手順によって、取得されたデータの画像特徴量と、記憶部に保持される各画像の画像特徴量とを比較することによって、第3の画像領域を、取得されたデータから抽出し、第1、第2及び第3の画像領域と、第1、第2及び第3の抽出手順に定められた信頼度とに基づいて、記憶部に格納する画像を特定する。
【選択図】図8

Description

本発明は、画像処理方法に関し、特に、文書中の画像を検索することが可能な画像処理方法に関する。
近年、ストレージの大容量化が進んでおり、これによって、通常の方法を用いては検索することが困難な大量の文書データを、ストレージに蓄積できるようになっている。これに伴い、例えば、各計算機から共有可能なストレージに、大量の文書データを格納することによって、会社等の組織において情報を共有したり、新しい文書を生成する際に既存の文書データを素材として活用したりするなどの、文書データの用途が増えている。
これらの用途において文書データを検索するための方法には、ファイルが保存されているフォルダを直接参照して目的の文書データを参照する方法、又は、クエリである単語が含まれるテキスト情報を探し、そのテキスト情報を含む文書データを探す方法が、従来主として用いられてきた。
しかし、テキスト情報のみによる検索は、ある程度文書データ群を絞り込むことはできても、内容が近い文書に検索結果を絞ることが困難であるという問題があった。また、的確な単語をクエリとしなかった場合、検索漏れが生じてしまうという問題があった。
一方で、携帯電話のカメラ及びデジタルカメラの普及、並びに、文書作成ソフトウェアの描画作成機能の利用の増加に伴い、従来の主な検索対象であったテキスト以外に、画像が多く含まれる文書が増えつつある。
そこで、テキストだけでなく、文書中の複数の画像情報、及び、画像がどのような構造であるかを示す文書構造を用いて類似度を個々に算出し、算出された類似度によって求められた統合的な評価値を文書データにおける類似度として、文書を検索する方法、及びそれらの文書を表示する方法(例えば、特許文献1及び特許文献2参照)などが提案されている。
特開2000−148793号公報 特開2006−146628号公報
前述の特許文献1及び特許文献2には文書データが有する文書構造を解析することによって、テキスト情報、画像情報及び構造情報等を抽出する方法が記載されている。このような従来技術を、文書データの検索に用いた場合、ユーザの意図しない画像によって文書データが検索されるという問題があった。また、イメージスキャナ装置などによって取得された文書データは、構造情報を抽出することが困難であるという問題があった。
例えば、文書作成ソフトウェアの描画機能を使用して文書を作成する際、ユーザは、様々な図形を組み合わせて一つの画像を作成することができる。このような場合、文書構造を用いて最小単位の画像を抽出した結果、線又は円など、一般的な形状であり意味を持たないオブジェクト画像が抽出されてしまう場合がある。
また、文書作成ソフトウェアには、図形をグループ化して一つの画像単位とする機能を持つソフトウェアがある。このような文書作成ソフトウェアを用いた際、ユーザによって、画像をグループ化する場合とグループ化しない場合とがある。このため、従来技術を用いた場合、常に、ユーザにとって意味がある画像を示す、適切な構造情報が抽出されるわけではないという問題があった。また、表示及び印刷に影響のないグループ化を同じ基準によってユーザに義務化することができないといった問題があった。
さらに、従来技術において、画像が補助的な情報として用いられているが、画像のみで検索しようとした場合、十分な検索精度が得られないという問題があった。
そこで、本発明は、検索に用いる画像の単位が明確でない文書データから、検索に適した画像を抽出することによって、文書データの検索を可能にするシステムの提供を目的とする。また、文書データ中の画像のみを用いた検索において、同一、又は類似する文書データを検索し、これによって、関連する文書データを高精度に検索するシステムの提供も目的とする。
本発明の代表的な一例を示せば以下の通りである。すなわち、メモリに格納されるプログラムを実行するプロセッサを有する画像処理システムであって、前記画像処理システムは、複数の画像を保持する記憶部を有し、前記プロセッサは、画像を含むデータを取得し、第1の抽出手順によって、前記取得されたデータが作成されたソフトウェアの種類に従って、前記取得されたデータから第1の画像領域を抽出し、第2の抽出手順によって、前記取得されたデータと、前記記憶部に保持される各画像とを比較することによって、前記記憶部に保持される各画像と同一又は類似する第2の画像領域を、前記取得されたデータから抽出し、第3の抽出手順によって、前記取得されたデータの画像特徴量と、前記記憶部に保持される各画像の画像特徴量とを比較することによって、前記記憶部に保持される各画像と同一又は類似する第3の画像領域を、前記取得されたデータから抽出し、前記第1、第2及び第3の画像領域と、前記第1、第2及び第3の抽出手順に定められた信頼度とに基づいて、前記記憶部に格納する画像を特定する。
本発明の一実施形態によると、画像の単位が明確でない文書データから検索に適した画像を抽出できる。
本発明の実施形態の文書検索装置の物理的な構成を示すブロック図である。 本発明の実施形態の画像データDBを示す説明図である。 本発明の実施形態の文書データDBを示す説明図である。 本発明の実施形態のページデータDBを示す説明図である。 本発明の実施形態の画像検索プログラムによって抽出されるレイアウトイメージを示す説明図である。 本発明の実施形態のレイアウトイメージから抽出された複数の画像領域候補を示す説明図である。 本発明の実施形態の画像特徴量生成プログラムによる画像特徴量の算出方法を示す説明図である。 本発明の実施形態の文書データの登録処理を示すフローチャートである。 本発明の実施形態の文書データが格納されるフォルダ又はファイルを取得するために、表示部に表示された画面を示す説明図である。 本発明の実施形態の登録画像と信頼度とを含む判定基準を示す説明図である。 本発明の実施形態の文書データを検索する処理を示すフローチャートである。 本発明の実施形態の文書データが格納されるフォルダ又はファイルを取得するために、表示部に表示された画面を示す説明図である。 本発明の実施形態の画像領域を表示する画面を示す説明図である。 本発明の実施形態の文書検索結果を表示する画面を示す説明図である。
本発明の実施形態は、文書検索装置が、文書データに含まれる画像を、複数の方法によって文書データから抽出し、抽出された画像と信頼度とに従って、画像を選択する。これによって、検索に適した画像を特定する。そして、特定された画像を文書検索装置に蓄積することによって、文書データの検索の際に、文書検索装置に蓄積された画像と文書データに含まれる画像とを比較することによって、より高精度な検索を実現する。
以下に、本発明の実施形態を、図面を参照して説明する。
図1は、本発明の実施形態の文書検索装置100の物理的な構成を示すブロック図である。
本実施形態の文書検索装置100は、プロセッサ101と、主メモリ102と、入力部103と、表示部104と、通信部105と、記憶部110とを備える。図1に示す文書検索装置100は、一つの端末に実装されるが、本実施形態の文書検索装置100は、複数の計算機によって実装されてもよく、仮想サーバによって実装されてもよい。また、本実施形態の記憶部110は、複数の記憶装置によって実装される仮想記憶装置であってもよい。このため、本実施形態の文書検索装置100は、複数の計算機、及び複数の記憶装置によって実装される文書検索システムであってもよい。
プロセッサ101は、記憶部110に格納される各機能を主メモリ102に読み出し、読み出された各機能を実行するための処理装置である。プロセッサ101は、少なくとも一つのプロセッサを備えてもよく、各プロセッサ101は、中央演算処理装置(CPU)でもよい。
主メモリ102は、プログラム等を一時的に記憶する記憶領域である。入力部103は、ユーザ等が文書データを文書検索装置100に入力するための入力装置である。入力部103は、例えば、キーボード、マウス、又は、USBドライバ等の入力装置である。
表示部104は、ユーザ等に文書データの検索結果を表示するための装置である。表示部104は、例えば、ディスプレイ、又は、プリンタ等の出力装置である。通信部105は、文書検索装置100が他の装置と、直接接続したり、ネットワークを介して接続したりするための装置である。通信部105は、例えば、ネットワークインタフェース等の装置である。
記憶部110は、文書検索装置100の機能を実装するためのプログラム及びデータ等を格納する記憶装置である。記憶部110は、例えば、ハードディスクドライブ等の補助記憶装置である。
記憶部110は、OS(オペレーティングシステム)111と、画像データDB112と、文書データDB113と、ページデータDB114と、画像領域検出プログラム115と、文書解析プログラム116と、画像特徴量生成プログラム117と、画像信頼度判定プログラム118と、画像検索プログラム119と、文書検索プログラム120と、画面表示プログラム121と、データ管理プログラム122とを保持する。
OS111は、文書検索装置100を稼動させるための基本的な機能である。
画像データDB112は、文書検索装置100に保持される比較先の文書データのうち、画像に関する情報を含むデータベースである。
なお、本実施形態において、文書検索装置100に入力され、検索する際のキーとなる文書データを、比較元の文書データと記載する。また、文書検索装置100に入力され、検索に適する画像を抽出される文書データも、比較元の文書データと記載する。これに対して、記憶部110に蓄積され、比較元の文書データと比較される文書データの集合を、比較先の文書データと記載する。
本実施形態の比較元の文書データは、少なくとも1枚のページを含む。また、以下に示す文書データは、少なくとも一つの画像を含むが、本実施形態の文書データは、画像を含まない文書データにも適用できる。
本実施形態の比較先の文書データは、テキスト又は画像を含む、複数の文書データの集合である。本実施形態の比較先の文書データは、記憶部110に蓄積されるが、文書検索装置100に接続される他の記憶装置に格納されてもよい。
文書データDB113は、文書検索装置100に保持される比較先の文書データに関する情報を含むデータベースである。ページデータDB114は、文書検索装置100に保持される比較先の文書データの、各ページに関する情報を含むデータベースである。
画像領域検出プログラム115は、比較元の文書データのレイアウトイメージと、画像データDB112が示す画像とを比較し、比較元の文書データのレイアウトイメージから、比較元の画像のオブジェクトの単位、すなわち、比較元の画像領域を抽出する機能である。
以下において、比較元の文書データのレイアウトイメージと、画像データDB112が示す画像とを比較し、比較元の文書データのレイアウトイメージから、比較元の画像を抽出する処理を、テンプレートマッチングと記載する。
なお、本実施形態におけるレイアウトイメージとは、ユーザ等が表示部104等を介して視認する、文書データの内容を示す画像のことである。このため、レイアウトイメージには、テキスト、画像、又はテキスト及び画像の両方が含まれる。
文書解析プログラム116は、文書データが生成されたソフトウェアの種別に基づいて、文書データの文書構造を取得する機能である。また、文書構造が取得可能な文書データから、画像及びテキスト等を抽出する機能である。
文書解析プログラム116は、各文書データを作成するためのソフトウェアを開発したメーカー等によって提供されるソフトウェアライブラリ(画像抽出ライブラリ)を用いることによって実装される。文書検索装置100は、管理者等によって予め記憶部110に入力されることによって、メーカー等によって提供される画像抽出ライブラリを保持する。
画像特徴量生成プログラム117は、画像の見た目の特徴を示す画像特徴量(多次元ベクトル)を算出する機能である。例えば、画像の画素値情報を用いて、画像中のエッジパターンの分布を示す多次元ベクトルを生成し、主成分分析法などを用いて、生成された多次元ベクトルを次元圧縮する。そして、数十〜数百次元程度のベクトルを生成する。さらに、生成されたベクトルによって画像の検索用データ、すなわち、画像特徴量を算出する。
画像信頼度判定プログラム118は、後述する複数の方法によって抽出された画像領域が、文書データを検索するために適当な画像の単位であるかを示す信頼度を、複数の方法に従って定められた信頼度によって、定める機能である。
画像検索プログラム119は、比較元の文書データに含まれる画像の画像特徴量と、比較先の文書データに含まれる画像各々の画像特徴量とのベクトル間の距離を算出する機能である。そして、算出の結果、比較元の画像と距離が小さい画像(距離が近い画像)を、見た目の類似度が高い画像、すなわち同一の画像として取得する機能である。
本実施形態の距離の算出は、二乗距離など、ベクトル間の類似度を算出できる方法であれば、どのような方法を用いてもよい。
文書検索プログラム120は、比較元の文書データと同一又は類似する文書データ、又は、比較元の文書データと同一又は類似する文書データのページを、画像検索プログラム119によって取得された画像検索結果を用いて、検索する機能である。
画面表示プログラム121は、表示部104に、検索結果の一覧、又は、文書データを閲覧するための画像を表示させる機能である。
データ管理プログラム122は、入力部103又は通信部105から入力された画像又は文書データを、記憶部110に格納する機能である。また、格納された画像又は文書データを、各機能の要求に従って出力する機能である。
なお、プロセッサ101は、前述のプログラムを処理することによって、所定の機能を実現する機能部として動作する。例えば、プロセッサ101は、画像領域検出プログラム115を処理することによって、画像領域検出部として機能し、文書解析プログラム116を処理することによって文書解析部として機能する。他のプログラムについても同様である。さらに、プロセッサ101は、各プログラムによって実行される複数の処理のそれぞれを実現する機能部としても動作する。本実施形態の文書検索装置100は、これらの機能部を含む装置又はシステムである。
図2は、本発明の実施形態の画像データDB112を示す説明図である。
画像データDB112は、文書検索装置100が保持する比較先の文書データに含まれる画像に関する情報を含む。具体的には、画像データDB112は、比較元の画像と比較するためのテンプレートとなる画像に関する情報を含む。テンプレートとなる画像に関する情報は、本実施形態の後述の登録処理によって画像データDB112に格納される。
画像データDB112は、通し番号1121、画像ID1122、画像特徴量1123、画像1124、文書ID1125、ページ番号1126、及び、座標1127を含む。通し番号1121は、画像データDB112に含まれる行を一意に示す識別子である。
画像ID1122は、比較先の文書データに含まれる画像を一意に示す識別子である。画像特徴量1123は、比較先の文書データに含まれる画像の見た目の特徴を示す数値である。
画像1124は、比較先の文書データに含まれる画像を表示するために、各画像に割り当てられる識別子又は名称である。図2の画像1124は、画像のファイル名を示すが、本実施形態の画像1124は、画像が格納されるサーバ名、又はディレクトリ名等を含んでもよい。
文書ID1125は、画像1124が示す画像が含まれる文書データを一意に示す識別子である。
ページ番号1126は、画像1124が示す画像が含まれる、文書ID1125が示す文書データのページ数を示す。
座標1127は、画像1124が示す画像が、ページ番号1126が示すページにおいて配置される位置及びサイズを示す。図2の座標1127は、各文書データのX、Y方向を各々100に正規化した場合の座標によって、画像の位置及びサイズを示すが、本実施形態の座標1127は、画像の位置及びサイズを、ピクセル数など他の単位によって示してもよい。
例えば、図2の通し番号1121が「1」である行は、画像ID1122が「10000001」である画像が、文書ID1125が「000001」である文書データの1ページ目における左上座標(35,10)と右下座標(60,35)とによって囲まれる矩形領域に配置されることを示す。
信頼度1128は、画像1124が示す画像の単位としての確度、すなわち、本実施形態の信頼度を示す。本実施形態の信頼度が高い画像は、検索される画像として適当であることを示す。一般的に、信頼度が高い画像は、ユーザにとって意味を持つ画像である場合が多い。図2の信頼度1128は、小さい順に0〜3の4段階によって信頼度を示すが、信頼度の大小が比較できればどのような値又は記号を用いてもよい。
図3は、本発明の実施形態の文書データDB113を示す説明図である。
文書データDB113は、通し番号1131、文書ID1132、種別1133、文書構造1134、作成者1135、更新日1136、及び、ファイルパス1137を含む。通し番号1131は、文書データDB113に含まれる行を一意に示す識別子である。
文書ID1132は、文書検索装置100が保持する比較先の各文書データを、一意に示す識別子である。種別1133は、文書ID1132が示す文書データの種別を示す識別子である。すなわち、種別1133は、文書データが作成されたソフトウェア、又は、文書データが保存された形式を示す。
文書構造1134は、文書ID1132が示す文書データから文書構造を取得できるか否かを示す。例えば、文書を作成するためのソフトウェアによって作成された文書データのように、文書検索装置100が、文書データから文書構造を取得可能な場合、その文書データの文書構造1134は、「1」を含む。そして、文書構造が取得不能な文書データの文書構造1134は、「0」を含む。
本実施形態において、文書構造が取得可能な文書データとは、文書データに含まれる画像のみを、テキスト等と分離して抽出できる文書データのことである。また、文書データに含まれるテキストのみを、画像等と分離して抽出できる文書データである。
本実施形態において、文書構造が取得可能な文書データに含まれる画像のうち、最小単位の画像を、オブジェクト画像と記載する。オブジェクト画像は、一般的に、線や丸などのユーザにとって意味を持たない画像である場合が多い。
また、イメージスキャナ装置などによって読み込まれた文書データ、又は、保護された文書データのように、テキスト及び画像がイメージとして参照される文書データは、文書構造が取得不能な文書データである。このような文書データからは、画像のみをテキストと分離して抽出することはできない。
作成者1135は、文書ID1132が示す文書データを作成した者又は更新した者を示す。更新日1136は、文書ID1132が示す文書データが作成された日付又は最後に更新された日付を示す。なお、更新日1136が示す日付には時刻が含まれてもよい。ファイルパス1137は、文書ID1132が示す文書データが、格納されている記憶部110の位置を示す。
図3の文書ID1132と、図2の文書ID1125とは対応する。
図4は、本発明の実施形態のページデータDB114を示す説明図である。
ページデータDB114は、通し番号1141、ページID1142、画像特徴量1143、文書ID1144、ページ番号1145、及び、画像1146を含む。通し番号1141は、ページデータDB114に含まれる行を一意に示す識別子である。
ページID1142は、文書データに含まれるページを一意に示す識別子である。画像特徴量1143は、各ページから取得したレイアウトイメージの、見た目の特徴を示す数値である。
文書ID1144は、ページID1142が示すページを含む文書データの識別子である。ページ番号1145は、ページID1142が示すページが含まれる文書データのページである。画像1146は、ページID1142が示すページから取得したレイアウトイメージを一意に示す識別子である。
例えば、図4の通し番号1141が「1」である行は、ページID1142が「1000001」であるページは、文書ID1144が「000001」である文書データの1ページ目に含まれることを示す。
図4の文書ID1144と、図3の文書ID1132と、図2の文書ID1125とは、対応する。図4のページ番号1145と、図2のページ番号1126とは、対応する。
以下に、画像領域検出プログラム115によるテンプレートマッチングについて説明する。
本実施形態のテンプレートマッチングには、パターン認識によってレイアウトイメージと画像とを比較する方法、又は、画像特徴量を検索することによってレイアウトイメージと画像とを比較する方法など、一般的な方法が用いられる。
図5は、本発明の実施形態の画像領域検出プログラム115によって取得されるレイアウトイメージ400を示す説明図である。
図5のレイアウトイメージ400には、右下に電子レンジの画像が含まれ、他の領域にテキストが含まれる。図5のレイアウトイメージ400は、文書データの各ページから取得されたレイアウトイメージである。
例えば、文書検索装置100に入力された文書データからレイアウトイメージ400が取得された場合、画像領域検出プログラム115は、レイアウトイメージ400から、様々な形状及び様々なサイズの矩形領域の画像を抽出し、これによって、複数の画像領域候補401を生成する。
図6は、本発明の実施形態のレイアウトイメージ400から抽出された複数の画像領域候補401を示す説明図である。
図6に示す画像領域候補401は、複数の画像領域候補(401a〜401o)を含む。画像領域候補(401a〜401o)は、レイアウトイメージ400の一部を切り取ることによって抽出された複数の画像である。
画像領域検出プログラム115は、画像領域候補(401a〜401o)のいずれが比較元の画像として適切であるか否かを、画像データDB112が示す比較先の画像をテンプレートとして検索する。そして、画像領域候補(401a〜401o)から、画像データDB112が示す比較先の画像と同一又は類似する画像領域候補401を抽出する。
本実施形態において画像領域検出プログラム115は、画像データDB112が示す比較先の画像が、画像領域候補401d(レイアウトイメージ400の右下に配置される電子レンジ)と同一又は類似する場合、画像領域候補401dを検索結果として抽出する。
ここで、画像領域検出プログラム115は、十分な量の画像の情報が画像データDB112に蓄積される場合、画像データDB112の信頼度1128の高い画像のみ(例えば信頼度が3の画像)を、テンプレートとして用いてもよい。これによって、比較先には適さない画像をテンプレートとして用いることを防止し、本来抽出すべきでない画像領域候補401が抽出されることを防止できる。
以下に、画像特徴量生成プログラム117が画像特徴量を算出する方法を説明する。
図7は、本発明の実施形態の画像特徴量生成プログラム117による画像特徴量の算出方法を示す説明図である。
画像402aは、複数の解像度によって表示される画像を含む。画像402bは、画像402aに含まれる各画像を複数の領域に分割した画像を含む。エッジパターン402cは、画像402bの分割された各領域に対応する特徴的なエッジパターンである。数値402dは、エッジパターン402cに対応する特徴量の数値である。
画像特徴量生成プログラム117は、図7に示すエッジパターン402cのように、特徴的なエッジパターンをあらかじめ複数保持する。また、各エッジパターン402cに対応する数値402dをあらかじめ保持する。
一方で、画像特徴量生成プログラム117は、画像特徴量を算出する対象の画像を、多重解像度化、すなわち複数の解像度によって表示される画像に変換することによって、画像402aに含まれる複数の画像を生成する。さらに、生成された画像402aの各画像を格子状に領域分割することによって、画像402bに含まれる複数の画像を生成する。
そして、画像特徴量生成プログラム117は、画像402bの分割された各領域内に含まれる特徴的なエッジパターンの数を、エッジパターン402cと数値402dとに従って加算し、これによって、多次元ベクトルを生成する。そして、主成分分析法を用いて次元圧縮することによって画像特徴量を算出する。
なお、本実施形態の画像の見た目の特徴を示す特徴量には、一般に広く知られているMPEG−7において規定されるエッジヒストグラム特徴、又は、SIFT特徴などの特徴量を用いてもよい。
次に、比較先の文書データを文書検索装置100に登録する手順を示す。
図8は、本発明の実施形態の文書データの登録処理を示すフローチャートである。
本実施形態における登録処理とは、画像データDB112、文書データDB113及びページデータDB114に、画像、文書データ、及びページに関する情報を格納し、文書検索装置100の記憶部101又は文書検索装置100に接続される記憶装置に、文書データ及び画像を格納する処理を示す。
図8に示す文書データの登録処理において、前述のように、文書検索装置100の記憶部101に格納する文書データを、比較元の文書データと記載する。
まず、比較元の文書データを図1に示す文書検索装置100の主メモリ102に格納するため、画面表示プログラム121は、文書データが格納されるフォルダ又はファイルを取得するための画面403を表示部104に表示させる。
図9は、本発明の実施形態の文書データが格納されるフォルダ又はファイルを取得するために、表示部104に表示された画面403を示す説明図である。
画面表示プログラム121は、例えば、画面403を表示部104に表示させ、文書データが格納されるフォルダ又はファイルを、ユーザに入力させる。
そして、入力部103が、比較元の文書データが格納されるフォルダ又はファイルの格納場所、及び、比較元の文書データの登録の指示をユーザから受信した場合、データ管理プログラム122は、指示された格納場所から文書データを取得し、取得された文書データを主メモリ102に格納する(S201)。なお、データ管理プログラム122は、主メモリ102以外の記憶部110等に文書データを格納してもよい。
具体的には、データ管理プログラム122は、通信部105を介して、ネットワークなどに接続されるサーバ等から、ユーザからの指示に従って、文書データを取得する。また、データ管理プログラム122は、ユーザが入力部103によって直接入力したフォルダ又はファイルから、文書データを取得する。
なお、S201において、データ管理プログラム122は、指示されたフォルダに文書データが格納されているか否かを定期的に確認し、新たに格納された文書データ又は更新された文書データを自動的に取得してもよい。
S201の後、文書解析プログラム116は、主メモリ102に格納された文書データの種別1133を判定する(S202)。文書解析プログラム116は、各文書データの種別に関する情報をあらかじめ保持しており、例えば、文書データのヘッダ等から種別1133を判定する。
S202の後、文書解析プログラム116は、判定された種別1133に対応するソフトウェアライブラリ(画像抽出ライブラリ)を用いて、文書データをページ単位に処理するため、文書データのページを分割する(S203)。ここで、文書解析プログラム116は、ページ単位に文書データを参照できればよく、実際にファイルを分割しなくてもよい。すなわち、文書解析プログラム116は、ページ毎に識別できるような識別子を付すことによって、ページ単位に後述する処理を実行してもよい。
S203の後、文書解析プログラム116は、自らがあらかじめ保持する画像抽出ライブラリを用いて画像又はテキスト等を、文書データから抽出できるか否かを判定する(S204)。すなわち、文書解析プログラム116は、画像又はテキストなどの文書構造を文書データから取得できる画像抽出ライブラリを、自らが保持するか否かを判定する。
ここで、文書解析プログラム116が保持する画像抽出ライブラリを用いて画像等を抽出可能と判定された場合、文書解析プログラム116は、文書データから画像を抽出する。画像抽出ライブラリによって抽出された画像は、画像としての信頼度が高い。
文書解析プログラム116は、抽出された画像を示す識別子(画像ID1122に相当)、抽出された画像に割り当てられる名称(画像1124に相当)、抽出された画像が含まれる文書データを示す識別子(文書ID1125に相当)、抽出された画像が含まれるページを示す識別子(ページ番号1126に相当)、及び、各ページにおける画像の表示位置(座標1127に対応)などの、抽出された画像に関する情報を生成する。そして、抽出された画像を、第1の方法による画像領域(以下、第1の画像領域)として、主メモリ102が保持するバッファ領域に格納する(S205)。また、生成された情報も、バッファ領域に格納する。
なお、文書解析プログラム116は、グループ化された画像が、最小単位のオブジェクト画像をグループ化することによって生成された画像であるか、複数の画像をグループ化することによって生成された画像であるかを推定できない。このため、画像抽出ライブラリによってグループ化された画像が抽出された場合、本実施形態の文書解析プログラム116は、S205において、最小単位となるオブジェクト画像と、グループ化された画像との両方を抽出する。そして、抽出されたすべての画像に関する情報を、第1の画像領域として、主メモリ102が保持するバッファ領域に格納する。
S205の後、又は、S204において文書解析プログラム116が文書データから文書構造を取得できないと判定した場合、画像領域検出プログラム115は、文書データに含まれる各ページ毎に、レイアウトイメージを取得する。そして、画像領域検出プログラム115は、画像データDB112が示す画像の中に、取得されたレイアウトイメージの一部と同一又は類似する画像があるか否かを判定する。
画像領域検出プログラム115は、画像データDB112が示す画像の中に、レイアウトイメージの一部と同一又は類似した画像があるか否かを、図5及び図6において示すテンプレートマッチングによって判定する。このため、S204において文書構造を取得できないと判定された場合においても、画像領域検出プログラム115は、画像データDB112が示す画像と、同一又は類似する画像を、レイアウトイメージから抽出することができる。
画像データDB112が示す画像が、レイアウトイメージの一部と同一又は類似すると判定され、画像がレイアウトイメージから抽出された場合、レイアウトイメージから抽出された画像は、画像としての信頼度が高い。
このため、画像領域検出プログラム115は、レイアウトイメージから抽出された画像、すなわち文書データの画像部分についての画像領域を示す識別子(画像ID1122に相当)、レイアウトイメージが取得された文書データを示す識別子(文書ID1125に相当)、レイアウトイメージが取得された文書データのページを示す識別子(ページ番号1126に相当)、及び、レイアウトイメージにおける画像の表示位置(座標1127に相当)などの、画像に関する情報を生成する。そして、レイアウトイメージから抽出された画像を、第2の方法による画像領域(以下、第2の画像領域)として、主メモリ102が保持するバッファ領域に格納する(S206)。また、生成された情報も、バッファ領域に格納する。
ここで、本実施形態の文書検索装置100が稼動し始めた直後など、画像データDB112が示す画像の量が少ない場合、画像領域検出プログラム115は、レイアウトイメージに画像が含まれていても、画像データDB112が示す画像と同一又は類似するテンプレートがないために、画像を取得できない可能性がある。このため、ユーザ等によってあらかじめ画像を画像データDB112に入力することによって、抽出漏れを防止してもよい。
文書検索装置100が保持する比較先の画像は、信頼度の高い画像が含まれる。このため、S206によって、本実施形態の文書検索装置100は、比較元の文書データから、検索に適する、信頼度の高い画像を抽出できる。
なお、本実施形態の文書検索装置100は、後述の手順によって文書データが検索できればいいため、S206において、漏れなく画像領域を抽出する必要はない。すなわち、文書データの中から抽出できない画像領域があってもよい。
S206の後、画像特徴量生成プログラム117は、比較元の文書データの各々のページからレイアウトイメージの画像特徴量を、図7に示す手順によって算出する。文書データの各々のページから取得されるレイアウトイメージは、S206において取得されたレイアウトイメージでもよく、S207において再度取得されたレイアウトイメージでもよい。
そして、画像検索プログラム119は、ページデータDB114が示すページの画像特徴量1143と、画像特徴量生成プログラム117によって算出された各レイアウトイメージの画像特徴量との距離を算出することによって、類似画像検索を行う。
算出された距離があらかじめ定められた閾値よりも小さいレイアウトイメージは、ページデータDB114が示すいずれかのページと、同一又は類似である。すなわち、算出された距離があらかじめ定められた閾値よりも小さいレイアウトイメージは、画像としての信頼度が高い。
このため、画像検索プログラム119は、文書データから、算出された距離があらかじめ定められた閾値よりも小さいレイアウトイメージを抽出する。そして、抽出されたレイアウトイメージを示す識別子(画像ID1122に相当)、抽出されたレイアウトイメージに割り当てられる名称(画像1124に相当)、抽出されたレイアウトイメージが含まれる文書データを示す識別子(文書ID1125に相当)、抽出されたレイアウトイメージが含まれるページを示す識別子(ページ番号1126に相当)、及び、各ページにおけるレイアウトイメージの表示位置(座標1127に対応)などの、抽出されたレイアウトイメージに関する情報を生成する。
そして、画像検索プログラム119は、抽出されたレイアウトイメージを、第3の方法による画像領域(以下、第3の画像領域と記載)として、主メモリ102が保持するバッファ領域に格納する(S207)。また、生成されたレイアウトイメージに関する情報も、バッファ領域に格納する。
前述のレイアウトイメージにはテキスト、又は、日本語以外の言語が含まれてもよい。すなわち、S207の処理は、文書データをレイアウトイメージとして取得する処理であるため、本実施形態の文書検索装置100は、テキスト又は言語に依存せず、比較元の文書データと同一又は類似する文書データを、比較先の文書データから抽出できる。
S207の後、画像信頼度判定プログラム118は、第1の画像領域、第2の画像領域、及び、第3の画像領域を、主メモリ102が保持するバッファ領域から取得し、文書データに含まれる画像の信頼度を求める(S208)。
具体的には、画像信頼度判定プログラム118は、S208において、第1、第2及び第3の画像領域が、相互に重複する面積Si及び重複していない面積Soを算出する。そして、画像領域が異なる割り合いSd(Sd=So/(Si×N))を算出する。なお、異なる割り合いSdの逆数を算出することによって、重複する割合を求め、以降の処理において重複する割り合いを用いてもよい。
ここで整数Nは、第1、第2及び第3の画像領域のうち、重複した画像領域の数を示す。例えば、第1の方法及び第2の方法の、二つの方法によって抽出された画像領域(第1及び第2の画像領域)が重複した場合、N=2であり、第1、第2及び第3の画像領域が重複した場合、N=3である。
そして、異なる割り合いSdの値があらかじめユーザ等によって定められた閾値を下回る場合、重複する面積Siは大きい。すなわち、第1、第2及び第3の画像領域のうちいずれかの組合せの画像領域は、多くの部分において重複する。例えば、N=3であり、異なる割り合いSdの値が閾値以下である場合、第1、第2及び第3の画像領域は多くの部分において重複する。
このため、画像信頼度判定プログラム118は、異なる割り合いSdの値が定められた閾値を下回る、第1、第2及び第3の画像領域のうちのいずれかの組合せを、重複する画像であると判定する。重複する画像であると判定された組合せに含まれる各画像領域は、画像としての信頼度が高い。
また、異なる割り合いSdの値があらかじめユーザ等によって定められた閾値を上回る場合、重複していない面積Soが大きい。すなわち、第1、第2及び第3の画像領域のうちいずれかの組合せの画像領域は、異なる画像である。このため、画像信頼度判定プログラム118は、第1、第2及び第3の画像領域の組合せのうち、異なる割り合いSdの値が定められた閾値を上回る組合せを、異なる画像の組合せであると判定する。
図10は、本発明の実施形態の登録画像と信頼度とを含む判定基準404を示す説明図である。
判定基準404は、通し番号4041、第1の画像領域4042、第2の画像領域4043、第3の画像領域4044、登録画像4045、及び信頼度4046を含む。通し番号4041は、判定基準404の各行を一意に示す識別子である。
第1の画像領域4042、第2の画像領域4043、及び第3の画像領域4044は、S205、S206及びS207において抽出された画像領域が対応する。そして、前述の処理によって、重複すると判定された画像領域の組合せに関する情報が格納される。
例えば、第1の画像領域4042、第2の画像領域4043、及び第3の画像領域4044に二つ以上の「○」が格納される行は、「○」が格納される列に対応する画像領域が、お互いに重複する画像であることを示す。一方で、第1の画像領域4042、第2の画像領域4043、及び第3の画像領域4044の列のうちの一つのみに「○」が格納される場合、「○」が格納される列に対応する画像領域は、重複する他の画像領域がないことを示す。
登録画像4045は、いずれの画像領域を文書検索装置100に登録するかを示す。信頼度4046は、画像領域の信頼度を示す。
例えば、S208において、第1の画像領域と第2の画像領域との異なる割り合いSdが閾値を下回り、第1の画像領域と第3の画像領域との異なる割り合いSdが閾値を上回ると判定された場合、第1の画像領域と第2の画像領域とは重複する画像であり、第1の画像領域と第3の画像領域とは、異なる画像である。このため、画像信頼度判定プログラム118は、S208において、判定基準404の通し番号4041が「6」である行を特定する。そして、S208において信頼度4046を「2」と決定する。
そして、通し番号4041が「6」である行が特定された場合、「○」が格納される列に対応する第1及び第2の画像領域の信頼度4046に、「2」が決定される。また、「×」が格納される列に対応する第3の画像領域は、他に重複する画像領域がないため、信頼度4046に「1」が決定される。
また、S208において、第1、第2及び第3の画像領域のいずれも異なる割り合いSdの値が閾値を上回った場合、第1、第2及び第3の画像領域は、いずれも異なる画像である。この場合、画像信頼度判定プログラム118は、S208において、判定基準404の通し番号4041が「7」、「3」、及び「2」である行を特定する。そして、第1、第2及び第3の画像領域に対応する信頼度4046を「1」と決定する。
S208の後、画像信頼度判定プログラム118は、文書検索装置100に登録する画像を決定する(S209)。
例えば、S208において、第1の画像領域と第2の画像領域との異なる割り合いSdが閾値を下回り、第1の画像領域と第3の画像領域との異なる割り合いSdが閾値を上回ると判定された場合、画像信頼度判定プログラム118は、S209において、判定基準404の通し番号4041が「6」である行を特定する。そして、S209において、特定された行に含まれる登録画像4045から、「第1の画像領域を採用」を特定する。これによって、第1の画像領域を、画像データDB112に登録することを決定する。
ここで、信頼度が低い画像領域も文書検索装置100に登録する場合、他に重複する画像領域がない画像領域を登録してもよい。例えば、S208において、第1、第2及び第3の画像領域のいずれも異なる割り合いSdの値が閾値を上回った場合、画像信頼度判定プログラム118は、S209において、判定基準404の通し番号4041が「7」、「3」、及び「2」である行を特定してもよい。そして、第1、第2及び第3の画像領域を画像データDB112に登録することを決定してもよい。
本実施形態の判定基準404において、第1の方法に、高い信頼度が定められ、第2の方法に、二番目に高い信頼度が定められ、第3の方法に、低い信頼度が定められる。これは、本実施形態において、文書構造を取得可能な文書データから抽出される画像が、最も信頼度が高いためである。また、画像特徴量に従って抽出されたレイアウトイメージが、最も信頼度が低いためである。
このため、第1の画像領域と第2の画像領域とが重複する場合、判定基準404は、第1の画像領域を登録するように定める。また、判定基準404は、第2の画像領域と第3の画像領域とが重複する場合、第3の画像領域を登録するように定める。
なお、図10に示す判定基準404は、例であり、本実施形態の判定基準404は、目的に従って、ユーザ等によってあらかじめ値を定められてよい。
このように、本実施形態の文書検索装置100は、第1、第2、及び第3の複数の方法によって抽出された画像領域のいずれかを採用し、採用された画像領域を画像データDB112に登録することによって、文書検索に適切なテンプレートを画像データDB112に登録する。また、登録済みの画像と、文書データから抽出された画像又はレイアウトイメージとを比較することによって、信頼度の高い画像領域を抽出できる。
また、本実施形態の文書検索装置100は、第2、及び第3の方法によって画像領域を抽出するため、必ずしも同一の画像領域を抽出されるわけではなく、類似する画像領域を抽出することができる。
S209の後、画像特徴量生成プログラム117は、登録が決定された画像領域から画像特徴量1123を算出する(S210)。画像特徴量1123の算出方法は、図7に示す方法と同じである。また、画像特徴量生成プログラム117は、S209において、登録が決定された画像領域が含まれる文書データのページの画像特徴量(画像特徴量1143に相当)を算出してもよい。
S210の後、データ管理プログラム122は、算出された画像特徴量1123、S208において決定された各画像領域の信頼度(信頼度1128に相当)、及び、S205、S206又はS207においてバッファ領域に格納された画像に関する情報を、画像データDB112に格納する。また、データ管理プログラム122は、登録が決定された画像領域が含まれる文書データの情報及びページの情報を生成し、生成された情報を、文書データDB113及びページデータDB114に格納する(S211)。
S211において、データ管理プログラム122は、S202において判定された文書データの種別を、文書データDB113の種別1133に格納し、S204において文書構造を抽出可能であるか否かの判定結果を、文書データDB113の文書構造1134に格納する。また、データ管理プログラム122は、S210において算出された文書データのページの画像特徴量を、ページデータDB114の画像特徴量1143に格納する。
また、データ管理プログラム122は、S211において、S209において登録が決定された画像領域と、S209において登録が決定された画像領域を含む文書データとを、記憶部110又は文書検索装置100に接続される記憶装置に格納する。
これによって、登録が決定された画像領域と、画像領域を含む文書データは、比較先の文書データ及び画像として、文書検索装置100に蓄積される。
S211の後、文書検索プログラム120は、他の文書データを登録する要求が有るか無いかを判定し、登録要求がある場合、S201からS211までの処理を実行する。また、登録要求がない場合、文書検索プログラム120は、処理を終了する(S212)。
本実施形態の文書データの登録方法によれば、画像の単位が明確でない画像が含まれている文書データ、又は、イメージスキャナなどによって取得された文書データのように、文書構造から画像を抽出することが困難な文書データからも、検索に適した画像を抽出できる。また、信頼度の高い画像を蓄積することができるため、本実施形態の文書検索装置100は、登録処理が実行される毎に、検索処理の精度を向上させることができる。
図11は、本発明の実施形態の文書データを検索する処理を示すフローチャートである。
まず、比較元の文書データを図1に示す文書検索装置100の主メモリ102に格納するため、画面表示プログラム121は、文書データが格納されるフォルダ又はファイルを取得するための画面405を表示部104に表示させる。
図12は、本発明の実施形態の文書データが格納されるフォルダ又はファイルを取得するために、表示部104に表示された画面405を示す説明図である。
画面表示プログラム121は、例えば、画面405を表示部104に表示させ、文書データが格納されるフォルダ又はファイルを、ユーザに入力させる。
そして、入力部103が、比較元の文書データが格納されるフォルダ又はファイルの格納場所、及び、文書データを検索する指示をユーザから受信した場合、S201と同じく、データ管理プログラム122は、指示された格納場所から比較元の文書データを取得する(S301)。
文書検索装置100は、S301において入力された比較元の文書データを、検索するためのクエリ文書として、文書検索装置100が保持する比較先の文書データから、類似する文書データを検索する。
S301の後、文書解析プログラム116は、S302、S303、S304、及びS305を実行する。S302は図8のS202と同じであり、S303は図8のS203と同じであり、S304は図8のS204と同じであり、S305は図8のS205と同じである。
また、画像領域検出プログラム115は、S306を実行し、画像特徴量生成プログラム117は、S307を実行し、画像信頼度判定プログラム118は、S308を実行する。S306は図8のS206と同じであり、S307は図8のS207と同じであり、S308は図8のS208と同じである。
図11のS302〜S308の処理によって、S301において入力された比較元の文書データの、第1、第2及び第3の画像領域が抽出される。
S308の後、画面表示プログラム121は、前述のステップによって抽出された第1、第2及び第3の画像領域を、図13に示す画面406のように表示部104に表示させる。そして、ユーザに、画面406に表示される画像領域のうち、クエリ画像となる画像領域を選択させる(S309)。
図13は、本発明の実施形態の画像領域を表示する画面406を示す説明図である。
画面406は、S307までの処理によって抽出された第1、第2及び第3の画像領域を表示し、ユーザが画像領域を選択するための領域4061を含む。図13の領域4061は、チェックボックスであるが、ユーザが選択できれば、いかなる選択方法でもよい。
図13のように画像領域を表示し、表示された画像領域をユーザに選択させることによって、画面表示プログラム121は、ユーザがクエリ画像として希望しない画像領域を削除することができる。また、文書検索装置100は、以降の処理において、ユーザによって選択されたクエリ画像に類似する画像を、文書検索装置100が保持する比較先の文書データから検索する。
なお、S309において、S307までの処理によって抽出された第1、第2及び第3の画像領域は、S308において決定された信頼度(信頼度4046に相当)の高い順番に表示されてもよい。また、複数のページを含む文書データから抽出された画像領域は、ページ毎に、画面406に表示されてもよい。また、ユーザは、S309において複数の画像領域を選択してもよい。
また、ユーザが希望しない場合、画面表示プログラム121は、S309を実行せず、S310を実行するよう画像特徴量生成プログラム117に指示してもよい。S309を実行しない場合、画像特徴量生成プログラム117は、S308の後、判定基準404の登録画像4045を特定し、特定された登録画像4045が示す画像領域をクエリ画像としてもよい。
S309の後、画像特徴量生成プログラム117は、S309においてユーザから選択された各クエリ画像の画像特徴量を、各々算出する(S310)。
S310の後、画像検索プログラム119は、算出されたクエリ画像の各画像特徴量と、画像データDB112が保持する各画像特徴量1123との距離を算出する。そして、算出された距離があらかじめユーザ等によって定められた閾値を下回る画像特徴量1123の行を抽出する。これによって、クエリ画像と同一又は類似の画像を、画像データDB112から抽出する(S311)。
ここで、S308において選択されたクエリ画像は、検索に適する画像として信頼度が高い。このため、画像検索プログラム119は、S311において抽出された行の信頼度1128に、高い信頼度の値を格納する。本実施形態の場合、最も高い信頼度は3である。
S311の後、文書検索プログラム120は、S311において抽出された行に対応する画像(以下、画像検索結果と記載)に基づいて比較先の文書データ又はページを検索し、比較元の文書データと同一又は類似の文書データ又はページ(以下、文書検索結果と記載)を抽出する(S312)。
S312において、文書検索プログラム120は、画像検索結果に基づいて、クエリ画像が含まれるページ毎に、文書データを検索するための後述する方法のいずれかによって、文書検索結果を抽出する。なお、以下において、抽出される比較先の文書データには、ページが含まれる。
まず、文書データを検索するための一つ目の方法において、文書検索プログラム120は、S311において抽出された画像検索結果のうち、距離が最も小さい画像からM番目まで(Mは、ユーザ等によってあらかじめ定められた整数)の比較先の画像、又は、距離が所定の閾値を下回る比較先の画像を抽出する。そして、抽出された比較先の画像に対応する画像データDB112の文書ID1125、又は、ページ番号1126を特定する。
そして、文書検索プログラム120は、抽出された比較先の画像に対応する文書ID1125又はページ番号1126の中で、最も特定された回数が多い文書ID1125又はページ番号1126を、文書検索結果とする。すなわち、クエリ画像と距離が小さい比較先の画像を、最も多く含む文書データの文書ID1125又はページ番号1126を特定し、特定された結果を文書検索結果とする。
なお、一つのクエリ画像に、同じ文書データ又は同じページに含まれる複数の画像が画像検索結果として抽出された場合、文書検索プログラム120は、文書データ又はページに含まれる複数の画像毎に、特定された回数に1を加算する。これによって、文書データ又はページが特定された回数を算出する。
一般的に、類似した文書データには、共通した画像が多く含まれる。このため、文書検索プログラム120は、文書データ又はページに含まれ、一つのクエリ画像に対応する画像毎に特定された回数を加算することによって、より類似する文書データ又はページを検索できる。
さらに、文書データを検索する二つ目の方法において、文書検索プログラム120は、画像検索結果の画像の面積の総和を文書データ又はページ毎に算出し、算出された面積の総和が大きい文書データ又はページを文書検索結果とする。但し、一つのクエリ画像に対応し、かつ、同じ文書データ又はページに含まれる複数の画像が、画像検索結果として抽出された場合、最も距離が近い画像の面積によって、面積の総和を算出する。
一般的に、類似した文書データには、共通した画像がより大きく用いられる。このため、文書検索プログラム120は、画像検索結果の画像の面積の総和を用いることによって、より類似する文書データ又はページを検索できる。
さらに、文書検索プログラム120は、前述の二つの方法の両方を、用いてもよい。
二つの方法の両方を用いる場合、文書検索プログラム120は、二つの方法の文書検索結果に共通する文書データ又はページを、上位の文書検索結果として、さらに抽出してもよい。また、画像データDB112が示す比較先の画像の数が多い場合、信頼度1128又は画像の種類(写真又は図形)を用い、画像検索結果を抽出してもよい。具体的には、信頼度1128が高い値を示す画像を、画像検索結果として抽出してもよい。
S312の後、画面表示プログラム121は、文書検索結果をユーザに提示するため、図14に示す画面407を表示部104に表示させる(S313)。
図14は、本発明の実施形態の文書検索結果を表示する画面407を示す説明図である。
図14の画面407は、クエリ画像4071、及び、検索結果4072の領域を含む。クエリ画像4071は、クエリ画像をページ毎に表示する領域である。検索結果4072は、S312において取得された文書検索結果を、類似度順(すなわち、距離が小さい順)又は信頼度順に表示する。
前述のように、ページ毎に検索結果を表示することによって、再編集などによって一部のページが別のページに再利用されたり、ページ内の一部が再利用されたりする場合も、類似した文書データを検索できる。
なお、ページ単位ではなく文書データ単位で検索する場合、画面表示プログラム121は、複数のページの文書検索結果に多く含まれる文書データを、検索結果4072に表示させることによって、文書データ毎の検索結果をユーザに提示できる。
S313の後、他の文書データを検索する要求があるかないかを判定し(S314)、検索する要求がある場合、文書検索プログラム120は、S301に戻る。また、検索する要求がない場合、文書検索プログラム120は、処理を終了する。
なお、S309の後、S308において選択されたクエリ画像は、画像データDB112に登録されてもよい。具体的には、画像信頼度判定プログラム118は、S308において選択されたクエリ画像を、文書検索装置100の記憶部に登録する画像として決定してもよい。
次に、画像特徴量生成プログラム117は、S210と同じく、登録が決定された画像領域から画像特徴量1123を算出してもよく、登録が決定された画像領域が含まれる文書データのページの画像特徴量1143を算出してもよい。次に、データ管理プログラム122は、算出された画像特徴量1123などとともに、クエリ画像に関する情報、及び、クエリ画像が含まれる文書データに関する情報等を、画像データDB112、文書データDB113及びページデータDB114に格納してもよい。
ここで、画像データDB112に格納されるクエリ画像に関する信頼度1128には、高い信頼度が格納される。これは、クエリ画像がユーザによって選択された画像であり、検索に適した画像だからである。
クエリ画像に関する情報を画像データDB112に格納することによって、検索する処理が実行される毎に、信頼度の高い画像に関する情報が画像データDB112に、比較先の画像として蓄積される。これによって、本実施形態の文書検索装置100は、検索処理が実行される毎に、検索の精度を向上させることができる。
本実施形態の文書検索装置100によれば、比較元の文書データ(ページ)に含まれるクエリ画像が同一又は類似する画像を、比較先の画像から検索するため、各ページのレイアウトは異なるが画像が類似する比較先の文書データを、高精度に抽出できる。
本実施形態の文書検索装置100は、比較元の文書データから、比較先の画像と同一又は類似する画像(第2の画像領域)を抽出する。このため、検索に適する画像を、文書データから抽出できる。
また、比較元の文書データの各ページをレイアウトイメージとして取得し、1枚のレイアウトイメージが貼り付けられた比較元の画像として、図8のS207及び図11のS307に示す処理を行う。そして、比較先の画像と類似する画像(第3の画像領域)を抽出する。このため、テキストを含む比較元の文書データとテキストが類似する文書データを、比較先の文書データから抽出できる。
これは、本実施形態の文書検索装置100が、テキストを含む文書データを画像から検索する場合においても、文書データをレイアウトイメージとして取得するため、高精度に検索できることを示す。また、日本語以外の言語を含む文書データも、高精度に検索することができる。
また、文書構造を取得できない文書データ、又は、画像の単位が統一されていない文書データからも、画像の単位を統一的に抽出することができ、検索漏れを防止できることを示す。
さらに、本実施形態によれば、複数の方法によって抽出された画像領域のいずれが検索に適する画像であるかを、各画像領域が重複する割り合い(又は異なる割り合い)と、各方法に対応する信頼度と、に従って総合的に判定する。このため、本実施形態の文書検索装置100は、登録処理、又は、検索処理が行われる毎に、より検索に適する画像を比較先の画像として蓄積することができる。
前述のとおり、本実施形態の文書検索装置100は、言語、テキスト、レイアウト情報に依存しない、同一又は類似の画像を含む文書データを抽出することができる。すなわち、ユーザにとって、同一又は類似のトピックを含む文書データを高精度に抽出することができる。
さらに、本実施形態の文書検索装置100は、検索処理を実行する毎に、文書データから抽出されるクエリ画像を蓄積するため、信頼度の高い画像に関する情報を蓄積することが可能であり、より高精度の検索を可能にする。また、クエリ画像をユーザに選択させるため、ユーザにとってより検索に適する画像を蓄積することができる。
101 プロセッサ
102 主メモリ
103 入力部
104 表示部
105 通信部
110 記憶部
111 OS
112 画像データDB
113 文書データDB
114 ページデータDB
115 画像領域検出プログラム
116 文書解析プログラム
117 画像特徴量生成プログラム
118 画像信頼度判定プログラム
119 画像検索プログラム
120 文書検索プログラム
121 画面表示プログラム
122 データ管理プログラム

Claims (12)

  1. メモリに格納されるプログラムを実行するプロセッサを有する画像処理システムによる、画像処理方法であって、
    前記画像処理システムは、複数の画像を保持する記憶部を有し、
    前記方法は、
    前記プロセッサが、画像を含むデータを取得する手順と、
    前記プロセッサが、前記取得されたデータが作成されたソフトウェアの種類に従って、前記取得されたデータから第1の画像領域を抽出する第1の抽出手順と、
    前記プロセッサが、前記取得されたデータと、前記記憶部に保持される各画像とを比較することによって、前記記憶部に保持される各画像と同一又は類似する第2の画像領域を、前記取得されたデータから抽出する第2の抽出手順と、
    前記プロセッサが、前記取得されたデータの画像特徴量と、前記記憶部に保持される各画像の画像特徴量とを比較することによって、前記記憶部に保持される各画像と同一又は類似する第3の画像領域を、前記取得されたデータから抽出する第3の抽出手順と、
    前記プロセッサが、前記第1、第2及び第3の画像領域と、前記第1、第2及び第3の抽出手順に定められた信頼度とに基づいて、前記記憶部に格納する画像を特定する手順とを含むことを特徴とする画像処理方法。
  2. 前記記憶部に格納する画像を特定する手順は、
    前記プロセッサが、前記第1、第2及び第3の画像領域の相互の重複を示す割り合いを算出する手順と、
    前記プロセッサが、前記算出された重複を示す割り合いと、前記第1、第2及び第3の抽出手順に定められた信頼度とに基づいて、前記第1、第2及び第3の画像領域の中から、前記記憶部に格納する画像を特定する手順とを含むことを特徴とする請求項1に記載の画像処理方法。
  3. 前記第1の抽出手順は、
    前記プロセッサが、前記取得されたデータから前記画像を抽出することができるか否かを、前記取得されたデータが作成されたソフトウェアの種類に従って判定する手順と、
    前記判定の結果、前記取得されたデータから画像を抽出できる場合、前記プロセッサが、前記取得されたデータから、前記第1の画像領域を抽出する手順とを含むことを特徴とする請求項1に記載の画像処理方法。
  4. 前記第2の抽出手順は、
    前記プロセッサが、前記取得されたデータの内容が表示された第1の画像を取得する手順と、
    前記プロセッサが、前記第1の画像から、複数の第2の画像を生成する手順と、
    前記プロセッサが、前記各第2の画像と、前記記憶部に保持される各画像とを比較する手順と、
    前記比較の結果、前記プロセッサが、前記記憶部に保持される各画像と同一又は類似する第2の画像を抽出することによって、前記第2の画像領域を抽出する手順とを含むことを特徴とする請求項1に記載の画像処理方法。
  5. 前記第3の抽出手順は、
    前記プロセッサが、前記第1の画像の画像特徴量を算出する手順と、
    前記プロセッサが、前記第1の画像の画像特徴量と、前記記憶部に保持される各画像の画像特徴量とを比較する手順と、
    前記比較の結果、前記第1の画像と、前記記憶部に保持される各画像とが同一又は類似である場合、前記プロセッサが、前記第1の画像を抽出することによって、前記第3の画像領域を抽出する手順とを含むことを特徴とする請求項4に記載の画像処理方法。
  6. 前記画像処理システムは、ユーザに前記画像領域を表示するための表示部と、前記表示部に表示された画像領域をユーザに選択させるための入力部とを、さらに有し、
    前記記憶部は、前記保持される各画像に割り当てられる信頼度と、前記保持される各画像を含む複数のデータとを、さらに保持し、
    前記方法は、
    前記プロセッサが、前記表示部及び前記入力部によって、前記第1、第2又は第3の画像領域のいずれかの画像領域を、前記ユーザに選択させる手順と、
    前記プロセッサが、前記選択された画像領域と同一又は類似する画像を、前記記憶部が保持する画像から検索する手順と、
    前記プロセッサが、前記検索された画像を含む前記各データを、前記記憶部から抽出する手順と、
    前記プロセッサが、前記検索された画像に割り当てられる信頼度を上げる手順とを含むことを特徴とする請求項1に記載の画像処理方法。
  7. メモリに格納されるプログラムを実行するプロセッサを有する画像処理システムであって、
    前記画像処理システムは、複数の画像を保持する記憶部を有し、
    前記プロセッサは、
    画像を含むデータを取得し、
    第1の抽出手順によって、前記取得されたデータが作成されたソフトウェアの種類に従って、前記取得されたデータから第1の画像領域を抽出し、
    第2の抽出手順によって、前記取得されたデータと、前記記憶部に保持される各画像とを比較することによって、前記記憶部に保持される各画像と同一又は類似する第2の画像領域を、前記取得されたデータから抽出し、
    第3の抽出手順によって、前記取得されたデータの画像特徴量と、前記記憶部に保持される各画像の画像特徴量とを比較することによって、前記記憶部に保持される各画像と同一又は類似する第3の画像領域を、前記取得されたデータから抽出し、
    前記第1、第2及び第3の画像領域と、前記第1、第2及び第3の抽出手順に定められた信頼度とに基づいて、前記記憶部に格納する画像を特定することを特徴とする画像処理システム。
  8. 前記プロセッサは、
    前記第1、第2及び第3の画像領域の相互の重複を示す割り合いを算出し、
    前記算出された重複を示す割り合いと、前記第1、第2及び第3の抽出手順に定められた信頼度とに基づいて、前記第1、第2及び第3の画像領域の中から、前記記憶部に格納する画像を特定することを特徴とする請求項7に記載の画像処理システム。
  9. 前記プロセッサは、
    前記取得されたデータから前記画像を抽出することができるか否かを、前記取得されたデータが作成されたソフトウェアの種類に従って判定し、
    前記判定の結果、前記取得されたデータから画像を抽出できる場合、前記取得されたデータから、前記第1の画像領域を抽出することを特徴とする請求項7に記載の画像処理システム。
  10. 前記プロセッサは、
    前記取得されたデータの内容が表示された第1の画像を取得し、
    前記第1の画像から、複数の第2の画像を生成し、
    前記各第2の画像と、前記記憶部に保持される各画像とを比較し、
    前記比較の結果、前記記憶部に保持される各画像と同一又は類似する第2の画像を抽出することによって、前記第2の画像領域を抽出することを特徴とする請求項7に記載の画像処理システム。
  11. 前記プロセッサは、
    前記第1の画像の画像特徴量を算出し、
    前記第1の画像の画像特徴量と、前記記憶部に保持される各画像の画像特徴量とを比較し、
    前記比較の結果、前記第1の画像と、前記記憶部に保持される各画像とが同一又は類似である場合、前記第1の画像を抽出することによって、前記第3の画像領域を抽出することを特徴とする請求項10に記載の画像処理システム。
  12. 前記画像処理システムは、ユーザに前記画像領域を表示するための表示部と、前記表示部に表示された画像領域をユーザに選択させるための入力部とを、さらに有し、
    前記記憶部は、前記保持される各画像に割り当てられる信頼度と、前記保持される各画像を含む複数のデータとを、さらに保持し、
    前記プロセッサは、
    前記表示部及び前記入力部によって、前記第1、第2又は第3の画像領域のいずれかの画像領域を、前記ユーザに選択させ、
    前記選択された画像領域と同一又は類似する画像を、前記記憶部が保持する画像から検索し、
    前記検索された画像を含む前記各データを、前記記憶部から抽出し、
    前記検索された画像に割り当てられる信頼度を上げることを特徴とする請求項7に記載の画像処理システム。
JP2011085250A 2011-04-07 2011-04-07 画像処理方法、及び、画像処理システム Expired - Fee Related JP5665125B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011085250A JP5665125B2 (ja) 2011-04-07 2011-04-07 画像処理方法、及び、画像処理システム
US13/438,249 US9430716B2 (en) 2011-04-07 2012-04-03 Image processing method and image processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011085250A JP5665125B2 (ja) 2011-04-07 2011-04-07 画像処理方法、及び、画像処理システム

Publications (2)

Publication Number Publication Date
JP2012221148A true JP2012221148A (ja) 2012-11-12
JP5665125B2 JP5665125B2 (ja) 2015-02-04

Family

ID=46965752

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011085250A Expired - Fee Related JP5665125B2 (ja) 2011-04-07 2011-04-07 画像処理方法、及び、画像処理システム

Country Status (2)

Country Link
US (1) US9430716B2 (ja)
JP (1) JP5665125B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9135273B2 (en) 2012-05-24 2015-09-15 Hitachi Kokusai Electric Inc. Similar image search system
JP2016031721A (ja) * 2014-07-30 2016-03-07 株式会社東芝 検索装置、方法及びプログラム
JP2021012453A (ja) * 2019-07-04 2021-02-04 エヌ・ティ・ティ・コムウェア株式会社 検索クエリ生成装置、検索クエリ生成方法、プログラム、素材検索システム、および素材検索方法
JP2021012452A (ja) * 2019-07-04 2021-02-04 エヌ・ティ・ティ・コムウェア株式会社 素材検索システム、素材検索方法、素材検索装置、およびプログラム
JP7393475B2 (ja) 2021-08-17 2023-12-06 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 画像を検索するための方法、装置、システム、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9467747B2 (en) * 2007-04-03 2016-10-11 Samsung Electronics Co., Ltd. Apparatus and method for searching multimedia content
JP5436104B2 (ja) * 2009-09-04 2014-03-05 キヤノン株式会社 画像検索装置及び画像検索方法
WO2014061222A1 (ja) * 2012-10-18 2014-04-24 日本電気株式会社 情報処理装置、情報処理方法および情報処理用プログラム
JP6157965B2 (ja) * 2013-07-22 2017-07-05 株式会社東芝 電子機器、方法、およびプログラム
US9424597B2 (en) * 2013-11-13 2016-08-23 Ebay Inc. Text translation using contextual information related to text objects in translated language
CN110020094B (zh) * 2017-07-14 2023-06-13 阿里巴巴集团控股有限公司 一种搜索结果的展示方法和相关装置
JP7328066B2 (ja) * 2019-08-08 2023-08-16 キヤノン株式会社 プログラム、情報処理装置、および情報処理方法
US11521409B2 (en) * 2021-04-09 2022-12-06 International Business Machines Corporation Hybrid clustering and pairwise comparison document matching
JP2022170799A (ja) * 2021-04-30 2022-11-11 コニカミノルタ株式会社 文書検索システム、文書検索方法および文書検索プログラム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0863597A (ja) * 1994-08-22 1996-03-08 Konica Corp 顔抽出方法
JP2007011741A (ja) * 2005-06-30 2007-01-18 Sharp Corp 画像管理装置およびそれを備えてなる画像形成装置
JP2007317131A (ja) * 2006-05-29 2007-12-06 Nippon Telegr & Teleph Corp <Ntt> 文書管理方法及び文書検索方法及び装置及びプログラム
US7460735B1 (en) * 2004-09-28 2008-12-02 Google Inc. Systems and methods for using image duplicates to assign labels to images
JP2009032186A (ja) * 2007-07-30 2009-02-12 Canon Inc 画像処理装置、その制御方法、ならびにそのプログラムおよび記憶媒体
JP2010136006A (ja) * 2008-12-03 2010-06-17 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム
JP2010267021A (ja) * 2009-05-13 2010-11-25 Canon Inc 情報処理装置及び情報処理方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5933823A (en) * 1996-03-01 1999-08-03 Ricoh Company Limited Image database browsing and query using texture analysis
JP4071328B2 (ja) * 1997-11-18 2008-04-02 富士通株式会社 文書画像処理装置および方法
JP2000148793A (ja) 1998-09-11 2000-05-30 Nippon Telegr & Teleph Corp <Ntt> 複合メディア文書の類似検索方法及び装置及び複合メディア文書の類似検索プログラムを格納した記憶媒体
JP2006146628A (ja) 2004-11-22 2006-06-08 Hitachi Ltd 内容画像による文書検索方法および装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0863597A (ja) * 1994-08-22 1996-03-08 Konica Corp 顔抽出方法
US7460735B1 (en) * 2004-09-28 2008-12-02 Google Inc. Systems and methods for using image duplicates to assign labels to images
JP2007011741A (ja) * 2005-06-30 2007-01-18 Sharp Corp 画像管理装置およびそれを備えてなる画像形成装置
JP2007317131A (ja) * 2006-05-29 2007-12-06 Nippon Telegr & Teleph Corp <Ntt> 文書管理方法及び文書検索方法及び装置及びプログラム
JP2009032186A (ja) * 2007-07-30 2009-02-12 Canon Inc 画像処理装置、その制御方法、ならびにそのプログラムおよび記憶媒体
JP2010136006A (ja) * 2008-12-03 2010-06-17 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム
JP2010267021A (ja) * 2009-05-13 2010-11-25 Canon Inc 情報処理装置及び情報処理方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9135273B2 (en) 2012-05-24 2015-09-15 Hitachi Kokusai Electric Inc. Similar image search system
JP2016031721A (ja) * 2014-07-30 2016-03-07 株式会社東芝 検索装置、方法及びプログラム
JP2021012453A (ja) * 2019-07-04 2021-02-04 エヌ・ティ・ティ・コムウェア株式会社 検索クエリ生成装置、検索クエリ生成方法、プログラム、素材検索システム、および素材検索方法
JP2021012452A (ja) * 2019-07-04 2021-02-04 エヌ・ティ・ティ・コムウェア株式会社 素材検索システム、素材検索方法、素材検索装置、およびプログラム
JP7304220B2 (ja) 2019-07-04 2023-07-06 エヌ・ティ・ティ・コムウェア株式会社 素材検索システム、素材検索方法、素材検索装置、およびプログラム
JP7304221B2 (ja) 2019-07-04 2023-07-06 エヌ・ティ・ティ・コムウェア株式会社 検索クエリ生成装置、検索クエリ生成方法、プログラム、素材検索システム、および素材検索方法
JP7393475B2 (ja) 2021-08-17 2023-12-06 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 画像を検索するための方法、装置、システム、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム

Also Published As

Publication number Publication date
US20120256947A1 (en) 2012-10-11
JP5665125B2 (ja) 2015-02-04
US9430716B2 (en) 2016-08-30

Similar Documents

Publication Publication Date Title
JP5665125B2 (ja) 画像処理方法、及び、画像処理システム
US8429154B2 (en) Document search device, imaging forming apparatus, and document search system
US10346560B2 (en) Electronic blueprint system and method
JP4945813B2 (ja) 印刷構造化文書
US8838657B1 (en) Document fingerprints using block encoding of text
JP2007200014A (ja) 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体
JP6912714B2 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP2011008752A (ja) ドキュメント操作システム、ドキュメント操作方法およびそのためのプログラム
JP2004240750A (ja) 画像検索装置
JP6826293B2 (ja) 情報処理システムと、その処理方法及びプログラム
JP2007317034A (ja) 画像処理装置、画像処理方法、プログラムおよび記録媒体
JP2005236646A (ja) 画像表示装置および方法およびプログラム
JP2008217695A (ja) 画像処理装置、画像処理方法、プログラムおよび記録媒体
US20080244384A1 (en) Image retrieval apparatus, method for retrieving image, and control program for image retrieval apparatus
JP5356289B2 (ja) 画像検索システム
CN116682130A (zh) 图签信息的提取方法、装置、设备及可读存储介质
JP2008040753A (ja) 画像処理装置、方法、プログラムおよび記録媒体
JP3726442B2 (ja) 画像特徴量比較装置および画像特徴量比較プログラムを記録した記録媒体
JP2014026596A (ja) 画像処理装置、その制御方法、および制御プログラム
CN113806472B (zh) 一种对文字图片和图像型扫描件实现全文检索的方法及设备
JP2004240751A (ja) 画像検索装置
JP2021140831A (ja) 帳票画像処理システム、帳票画像処理方法、および帳票画像処理プログラム
JP5229161B2 (ja) 情報提供装置、情報提供方法および情報提供プログラム
CN112560849A (zh) 基于神经网络算法的文理分割方法及系统
JP2010267021A (ja) 情報処理装置及び情報処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140117

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140603

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140801

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141111

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141204

R150 Certificate of patent or registration of utility model

Ref document number: 5665125

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees