JP2008181460A - 文書画像検索装置および文書画像検索方法 - Google Patents

文書画像検索装置および文書画像検索方法 Download PDF

Info

Publication number
JP2008181460A
JP2008181460A JP2007016161A JP2007016161A JP2008181460A JP 2008181460 A JP2008181460 A JP 2008181460A JP 2007016161 A JP2007016161 A JP 2007016161A JP 2007016161 A JP2007016161 A JP 2007016161A JP 2008181460 A JP2008181460 A JP 2008181460A
Authority
JP
Japan
Prior art keywords
document image
region
logical structure
area
attribute information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007016161A
Other languages
English (en)
Inventor
Yuka Kihara
酉華 木原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2007016161A priority Critical patent/JP2008181460A/ja
Publication of JP2008181460A publication Critical patent/JP2008181460A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】属性の異なる各画像領域の論理的構造を解析することで、文書画像中の所望のオブジェクトを高速にかつ精度良く検索する。
【解決手段】領域識別部103は抽出された領域の属性(領域の位置、大きさ、形状など)を識別する。論理構造解析処理部104は領域の属性情報を基に文書の論理構造を解析し、オブジュクトを抽出し、類似度算出部108は、抽出された各オブジュクトと格納部107内の各オブジュクトとの類似度を求め、対象画像を検索する。
【選択図】図1

Description

本発明は、文書画像中のオブジェクトを検索する文書画像検索装置および文書画像検索方法に関する
従来から、バインダー等で蓄積された紙文書や配布資料等をスキャナなどの読取装置で読み取り、読み取られた画像データとディスクに記憶された画像データとを比較し、両画像データの一致をみることにより、元の文書画像を検索する装置が提案されている(例えば、特許文献1を参照)。通常、文書画像を構成する紙面内容としてはテキストや、挿絵や図表、写真といった様々なものが含まれる。従来の検索手法の多くはこれらレイアウトされている全ての画像を一律に扱うため、文書画像の内容によっては検索効率が低下し、検索精度が悪化する。
そこで、文書画像中の各画像属性ごとに領域を切り分け、各領域における画像の一致度を総合的に判断する検索手法が提案されている(例えば、特許文献2を参照)。これは、テキスト、写真などの属性ごとの特徴量を基に、テキストの一致度、写真画の一致度、及びレイアウトの一致度といった複数の一致度を検索時に総合的に判断する手法であり、レイアウトの大きく異なる文書に対する検索精度が向上する。
特許第3017851号公報 特開2004−348706号公報 特開2000−259142号公報 特開2000−148788号公報 特開平11−66196号公報 布田寿康、大町真一郎、阿曽弘具;連結成分追跡による文書画像中の折線グラフの認識 電子情報通信学会論文誌 D−II vol.J86−II、No.6、pp825〜835(2003) 横倉直子、渡邉豊英;レイアウト構造知識を用いた棒グラフの認識 情報処理学会誌 vol.40、No.7、p2954〜2966(1999)
上記したように、文書画像を属性の異なる領域ごとに切り分ける場合、テキストデータについてOCR処理を施し、辞書との一致度を基に検索処理を行う場合が多い。しかしながら、文字のつぶれやかすれ等に起因するOCRの文字識別誤りや、文字パターン境界の曖昧性に起因するOCRの文字行抽出誤りが生じ、これに対処することが困難である。さらにOCRの誤認識による後処理への悪影響を避けられず、検索精度が低下してしまう。また、オフィスで使用されるテキスト属性の多い文書を検索対象とする場合、上記のようなOCR処理による類似画像検索は処理負荷が重くなるという問題もある。
本発明は上記課題に鑑みてなされたものであり、
本発明の目的は、属性の異なる各画像領域の論理的構造を解析することで、文書画像中
の所望のオブジェクトを高速にかつ精度良く検索する文書画像検索装置および文書画像検索方法を提供することにある。
本発明は、文書画像に類似する画像データを検索するための文書画像検索装置であって、前記文書画像から関連するひとまとまりの領域を抽出する領域抽出手段と、前記領域抽出手段により抽出された領域の属性情報を取得する領域識別手段と、前記領域識別手段で取得した属性情報に基づき文書画像の論理構造を解析し、該解析結果に基づき前記領域をオブジェクトに分類する論理構造解析手段と、前記領域識別手段で取得した属性情報と前記論理構造解析結果とに基づき類似度を算出する類似度算出手段とを有することを最も主要な特徴とする。
本発明によれば、文書画像の論理的構造を解析することで、より高精度な画像検索が可能になる。例えば文字領域について、タイトル、サブタイトル、本文などの文章構成を理解する手段を有することで、文書データの中の特に重要な情報を特定し、検索対象の効率的な絞込みを行うことも可能になる。
請求項1;入力された文書画像に類似する文書画像データを、その論理構造を解析した上で意味的要素であるオブジェクトを抽出し、各オブジェクトの類似度を利用して検索を行う。そのため、文字画像が大半を占める文書画像データを検索する際、従来の手法では、OCR読取の結果であるテキストファイルに対して検索を行っていたが、本発明のように論理構造情報から得られるオブジェクトの画像特徴量により類似度を測ることで、より高速に検索でき、かつ、OCRの誤認識による検索精度の低下が防止される。また、検索対象が図やグラフや写真など、属性の異なる要素の混在した画像であっても、同様に各領域の属性や論理構造を解析する検索手法を用いることで、様々な種類の文書画像データの検索処理を効率的に行うことができる。
請求項2;領域識別処理により“文字領域”または“図形領域”といった文書画像の各領域における属性情報を取得し、論理構造解析手段により体、章、節のタイトルや、ヘッダ・フッタ、図やグラフのキャプション等を識別する処理を行う。そのため特に、検索対象の文書画像群が属性の互いに似通ったデータである場合、従来手法のように画像としての特徴量や属性情報からは検索が困難と予想される場合でも、タイトルオブジェクトやキャプションオブジェクトといった論理構造情報を付加して検索を行うことで、検索対象を絞り込むことができる。
請求項3;類似度算出処理において特に、論理構造解析手段から得られる情報を基に文書全体の構成を考慮して検索時に類似度を算出するオブジェクトを選択する検索用オブジェクト選択手段を備えることを特徴とする。例えば、文字領域が大半を占めるような文書データに関してはタイトル、サブタイトルの類似度を計算し、また、図形領域が大半を占めるような文書データに関しては、図のキャプションの類似度を計算することで、ある程度の検索精度が保証される。この際、注目オブジェクトを限定すれば、それらの注目オブジェクトに対して文字認識、グラフ認識など処理負荷が比較的重い類似性判定処理を施しても全体としての検索処理は従来手法よりもその負荷は軽い。このように文書データの全体的構成を考慮した結果から注目するオブジェクトを決定することで検索処理が効率化され、また、その精度も向上する。
請求項4;論理構造解析処理によって得られるオブジェクトに対してその重要度を判定する処理を含み、総合的な類似度をオブジェクトの重要度によるウェイトを持たせて算出することを特徴とする。例えば、一般に文書の内容を特徴付ける重要な内容を多く含むタイトルオブジェクトや図のキャプションなどの類似性に特に注目して類似度を算出することが可能になる。また、雑音領域などの余分なオブジェクトに関する重要度を低く設定できるため、結果的に検索精度が向上する。
以下、発明の実施の形態について図面により詳細に説明する。
実施例1(タイトル同士を比較して検索)
図1は、本発明の実施例1に係る文書画像検索装置の構成を示す。画像入力部100は、入力された文書画像から画像データを生成する。画像データ登録処理部101は、画像入力部100から出力された画像データと、後述する各処理102〜105から出力される構造情報及び属性情報とを対応付けて登録処理を行う。領域抽出部102は、画像入力部100から出力された画像データから、類似する特徴をもつ画素により構成される領域を抽出する。本実施例では、文字や図形など、物理的にあるいは論理的に連結されている単位を1つの領域として抽出する方法を説明するが、領域抽出処理に関しては、これに限らない。
図3は、領域抽出部102の処理手順(a)とその構成(b)を示す。領域抽出部102は、2値化手段301と、ラベリング処理手段302と、連結処理手段303とを有する。2値化手段は、入力された画像データ(画像入力部100から出力された1画面分(1頁分)の画像データ)の全画素について2値化処理を行なう(ステップ1)。2値化処理は、たとえば、2値化の閾値Tを予め設定し、この閾値T以下の画素値を有する画素を“1”、それ以外の画素を“0”とする処理を行う。すなわち、文書画像上の黒い部分を“1”とし、それ以外を“0”とする処理を行う。
次に、ラベリング処理手段302では、2値化処理手段301から出力された2値化処理後の画素値が“1”である画素に対してラベリング処理を行う(ステップ2)。この処理は画素値“1”の画素が互いに隣り合っている、あるいは、連結している画素を一纏まりにする処理であり、その纏まり(連結成分と呼ぶ)毎に違う値を持つように画素値を変換する。
次いで、連結処理手段303では、ラベリング処理手段302から出力されたラベリングされた画像に対して、2個以上の連結成分をさらに連結し、1つの連結成分として融合する連結処理を行う(ステップ3)。本実施例では、抽出された連結成分から任意の2個を取り出し、それらの間の距離を計測する。2つの連結成分間の距離は画素間の最小距離とし、この計測された距離が予め設定された閾値Dよりも小さい場合に、1つの連結成分として連結する。
領域抽出部102は以上の処理により、抽出された各連結成分を領域データとして領域識別部103に出力する。
領域識別部103は、領域抽出部102から出力された領域に関して、その属性情報を取得する。図4は、領域識別部103の処理手順を示す。本実施例では、領域識別部103において各領域の画像上の位置、大きさ、形状、構造、濃度分布などの特徴量を計測する。領域識別処理手法はこれに限られるものではなく、例えば、各属性情報に基づいて予め決められたルールに従って領域の種類あるいは文書上の重要度を識別する処理を備えていても良い。
領域抽出部102から領域データが入力されると、領域識別部103では、この入力された全領域データのそれぞれに対して特徴量を計測する処理を行う(ステップ11)。特徴量の計測は、“画像上の位置”、“領域の大きさ”、“領域の形状”、“領域画素の構造”、“領域の濃度分布”などを対象とするが、文書画像の論理的構造を把握するために必要な属性情報を取得し、さらに文書画像としての類似性を判定する項目を取得することを目的としており、特徴量の種類はこれらに限られるものではない。
以下、上記特徴量の計測方法の一例を説明すると、“画像上の位置”は、個々の領域の中心位置あるいは重心の計測によって求める。どちらも縦横の方向の座標値によって与えることができる。“領域の大きさ”は、縦横両方向の幅を計測することで求める。そして、縦横の幅を掛合わせることで大きさが求まる。縦方向の幅は、領域内で最も上に位置する画素の座標と最も下に位置する画素の座標との差によって求める。また、横方向の幅は、領域内で最も左に位置する画素の座標と最も右に位置する画素の座標との差によって求める。“領域の形状”は、例えば縦方向の幅と横方向の幅の割合によって求めることができる。これにより、縦長の領域あるいは横長の領域、正方形に近い領域などの特徴が得られる。“領域の濃度分布”は、領域内の画素の濃度値ヒストグラムをとることによって計測する。この場合は2値化前の画像データを参照して計測する。以上の処理手法で特徴量を計測することができる。
各領域の種類を判定するためには、例えば、予め“文字領域”のルール、“表領域”のルール、“線図領域”のルール、“写真領域”のルール、“グラフ領域”のルールなどを設定しておき、これを参照して各領域の種類を決定しても良い。特徴量の計測が終了したら、前述のルールを適応して“文字領域”、“表領域”、“線図領域”、“写真領域”、“グラフ領域”などの各種領域の種類のうち、いずれの種類であるかを判定する(ステップ12)。
上記ルールは、各領域の種類毎に“位置”、“大きさ”、“形状”、“濃度分布”などの特徴量の範囲あるいは値が設定されているとする。例えば、“グラフ領域”を決定するルールについては、“形状”は方形に近く、“領域画素の構造”が文字領域や表領域に比べて変化が大きいなどの条件を満たしていれば、“グラフ領域”と決定する。
グラフ領域に関して、例えば非特許文献1、2に記載されている手法を用いて、折線グラフや棒グラフの識別といった更に細かい情報を取得することもできる。
また、“文字領域”を決定するルールについては、“画像上の位置”、“形状”、“領域画素の構造”“濃度分布”に関してはどんな値をとっても構わないが、“大きさ”については縦方向の幅がある値A、Bについて、Aよりも大きく、Bよりも小さく、画素構造は均等である”という条件を満たしていれば、“文字領域”を意味するなど、設定されている。
ここで、特に文字領域に関して、以下のような手法を用いて文字サイズや文字数を取得することもできる。文字サイズを認識するためには、例えば特許文献3に記載の方法を用いると良い。具体的には、1文字が占める四角形部分の大きさを取得し、その四角形の対角線の長さを検出する方法や、文字が示す四角形部分の縦および横の長さを検出するなどの方法により文字サイズを取得する。また、予め取得されている文字領域のサイズと得られた文字サイズから文字数に関する情報も取得することが出来る。
図1に戻り、構造解析処理部105は、領域抽出部102から出力された領域画像データと、領域識別部103から出力された属性情報(“画像上の位置”、“領域の大きさ”、“領域の形状”、“領域画素の構造”、“領域の濃度分布”、文字領域に関しては“文字の大きさ”を取得)の組104を受け取り、これらの情報をもとに文書画像データの構造情報を取得する。
本発明における論理的構造情報とは、文書画像内にレイアウトされた、各オブジェクトの論理構成、相互関係に関するものであり、例えば、体、章、節のタイトルや、ヘッダ・フッタ等の書誌的事項、文書の要約文等である。また、文書中の図等を基準として、図や写真の説明として用いられるキャプションを構成する文字列や、図番を含むセンテンス、このセンテンスを含むパラグラフおよびページ単位の文字列をキーテキストとして抽出しても良い。本実施例ではタイトル、ヘッダ・フッタ、サブタイトル、キャプションなどの構造情報の解析手法について説明するが、本発明における論理的構造情報は上記した事項に限定されず、各オブジェクトの論理構成、相互関係に関する情報であれば何でもよい。また、論理構造情報の取得方法に関しては、従来の手法を用いても良いが、例えば特許文献4、5に記載の方法を用いてもよい。
論理的構造情報の取得;
文書画像のタイトルは、一般的に本文の文字とはサイズや行ピッチが異なり、存在する位置も本文とは若干離れていることから、領域抽出部102、領域識別処理103で取得した領域の位置に関する属性情報及び/又は文字サイズ、文字数に関する識別結果を用いて、タイトル部を検出することができる。
さらに、ヘッダ・フッタは、文書画像の上下に存在するため、該当する行をヘッダ・フッタとして検出する。具体的には、例えば、領域識別・領域抽出部でシングルコラムと識別された場合、センタリング行より上の行をヘッダ部と判定することができる。また、新聞などに利用されるマルチコラムと識別された場合、段に属しない上下の行がヘッダ・フッタ部となる。
サブタイトルは、本文の文字と文字サイズがほぼ等しい場合も多く、本文に近接した場所に位置することから、本文と同一の領域に存在していることも多い。そこで、各文字領域の先頭行の文字サイズが同一の文字領域中の他の文字のものと異なる場合や、罫線や枠が挿入されている場合に、先頭行を小見出し行と判定する。
また、キャプション(写真や図の説明)は、図、表、写真等の画像に付与されたものであり、一般的に画像領域の近傍で、本文とは離れた位置に存在することなどから、これらの条件を満たす行をキャプションと判定する。
以上の処理により、論理構造解析処理部105は文書画像の論理的構造を解析し、その意味的要素の単位(オブジェクト)と構造情報、及び前述の各処理により得られる属性情報との組106を構造情報格納部107と類似度算出部108とに出力する。
構造情報格納部107は、領域識別部103から出力された属性情報と論理構造解析処理部105から出力されたオブジェクト(意味的要素の単位)と、各オブジェクトの属性情報(種類、位置、大きさ、形状など)を、各文書画像ごとに記憶する。
類似度算出部108では、論理構造の解析結果に基づいて切り分けられた各オブジェクトについて画像の類似度を算出する。この際、例えば、文書画像中の特に重要な情報を保持している可能性の高いタイトルオブジェクトについて画像上での位置や文字サイズなどの情報を比較し、類似する画像を抽出することもできる。各オブジェクトについて画像の類似度を算出し、類似度が予め設定した閾値よりも高い場合は、候補として比較対象画像を類似画像蓄積部109に保存する。
図2は、図1の機能を実現するためのハードウェアの構成を示す図である。スキャナ200から画像を取り込み、取り込んだ画像データは入力I/F206へ渡される。CPU201は、装置全体の制御をするプログラムが格納されるROM202と、各種データ及びプログラムが格納されるRAM204とをデータバスを介して接続している。
実施例2:
実施例1では、論理構造解析処理部105により論理的構造情報が付加された論理オブジェクト(例ではタイトルオブジェクト)に対して一律に検索処理を行ったが、処理能力の低いCPUで検索処理を行う場合などでは、文書の論理構造情報の結果を利用して、検索対象を文書画像中で特に重要な情報を含むオブジェクトに限定して検索を行うと効率が良い。
例えば、文字領域を多く含む文書画像については、構造解析処理によって切り分けられたタイトルオブジェクトの一致度を基に検索を行うことで、検索精度を保ちつつ検索処理量を低減できる。また、図/表/グラフなどを多く含む文書画像については、キャプションオブジェクトの一致度をもとに検索する方法が効率的である。
さらに、一般には入力される文書画像を属性の異なる領域へ切り分けを行う場合、テキストデータに関しては一律にOCR処理を施し、その一致度を基に検索処理を行う場合が多い。しかしながら、オフィスで使用されるテキスト属性の多い文書を検索対象とする場合、OCR処理による類似画像検索は、OCRの誤認識による後処理への悪影響を避けられず、また処理量も多くなる。
しかし、例えば上記のように、文字サイズが比較的大きく文字数の少ないタイトルオブジェクト、キャプションオブジェクトなどに対してはOCR処理を施してそのテキストデータの一致度を比較しても良い。また、この時、その他のオブジェクトに対しては、実施例1と同様に画像の特徴量の類似度を算出し、最終的な類似度を求めても良い。
図5は、実施例2の検索用オブジェクト抽出処理の構成例を示す。本実施例では、文書画像中の各種領域の占有率に従って検索用オブジェクトを選択する構成を採っているが、選択基準はこれに限られるものではなく、ユーザーによって予め設定できる構成でも良い。
図5に示す通り、文字領域と図形領域が大半を占める文書画像においては、それぞれタイトルオブジェクトとキャプションオブジェクトを抽出し、OCR処理を施し、グラフ領域の占有率の高い文書画像に対しては、グラフ認識(前掲した非特許文献1、2を参照)により、グラフの種類やデータ数値などのグラフ要素を比較することで、類似度を算出する。
実施例3:
本実施例では、前記論理構造解析処理により判別されたオブジェクトの種類により、各オブジェクトの“重要度”を点数化し、より精度の高い検索を行う。
例えば“文字領域”であれば重要度は“8”、“タイトル領域”であれば重要度は“10”、“下線・線領域”であれば重要度は“5”というように、目的対応に適宜設定する。ここで重要度は点数が高いほど重要であるとする。同じ種類の領域と判断されても、領域の大きさなどの特徴量で重要度を変化させることも可能である。
また、オブジェクトに重要度を割り振ることで、“雑音領域”のオブジェクトは、重要度として低い点数を割り当て、領域が持つ特徴量によりその点数を“0”〜“4”に割り当てる。例えば、画像の位置が隅にあるものは重要度“1”、大きさが所定の閾値以下の小さいものは重要度“0”に設定する。
ただし、オブジェクトの“重要度”は絶対的な値ではなく、検索対象となる文書画像データの種類や検索項目などによって変化するので、ユーザー側が自由に設定できる手段を備えるようにしてもよい。
図6は、実施例3の構成を示す。図1におけるオブジェクトと属性情報と構造情報の組106に対し、実施例2で説明したように、検索用オブジェクトを抽出110する。上記したオブジェクトの点数化のルールはオブジェクト重要度記憶メモリ112に格納されている。このルールの決め方は文書画像全体の構成から自動的に判断しても良く、または予めユーザーにより設定してもよい。前記オブジェクト重要度記憶メモリ112を参照して、重要度の点数化処理111を行い、その点数に基づいて、類似度算出部108では各オブジェクトに対してブロック位置、サイズ、属性、構造情報の類似度を算出し、更に各類似度に構造情報の“重要度”による重み係数を付与し、総合類似度を算出する。
今、オブジェクト毎の類似度がD1、D2、・・・と算出されたとする。このときファイル全体の総合類似度Nは、以下の式で表される。
N=w1×D1+w2×D2+・・・+・・・+wk×Dk
ここで、w1、w2、・・・は、各オブジェクトの類似度を評価する重み係数であり、文書内の論理構造情報から、オブジェクトの重要性を判断して求める。重み付けは、例えば、注目オブジェクトが文書全体のタイトルであるとすると、そのオブジェクトには文書の内容を特徴付ける、特に重要な情報が含まれていると判断されるため、大きな重み係数wが設定される。このような、構造情報を用いた重み付け処理により、文書内で情報として重要な内容を持つオブジェクトの類似度が文書全体の総合類似度に反映される。そして検索の結果、類似度が閾値Tよりも高い場合に、候補として類似画像蓄積部108に保存される。
本発明の実施例1に係る文書画像検索装置の構成を示す。 図1の機能を実現するためのハードウェアの構成を示す。 領域抽出部の処理手順とその構成を示す。 領域識別部の処理手順を示す。 本発明の実施例2に係る検索用オブジェクト抽出処理の構成例を示す。 本発明の実施例3の構成を示す。
符号の説明
100 画像入力部
101 画像データ登録処理部
102 領域抽出部
103 領域識別部
104 領域画像データ、属性情報
105 論理構造解析処理部
106 オブジェクト、属性情報、構造情報
107 構造情報格納部
108 類似度算出部
109 類似画像蓄積部

Claims (8)

  1. 文書画像に類似する画像データを検索するための文書画像検索装置であって、前記文書画像から関連するひとまとまりの領域を抽出する領域抽出手段と、前記領域抽出手段により抽出された領域の属性情報を取得する領域識別手段と、前記領域識別手段で取得した属性情報に基づき文書画像の論理構造を解析し、該解析結果に基づき前記領域をオブジェクトに分類する論理構造解析手段と、前記領域識別手段で取得した属性情報と前記論理構造解析結果とに基づき類似度を算出する類似度算出手段とを有することを特徴とする文書画像検索装置。
  2. 前記領域識別手段は、前記領域抽出手段で抽出された領域の特徴量を計測する手段と、前記特徴量を基に、文字領域、図形領域、グラフ領域を含む各領域における属性情報を取得する手段を有し、前記論理構造解析手段は、前記属性情報を基に、タイトル、ヘッダ・フッタを含む書誌的事項、図、グラフのキャプションを識別する処理手段を有し、前記類似度算出手段は、前記属性情報と前記論理構造情報を総合的に判断して類似度を算出することを特徴とする請求項1記載の文書画像検索装置。
  3. 前記類似度算出手段は、前記論理構造解析手段から得られる情報を基に、検索用オブジェクトを選択する検索用オブジェクト選択手段を有することを特徴とする請求項1または2記載の文書画像検索装置。
  4. 前記論理構造解析手段は、論理構造解析処理によって得られるオブジェクトに対し、その重要度を判定する手段を有し、前記類似度算出手段は、オブジェクトの重要度によってウェイトを持たせた総合類似度算出処理を有することを特徴とする請求項1乃至3のいずれか1項に記載の文書画像検索装置。
  5. 文書画像に類似する画像データを検索するための文書画像検索方法であって、前記文書画像から関連するひとまとまりの領域を抽出する領域抽出工程と、前記領域抽出工程により抽出された領域の属性情報を取得する領域識別工程と、前記領域識別工程で取得した属性情報に基づき文書画像の論理構造を解析し、該解析結果に基づき前記領域をオブジェクトに分類する論理構造解析工程と、前記領域識別工程で取得した属性情報と前記論理構造解析結果とに基づき類似度を算出する類似度算出工程とを有することを特徴とする文書画像検索方法。
  6. 前記領域識別工程は、前記領域抽出工程で抽出された領域の特徴量を計測する工程と、前記特徴量を基に、文字領域、図形領域、グラフ領域を含む各領域における属性情報を取得する工程を有し、前記論理構造解析工程は、前記属性情報を基に、タイトル、ヘッダ・フッタを含む書誌的事項、図、グラフのキャプションを識別する処理工程を有し、前記類似度算出工程は、前記属性情報と前記論理構造情報を総合的に判断して類似度を算出するすることを特徴とする請求項5記載の文書画像検索方法。
  7. 前記類似度算出工程は、前記論理構造解析工程から得られる情報を基に、検索用オブジェクトを選択する検索用オブジェクト選択工程を有することを特徴とする請求項5または6記載の文書画像検索方法。
  8. 前記論理構造解析工程は、論理構造解析処理によって得られるオブジェクトに対し、その重要度を判定する工程を有し、前記類似度算出工程は、オブジェクトの重要度によってウェイトを持たせた総合類似度算出処理を有することを特徴とする請求項5乃至7のいずれか1項に記載の文書画像検索方法。
JP2007016161A 2007-01-26 2007-01-26 文書画像検索装置および文書画像検索方法 Pending JP2008181460A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007016161A JP2008181460A (ja) 2007-01-26 2007-01-26 文書画像検索装置および文書画像検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007016161A JP2008181460A (ja) 2007-01-26 2007-01-26 文書画像検索装置および文書画像検索方法

Publications (1)

Publication Number Publication Date
JP2008181460A true JP2008181460A (ja) 2008-08-07

Family

ID=39725297

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007016161A Pending JP2008181460A (ja) 2007-01-26 2007-01-26 文書画像検索装置および文書画像検索方法

Country Status (1)

Country Link
JP (1) JP2008181460A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011154687A (ja) * 2010-01-26 2011-08-11 Xerox Corp 画像データセットをナビゲートするための方法、装置、及びプログラム
JP2011233023A (ja) * 2010-04-28 2011-11-17 International Business Maschines Corporation 文書の類似度を判定する方法、装置及びプログラム。
JP2015138479A (ja) * 2014-01-24 2015-07-30 レノボ・シンガポール・プライベート・リミテッド Webサイトを共有する方法、電子機器およびコンピュータ・プログラム
JP2018156517A (ja) * 2017-03-21 2018-10-04 富士ゼロックス株式会社 情報処理装置
JP2019057173A (ja) * 2017-09-21 2019-04-11 キヤノン株式会社 情報処理装置、情報処理方法およびプログラム
JP2019125333A (ja) * 2018-01-12 2019-07-25 富士通株式会社 間取り抽出プログラム、間取り抽出方法及び情報処理装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011154687A (ja) * 2010-01-26 2011-08-11 Xerox Corp 画像データセットをナビゲートするための方法、装置、及びプログラム
JP2011233023A (ja) * 2010-04-28 2011-11-17 International Business Maschines Corporation 文書の類似度を判定する方法、装置及びプログラム。
JP2015138479A (ja) * 2014-01-24 2015-07-30 レノボ・シンガポール・プライベート・リミテッド Webサイトを共有する方法、電子機器およびコンピュータ・プログラム
JP2018156517A (ja) * 2017-03-21 2018-10-04 富士ゼロックス株式会社 情報処理装置
JP2019057173A (ja) * 2017-09-21 2019-04-11 キヤノン株式会社 情報処理装置、情報処理方法およびプログラム
JP7013182B2 (ja) 2017-09-21 2022-01-31 キヤノン株式会社 情報処理装置、情報処理方法およびプログラム
JP2019125333A (ja) * 2018-01-12 2019-07-25 富士通株式会社 間取り抽出プログラム、間取り抽出方法及び情報処理装置

Similar Documents

Publication Publication Date Title
CN107291723B (zh) 网页文本分类的方法和装置,网页文本识别的方法和装置
Shafait et al. Table detection in heterogeneous documents
US8645819B2 (en) Detection and extraction of elements constituting images in unstructured document files
JP5663866B2 (ja) 情報処理装置及び情報処理プログラム
US20060159442A1 (en) Method, medium, and apparatus with category-based clustering using photographic region templates
Al-Zaidy et al. A machine learning approach for semantic structuring of scientific charts in scholarly documents
US8744183B2 (en) Clustering of forms from large-scale scanned-document collection
US8687886B2 (en) Method and apparatus for document image indexing and retrieval using multi-level document image structure and local features
JP2008181460A (ja) 文書画像検索装置および文書画像検索方法
US10445570B2 (en) Information processing apparatus
Konidaris et al. A segmentation-free word spotting method for historical printed documents
CN109857957B (zh) 建立标签库的方法、电子设备及计算机存储介质
Yang et al. Smart library: Identifying books on library shelves using supervised deep learning for scene text reading
JP2015197681A (ja) 文字認識装置およびその文字切り出し方法
Pletschacher et al. Europeana newspapers OCR workflow evaluation
KR20070009338A (ko) 이미지 상호간의 유사도를 고려한 이미지 검색 방법 및장치
CN109213886B (zh) 基于图像分割和模糊模式识别的图像检索方法及系统
Chiu et al. Picture detection in document page images
US10534846B1 (en) Page stream segmentation
US9049400B2 (en) Image processing apparatus, and image processing method and program
US9418051B2 (en) Methods and devices for extracting document structure
Sun et al. Similar manga retrieval using visual vocabulary based on regions of interest
US20110099137A1 (en) Graphical user interface component classification
Singh et al. Document layout analysis for Indian newspapers using contour based symbiotic approach
Fan Text segmentation of consumer magazines in PDF format