JP2009110204A - 文書処理装置、文書処理システム、文書処理方法及び文書処理プログラム - Google Patents

文書処理装置、文書処理システム、文書処理方法及び文書処理プログラム Download PDF

Info

Publication number
JP2009110204A
JP2009110204A JP2007280889A JP2007280889A JP2009110204A JP 2009110204 A JP2009110204 A JP 2009110204A JP 2007280889 A JP2007280889 A JP 2007280889A JP 2007280889 A JP2007280889 A JP 2007280889A JP 2009110204 A JP2009110204 A JP 2009110204A
Authority
JP
Japan
Prior art keywords
character string
image
document
feature amount
document processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2007280889A
Other languages
English (en)
Inventor
Yoshihisa Oguro
慶久 大黒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2007280889A priority Critical patent/JP2009110204A/ja
Publication of JP2009110204A publication Critical patent/JP2009110204A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書画像からテキスト情報に変換するにあたり、簡易かつ高速に変換処理を実行することが可能な文書処理装置を提供する。
【解決手段】文書画像から文字列画像の特徴量を抽出する。そして、その抽出した文字列画像の特徴量と、単語辞書に含まれる見出し語に対応する文字列画像の特徴量と、を比較し、両者の特徴量が所定の条件を満足した文書画像の文字列画像をテキスト情報として記録する。これにより、単語辞書に含まれる見出し語に対応する文字列画像の特徴量を用いて、文書画像からテキスト情報に変換することになる。
【選択図】図15

Description

本発明は、文書画像をテキスト情報に変換する文書処理装置、文書処理システム、文書処理方法及び文書処理プログラムに関するものである。
従来、文書画像中の文字成分の外接矩形から文字行を抽出し、出力する技術が提案されている。この技術は、文字の外接矩形の形状および位置に関する特徴(大きさ、間隔など)について、複数の制約を適用することにより文字行を抽出するものである。
しかし、上記従来技術では、文字行を判断するためには、外接矩形に関する複数の制約を人手操作により最適値に調整する必要がある。しかも、文字行らしさは判断できるものの、文字行の内容に関する特徴を求めることはできない。
このようなことから、本発明より先に出願された技術文献として、文字行画像の行内矩形の配置状態を表す特徴を抽出し、これらを固定段階に量子化してシンボルを生成することにより、文字認識することなく、文字行の特徴の抽出が可能になり、効率的な文字行の内容に関する検索が行える技術について開示された文献がある(例えば、特許文献1参照)。
特開2005−242579号公報
なお、画像特徴によって画像を検索する場合、検索対象は画像に限定され、大量に蓄積されている(文字コードによる)電子データを検索することはできない。一方、文書画像からテキスト情報を抽出する手段としてはOCRが開発されているが、ノイズが付加したり、画像変形などが発生したりするため、認識精度が大きく低下し、かつ、処理時間および計算資源も多く要求することになる。
このため、文書画像からテキスト情報に変換するにあたり、簡易かつ高速に変換処理を実行する方法の開発が必要視されることになる。
本発明は、上記事情に鑑みてなされたものであり、上述した課題である、文書画像からテキスト情報に変換するにあたり、簡易かつ高速に変換処理を実行することが可能な文書処理装置、文書処理システム、文書処理方法及び文書処理プログラムを提供することを目的とするものである。
かかる目的を達成するために、本発明は、以下の特徴を有することとする。
<文書処理装置>
本発明にかかる文書処理装置は、
文書画像をテキスト情報に変換する文書処理装置であって、
文書画像から文字列画像の特徴量を抽出する抽出手段と、
前記抽出手段で抽出した文字列画像の特徴量と、単語辞書に含まれる見出し語に対応する文字列画像の特徴量と、を比較し、両者の特徴量が所定の条件を満足した文書画像の文字列画像をテキスト情報として記録する記録手段と、
を有することを特徴とする。
<文書処理システム>
また、本発明にかかる文書処理システムは、
文書画像をテキスト情報に変換する文書処理システムであって、
文書画像から文字列画像の特徴量を抽出する抽出手段と、
前記抽出手段で抽出した文字列画像の特徴量と、単語辞書に含まれる見出し語に対応する文字列画像の特徴量と、を比較し、両者の特徴量が所定の条件を満足した文書画像の文字列画像をテキスト情報として記録する記録手段と、
を有することを特徴とする。
<文書処理方法>
また、本発明にかかる文書処理方法は、
文書画像をテキスト情報に変換する文書処理方法であって、
文書画像から文字列画像の特徴量を抽出する抽出工程と、
前記抽出工程で抽出した文字列画像の特徴量と、単語辞書に含まれる見出し語に対応する文字列画像の特徴量と、を比較し、両者の特徴量が所定の条件を満足した文書画像の文字列画像をテキスト情報として記録する記録工程と、
を有することを特徴とする。
<文書処理プログラム>
また、本発明にかかる文書処理プログラムは、
文書画像をテキスト情報に変換する文書処理プログラムであって、
文書画像から文字列画像の特徴量を抽出する抽出処理と、
前記抽出処理で抽出した文字列画像の特徴量と、単語辞書に含まれる見出し語に対応する文字列画像の特徴量と、を比較し、両者の特徴量が所定の条件を満足した文書画像の文字列画像をテキスト情報として記録する記録処理と、
を、コンピュータに実行させることを特徴とする。
本発明によれば、文書画像からテキスト情報に変換するにあたり、簡易かつ高速に変換処理を実行することが可能となる。
まず、本実施形態の文書処理装置の概要について説明する。
本実施形態の文書処理装置は、文書画像から文字列画像の特徴量を抽出する。そして、その抽出した文字列画像の特徴量と、単語辞書に含まれる見出し語に対応する文字列画像の特徴量と、を比較し、両者の特徴量が所定の条件を満足した文書画像の文字列画像をテキスト情報として記録する。これにより、単語辞書に含まれる見出し語に対応する文字列画像の特徴量を用いて、文書画像からテキスト情報に変換することになる。その結果、文書画像からテキスト情報に変換するにあたり、簡易かつ高速に変換処理を実行することが可能となる。以下、添付図面を参照しながら、本実施形態について詳細に説明する。
<文書処理装置のハードウェア構成>
まず、本実施形態における文書処理装置のハードウェア構成について説明する。図1は、本実施形態における文書処理装置のハードウェア構成を示す図である。
本実施形態における文書処理装置は、CPU101、ROM102、RAM103、HDD(ハードディスクドライブ)104、HD(ハードディスク)105、FDD(フレキシブルディスクドライブ)106、FD112、ディスプレイ107、ネットワークボード108、キーボード109、マウス110、およびスキャナ111が、バス100で接続して構成している。
CPU101は、装置全体を制御する。ROM102は、基本入出力プログラムを記憶する。RAM103は、CPU101のワークエリアとして使用する。HDD104は、CPU101の制御に従ってHD105に対するデータのリード/ライトの制御を行う。HD105は、HDD104の制御に従って書き込まれたデータを記憶する。FDD106は、CPU101の制御に従ってFD(フレキシブルディスク)112に対するデータのリード/ライトの制御を行う。FD112は、着脱自在になっており、FDD106の制御に従って書き込まれたデータを記憶する。ディスプレイ107は、カーソル、メニュー、ウインドウ、あるいは文字や画像等の各種データの表示を行う。ネットワークボード108は、通信ケーブル113を介してネットワーク114と接続する。キーボード109は、各種情報の入力を行う。マウス110は、ディスプレイ107に表示されたカーソル、メニュー、ウインドウの移動や選択、開閉操作を行う。スキャナ111は、文字や画像の光学的な読み取りを行う。
<文書処理装置の機能的構成>
次に、本実施形態における文書処理装置の機能的構成を説明する。図2は、本実施形態の文書処理装置の機能的構成を示すブロック図である。本実施形態における文書処理装置は、画像入力部201、矩形抽出部202、行切り出し部203、シンボル生成部204、出現頻度集計部205、判定部206、および表示部207を有して構成している。
画像入力部201は、識別対象の文書画像を入力する。矩形抽出部202は、入力部201から入力された文書画像から文字領域を抽出する。行切り出し部203は、矩形抽出部202で抽出した文字領域から行画像を抽出する。シンボル生成部204は、行切り出し部203で抽出した行画像の各行をシンボル系列に変換する。出現頻度集計部205は、シンボル生成部204で変換したシンボル系列からN-gram出現頻度を集計する。判定部206は、出現頻度集計部205による集計結果から、予め行別にN-gram出現頻度を集計する。そして、蓄積済みの行の中から、照合対象行の出現頻度と傾向が類似している行を照合対象行と類似する行と判断する。表示部207は、入力された画像や、各処理の経過、結果などの表示を行う。
なお、画像入力部201の機能は、図1に示したスキャナ111により実現できる。矩形抽出部202、行切り出し部203、シンボル生成部204、出現頻度集計部205、判定部206の各機能は、図1に示したCPU101により実現できる。表示部207の機能は、図1に示したディスプレイ107により実現できる。
また、本実施形態の文書処理装置は、通信手段(ネットワークボード108)を備えているので、ネットワークと接続できる。例えば、図3に示すように、複数の文書処理装置をネットワーク114と接続することで、各装置間においてデータのやり取りが可能になる。また、この文書処理装置を構成する各機能部に通信手段を設ければ、各機能部をネットワーク114に接続することで、遠隔地から文書処理装置を操作することが可能になる。
以下、本実施形態における文書処理装置の動作を詳細に説明する。なお、以下の説明では、例えば、図4(a)に示すような文書画像に対して、特定の行画像を検索する場合を考える。なお、特定の行画像は、文書画像中と同一である必要はなく、解像度が違っていても、部分的な行として形状が同じであればよい。画像として完全に一致する必要はない。また、本実施形態では、文字領域の単位として文字行を使用するが、本実施形態は、文字行に限定するものではなく、部分行、複数行を使用することも可能である。
図4(a)の文書画像における黒画素の外接矩形を求めると、図4(b)になる。求めた外接矩形を、近隣同士を連結していき、行に成長させたものを図4(c)に示す。これが行切り出し処理である。
図5に原画像と、その射影ヒストグラムを示す。射影ヒストグラムは、原画像において、行方向と垂直方向に黒画素を計数したものである。文字の形状が異なると、射影ヒストグラムの波形も異なることがわかる。つまり、文字画像の特徴として射影ヒストグラムが利用可能であるといえる。文字画像としては文字間の分割を前提としていないので、手書き文字や筆記体、アラビア文字など、一行に並ぶ言語であれば、言語種類を問わず、射影ヒストグラムを作成することが可能である。
射影ヒストグラムの垂直軸は、黒画素数であり、同じ文字でも画像サイズが異なると黒画素数が異なるが、各値の相対的な関係は画像サイズに依存しない。射影ヒストグラムの値は、黒画素数であるから、1画素単位に変化する。射影ヒストグラムの値は、読取条件の違いやノイズ、かすれなどの影響により変化するが、波形の形状の概形に関していえば安定している。よって、射影ヒストグラムの正確な値を用いて、波形を照合することに意味はなく、およその値を利用しても波形形状特徴を十分表現することが可能である。
図6に射影ヒストグラムの値を固定段階に量子化した図を示す。図6において、水平方向の座標iの位置での射影ヒストグラムの値をyiとする。yiに関して以下の基準に基づいて量子化するとyiは、5段階の値に変換される。
0≦yi<10→0段階
10≦yi<20→1段階
20≦yi<30→2段階
30≦yi<40→3段階
40≦yi→4段階
なお、図6に示す『量子化結果』が、図5に示す『射影ヒストグラム』の値を量子化した後の値であり、量子化後の値をプロットした波形も原波形と共に併記する。図6に示すように、量子化後の波形が原波形の概形を表現していることがわかる。
上記の過程を経ると、各射影ヒストグラムの値は5段階に制限され、各段階をシンボル化することが可能になる。例えば、以下のルールによって変換できる。
0≦yi<10→0→a
10≦yi<20→1→b
20≦yi<30→2→c
30≦yi<40→3→d
40≦yi→4→e
上記のシンボル化ルールに従うと言語を問わず、一般的な文字領域画像は、文字領域画像→射影ヒストグラム→量子化→シンボル化という過程を経れば、『文字領域画像』=『abaabcceeaaa.....』と文字画像の特徴を保持したままシンボル系列化することができるといえる。
従って、2つの文字領域画像を比較する作業、例えば、画像検索においては被検索(データベース)領域画像および、検索(クエリー)領域画像の両方をシンボル系列化することで、シンボル系列間を照合する問題へと帰着することになる。
『データベース画像』=『abaabcceeaaa.....』
『クエリー画像』=『cceeaaabaababccee....』
なお、本実施形態におけるシンボル系列間の比較は、公知のテキスト処理の技術で実現することが可能である。例えば、動的計画法(Dynamic Programming)に基づく文字列照合法により、2つの文字列間の距離を算出し、それを利用すれば2つの文字列の類似性を判断することができる。距離尺度としては編集距離などが代表的である。
また、N-gram法を用いて2つの文字列間の類似性を判断する方法もある。図7、図8に、N-gram法を利用した文字列照合を示す。なお、図7は、N=3、trigramを用いた場合のN-gramリストの作成方法である。
文字列を固定文字数(図7では、3文字)ずらしながら、部分文字列を計数してN-gramリストを作成する。2つの文字列が類似しているほど、N-gramリストの結果が類似することになる。類似性の判定基準の一例としては、2つのN-gramリストにおいて共通する部分文字列の数を計数し、一定値以上であれば類似していると判定することができる。
また、図8に示すように、2つの文書の類似性を判定する場合には、各文書(文書A、文書B)に含まれる文字領域をシンボル系列化することで、文書画像の比較問題は、シンボル系列の比較問題へと帰着することになる。なお、文書から文字領域を抽出する方法は、領域識別やレイアウト分析など、文字認識分野において一般的な技術を適用することが可能である。なお、図8では、各文書(文書A、文書B)を基に、trigramリスト(trigramリストA、trigramリストB)を生成し、その生成した各trigramリストを比較し、文書(文書A、文書B)の一致度を評価する場合を示している。
なお、図9は、N-gramリストの照合方法として順位相関係数を用いる例である。図9では、照合したい画像の文字領域画像をシンボルに変換し(ステップS901)、所定領域内でtrigramを集計し(ステップS902)、trigramの出現頻度集計表を作成する(ステップS903)。
一方、照合対象画像の文字領域画像をシンボルに変換し(ステップS904)、所定領域内でtrigramを集計し(ステップS905)、trigramの出現頻度集計表を作成する(ステップS906)。最後に、ステップS903で作成したtrigramの出現頻度集計表と、ステップS906で作成したtrigramの出現頻度集計表と、を照合し、順位相関係数を求めることで(ステップS907)最も高い出現頻度を示した行が、照合対象行と類似する行と判定することになる。
(文書処理の手順)
次に、図10を参照しながら、本実施形態における文書処理装置を用いた文書処理の手順を説明する。図10は、文書処理の手順を示すフローチャートである。
まず、画像入力部201は、識別対象の文書画像を入力する(ステップS1)。なお、画像入力部201は、必要な画像処理(ノイズ除去、2値化など)を実施することになる。
次に、矩形抽出部202は、入力された文書画像から文字領域を抽出する(ステップS2)。なお、矩形抽出部202は、領域識別(レイアウト分析)により、文字領域を抽出することになる。
次に、行切り出し部203は、矩形抽出部202で抽出した文字領域から行画像を抽出する(ステップS3)。そして、シンボル生成部204は、行切り出し部203で抽出した行画像の各行をシンボル系列に変換する(ステップS4)。
出現頻度集計部205は、シンボル生成部204で変換したシンボル系列からN-gram出現頻度を集計する(ステップS5)。最後に、判定部206は、出現頻度集計部205による集計結果を基に、出現頻度の傾向について、最も高い類似性を示した行が、照合対象行と類似する行と判断することになる(ステップS6)。なお、ステップS5、ステップS6の処理は、DPマッチングによる文字列間距離測定により実現することも可能である。
<シンボル生成処理の手順>
次に、図11を参照しながら、上記ステップS4のシンボル生成処理の手順を詳細に説明する。図11は、シンボル生成処理の手順を示すフローチャートである。
まず、文書画像に表現された文字の行高さを推定する(ステップS4−1)。なお、行画像の高さ、あるいは、行内矩形の最大高さなどを推定することになる。次に、行方向と垂直方向の射影ヒストグラムを集計する(ステップS4−2)。次に、射影ヒストグラムの値を、上記ステップS4-1で推定した行高さに従って量子化する(ステップS4−3)。行高さが射影ヒストグラムの最大値であるため、それに比例すればよいことになる。次に、量子化された値をシンボルに変換する(ステップS4−4)。そして、変換したシンボル系列を記録する(ステップS4−5)。なお、ステップS4−1、ステップS4−3の処理は、行高さを使用せずに、射影ヒストグラムの最大値を基準に量子化することも可能である。
上記の各処理を行うことで、対象行の画像特徴を、行内矩形の配置状態を表す特徴(新たに行の特徴を抽出する処理ではなく、行切り出し処理の過程で得られる特徴)を抽出して照合することが可能となる。この結果、高速に画像照合処理を実現することが可能となる。
なお、上記の各処理は、照合したい画像の文字列画像と、照合対象画像の文字列画像と、の類似度を計算する一例である。このため、本実施形態は、上記類似度計算を、上記の各処理に限定するものではなく、照合したい画像の文字列画像と、照合対象画像の文字列画像と、を照合することが可能であれば、あらゆる処理を適用することが可能である。
次に、上記の各処理により、照合したい画像の文字列画像と、照合対象画像の文字列画像と、の照合結果が得られたものとし、本実施形態を説明する。
文字画像を認識して文字コードに変換する過程は、文字認識処理であるが、文字画像の読み取り品質などが原因で、認識率が100%になるとは言えない。また、注目している文字画像と、単語辞書に登録されている文字パターンと、を照合する必要があるので、多くの処理時間を必要とする。
一方、文字コードから文字画像を生成する機能は、ワープロソフトやプリンターなど、表示・印刷装置のフォント生成技術を用いて広く実用化されている。文字コードから文字画像を生成する場合には、文字コードごとに記憶された描画データに基づいて画素を描画部に出力することになる。このため、文字コードから文字画像を生成することは、その逆の文字認識処理と比較し、必要とする計算量が少ないことになる。つまり、文字コードから文字画像への変換は容易に実現することが可能であり、これは、文字列データ(テキストデータ)を文字列画像に変換することも容易であることを意味する。
そこで、本実施形態では、単語辞書に含まれる『見出し語』のテキストデータを、フォント生成技術を用いて文字列画像に変換すれば、『見出し語』のテキストデータと対応する文字列画像のリストを作成することが可能となる。なお、単語辞書は、ワープロソフトの仮名漢字変換などの言語辞書、電子辞書などが利用可能である。なお、単語辞書の例を図12に示す。図12では、『見出し語』と『品詞』とが対となった単語辞書の例を示している。なお、『見出し語』とは、辞書等で意味を説明しているそれぞれの単語のことである。
さらに、本実施形態では、文字列画像を、特徴量コード列に変換すれば、『見出し語(文字列テキスト)』、『文字列画像』、『特徴量コード列』の組を作成することができる。なお、図13に、文字コードを文字列画像に変換し、さらに特徴量コード列に変換する例を示す。図13では、『文字コード』に対し、『フォント生成』を行い、『文字列画像』に変換する。そして、『文字列画像』に対し、『特徴量コード変換』を行い、『特徴量コード列{ajhotnmluneajaaahb…}』に変換した例を示している。
本実施形態では、文字行を含んだ文書画像を文字列画像に変換し、その変換した文字列画像の各行を、特徴量コード列に変換する。そして、単語辞書の『見出し語』に対応する特長量コード列と照合し、文字列画像の特徴量コード列と、単語辞書の特徴量コード列と、の類似度を計算する。そして、予め設定した閾値以上の類似度をもつ『見出し語』を選択することになる。これにより、本実施形態では、文書画像の文字列画像に対応する『見出し語』を取得することが可能となる。
例えば、図12に示す単語辞書に含まれる『見出し語』に対する特徴量コード列を用いて、図4(a)の文書画像と照合した場合、図14に示すように、文書画像中の文字列画像と、単語辞書から作成した文字列画像と、が一致したとする。なお、各文字列画像と、その元になった見出し語(文字コード列)と、は1対1で対応しているので、文書画像中の文字列画像と、単語辞書から作成した文字列画像と、が一致したら、その一致した文字列画像(テキスト情報)を記録する。これにより、図14に示す文書画像の中で、特徴量コード列の照合を行った箇所は、図15に示すように、文字列テキストに変換することが可能となる。特徴量コード列の照合を、他の箇所も同様に行えば、図14に示す文書画像は、図12に示す単語辞書に含まれる文字列テキストの集合に変換することができる。文字列テキストに変換した後は、通常の文字列検索装置で検索可能な状態となる。
このように、本実施形態における文書処理装置は、OCRよりも大まかで、かつ行方向に連結可能な画像特徴を用いて、図4に示す文書画像から文字列画像の特徴量コード列を抽出する。そして、その抽出した文字列画像の特徴量コード列と、単語辞書に含まれる見出し語に対応する文字列画像の特徴量コード列と、を比較し、図14に示すように、両者の特徴量コード列が所定の条件を満足した(例えば、予め設定した閾値以上の類似度を持つ)文字列画像を、テキスト情報として記録し、図15に示すように、図4に示す文書画像を、テキスト情報に変換する。
これにより、本実施形態における文書処理装置は、多大な計算量を要することなく、文書画像からテキスト情報への変換を実現することが可能となる。その結果、文書画像を用いてテキスト情報を検索することが可能になる。従って、使用者による明示的なテキスト情報の入力を必要としない情報検索機能を備えた文書処理装置を実現することが可能となる。
(第2の実施形態)
次に、第2の実施形態について説明する。
第2の実施形態は、単語辞書に含まれる見出し語に対応する文字列画像の特徴量コード列を、その見出し語と関連づけて記憶し、文書画像から抽出した文字列画像の特徴量コード列と、見出し語に関連づけた文字列画像の特徴量コード列と、を比較し、両者の特徴量コード列が所定の条件を満足した(例えば、予め設定した閾値以上の類似度を持つ)文字列画像を、テキスト情報として記録することを特徴とする。これにより、上述した比較処理を行う場合に、見出し語に対応する文字列画像の特徴量コード列に変換する必要がないので、第1の実施形態よりも処理を簡略化することが可能となる。その結果、第1の実施形態よりも、処理時間を削減することが可能となる。以下、第2の実施形態について詳細に説明する。
第2の実施形態における文書処理装置は、単語辞書に含まれる『見出し語』に対応する『特徴量コード列』を予め求め、図16に示すように、『特徴量コード列』を『見出し語』と関連付けて蓄積する。これにより、比較処理を行う場合に、『見出し語』を『特徴量コード列』に変換する必要がないので、処理を簡略化することが可能となる。その結果、処理時間を削減することが可能となる。
なお、単語辞書に、『見出し語(文字列テキスト)』、『文字列画像』、『特徴量コード列』を関連づけて記憶するように構築することも可能である。
(第3の実施形態)
次に、第3の実施形態について説明する。
第3の実施形態は、見出し語に対応する文字列画像の特徴量コード列は、複数の種類のフォントを使用し、各フォントの種類に対応した文字列画像の特徴量コード列を求める。そして、文書画像から抽出した文字列画像の特徴量コード列と、各フォントの種類に対応した文字列画像の特徴量コード列と、を比較することを特徴とする。これにより、見出し語に対応する文字列画像のフォントの種類が、文書画像で使用しているフォントの種類と類似する可能性を向上させることが可能となる。その結果、特徴量コード列に基づく照合でも文字列画像が一致する可能性が高く、照合失敗を回避することが可能となる。以下、第3の実施形態について説明する。
文書画像で使用しているフォントの種類と、見出し語(文字列テキスト)から文字列画像に変換する際に使用するフォントの種類と、が一致する場合には、特徴量コード列による照合が成功することになる。しかし、両者のフォントの種類が一致しない場合には、変換後の特徴量コード列が異なるため、文字列としては同じであっても、文字列画像同士が一致しない可能性がある。なお、文書画像のフォントの種類を変えることは不可能であるが、見出し語(文字列テキスト)から文字列画像を生成する際に使用するフォントの種類を変更する方が容易である。
このため、本実施形態では、見出し語(文字列テキスト)から文字列画像に変換する際に、複数の種類のフォントを使用し、各フォントの種類に対応した文字列画像の特徴量コード列に変換すれば、見出し語(文字列テキスト)の文字列画像のフォントの種類が、文書画像で使用しているフォントの種類と類似する可能性を向上させることが可能となる。その結果、特徴量コード列に基づく照合でも文字列画像が一致する可能性が高く、照合失敗を回避することが可能となる。なお、図17に、文字コードを文字列画像に変換し、さらに特徴量コード列に変換する例を示す。図17では、『文字コード』に対し、『フォント生成』を行い、『文字列画像』に変換する。この時、複数のフォントの種類を仮定し、その各フォントの種類に対応した『文字列画像』に変換することになる。そして、その各フォントの種類に対応した『文字列画像』に対し、『特徴量コード変換』を行い、各フォントの種類に対応した『文字列画像』の『特徴量コード列{ajhotnmluneajaaahb…}、{luneajaaajhotnmahb…}、{aneajaanmluahbjhot…}』に変換した例を示している。
(第4の実施形態)
次に、第4の実施形態について説明する。
第4の実施形態は、見出し語には、複合語が含まれることを特徴とする。これにより、見出し語に対応する文字列画像の特徴量コード列を長くすることが可能となるため、誤った文字列画像の照合を回避することが可能となる。以下、第4の実施形態について説明する。
短い文字列は、特徴量が少ないので誤って照合する恐れがある。文字列が長ければ長いほど特徴量が増えるので、誤って照合してしまう可能性が低くなる。特に、接頭辞(新-:新 + 幹線 = 新幹線、反-:反 + 体制 = 反体制、など、英語なら anti-,sub- など)や、接尾辞(-的:圧倒 + 的 = 圧倒的、-性:揮発 + 性 = 揮発性、英語なら-able,-wise など)は、他の語と接続して意味を変化させる性質があるので、文字列としては短く、それ単独では成立しない傾向がある。つまり、他の語と組み合わさった状態で文章中に存在する可能性が高いと言える。纏めると、これらの接頭辞、接尾辞は、文字列が短く、文字列画像として照合し難い。これらの接頭辞、接尾辞は、単独では成立せず、他の語と接続した状態で使われるので、接頭辞や接尾辞のみを文書画像中から抽出することは、困難で、かつ、不必要なことだといえる。
よって、一般の辞書や仮名漢字辞書では、見出し語として登録されていない、接頭辞や接尾辞を接続した状態の見出し語を、本実施形態で使用する単語辞書に積極的に登録しておけば、見出し語の見かけ上の文字列が長くなるので、特徴量コード列の長さも長くなり、誤った文字列画像の照合を回避することが可能となる。なお、接頭辞、接尾辞に関わらず、頻出する複合語は見出し語として登録しておけば、上記と同様の効果が得られることは明らかである。
(第5の実施形態)
次に、第5の実施形態について説明する。
第5の実施形態は、活用規則を用いて見出し語を変化させることを特徴とする。これにより、実際に文書画像で使用される見出し語にすることが可能となる。以下、第5の実施形態について詳細に説明する。
一般的に、単語辞書に登録されている見出し語は、基本形である。実際に使用される場面においては活用変化した状態であることが多い。規則的な活用の場合には、活用変化表を用意しておき、見出し語が活用形であるならば、変化後のテキストを生成した後、文字列画像に変換し、特徴量コード列に変換する。
例えば、単語辞書の見出し語には『書く』しか登録されていない場合でも、見出し語『書く』は、カ行五段活用と品詞情報からわかるので、図18に示す活用表を用いて、以下の活用変化を生成することが可能となる。
『書か』、『書こ』→未然形
『書き』、『書い』→連用形
『書く』→終止形
『書く』→連体形
『書け』→已然形
『書け』→命令形
なお、上記例では、日本語の動詞を例に説明したが、他の品詞、他の言語においても規則変化するものは、単語辞書に登録されている見出し語から活用変化形を生成できることは明らかである。
(第6の実施形態)
次に、第6の実施形態について説明する。
第6の実施形態は、上述した文書処理装置における処理を、クライアント・サーバ形式のシステム構成で行うことを特徴とする。即ち、1つの文書処理装置ではなく、複数の装置を用いたシステム構成で、上述した文書処理装置における機能を行うように構築することも可能である。以下、第6の実施形態について説明する。
文書画像からテキスト情報を抽出するにあたり、その実現形態がクライアント・サーバ形式である場合を考える。クライアントとしては、カメラ付き携帯電話や、サーバと無線/有線接続されたデジタルカメラなどが該当する。
図19にクライアント・サーバ形式のシステム構成例を示す。本実施形態におけるシステム構成では、まず、クライアント側で文書画像を撮影し、その撮影した文書画像をサーバ側に送信する『1』。サーバ側は、文書画像に含まれる文字列画像を抽出し、その抽出した文字列画像を基に、文書画像のテキスト情報を生成する。そして、そのテキスト情報をクライアント側に送信する『2』。
なお、クライアントの機器の演算能力が貧弱な場合には、クライアントで撮影した文書画像を特徴コード系列に変換する処理がボトルネックとなり、サーバ側で高速に画像照合処理を実施したとしても、最終結果を得るには時間がかかる。よって、クライアントの機器の演算能力が貧弱な場合には、クライアントで撮影した文書画像をサーバ側に送信し、クライアントより高性能なサーバ側で特徴コード列に変換し、画像照合するように構築すれば、最終結果を得るまでの時間を短縮することが可能となる。その結果、ユーザの使用感を著しく改善することが可能となる。
なお、上述したクライアント・サーバ形式において、クライアント機器が高性能であれば、クライアント側で文書画像から特徴量コード列に変換し、特徴量コード列のみをサーバ側に送信することが可能である。文書画像そのものよりも特徴量コード列の方が、情報量が小さい。そのため、サーバとクライアントとの間の通信量を低減することができる。通信経路の転送能力が貧弱な場合には、送信が全処理のボトルネックになることがあり、本方式は、それを避けることが可能となる。
(第7の実施形態)
次に、第7の実施形態について説明する。
第7の実施形態は、上述した処理で文書画像から変換したテキスト情報を検索キーとし、検索処理を行うことを特徴とする。これにより、上述した処理で得られたテキスト情報を基に、検索処理を容易に行うことが可能となる。以下、第7の実施形態について説明する。
一般的に検索可能な情報は、文字コードを用いてデータベースに蓄積されており、使用者はキーボードなどの文字コード入力手段を用いて、文字列を入力し、データベース中から所望するデータを検索する。しかし、携帯機器のようにフルキーボードを備えにくい機器、あるいは、手が使用できない状況にある場合には、文字列を入力することは困難を伴う。
一方、カメラ付き携帯電話やデジタルカメラを用いて文書画像を撮影する場合には、シャッターを押すだけで済むことが多く、文字列を入力することと比較すると、操作は著しく単純となる。
本実施形態では、文書画像から、その中に含まれるテキスト情報を抽出することができるので、文字列による検索が可能な一般的なデータベースを検索対象とする場合でも、文字入力の負担なく、文書画像に関連した情報を検索することができ、利用者の使用感を著しく改善することが可能となる。
図20に、文書画像からテキスト情報を検索するシステム構成例を示す。本実施形態におけるシステム構成では、まず、クライアント側で文書画像を撮影し、その撮影した文書画像をサーバ側に送信する『1』。サーバ側は、文書画像に含まれる文字列画像を抽出し、その抽出した文字列画像を基に、文書画像のテキスト情報を生成する。そして、そのテキスト情報をデータベースサーバに送信する『2』。データベースサーバは、テキスト情報を質問単語とし、データベースを検索し、その検索結果をクライアント側に送信する『3』。
(第8の実施形態)
次に、第8の実施形態について説明する。
第8の実施形態は、ユーザ毎に見出し語の追加および削除を行うことを特徴とする。これにより、ユーザに応じたテキスト情報を生成することが可能となる。以下、第8の実施形態について説明する。
単語辞書に登録されている見出し語は、一般的な使用者を想定して選定されており、特殊な単語は登録されていない。その結果、上述した実施形態においては、単語辞書に登録されていない単語のテキスト情報を文書画像から抽出することはできない。
また、一般的な単語であっても、使用者にとっては不要な単語が登録されている場合もある。例えば、ある使用者は、テキスト変換結果として名詞しか必要でない場合は、単語辞書に登録されている他品詞の見出し語のテキスト変換結果を求めることは処理時間が増大したり、不要なテキスト結果が混入したりと好ましくない。
そこで、本実施形態では、使用者ごとに単語辞書の見出し語を追加したり削除したりする機能を設ける。これにより、使用者は、自身が必要とする状態の単語辞書を用いて、文書画像からテキスト情報に変換することが可能となる。図21に、システム辞書とユーザ辞書とを備えた単語辞書の例を示す。図21では、『使用:○/×』、『見出し語』、『品詞』、『特徴量コード列』を関連付けて管理している。なお、『使用:○/×』は、ユーザによってその見出し語を使用するか否かを設定することになる。本実施形態では、見出し語を使用する場合は、『使用:○』と設定し、見出し語を使用しない場合は、『使用:×』と設定する。
なお、上述する実施形態は、本発明の好適な実施形態であり、上記実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において当業者が上記実施形態の修正や代用を行い、種々の変更を施した形態を構築することは可能である。
例えば、上述した実施形態における文書処理装置における制御動作は、ハードウェア、または、ソフトウェア、あるいは、両者の複合構成によって実行することも可能である。
なお、ソフトウェアによる処理を実行する場合には、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれているコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。
例えば、プログラムは、記録媒体としてのハードディスクやROM(Read Only Memory)に予め記録しておくことが可能である。あるいは、プログラムは、フロッピー(登録商標)ディスク、CD−ROM(Compact Disc Read Only Memory),MO(Magneto optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体に、一時的、あるいは、永続的に格納(記録)しておくことが可能である。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウエアとして提供することが可能である。
なお、プログラムは、上述したようなリムーバブル記録媒体からコンピュータにインストールする他、ダウンロードサイトから、コンピュータに無線転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送したりし、コンピュータでは、転送されてきたプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることが可能である。
また、上記実施形態で説明した処理動作に従って時系列的に実行されるのみならず、処理を実行する装置の処理能力、あるいは、必要に応じて並列的にあるいは個別に実行するように構築することも可能である。また、上記実施形態で説明した文書処理装置は、複数の装置の論理的集合構成にしたり、各構成の装置が同一筐体内に存在する構成にしたりするように構築することも可能である。
本発明にかかる文書処理装置、文書処理システム、文書処理方法及び文書処理プログラムは、文書画像をテキスト情報に変換する機器に適用可能である。
本実施形態における文書処理装置のハードウェア構成を示す図である。 本実施形態における文書処理装置の機能的構成を示すブロック図である。 本実施形態における文書処理装置を用いたネットワーク構成の一例を示す図である。 文書画像例を示す図である。 原画像と、射影ヒストグラムと、の関係を示す図である。 射影ヒストグラムと、量子化結果と、の関係を示す図である。 Ngramリストの求め方を説明するための図である。 Ngramリストを用いて文書画像の一致度を評価する場合を説明する図である。 trigramを使用した文書画像照合を説明するための図である。 文書画像照合処理のフローチャートである。 図10に示すステップS4(シンボル生成処理)の詳細処理を示すフローチャートである。 単語辞書の例を示す図である。 文字コードを文字列画像に変換し、さらに、特徴量コード列に変換する例を説明するための図である。 文書画像中の文字列画像と、単語辞書から作成した文字列画像と、が一致した状態を示す図である。 文書画像をテキスト情報に変換した状態を示す図である。 単語辞書の例を示す図である。 文字コードを、複数のフォントの種類の文字列画像に変換し、さらに、特徴量コード列に変換する例を説明するための図である。 活用表の例を示す図である。 クライアント・サーバ形式のシステム構成例を示す図である。 文書画像を用いてテキスト情報を検索する例を示す図である。 システム辞書とユーザ辞書とを備えた単語辞書の例を示す図である。
符号の説明
201 画像入力部
202 矩形抽出部
203 行切り出し部
204 シンボル生成部
205 出現頻度集計部
206 判定部
207 表示部

Claims (12)

  1. 文書画像をテキスト情報に変換する文書処理装置であって、
    文書画像から文字列画像の特徴量を抽出する抽出手段と、
    前記抽出手段で抽出した文字列画像の特徴量と、単語辞書に含まれる見出し語に対応する文字列画像の特徴量と、を比較し、両者の特徴量が所定の条件を満足した文書画像の文字列画像をテキスト情報として記録する記録手段と、
    を有することを特徴とする文書処理装置。
  2. 前記見出し語に対応する文字列画像の特徴量を、前記見出し語と関連付けて記憶する記憶手段を有し、
    前記記録手段は、
    前記抽出手段で抽出した文字列画像の特徴量と、前記記憶手段に記憶した文字列画像の特徴量と、を比較することを特徴とする請求項1記載の文書処理装置。
  3. 前記見出し語に対応する文字列画像の特徴量は、複数の種類のフォントを使用し、各フォントの種類に対応した文字列画像の特徴量を求め、
    前記記録手段は、
    前記抽出手段で抽出した文字列画像の特徴量と、各フォントの種類に対応した文字列画像の特徴量と、を比較することを特徴とする請求項1または2記載の文書処理装置。
  4. 前記見出し語には、複合語が含まれることを特徴とする請求項1から3の何れか1項に記載の文書処理装置。
  5. 活用規則を用いて前記見出し語を変化させる手段を有することを特徴とする請求項1から4の何れか1項に記載の文書処理装置。
  6. 前記変換手段で変換したテキスト情報を検索キーとして検索処理を行う検索手段を有することを特徴とする請求項1から5の何れか1項に記載の文書処理装置。
  7. ユーザ毎に見出し語の追加および削除を行う手段を有することを特徴とする請求項1から6の何れか1項に記載の文書処理装置。
  8. 文書画像をテキスト情報に変換する文書処理システムであって、
    文書画像から文字列画像の特徴量を抽出する抽出手段と、
    前記抽出手段で抽出した文字列画像の特徴量と、単語辞書に含まれる見出し語に対応する文字列画像の特徴量と、を比較し、両者の特徴量が所定の条件を満足した文書画像の文字列画像をテキスト情報として記録する記録手段と、
    を有することを特徴とする文書処理システム。
  9. 前記文書処理システムは、クライアント装置と、サーバ装置と、を有して構成し、
    クライアント装置は、
    文書画像を前記サーバ装置に送信し、
    前記サーバ装置は、
    前記抽出手段と、前記記録手段と、を有し、
    前記文書画像をテキスト情報に変換することを特徴とする請求項8記載の文書処理システム。
  10. 前記文書処理システムは、クライアント装置と、サーバ装置と、を有して構成し、
    前記クライアント装置は、
    前記抽出手段を有し、
    文書画像の文字列画像の特徴量を前記サーバ装置に送信し、
    前記サーバ装置は、
    前記記録手段を有し、
    前記文書画像をテキスト情報に変換することを特徴とする請求項8記載の文書処理システム。
  11. 文書画像をテキスト情報に変換する文書処理方法であって、
    文書画像から文字列画像の特徴量を抽出する抽出工程と、
    前記抽出工程で抽出した文字列画像の特徴量と、単語辞書に含まれる見出し語に対応する文字列画像の特徴量と、を比較し、両者の特徴量が所定の条件を満足した文書画像の文字列画像をテキスト情報として記録する記録工程と、
    を有することを特徴とする文書処理方法。
  12. 文書画像をテキスト情報に変換する文書処理プログラムであって、
    文書画像から文字列画像の特徴量を抽出する抽出処理と、
    前記抽出処理で抽出した文字列画像の特徴量と、単語辞書に含まれる見出し語に対応する文字列画像の特徴量と、を比較し、両者の特徴量が所定の条件を満足した文書画像の文字列画像をテキスト情報として記録する記録処理と、
    を、コンピュータに実行させることを特徴とする文書処理プログラム。
JP2007280889A 2007-10-29 2007-10-29 文書処理装置、文書処理システム、文書処理方法及び文書処理プログラム Withdrawn JP2009110204A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007280889A JP2009110204A (ja) 2007-10-29 2007-10-29 文書処理装置、文書処理システム、文書処理方法及び文書処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007280889A JP2009110204A (ja) 2007-10-29 2007-10-29 文書処理装置、文書処理システム、文書処理方法及び文書処理プログラム

Publications (1)

Publication Number Publication Date
JP2009110204A true JP2009110204A (ja) 2009-05-21

Family

ID=40778645

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007280889A Withdrawn JP2009110204A (ja) 2007-10-29 2007-10-29 文書処理装置、文書処理システム、文書処理方法及び文書処理プログラム

Country Status (1)

Country Link
JP (1) JP2009110204A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017033205A (ja) * 2015-07-31 2017-02-09 富士通フロンテック株式会社 記載内容認識システム、記載内容認識方法、及び記載内容認識プログラム
JP2020516969A (ja) * 2017-06-09 2020-06-11 アリババ グループ ホウルディング リミテッド ビジネスプロセス開始方法及び装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017033205A (ja) * 2015-07-31 2017-02-09 富士通フロンテック株式会社 記載内容認識システム、記載内容認識方法、及び記載内容認識プログラム
JP2020516969A (ja) * 2017-06-09 2020-06-11 アリババ グループ ホウルディング リミテッド ビジネスプロセス開始方法及び装置

Similar Documents

Publication Publication Date Title
AU2020279921B2 (en) Representative document hierarchy generation
JP4533920B2 (ja) 画像文書処理装置、画像文書処理方法、画像処理プログラムおよび画像処理プログラムを記録した記録媒体
US8290269B2 (en) Image document processing device, image document processing method, program, and storage medium
US20070143272A1 (en) Method and apparatus for retrieving similar image
EP0844583A2 (en) Method and apparatus for character recognition
KR100979457B1 (ko) 혼합 미디어 환경에서의 이미지 정합 방법 및 시스템
JP2009026287A (ja) 文字画像抽出装置および文字画像抽出方法
JP2004334334A (ja) 文書検索装置、文書検索方法及び記憶媒体
JP2004326491A (ja) 画像処理方法
EP2806336A1 (en) Text prediction in a text input associated with an image
JP7149721B2 (ja) 情報処理装置、文字認識エンジン最適化方法及びプログラム
US7359896B2 (en) Information retrieving system, information retrieving method, and information retrieving program
JP2007122403A (ja) 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム
CN1121605A (zh) 信息处理方法和设备
CN115116082B (zh) 一种基于ocr识别算法的一键成档系统
KR100960640B1 (ko) 전자 문서에 핫스폿을 임베딩하는 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
JP2008129793A (ja) 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体
JP2011065255A (ja) データ処理装置、データ名生成方法及びコンピュータプログラム
JP2008225695A (ja) 文字認識誤り修正装置およびプログラム
JP4576211B2 (ja) 文書情報検索システム
JP2009110204A (ja) 文書処理装置、文書処理システム、文書処理方法及び文書処理プログラム
JP7315420B2 (ja) テキストの適合および修正の方法
JP7172343B2 (ja) 文書検索用プログラム
Yasin et al. Transformer-Based Neural Machine Translation for Post-OCR Error Correction in Cursive Text
JP4334068B2 (ja) イメージ文書のキーワード抽出方法及び装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20110104