JP2009110204A

JP2009110204A - 文書処理装置、文書処理システム、文書処理方法及び文書処理プログラム

Info

Publication number: JP2009110204A
Application number: JP2007280889A
Authority: JP
Inventors: Yoshihisa Oguro; 慶久大黒
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2007-10-29
Filing date: 2007-10-29
Publication date: 2009-05-21

Abstract

【課題】文書画像からテキスト情報に変換するにあたり、簡易かつ高速に変換処理を実行することが可能な文書処理装置を提供する。
【解決手段】文書画像から文字列画像の特徴量を抽出する。そして、その抽出した文字列画像の特徴量と、単語辞書に含まれる見出し語に対応する文字列画像の特徴量と、を比較し、両者の特徴量が所定の条件を満足した文書画像の文字列画像をテキスト情報として記録する。これにより、単語辞書に含まれる見出し語に対応する文字列画像の特徴量を用いて、文書画像からテキスト情報に変換することになる。
【選択図】図１５

Description

本発明は、文書画像をテキスト情報に変換する文書処理装置、文書処理システム、文書処理方法及び文書処理プログラムに関するものである。

従来、文書画像中の文字成分の外接矩形から文字行を抽出し、出力する技術が提案されている。この技術は、文字の外接矩形の形状および位置に関する特徴（大きさ、間隔など）について、複数の制約を適用することにより文字行を抽出するものである。

しかし、上記従来技術では、文字行を判断するためには、外接矩形に関する複数の制約を人手操作により最適値に調整する必要がある。しかも、文字行らしさは判断できるものの、文字行の内容に関する特徴を求めることはできない。

このようなことから、本発明より先に出願された技術文献として、文字行画像の行内矩形の配置状態を表す特徴を抽出し、これらを固定段階に量子化してシンボルを生成することにより、文字認識することなく、文字行の特徴の抽出が可能になり、効率的な文字行の内容に関する検索が行える技術について開示された文献がある（例えば、特許文献１参照）。
特開２００５−２４２５７９号公報

なお、画像特徴によって画像を検索する場合、検索対象は画像に限定され、大量に蓄積されている（文字コードによる）電子データを検索することはできない。一方、文書画像からテキスト情報を抽出する手段としてはOCRが開発されているが、ノイズが付加したり、画像変形などが発生したりするため、認識精度が大きく低下し、かつ、処理時間および計算資源も多く要求することになる。

このため、文書画像からテキスト情報に変換するにあたり、簡易かつ高速に変換処理を実行する方法の開発が必要視されることになる。

本発明は、上記事情に鑑みてなされたものであり、上述した課題である、文書画像からテキスト情報に変換するにあたり、簡易かつ高速に変換処理を実行することが可能な文書処理装置、文書処理システム、文書処理方法及び文書処理プログラムを提供することを目的とするものである。

かかる目的を達成するために、本発明は、以下の特徴を有することとする。

＜文書処理装置＞
本発明にかかる文書処理装置は、
文書画像をテキスト情報に変換する文書処理装置であって、
文書画像から文字列画像の特徴量を抽出する抽出手段と、
前記抽出手段で抽出した文字列画像の特徴量と、単語辞書に含まれる見出し語に対応する文字列画像の特徴量と、を比較し、両者の特徴量が所定の条件を満足した文書画像の文字列画像をテキスト情報として記録する記録手段と、
を有することを特徴とする。

＜文書処理システム＞
また、本発明にかかる文書処理システムは、
文書画像をテキスト情報に変換する文書処理システムであって、
文書画像から文字列画像の特徴量を抽出する抽出手段と、
前記抽出手段で抽出した文字列画像の特徴量と、単語辞書に含まれる見出し語に対応する文字列画像の特徴量と、を比較し、両者の特徴量が所定の条件を満足した文書画像の文字列画像をテキスト情報として記録する記録手段と、
を有することを特徴とする。

＜文書処理方法＞
また、本発明にかかる文書処理方法は、
文書画像をテキスト情報に変換する文書処理方法であって、
文書画像から文字列画像の特徴量を抽出する抽出工程と、
前記抽出工程で抽出した文字列画像の特徴量と、単語辞書に含まれる見出し語に対応する文字列画像の特徴量と、を比較し、両者の特徴量が所定の条件を満足した文書画像の文字列画像をテキスト情報として記録する記録工程と、
を有することを特徴とする。

＜文書処理プログラム＞
また、本発明にかかる文書処理プログラムは、
文書画像をテキスト情報に変換する文書処理プログラムであって、
文書画像から文字列画像の特徴量を抽出する抽出処理と、
前記抽出処理で抽出した文字列画像の特徴量と、単語辞書に含まれる見出し語に対応する文字列画像の特徴量と、を比較し、両者の特徴量が所定の条件を満足した文書画像の文字列画像をテキスト情報として記録する記録処理と、
を、コンピュータに実行させることを特徴とする。

本発明によれば、文書画像からテキスト情報に変換するにあたり、簡易かつ高速に変換処理を実行することが可能となる。

まず、本実施形態の文書処理装置の概要について説明する。

本実施形態の文書処理装置は、文書画像から文字列画像の特徴量を抽出する。そして、その抽出した文字列画像の特徴量と、単語辞書に含まれる見出し語に対応する文字列画像の特徴量と、を比較し、両者の特徴量が所定の条件を満足した文書画像の文字列画像をテキスト情報として記録する。これにより、単語辞書に含まれる見出し語に対応する文字列画像の特徴量を用いて、文書画像からテキスト情報に変換することになる。その結果、文書画像からテキスト情報に変換するにあたり、簡易かつ高速に変換処理を実行することが可能となる。以下、添付図面を参照しながら、本実施形態について詳細に説明する。

＜文書処理装置のハードウェア構成＞
まず、本実施形態における文書処理装置のハードウェア構成について説明する。図１は、本実施形態における文書処理装置のハードウェア構成を示す図である。

本実施形態における文書処理装置は、ＣＰＵ１０１、ＲＯＭ１０２、ＲＡＭ１０３、ＨＤＤ（ハードディスクドライブ）１０４、ＨＤ（ハードディスク）１０５、ＦＤＤ（フレキシブルディスクドライブ）１０６、ＦＤ１１２、ディスプレイ１０７、ネットワークボード１０８、キーボード１０９、マウス１１０、およびスキャナ１１１が、バス１００で接続して構成している。

ＣＰＵ１０１は、装置全体を制御する。ＲＯＭ１０２は、基本入出力プログラムを記憶する。ＲＡＭ１０３は、ＣＰＵ１０１のワークエリアとして使用する。ＨＤＤ１０４は、ＣＰＵ１０１の制御に従ってＨＤ１０５に対するデータのリード／ライトの制御を行う。ＨＤ１０５は、ＨＤＤ１０４の制御に従って書き込まれたデータを記憶する。ＦＤＤ１０６は、ＣＰＵ１０１の制御に従ってＦＤ（フレキシブルディスク）１１２に対するデータのリード／ライトの制御を行う。ＦＤ１１２は、着脱自在になっており、ＦＤＤ１０６の制御に従って書き込まれたデータを記憶する。ディスプレイ１０７は、カーソル、メニュー、ウインドウ、あるいは文字や画像等の各種データの表示を行う。ネットワークボード１０８は、通信ケーブル１１３を介してネットワーク１１４と接続する。キーボード１０９は、各種情報の入力を行う。マウス１１０は、ディスプレイ１０７に表示されたカーソル、メニュー、ウインドウの移動や選択、開閉操作を行う。スキャナ１１１は、文字や画像の光学的な読み取りを行う。

＜文書処理装置の機能的構成＞
次に、本実施形態における文書処理装置の機能的構成を説明する。図２は、本実施形態の文書処理装置の機能的構成を示すブロック図である。本実施形態における文書処理装置は、画像入力部２０１、矩形抽出部２０２、行切り出し部２０３、シンボル生成部２０４、出現頻度集計部２０５、判定部２０６、および表示部２０７を有して構成している。

画像入力部２０１は、識別対象の文書画像を入力する。矩形抽出部２０２は、入力部２０１から入力された文書画像から文字領域を抽出する。行切り出し部２０３は、矩形抽出部２０２で抽出した文字領域から行画像を抽出する。シンボル生成部２０４は、行切り出し部２０３で抽出した行画像の各行をシンボル系列に変換する。出現頻度集計部２０５は、シンボル生成部２０４で変換したシンボル系列からN-gram出現頻度を集計する。判定部２０６は、出現頻度集計部２０５による集計結果から、予め行別にN-gram出現頻度を集計する。そして、蓄積済みの行の中から、照合対象行の出現頻度と傾向が類似している行を照合対象行と類似する行と判断する。表示部２０７は、入力された画像や、各処理の経過、結果などの表示を行う。

なお、画像入力部２０１の機能は、図１に示したスキャナ１１１により実現できる。矩形抽出部２０２、行切り出し部２０３、シンボル生成部２０４、出現頻度集計部２０５、判定部２０６の各機能は、図１に示したＣＰＵ１０１により実現できる。表示部２０７の機能は、図１に示したディスプレイ１０７により実現できる。

また、本実施形態の文書処理装置は、通信手段（ネットワークボード１０８）を備えているので、ネットワークと接続できる。例えば、図３に示すように、複数の文書処理装置をネットワーク１１４と接続することで、各装置間においてデータのやり取りが可能になる。また、この文書処理装置を構成する各機能部に通信手段を設ければ、各機能部をネットワーク１１４に接続することで、遠隔地から文書処理装置を操作することが可能になる。

以下、本実施形態における文書処理装置の動作を詳細に説明する。なお、以下の説明では、例えば、図４（ａ）に示すような文書画像に対して、特定の行画像を検索する場合を考える。なお、特定の行画像は、文書画像中と同一である必要はなく、解像度が違っていても、部分的な行として形状が同じであればよい。画像として完全に一致する必要はない。また、本実施形態では、文字領域の単位として文字行を使用するが、本実施形態は、文字行に限定するものではなく、部分行、複数行を使用することも可能である。

図４(ａ)の文書画像における黒画素の外接矩形を求めると、図４(ｂ)になる。求めた外接矩形を、近隣同士を連結していき、行に成長させたものを図４(ｃ)に示す。これが行切り出し処理である。

図５に原画像と、その射影ヒストグラムを示す。射影ヒストグラムは、原画像において、行方向と垂直方向に黒画素を計数したものである。文字の形状が異なると、射影ヒストグラムの波形も異なることがわかる。つまり、文字画像の特徴として射影ヒストグラムが利用可能であるといえる。文字画像としては文字間の分割を前提としていないので、手書き文字や筆記体、アラビア文字など、一行に並ぶ言語であれば、言語種類を問わず、射影ヒストグラムを作成することが可能である。

射影ヒストグラムの垂直軸は、黒画素数であり、同じ文字でも画像サイズが異なると黒画素数が異なるが、各値の相対的な関係は画像サイズに依存しない。射影ヒストグラムの値は、黒画素数であるから、１画素単位に変化する。射影ヒストグラムの値は、読取条件の違いやノイズ、かすれなどの影響により変化するが、波形の形状の概形に関していえば安定している。よって、射影ヒストグラムの正確な値を用いて、波形を照合することに意味はなく、およその値を利用しても波形形状特徴を十分表現することが可能である。

図６に射影ヒストグラムの値を固定段階に量子化した図を示す。図６において、水平方向の座標ｉの位置での射影ヒストグラムの値をyiとする。yiに関して以下の基準に基づいて量子化するとyiは、５段階の値に変換される。

０≦yi＜１０→０段階
１０≦yi＜２０→１段階
２０≦yi＜３０→２段階
３０≦yi＜４０→３段階
４０≦yi→４段階

なお、図６に示す『量子化結果』が、図５に示す『射影ヒストグラム』の値を量子化した後の値であり、量子化後の値をプロットした波形も原波形と共に併記する。図６に示すように、量子化後の波形が原波形の概形を表現していることがわかる。

上記の過程を経ると、各射影ヒストグラムの値は５段階に制限され、各段階をシンボル化することが可能になる。例えば、以下のルールによって変換できる。

０≦yi＜１０→０→ａ
１０≦yi＜２０→１→ｂ
２０≦yi＜３０→２→ｃ
３０≦yi＜４０→３→ｄ
４０≦yi→４→ｅ

上記のシンボル化ルールに従うと言語を問わず、一般的な文字領域画像は、文字領域画像→射影ヒストグラム→量子化→シンボル化という過程を経れば、『文字領域画像』＝『abaabcceeaaa.....』と文字画像の特徴を保持したままシンボル系列化することができるといえる。

従って、２つの文字領域画像を比較する作業、例えば、画像検索においては被検索（データベース）領域画像および、検索（クエリー）領域画像の両方をシンボル系列化することで、シンボル系列間を照合する問題へと帰着することになる。

『データベース画像』＝『abaabcceeaaa.....』
『クエリー画像』＝『cceeaaabaababccee....』

なお、本実施形態におけるシンボル系列間の比較は、公知のテキスト処理の技術で実現することが可能である。例えば、動的計画法(Dynamic Programming)に基づく文字列照合法により、２つの文字列間の距離を算出し、それを利用すれば２つの文字列の類似性を判断することができる。距離尺度としては編集距離などが代表的である。

また、N-gram法を用いて２つの文字列間の類似性を判断する方法もある。図７、図８に、N-gram法を利用した文字列照合を示す。なお、図７は、N=3、trigramを用いた場合のN-gramリストの作成方法である。

文字列を固定文字数（図７では、３文字）ずらしながら、部分文字列を計数してN-gramリストを作成する。２つの文字列が類似しているほど、N-gramリストの結果が類似することになる。類似性の判定基準の一例としては、２つのN-gramリストにおいて共通する部分文字列の数を計数し、一定値以上であれば類似していると判定することができる。

また、図８に示すように、２つの文書の類似性を判定する場合には、各文書（文書Ａ、文書Ｂ）に含まれる文字領域をシンボル系列化することで、文書画像の比較問題は、シンボル系列の比較問題へと帰着することになる。なお、文書から文字領域を抽出する方法は、領域識別やレイアウト分析など、文字認識分野において一般的な技術を適用することが可能である。なお、図８では、各文書（文書Ａ、文書Ｂ）を基に、trigramリスト（trigramリストＡ、trigramリストＢ）を生成し、その生成した各trigramリストを比較し、文書（文書Ａ、文書Ｂ）の一致度を評価する場合を示している。

なお、図９は、N-gramリストの照合方法として順位相関係数を用いる例である。図９では、照合したい画像の文字領域画像をシンボルに変換し（ステップＳ９０１）、所定領域内でtrigramを集計し（ステップＳ９０２）、trigramの出現頻度集計表を作成する（ステップＳ９０３）。

一方、照合対象画像の文字領域画像をシンボルに変換し（ステップＳ９０４）、所定領域内でtrigramを集計し（ステップＳ９０５）、trigramの出現頻度集計表を作成する（ステップＳ９０６）。最後に、ステップＳ９０３で作成したtrigramの出現頻度集計表と、ステップＳ９０６で作成したtrigramの出現頻度集計表と、を照合し、順位相関係数を求めることで（ステップＳ９０７）最も高い出現頻度を示した行が、照合対象行と類似する行と判定することになる。

（文書処理の手順）
次に、図１０を参照しながら、本実施形態における文書処理装置を用いた文書処理の手順を説明する。図１０は、文書処理の手順を示すフローチャートである。

まず、画像入力部２０１は、識別対象の文書画像を入力する（ステップＳ１）。なお、画像入力部２０１は、必要な画像処理（ノイズ除去、２値化など）を実施することになる。

次に、矩形抽出部２０２は、入力された文書画像から文字領域を抽出する（ステップＳ２）。なお、矩形抽出部２０２は、領域識別（レイアウト分析）により、文字領域を抽出することになる。

次に、行切り出し部２０３は、矩形抽出部２０２で抽出した文字領域から行画像を抽出する（ステップＳ３）。そして、シンボル生成部２０４は、行切り出し部２０３で抽出した行画像の各行をシンボル系列に変換する（ステップＳ４）。

出現頻度集計部２０５は、シンボル生成部２０４で変換したシンボル系列からN-gram出現頻度を集計する（ステップＳ５）。最後に、判定部２０６は、出現頻度集計部２０５による集計結果を基に、出現頻度の傾向について、最も高い類似性を示した行が、照合対象行と類似する行と判断することになる（ステップＳ６）。なお、ステップＳ５、ステップＳ６の処理は、ＤＰマッチングによる文字列間距離測定により実現することも可能である。

＜シンボル生成処理の手順＞
次に、図１１を参照しながら、上記ステップＳ４のシンボル生成処理の手順を詳細に説明する。図１１は、シンボル生成処理の手順を示すフローチャートである。

まず、文書画像に表現された文字の行高さを推定する（ステップＳ４−１）。なお、行画像の高さ、あるいは、行内矩形の最大高さなどを推定することになる。次に、行方向と垂直方向の射影ヒストグラムを集計する（ステップＳ４−２）。次に、射影ヒストグラムの値を、上記ステップＳ４-１で推定した行高さに従って量子化する（ステップＳ４−３）。行高さが射影ヒストグラムの最大値であるため、それに比例すればよいことになる。次に、量子化された値をシンボルに変換する（ステップＳ４−４）。そして、変換したシンボル系列を記録する（ステップＳ４−５）。なお、ステップＳ４−１、ステップＳ４−３の処理は、行高さを使用せずに、射影ヒストグラムの最大値を基準に量子化することも可能である。

上記の各処理を行うことで、対象行の画像特徴を、行内矩形の配置状態を表す特徴（新たに行の特徴を抽出する処理ではなく、行切り出し処理の過程で得られる特徴）を抽出して照合することが可能となる。この結果、高速に画像照合処理を実現することが可能となる。

なお、上記の各処理は、照合したい画像の文字列画像と、照合対象画像の文字列画像と、の類似度を計算する一例である。このため、本実施形態は、上記類似度計算を、上記の各処理に限定するものではなく、照合したい画像の文字列画像と、照合対象画像の文字列画像と、を照合することが可能であれば、あらゆる処理を適用することが可能である。

次に、上記の各処理により、照合したい画像の文字列画像と、照合対象画像の文字列画像と、の照合結果が得られたものとし、本実施形態を説明する。

文字画像を認識して文字コードに変換する過程は、文字認識処理であるが、文字画像の読み取り品質などが原因で、認識率が１００％になるとは言えない。また、注目している文字画像と、単語辞書に登録されている文字パターンと、を照合する必要があるので、多くの処理時間を必要とする。

一方、文字コードから文字画像を生成する機能は、ワープロソフトやプリンターなど、表示・印刷装置のフォント生成技術を用いて広く実用化されている。文字コードから文字画像を生成する場合には、文字コードごとに記憶された描画データに基づいて画素を描画部に出力することになる。このため、文字コードから文字画像を生成することは、その逆の文字認識処理と比較し、必要とする計算量が少ないことになる。つまり、文字コードから文字画像への変換は容易に実現することが可能であり、これは、文字列データ（テキストデータ）を文字列画像に変換することも容易であることを意味する。

そこで、本実施形態では、単語辞書に含まれる『見出し語』のテキストデータを、フォント生成技術を用いて文字列画像に変換すれば、『見出し語』のテキストデータと対応する文字列画像のリストを作成することが可能となる。なお、単語辞書は、ワープロソフトの仮名漢字変換などの言語辞書、電子辞書などが利用可能である。なお、単語辞書の例を図１２に示す。図１２では、『見出し語』と『品詞』とが対となった単語辞書の例を示している。なお、『見出し語』とは、辞書等で意味を説明しているそれぞれの単語のことである。

さらに、本実施形態では、文字列画像を、特徴量コード列に変換すれば、『見出し語（文字列テキスト）』、『文字列画像』、『特徴量コード列』の組を作成することができる。なお、図１３に、文字コードを文字列画像に変換し、さらに特徴量コード列に変換する例を示す。図１３では、『文字コード』に対し、『フォント生成』を行い、『文字列画像』に変換する。そして、『文字列画像』に対し、『特徴量コード変換』を行い、『特徴量コード列｛ajhotnmluneajaaahb…｝』に変換した例を示している。

本実施形態では、文字行を含んだ文書画像を文字列画像に変換し、その変換した文字列画像の各行を、特徴量コード列に変換する。そして、単語辞書の『見出し語』に対応する特長量コード列と照合し、文字列画像の特徴量コード列と、単語辞書の特徴量コード列と、の類似度を計算する。そして、予め設定した閾値以上の類似度をもつ『見出し語』を選択することになる。これにより、本実施形態では、文書画像の文字列画像に対応する『見出し語』を取得することが可能となる。

例えば、図１２に示す単語辞書に含まれる『見出し語』に対する特徴量コード列を用いて、図４(ａ)の文書画像と照合した場合、図１４に示すように、文書画像中の文字列画像と、単語辞書から作成した文字列画像と、が一致したとする。なお、各文字列画像と、その元になった見出し語（文字コード列）と、は１対１で対応しているので、文書画像中の文字列画像と、単語辞書から作成した文字列画像と、が一致したら、その一致した文字列画像（テキスト情報）を記録する。これにより、図１４に示す文書画像の中で、特徴量コード列の照合を行った箇所は、図１５に示すように、文字列テキストに変換することが可能となる。特徴量コード列の照合を、他の箇所も同様に行えば、図１４に示す文書画像は、図１２に示す単語辞書に含まれる文字列テキストの集合に変換することができる。文字列テキストに変換した後は、通常の文字列検索装置で検索可能な状態となる。

このように、本実施形態における文書処理装置は、OCRよりも大まかで、かつ行方向に連結可能な画像特徴を用いて、図４に示す文書画像から文字列画像の特徴量コード列を抽出する。そして、その抽出した文字列画像の特徴量コード列と、単語辞書に含まれる見出し語に対応する文字列画像の特徴量コード列と、を比較し、図１４に示すように、両者の特徴量コード列が所定の条件を満足した（例えば、予め設定した閾値以上の類似度を持つ）文字列画像を、テキスト情報として記録し、図１５に示すように、図４に示す文書画像を、テキスト情報に変換する。

これにより、本実施形態における文書処理装置は、多大な計算量を要することなく、文書画像からテキスト情報への変換を実現することが可能となる。その結果、文書画像を用いてテキスト情報を検索することが可能になる。従って、使用者による明示的なテキスト情報の入力を必要としない情報検索機能を備えた文書処理装置を実現することが可能となる。

（第２の実施形態）
次に、第２の実施形態について説明する。

第２の実施形態は、単語辞書に含まれる見出し語に対応する文字列画像の特徴量コード列を、その見出し語と関連づけて記憶し、文書画像から抽出した文字列画像の特徴量コード列と、見出し語に関連づけた文字列画像の特徴量コード列と、を比較し、両者の特徴量コード列が所定の条件を満足した（例えば、予め設定した閾値以上の類似度を持つ）文字列画像を、テキスト情報として記録することを特徴とする。これにより、上述した比較処理を行う場合に、見出し語に対応する文字列画像の特徴量コード列に変換する必要がないので、第１の実施形態よりも処理を簡略化することが可能となる。その結果、第１の実施形態よりも、処理時間を削減することが可能となる。以下、第２の実施形態について詳細に説明する。

第２の実施形態における文書処理装置は、単語辞書に含まれる『見出し語』に対応する『特徴量コード列』を予め求め、図１６に示すように、『特徴量コード列』を『見出し語』と関連付けて蓄積する。これにより、比較処理を行う場合に、『見出し語』を『特徴量コード列』に変換する必要がないので、処理を簡略化することが可能となる。その結果、処理時間を削減することが可能となる。

なお、単語辞書に、『見出し語（文字列テキスト）』、『文字列画像』、『特徴量コード列』を関連づけて記憶するように構築することも可能である。

（第３の実施形態）
次に、第３の実施形態について説明する。

第３の実施形態は、見出し語に対応する文字列画像の特徴量コード列は、複数の種類のフォントを使用し、各フォントの種類に対応した文字列画像の特徴量コード列を求める。そして、文書画像から抽出した文字列画像の特徴量コード列と、各フォントの種類に対応した文字列画像の特徴量コード列と、を比較することを特徴とする。これにより、見出し語に対応する文字列画像のフォントの種類が、文書画像で使用しているフォントの種類と類似する可能性を向上させることが可能となる。その結果、特徴量コード列に基づく照合でも文字列画像が一致する可能性が高く、照合失敗を回避することが可能となる。以下、第３の実施形態について説明する。

文書画像で使用しているフォントの種類と、見出し語（文字列テキスト）から文字列画像に変換する際に使用するフォントの種類と、が一致する場合には、特徴量コード列による照合が成功することになる。しかし、両者のフォントの種類が一致しない場合には、変換後の特徴量コード列が異なるため、文字列としては同じであっても、文字列画像同士が一致しない可能性がある。なお、文書画像のフォントの種類を変えることは不可能であるが、見出し語（文字列テキスト）から文字列画像を生成する際に使用するフォントの種類を変更する方が容易である。

このため、本実施形態では、見出し語（文字列テキスト）から文字列画像に変換する際に、複数の種類のフォントを使用し、各フォントの種類に対応した文字列画像の特徴量コード列に変換すれば、見出し語（文字列テキスト）の文字列画像のフォントの種類が、文書画像で使用しているフォントの種類と類似する可能性を向上させることが可能となる。その結果、特徴量コード列に基づく照合でも文字列画像が一致する可能性が高く、照合失敗を回避することが可能となる。なお、図１７に、文字コードを文字列画像に変換し、さらに特徴量コード列に変換する例を示す。図１７では、『文字コード』に対し、『フォント生成』を行い、『文字列画像』に変換する。この時、複数のフォントの種類を仮定し、その各フォントの種類に対応した『文字列画像』に変換することになる。そして、その各フォントの種類に対応した『文字列画像』に対し、『特徴量コード変換』を行い、各フォントの種類に対応した『文字列画像』の『特徴量コード列｛ajhotnmluneajaaahb…｝、｛luneajaaajhotnmahb…｝、｛aneajaanmluahbjhot…｝』に変換した例を示している。

（第４の実施形態）
次に、第４の実施形態について説明する。

第４の実施形態は、見出し語には、複合語が含まれることを特徴とする。これにより、見出し語に対応する文字列画像の特徴量コード列を長くすることが可能となるため、誤った文字列画像の照合を回避することが可能となる。以下、第４の実施形態について説明する。

短い文字列は、特徴量が少ないので誤って照合する恐れがある。文字列が長ければ長いほど特徴量が増えるので、誤って照合してしまう可能性が低くなる。特に、接頭辞（新-：新 + 幹線 = 新幹線、反-：反 + 体制 = 反体制、など、英語なら anti-,sub- など）や、接尾辞（-的：圧倒 + 的 = 圧倒的、-性：揮発 + 性 = 揮発性、英語なら-able,-wise など）は、他の語と接続して意味を変化させる性質があるので、文字列としては短く、それ単独では成立しない傾向がある。つまり、他の語と組み合わさった状態で文章中に存在する可能性が高いと言える。纏めると、これらの接頭辞、接尾辞は、文字列が短く、文字列画像として照合し難い。これらの接頭辞、接尾辞は、単独では成立せず、他の語と接続した状態で使われるので、接頭辞や接尾辞のみを文書画像中から抽出することは、困難で、かつ、不必要なことだといえる。

よって、一般の辞書や仮名漢字辞書では、見出し語として登録されていない、接頭辞や接尾辞を接続した状態の見出し語を、本実施形態で使用する単語辞書に積極的に登録しておけば、見出し語の見かけ上の文字列が長くなるので、特徴量コード列の長さも長くなり、誤った文字列画像の照合を回避することが可能となる。なお、接頭辞、接尾辞に関わらず、頻出する複合語は見出し語として登録しておけば、上記と同様の効果が得られることは明らかである。

（第５の実施形態）
次に、第５の実施形態について説明する。

第５の実施形態は、活用規則を用いて見出し語を変化させることを特徴とする。これにより、実際に文書画像で使用される見出し語にすることが可能となる。以下、第５の実施形態について詳細に説明する。

一般的に、単語辞書に登録されている見出し語は、基本形である。実際に使用される場面においては活用変化した状態であることが多い。規則的な活用の場合には、活用変化表を用意しておき、見出し語が活用形であるならば、変化後のテキストを生成した後、文字列画像に変換し、特徴量コード列に変換する。

例えば、単語辞書の見出し語には『書く』しか登録されていない場合でも、見出し語『書く』は、カ行五段活用と品詞情報からわかるので、図１８に示す活用表を用いて、以下の活用変化を生成することが可能となる。

『書か』、『書こ』→未然形
『書き』、『書い』→連用形
『書く』→終止形
『書く』→連体形
『書け』→已然形
『書け』→命令形

なお、上記例では、日本語の動詞を例に説明したが、他の品詞、他の言語においても規則変化するものは、単語辞書に登録されている見出し語から活用変化形を生成できることは明らかである。

（第６の実施形態）
次に、第６の実施形態について説明する。

第６の実施形態は、上述した文書処理装置における処理を、クライアント・サーバ形式のシステム構成で行うことを特徴とする。即ち、１つの文書処理装置ではなく、複数の装置を用いたシステム構成で、上述した文書処理装置における機能を行うように構築することも可能である。以下、第６の実施形態について説明する。

文書画像からテキスト情報を抽出するにあたり、その実現形態がクライアント・サーバ形式である場合を考える。クライアントとしては、カメラ付き携帯電話や、サーバと無線／有線接続されたデジタルカメラなどが該当する。

図１９にクライアント・サーバ形式のシステム構成例を示す。本実施形態におけるシステム構成では、まず、クライアント側で文書画像を撮影し、その撮影した文書画像をサーバ側に送信する『１』。サーバ側は、文書画像に含まれる文字列画像を抽出し、その抽出した文字列画像を基に、文書画像のテキスト情報を生成する。そして、そのテキスト情報をクライアント側に送信する『２』。

なお、クライアントの機器の演算能力が貧弱な場合には、クライアントで撮影した文書画像を特徴コード系列に変換する処理がボトルネックとなり、サーバ側で高速に画像照合処理を実施したとしても、最終結果を得るには時間がかかる。よって、クライアントの機器の演算能力が貧弱な場合には、クライアントで撮影した文書画像をサーバ側に送信し、クライアントより高性能なサーバ側で特徴コード列に変換し、画像照合するように構築すれば、最終結果を得るまでの時間を短縮することが可能となる。その結果、ユーザの使用感を著しく改善することが可能となる。

なお、上述したクライアント・サーバ形式において、クライアント機器が高性能であれば、クライアント側で文書画像から特徴量コード列に変換し、特徴量コード列のみをサーバ側に送信することが可能である。文書画像そのものよりも特徴量コード列の方が、情報量が小さい。そのため、サーバとクライアントとの間の通信量を低減することができる。通信経路の転送能力が貧弱な場合には、送信が全処理のボトルネックになることがあり、本方式は、それを避けることが可能となる。

（第７の実施形態）
次に、第７の実施形態について説明する。

第７の実施形態は、上述した処理で文書画像から変換したテキスト情報を検索キーとし、検索処理を行うことを特徴とする。これにより、上述した処理で得られたテキスト情報を基に、検索処理を容易に行うことが可能となる。以下、第７の実施形態について説明する。

一般的に検索可能な情報は、文字コードを用いてデータベースに蓄積されており、使用者はキーボードなどの文字コード入力手段を用いて、文字列を入力し、データベース中から所望するデータを検索する。しかし、携帯機器のようにフルキーボードを備えにくい機器、あるいは、手が使用できない状況にある場合には、文字列を入力することは困難を伴う。

一方、カメラ付き携帯電話やデジタルカメラを用いて文書画像を撮影する場合には、シャッターを押すだけで済むことが多く、文字列を入力することと比較すると、操作は著しく単純となる。

本実施形態では、文書画像から、その中に含まれるテキスト情報を抽出することができるので、文字列による検索が可能な一般的なデータベースを検索対象とする場合でも、文字入力の負担なく、文書画像に関連した情報を検索することができ、利用者の使用感を著しく改善することが可能となる。

図２０に、文書画像からテキスト情報を検索するシステム構成例を示す。本実施形態におけるシステム構成では、まず、クライアント側で文書画像を撮影し、その撮影した文書画像をサーバ側に送信する『１』。サーバ側は、文書画像に含まれる文字列画像を抽出し、その抽出した文字列画像を基に、文書画像のテキスト情報を生成する。そして、そのテキスト情報をデータベースサーバに送信する『２』。データベースサーバは、テキスト情報を質問単語とし、データベースを検索し、その検索結果をクライアント側に送信する『３』。

（第８の実施形態）
次に、第８の実施形態について説明する。

第８の実施形態は、ユーザ毎に見出し語の追加および削除を行うことを特徴とする。これにより、ユーザに応じたテキスト情報を生成することが可能となる。以下、第８の実施形態について説明する。

単語辞書に登録されている見出し語は、一般的な使用者を想定して選定されており、特殊な単語は登録されていない。その結果、上述した実施形態においては、単語辞書に登録されていない単語のテキスト情報を文書画像から抽出することはできない。

また、一般的な単語であっても、使用者にとっては不要な単語が登録されている場合もある。例えば、ある使用者は、テキスト変換結果として名詞しか必要でない場合は、単語辞書に登録されている他品詞の見出し語のテキスト変換結果を求めることは処理時間が増大したり、不要なテキスト結果が混入したりと好ましくない。

そこで、本実施形態では、使用者ごとに単語辞書の見出し語を追加したり削除したりする機能を設ける。これにより、使用者は、自身が必要とする状態の単語辞書を用いて、文書画像からテキスト情報に変換することが可能となる。図２１に、システム辞書とユーザ辞書とを備えた単語辞書の例を示す。図２１では、『使用：○／×』、『見出し語』、『品詞』、『特徴量コード列』を関連付けて管理している。なお、『使用：○／×』は、ユーザによってその見出し語を使用するか否かを設定することになる。本実施形態では、見出し語を使用する場合は、『使用：○』と設定し、見出し語を使用しない場合は、『使用：×』と設定する。

なお、上述する実施形態は、本発明の好適な実施形態であり、上記実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において当業者が上記実施形態の修正や代用を行い、種々の変更を施した形態を構築することは可能である。

例えば、上述した実施形態における文書処理装置における制御動作は、ハードウェア、または、ソフトウェア、あるいは、両者の複合構成によって実行することも可能である。

なお、ソフトウェアによる処理を実行する場合には、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれているコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。

例えば、プログラムは、記録媒体としてのハードディスクやＲＯＭ（Read Only Memory）に予め記録しておくことが可能である。あるいは、プログラムは、フロッピー（登録商標）ディスク、ＣＤ−ＲＯＭ(Compact Disc Read Only Memory)，ＭＯ(Magneto optical)ディスク，ＤＶＤ(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体に、一時的、あるいは、永続的に格納（記録）しておくことが可能である。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウエアとして提供することが可能である。

なお、プログラムは、上述したようなリムーバブル記録媒体からコンピュータにインストールする他、ダウンロードサイトから、コンピュータに無線転送したり、ＬＡＮ(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送したりし、コンピュータでは、転送されてきたプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることが可能である。

また、上記実施形態で説明した処理動作に従って時系列的に実行されるのみならず、処理を実行する装置の処理能力、あるいは、必要に応じて並列的にあるいは個別に実行するように構築することも可能である。また、上記実施形態で説明した文書処理装置は、複数の装置の論理的集合構成にしたり、各構成の装置が同一筐体内に存在する構成にしたりするように構築することも可能である。

本発明にかかる文書処理装置、文書処理システム、文書処理方法及び文書処理プログラムは、文書画像をテキスト情報に変換する機器に適用可能である。

本実施形態における文書処理装置のハードウェア構成を示す図である。本実施形態における文書処理装置の機能的構成を示すブロック図である。本実施形態における文書処理装置を用いたネットワーク構成の一例を示す図である。文書画像例を示す図である。原画像と、射影ヒストグラムと、の関係を示す図である。射影ヒストグラムと、量子化結果と、の関係を示す図である。 Ngramリストの求め方を説明するための図である。 Ngramリストを用いて文書画像の一致度を評価する場合を説明する図である。 trigramを使用した文書画像照合を説明するための図である。文書画像照合処理のフローチャートである。図１０に示すステップＳ４（シンボル生成処理）の詳細処理を示すフローチャートである。単語辞書の例を示す図である。文字コードを文字列画像に変換し、さらに、特徴量コード列に変換する例を説明するための図である。文書画像中の文字列画像と、単語辞書から作成した文字列画像と、が一致した状態を示す図である。文書画像をテキスト情報に変換した状態を示す図である。単語辞書の例を示す図である。文字コードを、複数のフォントの種類の文字列画像に変換し、さらに、特徴量コード列に変換する例を説明するための図である。活用表の例を示す図である。クライアント・サーバ形式のシステム構成例を示す図である。文書画像を用いてテキスト情報を検索する例を示す図である。システム辞書とユーザ辞書とを備えた単語辞書の例を示す図である。

符号の説明

２０１画像入力部
２０２矩形抽出部
２０３行切り出し部
２０４シンボル生成部
２０５出現頻度集計部
２０６判定部
２０７表示部

Claims

文書画像をテキスト情報に変換する文書処理装置であって、
文書画像から文字列画像の特徴量を抽出する抽出手段と、
前記抽出手段で抽出した文字列画像の特徴量と、単語辞書に含まれる見出し語に対応する文字列画像の特徴量と、を比較し、両者の特徴量が所定の条件を満足した文書画像の文字列画像をテキスト情報として記録する記録手段と、
を有することを特徴とする文書処理装置。
前記見出し語に対応する文字列画像の特徴量を、前記見出し語と関連付けて記憶する記憶手段を有し、
前記記録手段は、
前記抽出手段で抽出した文字列画像の特徴量と、前記記憶手段に記憶した文字列画像の特徴量と、を比較することを特徴とする請求項１記載の文書処理装置。
前記見出し語に対応する文字列画像の特徴量は、複数の種類のフォントを使用し、各フォントの種類に対応した文字列画像の特徴量を求め、
前記記録手段は、
前記抽出手段で抽出した文字列画像の特徴量と、各フォントの種類に対応した文字列画像の特徴量と、を比較することを特徴とする請求項１または２記載の文書処理装置。
前記見出し語には、複合語が含まれることを特徴とする請求項１から３の何れか１項に記載の文書処理装置。
活用規則を用いて前記見出し語を変化させる手段を有することを特徴とする請求項１から４の何れか１項に記載の文書処理装置。
前記変換手段で変換したテキスト情報を検索キーとして検索処理を行う検索手段を有することを特徴とする請求項１から５の何れか１項に記載の文書処理装置。
ユーザ毎に見出し語の追加および削除を行う手段を有することを特徴とする請求項１から６の何れか１項に記載の文書処理装置。
文書画像をテキスト情報に変換する文書処理システムであって、
文書画像から文字列画像の特徴量を抽出する抽出手段と、
前記抽出手段で抽出した文字列画像の特徴量と、単語辞書に含まれる見出し語に対応する文字列画像の特徴量と、を比較し、両者の特徴量が所定の条件を満足した文書画像の文字列画像をテキスト情報として記録する記録手段と、
を有することを特徴とする文書処理システム。
前記文書処理システムは、クライアント装置と、サーバ装置と、を有して構成し、
クライアント装置は、
文書画像を前記サーバ装置に送信し、
前記サーバ装置は、
前記抽出手段と、前記記録手段と、を有し、
前記文書画像をテキスト情報に変換することを特徴とする請求項８記載の文書処理システム。
前記文書処理システムは、クライアント装置と、サーバ装置と、を有して構成し、
前記クライアント装置は、
前記抽出手段を有し、
文書画像の文字列画像の特徴量を前記サーバ装置に送信し、
前記サーバ装置は、
前記記録手段を有し、
前記文書画像をテキスト情報に変換することを特徴とする請求項８記載の文書処理システム。
文書画像をテキスト情報に変換する文書処理方法であって、
文書画像から文字列画像の特徴量を抽出する抽出工程と、
前記抽出工程で抽出した文字列画像の特徴量と、単語辞書に含まれる見出し語に対応する文字列画像の特徴量と、を比較し、両者の特徴量が所定の条件を満足した文書画像の文字列画像をテキスト情報として記録する記録工程と、
を有することを特徴とする文書処理方法。
文書画像をテキスト情報に変換する文書処理プログラムであって、
文書画像から文字列画像の特徴量を抽出する抽出処理と、
前記抽出処理で抽出した文字列画像の特徴量と、単語辞書に含まれる見出し語に対応する文字列画像の特徴量と、を比較し、両者の特徴量が所定の条件を満足した文書画像の文字列画像をテキスト情報として記録する記録処理と、
を、コンピュータに実行させることを特徴とする文書処理プログラム。