JP2005242579A

JP2005242579A - 文書処理装置、文書処理方法、および文書処理プログラム

Info

Publication number: JP2005242579A
Application number: JP2004050165A
Authority: JP
Inventors: Yoshihisa Oguro; 慶久大黒
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2004-02-25
Filing date: 2004-02-25
Publication date: 2005-09-08
Anticipated expiration: 2024-02-25
Also published as: JP4504702B2

Abstract

【課題】文字行画像の行内矩形の配置状態を表す特徴を抽出し、これらを固定段階に量子化してシンボルを生成することにより、文字認識をすることなく、文字行の特徴を抽出して文字行の内容を把握すること。
【解決手段】本発明の文書処理装置は、識別対象の原稿画像を入力する画像入力部２０１、前記原稿画像から矩形を抽出する矩形抽出部２０２、前記矩形から行内矩形の切り出し処理を行う行切り出し部２０３、行内矩形の配置状態を表す特徴を抽出し、これらを量子化してシンボルを生成するシンボル生成部２０４、シンボル系列に対して所定の処理を行い、当該シンボル系列の出現確率を言語別に算出し、集計する出現頻度集計部２０５、および出現頻度集計部２０５による集計結果から、最も高い出現確率を示した言語が、照合対象行の属する言語だと判定する判定部２０６を含み構成される。
【選択図】図２

Description

本発明は、文書原稿を、文字認識することなく、文書を特徴づける検索キーを求めることを目的として、文字行の行内矩形の配置状態を表す特徴の集計結果に注目することによって、文字行の形状の特徴を抽出する文書処理装置、文書処理方法、および文書処理プログラムに関する。

従来より、文書画像中の文字成分の外接矩形から文字行を抽出し、出力する技術が提案されている。この技術は、文字の外接矩形の形状および位置に関する特徴(大きさ、間隔など)について、複数の制約を適用することによって文字行を抽出するものである（例えば、特許文献１〜５を参照。）。

国際公開第００／６２２４３号パンフレット特開平１１−１４３８７９号公報特開平１１−２１９４０７号公報特開平９−２３１３１７号公報特開平８−１６１４３０号公報

しかしながら、上記従来技術では、文字行を判断するためには、外接矩形に関する複数の制約を人手によって最適値に調整する必要がある。しかも、文字行らしさは判断できるものの、文字行の内容に関する特徴を求めることはできない。

本発明は、上述した問題点を解消するため、文字行画像の行内矩形の配置状態を表す特徴を抽出し、これらを固定段階に量子化してシンボルを生成することにより、文字認識することなく、文字行の特徴の抽出が可能になり、効率的な文字行の内容に関する検索が行える文書処理装置、文書処理方法、および文書処理プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するため、本発明の請求項１にかかる文書処理装置は、入力された文書画像に対して所定の画像処理を行い、画像の特徴を抽出し、文書処理を行う装置であって、前記文書画像から抽出した文字行画像の行内矩形の始点の行内における高さを固定段階に量子化して固定種類のシンボルを生成する行内高さシンボル生成手段と、前記文字行画像の行高さを推定する行高さ推定手段と、行高さに対する行内矩形の高さの割合を固定段階に量子化して固定種類のシンボルを生成する行内矩形高さ割合シンボル生成手段と、行高さに対する行内矩形の幅の割合を固定段階に量子化して固定種類のシンボルを生成する行内矩形幅割合シンボル生成手段と、前記矩形内の黒画素密度を固定段階に量子化して固定種類のシンボルを生成する黒画素密度シンボル生成手段と、訓練行における行内矩形の配置状態をシンボル系列に変換し、その傾向を学習する訓練行学習手段と、試験行における行内矩形の配置状態をシンボル系列に変換し、前記訓練行学習手段による訓練行の学習結果を用いて、試験行の評価値を算出する評価値算出手段と、前記訓練行学習手段による訓練行の学習結果と前記評価値算出手段により算出された試験行の評価値とを照合し、その類似性を判定する類似性判定手段と、を含み構成されることを特徴とする。

この請求項１に記載の発明によれば、文字行画像の行内矩形の配置状態を表す特徴を抽出し、これらを固定段階に量子化してシンボルを生成することにより、文字認識することなく、文字行の特徴の抽出が可能になり、効率的な文字行の内容に関する検索を行うことができる。

また、請求項２にかかる文書処理装置は、請求項１に記載の発明において、さらに、行内矩形の配置状態を表す複数の特徴のなかから代表的なものを一つ以上抽出し、これに基づいた固定種類のシンボルを生成する代表シンボル生成手段を備えたことを特徴とする。

この請求項２に記載の発明によれば、検索対象によっては不要となる行内矩形の特徴の測定・記録に関する処理を省略でき、より効率的な文書処理を行うことができる。

また、請求項３にかかる文書処理装置は、請求項２に記載の発明において、さらに、行高さに対する、注目矩形と隣接矩形との距離の割合を固定段階に量子化して固定種類のシンボルを生成する距離割合シンボル生成手段を備えたことを特徴とする。

この請求項３に記載の発明によれば、文字行の特徴をより詳細に定義でき、厳密な文字行の判定が可能である。

また、請求項４にかかる文書処理装置は、請求項１に記載の発明において、注目する行内矩形の終点と、隣接する行内矩形の始点との距離を算出する距離算出手段と、前記距離算出手段により算出された距離と行高さとを比較し、その割合が一定値を超えている場合に、空白シンボルを挿入して、行内矩形の配置状態をシンボル系列に変換するシンボル系列変換手段と、を備えたことを特徴とする。

この請求項４に記載の発明によれば、文字行の特徴を定義する際に、当該文字行内における空白部分の情報を盛り込むことにより、さらに精度の高い文字行の判定が可能になる。

また、請求項５にかかる文書処理装置は、請求項２に記載の発明において、さらに、行内矩形の配置状態を表す複数の特徴を複数次元ベクトルの各次元に対応させてベクトル量子化し、行内矩形の配置状態を示す固定種類のシンボルを生成する行内矩形配置状態シンボル生成手段を備えたことを特徴とする。

この請求項５に記載の発明によれば、矩形の配置状態を表す特徴をベクトル量子化し、これをシンボル系列に変換することにより、文字認識することなく、文字行の特徴の抽出が可能になり、効率的な文字行の内容に関する検索を行うことができる。

また、請求項６にかかる文書処理装置は、請求項２に記載の発明において、さらに、前記代表シンボル生成手段で生成された文字行のシンボル情報を原稿全体、所定領域全体などの特定の範囲において集計して、訓練文書と試験文書との類似性を判定する特定範囲内類似性判定手段を備えたことを特徴とする。

この請求項６に記載の発明によれば、所定の領域内における文字行の内容に関する検索が可能になる。

また、請求項７にかかる文書処理装置は、請求項１に記載の発明において、文字入力手段と、文字フォントセットと、前記文字入力手段から入力された文字テキストから前記文字フォントセットに基づいて文字フォントに展開し文字画像を得る文書画像取得手段と、前記文字入力手段から入力された文字テキストの文字列から文字列画像を生成し、この文字列画像の行内矩形シンボルを生成する行内矩形シンボル生成手段と、を備えたことを特徴とする。

この請求項７に記載の発明によれば、従来行っていた文字認識をすることなく、原稿画像に対するテキスト検索が可能になる。したがって、従来文字認識に必要とされた文字パターン辞書が不要となる。

また、請求項８にかかる文書処理装置は、請求項７に記載の発明において、さらに、文字毎にあらかじめ生成された行内矩形シンボルに対して、文字毎にその文字内の矩形の配置状態を表現するシンボルを対応させるシンボル対応手段と、前記文字入力手段から入力された入力テキストの文字列を矩形シンボル系列へ変換する矩形シンボル変換手段と、を備えたことを特徴とする。

この請求項８に記載の発明によれば、文字画像を経ることなくテキスト文字列から直接行内矩形シンボルへと変換することが可能になり、処理の効率化が図れる。

また、請求項９にかかる文書処理方法は、識別対象の原稿画像を入力する画像入力工程と、前記画像入力工程で入力された原稿画像から矩形を抽出する矩形抽出工程と、前記矩形抽出工程で抽出された矩形から行内矩形の切り出し処理を行う行内矩形切り出し工程と、前記行内矩形切り出し工程で切り出された行内矩形から、矩形の配置状態を表す特徴を抽出し、これらを量子化してシンボルを生成する矩形シンボル生成工程と、前記矩形シンボル生成工程で生成されたシンボル系列に対し、言語別にあらかじめ訓練用の行内矩形シンボルデータで学習したｔｒｉｇｒａｍ表を適用し、当該シンボル系列の出現確率を言語別に算出し、集計する出現確率算出・集計工程と、前記出現確率算出・集計工程での集計結果から、最も高い出現確率を示した言語が、照合対象行の属する言語だと判断する言語判断工程と、を含むことを特徴とする。

この請求項９に記載の発明によれば、文字行画像の行内矩形の配置状態を表す特徴を抽出し、これらを固定段階に量子化してシンボルを生成することにより、文字認識することなく、文字行の特徴の抽出が可能になり、効率的に文字行の内容に関する検索を行うことができる。

また、請求項１０にかかる文書処理方法は、請求項９に記載の発明において、前記矩形シンボル生成工程は、前記原稿画像に表現された文字の行高さを推定する行高さ推定工程と、前記行高さ推定工程で推定された行高さに対する行内矩形の始点位置を基準に当該行内矩形を分類する分類工程と、前記分類工程で分類された行内矩形の配置状態を表す特徴（行内矩形の始点の高さ、矩形サイズ(高さ、幅)、黒画素密度、隣接矩形との距離など）を測定する行内矩形配置状態測定工程と、前記行内矩形配置状態測定工程で測定された行内矩形の配置状態を表す特徴を量子化してシンボルを生成する行内矩形配置状態シンボル生成工程と、を含むことを特徴とする。

この請求項１０に記載の発明によれば、文字行画像の行内矩形の配置状態を表す特徴を抽出し、これらを固定段階に量子化してシンボルを生成することにより、文字認識することなく、文字行の特徴の抽出が可能になり、効率的に文字行の内容に関する検索を行うことができる。

また、請求項１１にかかる文書処理プログラムは、請求項９または１０に記載の文書処理方法をコンピュータに実行させることを特徴とする。

この請求項１１に記載の発明によれば、請求項９または１０に記載の文書処理方法をコンピュータに実行させることが可能になる。

本発明にかかる文書処理装置、文書処理方法、および文書処理プログラムによれば、文字行画像の行内矩形の配置状態を表す特徴を抽出し、これらを固定段階に量子化してシンボルを生成することにより、文字認識することなく、文字行の特徴の抽出が可能になり、効率的に文字行の内容に関する検索を行うことができるという効果を奏する。

以下に添付図面を参照して、本発明にかかる文書処理装置、文書処理方法、および文書処理プログラムの好適な実施の形態を詳細に説明する。

（文書処理装置のハードウェア構成）
まず、本発明の実施の形態にかかる文書処理装置のハードウェア構成について説明する。図１は、この文書処理装置のハードウェア構成を示す図である。この文書処理装置は、ＣＰＵ１０１、ＲＯＭ１０２、ＲＡＭ１０３、ＨＤＤ（ハードディスクドライブ）１０４、ＨＤ（ハードディスク）１０５、ＦＤＤ（フレキシブルディスクドライブ）１０６、ＦＤ１１２、ディスプレイ１０７、ネットワークボード１０８、キーボード１０９、マウス１１０、およびスキャナ１１１が、バス１００によって接続され構成されている。

ＣＰＵ１０１は、装置全体を制御する。ＲＯＭ１０２には、基本入出力プログラムが記憶されている。ＲＡＭ１０３は、ＣＰＵ１０１のワークエリアとして使用される。ＨＤＤ１０４は、ＣＰＵ１０１の制御にしたがってＨＤ１０５に対するデータのリード／ライトの制御を行う。ＨＤ１０５は、ＨＤＤ１０４の制御にしたがって書き込まれたデータを記憶する。ＦＤＤ１０６は、ＣＰＵ１０１の制御にしたがってＦＤ（フレキシブルディスク）１１２に対するデータのリード／ライトの制御を行う。ＦＤ１１２は、着脱自在になっており、ＦＤＤ１０６の制御にしたがって書き込まれたデータを記憶する。ディスプレイ１０７は、カーソル、メニュー、ウインドウ、あるいは文字や画像等の各種データの表示を行う。ネットワークボード１０８は、通信ケーブル１１３を介してネットワーク１１４と接続する。キーボード１０９は、各種情報の入力を行う。マウス１１０は、ディスプレイ１０７に表示されたカーソル、メニュー、ウインドウの移動や選択、開閉操作を行う。スキャナ１１１は、文字や画像の光学的な読み取りを行う。

（文書処理装置の機能的構成）
次に、本発明の実施の形態にかかる文書処理装置の機能的構成を説明する。図２は、この文書処理装置の機能的構成を示すブロック図である。この文書処理装置は、画像入力部２０１、矩形抽出部２０２、行切り出し部２０３、シンボル生成部２０４、出現頻度集計部２０５、判定部２０６、および表示部２０７を含み構成される。

画像入力部２０１は、識別対象の原稿画像を入力する。矩形抽出部２０２は、入力部２０１から入力された原稿画像から矩形を抽出する。行切り出し部２０３は、矩形抽出部２０２で抽出された矩形から行内矩形の切り出し処理を行う。シンボル生成部２０４は、行切り出し部２０３で切り出された行内矩形から、行内矩形の始点の高さ、矩形サイズ(高さ、幅)、黒画素密度、隣接矩形との距離など、矩形の配置状態を表す特徴を抽出し、これらを量子化してシンボルを生成する。出現頻度集計部２０５は、シンボル生成部２０４で生成されたシンボル系列に対し、言語別にあらかじめ訓練用の行内矩形シンボルデータで学習したｔｒｉｇｒａｍ表を適用し、当該シンボル系列の出現確率を言語別に算出し、集計する。判定部２０６は、出現頻度集計部２０５による集計結果から、最も高い出現確率を示した言語が、照合対象行の属する言語だと判定する。表示部２０７は、入力された画像や、各処理の経過、結果などの表示を行う。

なお、画像入力部２０１の機能は、図１に示したスキャナ１１１により実現できる。矩形抽出部２０２、行切り出し部２０３、シンボル生成部２０４、出現頻度集計部２０５、および判定部２０６の各機能は、図１に示したＣＰＵ１０１により実現できる。表示部２０７の機能は、図１に示したディスプレイ１０７により実現できる。

また、本発明の文書処理装置は、通信手段（ネットワークボード１０８）を備えているので、ネットワークと接続できる。例えば、図３に示すように、複数の文書処理装置をネットワーク１１４と接続することで、各装置間においてデータのやり取りが可能になる。また、この文書処理装置を構成する各機能部に通信手段を設ければ、各機能部をネットワーク１１４に接続することで、遠隔地から文書処理装置を操作することが可能になる。

以下、本発明の実施の形態にかかる文書処理装置の動作を詳細に説明する。ここでは、例えば、図４に示すような原稿画像に対して、特定の行画像を検索する場合を考える。なお、特定の行画像は原稿画像中と同一である必要はなく、解像度が違っていても、部分的な行として形状が同じであればよい。画像として完全一致する必要はない。

画像入力部２０１から入力された原稿画像（図４参照）に対し、矩形抽出部２０２において、図５に示すような黒画素の外接矩形が抽出される。そして、矩形抽出部２０２で抽出された外接矩形は、行切り出し部２０３において行切り出し処理が行われる。行切り出し処理とは、図５に示した外接矩形の近隣同士を連結していき、行に成長させる処理である（図６参照）。この処理は周知の方法で行うことができるため、説明は省略する。

次に、矩形の配置状態を表す特徴の量子化処理、および量子化された矩形の配置状態を表す特徴からシンボルを生成する処理を説明する。この処理は、シンボル生成部２０４において行われる。

まず、矩形の配置状態を表す特徴の量子化処理について説明する。図７−１および図７−２は、行内矩形の配置例を示す図である。図７−１の欧文文字の行内矩形と、図７−２のアジア系文字の行内矩形を比較してみると、行内矩形の並び方は、言語の種類に関わらず、その文字行の内容に応じて変化していることがわかる。そこで、文字の外接矩形を抽出することで、文字の大まかな特徴を捉えることができる。すなわち、文字そのものを特定しなくても、例えば、図８に示すように、矩形座標の始点（Ｘｓ，Ｙｓ）と終点（Ｘｅ，Ｙｅ）を求め、これを利用した文字画像の外接矩形の配置状態を表す特徴を取得するだけで文字行の画像特徴を捉えることができる。

行内における一つの矩形は、行内矩形の始点の高さ、矩形サイズ(幅、高さ)、行内矩形中の黒画素密度を計測することによって唯一に定義される。これらの計測結果を用いて、行内矩形の配置状態を定義する。行内矩形は、行切り出し処理の過程で既に求まっているので、文字行を特定するために、追加の特徴抽出処理を行う必要がないので都合がよい。

以下、行内矩形の始点の高さを基準にして行内矩形の配置状態を定義する一例を示す。図９は、行内矩形の配置状態を示す特徴を量子化する方法を説明するための図である。原稿を特定していない状況下では、行高さは可変であり、処理が行高さの値に依存しないように、行内矩形の始点の高さを次式で正規化する。

ＹｓＲａｔｅ＝ｙｓ／Ｈ・・・（１）
（ただし、ｙｓは行内矩形始点の高さ、Ｈは行高さを示す。）

０＜ＹｓＲａｔｅ≦１であるから、ＹｓＲａｔｅを固定段階に量子化することは容易である。例えば、Ｎ段階に量子化するなら、
ＹｓＶａｌ＝ＩＮＴ（ＹｓＲａｔｅ＊（Ｎ−１））・・・（２）
（ただし、ＩＮＴ（）：小数点以下切捨て）
とすればよい。各段階は０〜（Ｎ−１）とラベル付けされる。なお、原稿をスキャンする際に原稿が傾いてしまうと、図１０の文字行も傾いてしまう。極端な傾きの場合には、行切り出し処理が失敗してしまうが、少々の傾きであれば、行間の空白部を利用して、行を切り出すことができる。

しかし、行内矩形の始点の高さに注目する場合、行のわずかな傾きでも、結果に大きく影響する。図１０において、行内矩形の終点から始点までの距離は、行高さに対して万遍なく分布することになり、欧米系文字行の特徴である、頻度の明確な２カ所への集中が観測できない。そこで、ベースラインを定め、そこから行内矩形の始点までの高さを求めることにする。ベースラインを定めるには行内矩形の終点を結ぶような直線を求めればよい。具体的には、行内矩形の終点座標の分布の回帰直線を求めればよい。回帰直線の求め方に関しては周知であるため、ここでは説明しないが、例えば、「工科系のための統計概論」（培風館）Ｉ・ガットマン、Ｓ・Ｓ・ウィルクス共著などに詳しい。

以上のような処理により、行内矩形の始点の高さは量子化できる。同様に、文字行画像の特徴として行内矩形の高さを用いる場合は、図９において、次のとおりである。
ＨｅｉｇｈｔＲａｔｅ＝ｈ／Ｈ・・・（３）
ＨｅｉｇｈｔＶａｌ＝ＩＮＴ（（ＨｅｉｇｈｔＲａｔｅ＊（Ｎ−１））＋０．５）・・・（４）
（ただし、ＩＮＴ（）：小数点以下切捨て）
各段階は０〜（Ｎ−１）とラベル付けされる。

また、矩形の幅を用いる場合は、次のとおりである。
ＷｉｄｔｈＲａｔｅ＝ｗ／Ｈ・・・（５）
ＷｉｄｔｈＶａｌ＝ＩＮＴ（（ＷｉｄｔｈＲａｔｅ＊（Ｎ−１））＋０．５）・・・（６）
（ただし、ＩＮＴ（）：小数点以下切捨て）
各段階は０〜（Ｎ−１）とラベル付けされる。

行内矩形は、文字の内容には関知せず、文字の構成要素の外接矩形を求めたものである。しかし、行内矩形の配置状態が同じであっても、欧文系文字は構造が単純なので、矩形内の黒画素密度は低い。一方、アジア系文字は構造が複雑なので、矩形内の黒画素密度は高い。もちろん、同じアジア系文字においても、構造が簡単なひらがな・カタカナの黒画素密度は低く、漢字の黒画素密度は高いことは容易に想像できる。このように矩形の黒画素密度は文字を区別する特徴となり得る。よって、黒画素密度（＝矩形内の黒画素数／矩形内の画素の総数）も同様に量子化し、固定段階として定義する。以上、行内矩形の配置状態を、複数の測定結果によって定義可能であることを示した。これらの複数の測定結果は一つの独立した行内矩形を定義するものである。

ところで、行内矩形を定義する複数の測定結果のうち、検索対象によっては不要なものがある。例えば、検索対象行がラテン系文字行だけならば、黒画素密度の測定結果は不要であろう。なぜなら、ラテン文字行については、文字の構造が、どの文字も同じ程度の複雑さなので、行内矩形の黒画素密度はほぼ同程度であり、行内矩形を特徴づけることに寄与しないからである。このように、検索行と被検索行の集合の性質によっては、識別に影響しない特徴が存在し、その特徴は使用する必要はない。複数の測定結果のうち、該当行と非該当行とを区別するに足る特徴のみ使用すればよい。この結果、処理効率が向上する。

また、欧文系文字行とアジア系文字行における行内矩形の配置状態の違いは、図７に示したように、隣接矩形との距離にも表れている。欧米系文字行においては、隣接矩形との距離は正値である場合が多く、矩形同士が重複することは少ない。一方、アジア系文字行においては、隣接矩形と重複する場合が頻繁に観測される。また、アルファベットの『ｉ』や『ｊ』のように、矩形の垂直上に点が存在するもの、ドイツ語におけるウムラウトのように矩形上に点が２つあるもの、スペイン語における（Ｎ＋〜：エニェ）のように矩形上に細い長方形が存在するもの、など言語別に、隣接矩形との距離に関して特徴的な文字が存在する。この特徴を量子化することによって、行内矩形の配置状態を、より詳細に定義することができる。具体的には、図１１に示す各矩形において、
ＲｉｇｈｔＤｉｓｔａｎｃｅＲａｔｅ＝ｄ／Ｈ・・・（７）
（ただし、ｄは矩形間距離を示す。）
ＲｉｇｈｔＤｉｓｔａｎｃｅＶａｌ
＝ＩＮＴ＿ＰＬＵＳ（（ＲｉｇｈｔＤｉｓｔａｎｃｅＲａｔｅ＊（Ｎ−１））＋０．５）・・・（８）
（ただし、ＩＮＴ＿ＰＬＵＳ（）：正数化して、小数点以下切捨て）
を求め、注目矩形と隣接矩形との距離の割合を固定段階に量子化する。各段階は０〜（Ｎ−１）とラベル付けされる。これによって、アジア系文字を多く含む文字行の特徴を、より詳細に定義でき、厳密な文字行の判定を実施することができる。

次に、量子化された矩形の配置状態を表す特徴からシンボルを生成する処理を説明する。ここでは、一つの行内矩形に関する、複数種類の測定結果を一つにまとめてシンボル化することによって、一つの行内矩形を一つのシンボルに対応させることが可能になる。例えば、矩形の始点の高さ、矩形高さ、矩形幅の３種の情報をまとめる。仮に、前述の処理で、矩形の始点の高さ（ｙｓ／Ｈ）を１５段階、矩形高さ（ｈ／Ｈ）を８段階、矩形幅（ｗ／Ｈ）を２段階に量子化するとする。この結果、図１２に示すように、各情報は、矩形の始点の高さ（ｙｓ／Ｈ）は１５段階であるから４ｂｉｔｓ、矩形高さ（ｈ／Ｈ）は８段階であるから３ｂｉｔｓ、矩形幅（ｗ／Ｈ）は２段階であるから１ｂｉｔで表現することができる。また、
４ｂｉｔｓ＋３ｂｉｔｓ＋１ｂｉｔ＝８ｂｉｔｓ
であるから、１ｂｙｔｅの各ビットに全情報を格納することができる。そして、これらの３種の情報を一つにまとめたシンボルの種類は、
１５段階×８段階×２段階＝２４０種
となる。なお、まとめる情報の種類および、その格納のための記憶エリア、記憶サイズは固定ではなく、識別対象である文字行を特定するに好適な情報を適宜選択し、決定することは云うまでもない。

また、文字行内における空白の存在情報も、当該行を特徴づける。特に単語間に空白を挿入する習慣があるラテン系文字行では重要な特徴である。行内における空白の存在は、行内矩形の隣接矩形との距離を行高さと比較することによって検出可能である。例えば、図１３において、行高さに対する矩形間距離の割合（ａ／Ｈ，ｂ／Ｈ，ｃ／Ｈ）に、しきい値を設ける。そして、それら行高さに対する矩形間距離の割合としきい値とを比較して、しきい値より行高さに対する矩形間距離の割合が大きい値を示した場合に空白ありと判定する。空白ありと判定された場合には、空白を意味するシンボル（例えば、ｓＳＰＣ）を挿入する。先の例であれば、矩形の配置情報に対応するシンボルが２４０種類であることに対し、記憶領域サイズは１ｂｙｔｅなので１６種類（＝２５６−２４０）の特別シンボルを、さらに設定することができる。空白用のシンボルｓＳＰＣは、この１６種類のいずれかに対応させる。

また、矩形の配置状態を表す複数の特徴を多次元ベクトルの各次元とみなせば、矩形は、その各特徴を用いて一つのベクトルデータに変換（ベクトル量子化）できる。べクトル量子化とは、周知のように、ベクトルデータの多数のバラエティから、それらを代表する少数のベクトルデータを求めることである。求められた代表ベクトルに順にラベル付けすれば、ベクトルデータの系列を単なる一次元のシンボルデータの系列に変換することができる。ベクトル量子化に関しては、「ベクトル量子化と情報圧縮」（コロナ社）ＡｌｌｅｎＧｅｒｓｈｏ，ＲｏｂｅｒｔＭ．Ｇｒａｙ著，田崎三郎ほか訳、に詳しい。

このように、シンボル系列に変換することができれば、先に述べたように、その並び傾向を学習できる。例えば、訓練データから矩形の配置に関する３次元のベクトルデータを求め、それらから２４０種の代表ベクトルを求める。この代表ベクトル群をコードブックと呼ぶ。コードブック中の２４０種のベクトルを区別するＩＤが、つまりシンボルである。識別対象の文字行データにおける行内矩形の配置を３次元ベクトルに変換し、コードブック内のベクトルと最も類似するベクトルを選び、そのＩＤを当該矩形のシンボルとする。

以上の作業を経ることによって、行に含まれる矩形は、固定個のシンボル（ラベル）に変換することができる。したがって、実際の行内矩形の配置は、図１３に示すような単なるシンボル系列とみなすことができる。これで、シンボル系列の並び傾向を記録することができ、行内矩形の並び傾向を記録できることと等価となる。シンボル系列に変換された後には、テキスト検索と同様に、一般的な検索手法によって検索することが可能になる。つまりシンボル系列間の完全一致を求めればよい。但し、文字行画像の読み取り誤差によって、文字矩形の特徴の計測結果は異なるので、文字行画像が同一であっても、そのシンボル変換結果が同一にならない場合もある。よってシンボル列の完全一致を求めるのみでは、同一文字行画像を検索できないおそれがある。

そこで、本発明の文書処理装置では、シンボル列の完全一致ではなく、シンボルの並び傾向の類似度を求める。具体的には、変換されたシンボル系列に対し、言語別にあらかじめ訓練用の行内矩形シンボルデータで学習したｔｒｉｇｒａｍ表を適用し、当該シンボル系列の出現確率を言語別に算出し、集計する。この処理は、出現頻度集計部２０５で行われる。以下、詳述する。

並びの傾向を記録する方法としてはｎ−ｇｒａｍモデルがある。ｎ−ｇｒａｍモデルはクロード・エルウッドシャノンによって提案された言語モデルである。系列中のシンボルの出現が、直前のｎ個（ｎは自然数）のシンボルに影響されるとする。現在の状態がｎ個前の入力に依存して決まる確率プロセスをｎ重マルコフ過程と呼び、ｎ−ｇｒａｍモデルは（ｎ−１）重マルコフモデルとも呼ばれる。特にｎ＝３の場合をｔｒｉｇｒａｍと呼び、広く使用されている。

具体的には次の式（９）で示されるモデルである。さらに、式（１０）にしたがって、訓練用のシンボル系列データからシンボルの３つ組みの出現頻度を計数する。

一方で、ｔｒｉｇｒａｍの出現頻度順位を求めておく。表１にｔｒｉｇｒａｍ集計の例を示す。

文字行に関して表１に示すようなｔｒｉｇｒａｍ集計を求めることが、文字行の特徴を求めること（学習）に相当する。検索したい文字行の行内矩形の配置状態を学習時と同じ要領でシンボル系列に変換した後、ｔｒｉｇｒａｍ集計を求める。

ところで、ｔｒｉｇｒａｍ集計結果を用いた、文字行同士の類似度を算出する方法は、行文字行だけでなく、文字行の集合である領域単位に、あるいは原稿単位に類似性を判定する場合にも、適用可能であることは明らかである。比較したい領域において、行切り出し処理を施し、各行によってシンボル系列に変換した後、領域単位に矩形ｔｒｉｇｒａｍを集計する（すなわち、文字行のシンボル化情報を原稿全体、あるいは領域全体など、特定の範囲においてｔｒｉｇｒａｍ集計する）。ｔｒｉｇｒａｍ集計結果に関して順位相関係数を求めれば、領域間の類似度を判定する基準となる。

最後に、前記ｔｒｉｇｒａｍ集計結果と、検索対象である文字行から学習したｔｒｉｇｒａｍ集計結果とを照合し、最も類似するものを選択する。すなわち、最も高い出現頻度を示した言語が、照合対象行の属する言語だと判定する。この処理は判定部２０６で行われる。以下詳述する。

まず、一行に含まれる行内矩形の数が、検索行と、被検索行とでは異なるから、出現頻度そのものを比較することはできない。そこで、ｔｒｉｇｒａｍ集計表の類似性を判定するには次式で求められる順位相関係数を用いる。なお、順位相関係数の算出方法に関しては周知であるため、ここでは説明しないが、例えば、柳川尭著「ノンパラメトリック法」（培風館）に詳しい。
Ｒｘｙ＝１−（６＊Σ（Ｒｘｉ−Ｒｙｉ）＾２）／（ｎ＊（ｎ＾２−１））・・・（１１）
（ただし、ｎはデータ数、Ｒｘｉ，Ｒｙｉはデータの順位数値を示す。）

そして、検索行と、被検索行とのｔｒｉｇｒａｍ集計結果の順位相関係数を求め、最も１に近いものを選択すればよい。さらに、順位相関係数を統計的に検定し、最大の順位相関係数が有意な値を示さない場合には、検索に該当なしと判定してもよい。

以上、ここまでの処理を簡単にまとめると、図１４のようになる。すなわち、あらかじめ照合したい画像の行内矩形をシンボルに変換し（ステップＳ１４０１）、所定領域内でｔｒｉｇｒａｍを集計し（ステップＳ１４０２）、ｔｒｉｇｒａｍの出現頻度集計表を作成する（ステップＳ１４０３）。一方、照合対象画像の行内矩形をシンボルに変換し（ステップＳ１４０４）、所定領域内でｔｒｉｇｒａｍを集計し（ステップＳ１４０５）、ｔｒｉｇｒａｍの出現頻度集計表を作成する（ステップＳ１４０６）。最後に、ステップＳ１４０３で作成されたｔｒｉｇｒａｍの出現頻度集計表とステップＳ１４０６で作成されたｔｒｉｇｒａｍの出現頻度集計表とを照合して、順位相関係数を求めることにより（ステップＳ１４０７）、最も高い出現確率を示した言語が、照合対象行の属する言語だと判定することができる。

ところで、これまでは、文字行画像同士の照合に関して言及しているが、テキストデータから文字行画像を作成することができれば、指定する文字を含む行を検索することが可能になる。テキストデータから文字画像を得るには、フォントデータを用いればよい。例えば、ｔｒｕｅｔｙｐｅフォントのようなベクトルデータを展開して文字のビットマップデータ（画像）を作成し、指定文字列（テキスト）をシンボル系列に変換する。このためには、シンボル生成部２０４に、さらに文字フォントセットと、文字テキストから文字フォントを展開し、テキスト文字列から文字列画像を生成した後、行内矩形シンボルに変換する機能を備えることが必要である。検索文字列、被検索文字列、ともに行内矩形のシンボル系列に変換された後は、一般的なテキスト検索の手法と同じく、シンボル系列が完全一致する部分を求める。これによって、文字認識することなく、原稿画像に対するテキスト検索が可能になる。文字認識で必要な文字パターン辞書が不要であることは明らかである。

このように一旦文字画像を生成した後、行内矩形シンボルへと変換する場合は、フォントセットさえ準備しておけばフォントの違いによる行内矩形シンボルの変動を考慮することが可能であり、好都合である。しかしながら、行内矩形シンボル系列に変換するため、全文字のフォントデータを用意する必要があるだけでなく、文字画像生成のための演算処理も必要になる。そこで、さらに、文字毎にあらかじめ矩形シンボル変換結果を用意し、文字毎にその文字内の矩形の配置情報を表現するシンボルを対応させ、入力テキストの文字列から、矩形シンボル系列へと変換する機能を備えるとよい。このように、あらかじめ文字毎に、対応する変換後の行内矩形シンボルを求めておき、それを記録しておけば、文字画像を経ることなくテキスト文字列から行内矩形シンボルへと変換することが可能になる。図１５に、文字コードと矩形シンボル変換結果との相関を示す。ただし、１文字に含まれる矩形は一つとは限らないので、１文字から複数のシンボル系列に変換されることがある。

（文書処理の手順）
以下、本発明の文書処理装置を用いた文書処理の手順を説明する。図１６は、この文書処理の手順を示すフローチャートである。まず、画像入力部２０１が、識別対象の原稿画像を入力する（ステップＳ１６０１）。次に、矩形抽出部２０２が、入力された原稿画像から矩形を抽出する（ステップＳ１６０２）。次いで、行切り出し部２０３が、矩形抽出部２０２で抽出された矩形から行内矩形の切り出し処理を行う（ステップＳ１６０３）。シンボル生成部２０４が、行切り出し部２０３で切り出された行内矩形から、矩形の配置状態を表す特徴を抽出し、これらを量子化してシンボルを生成する（ステップＳ１６０４）。出現頻度集計部２０５が、シンボル生成部２０４で生成された各シンボル系列に対し、言語別にあらかじめ訓練用の行内矩形シンボルデータで学習したｔｒｉｇｒａｍ表を適用し、当該シンボル系列の出現頻度を言語別に算出し、集計する（ステップＳ１６０５）。最後に、判定部２０６が、出現頻度集計部２０５による集計結果から、最も高い出現頻度を示した言語が、照合対象行の属する言語だと判断する（ステップＳ１６０６）。

（矩形配置状態シンボル生成処理の手順）
次に、ステップＳ１６０４の矩形配置状態シンボル生成処理の手順をより詳しく説明する。図１７は、この矩形配置状態シンボル生成処理の手順を示すフローチャートである。まず、原稿画像に表現された文字の行高さを推定する（ステップＳ１７０１）。次に、行高さに対する行内矩形の始点位置を基準に当該行内矩形を分類する（ステップＳ１７０２）。次いで、分類された各行内矩形の配置状態を表す特徴（行内矩形の始点の高さ、矩形サイズ(高さ、幅)、黒画素密度、隣接矩形との距離など）を測定する（ステップＳ１７０３）。そして、矩形の配置状態を表す特徴を量子化してシンボルを生成する（ステップＳ１７０４）。最後に、ステップＳ１７０４で生成されたシンボル系列を記録する（ステップＳ１７０５）。

上記の各処理を行うことで、対象行の属する言語を、行内矩形の配置状態を表す特徴（新たに行の特徴を抽出する処理ではなく、行切り出し処理の過程で得られる特徴）を抽出して分類することができる。この結果、高速に言語識別処理を実現でき、言語識別結果に応じて、言語に最適な文書処理を選択する基準を求めることができる。よって、高精度な文書処理を実現することが可能となる。

以上説明したように、本発明にかかる文書処理装置、文書処理方法、および文書処理プログラムによれば、文字行画像の行内矩形の配置状態を表す特徴を抽出し、これらを固定段階に量子化してシンボルを生成することにより、文字認識することなく、文字行の特徴の抽出が可能になり、効率的な文字行の内容に関する検索を行うことができる。

なお、本実施の形態で説明した文書処理方法は、あらかじめ用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネット等のネットワークを介して配布することが可能な伝送媒体であってもよい。

以上のように、本発明にかかる文書処理装置、文書処理方法、および文書処理プログラムは、効率よく文字行の形状の特徴を抽出する必要がある文字識別処理に有用であり、特に、文字認識装置などに適している。

本発明の実施の形態にかかる文書処理装置のハードウェア構成を示す図である。本発明の実施の形態にかかる文書処理装置の機能的構成を示すブロック図である。本発明の実施の形態にかかる文書処理装置を用いたネットワーク構成の一例を示す図である。文書処理装置に入力される原稿画像の一例を示す図である。原稿画像から求められる黒画素の外接矩形の一例を示す図である。行切り出し処理を説明するための図である。行内矩形の配置例を示す図である。行内矩形の配置例を示す図である。矩形に対する座標の設定例を説明するための図である。行内矩形の配置状態を表す特徴を量子化する方法を説明するための図である。行内矩形の配置状態を表す特徴からシンボルを生成した例を示す図である。矩形間距離に基づく空白シンボルの挿入処理を説明するための図である。矩形間距離の量子化を説明するための図である。矩形間距離に基づく空白シンボルの挿入処理を説明するための図である。矩形ｔｒｉｇｒａｍを使用した文書画像照合の手順を示すフローチャートである。文字コードから矩形シンボルへ直接に変換する場合を説明するための表である。文書処理の手順を示すフローチャートである。矩形配置状態シンボル生成処理の手順を示すフローチャートである。

符号の説明

１００バス
１０１ＣＰＵ
１０２ＲＯＭ
１０３ＲＡＭ
１０４ＨＤＤ（ハードディスクドライブ）
１０５ＨＤ（ハードディスク）
１０６ＦＤＤ（フレキシブルディスクドライブ）
１０７ディスプレイ
１０８ネットワークボード
１０９キーボード
１１０マウス
１１１スキャナ
１１２ＦＤ（フレキシブルディスク）
１１３通信ケーブル
１１４ネットワーク
２０１画像入力部
２０２矩形抽出部
２０３行切り出し部
２０４シンボル生成部
２０５出現頻度集計部
２０６判定部
２０７表示部

Claims

入力された文書画像に対して所定の画像処理を行い、画像の特徴を抽出し、文書処理を行う装置であって、
前記文書画像から抽出した文字行画像の行内矩形の始点の行内における高さを固定段階に量子化して固定種類のシンボルを生成する行内高さシンボル生成手段と、
前記文字行画像の行高さを推定する行高さ推定手段と、
行高さに対する行内矩形の高さの割合を固定段階に量子化して固定種類のシンボルを生成する行内矩形高さ割合シンボル生成手段と、
行高さに対する行内矩形の幅の割合を固定段階に量子化して固定種類のシンボルを生成する行内矩形幅割合シンボル生成手段と、
前記矩形内の黒画素密度を固定段階に量子化して固定種類のシンボルを生成する黒画素密度シンボル生成手段と、
訓練行における行内矩形の配置状態を表す特徴をシンボル系列に変換し、その傾向を学習する訓練行学習手段と、
試験行における行内矩形の配置状態を表す特徴をシンボル系列に変換し、前記訓練行学習手段による訓練行の学習結果を用いて、試験行の評価値を算出する評価値算出手段と、
前記訓練行学習手段による訓練行の学習結果と前記評価値算出手段により算出された試験行の評価値とを照合し、その類似性を判定する類似性判定手段と、
を含み構成されることを特徴とする文書処理装置。
さらに、行内矩形の配置状態を表す複数の特徴のなかから代表的なものを一つ以上抽出し、これに基づいた固定種類のシンボルを生成する代表シンボル生成手段を備えたことを特徴とする請求項１に記載の文書処理装置。
さらに、行高さに対する、注目矩形と隣接矩形との距離の割合を固定段階に量子化して固定種類のシンボルを生成する距離割合シンボル生成手段を備えたことを特徴とする請求項２に記載の文書処理装置。
注目する行内矩形の終点と、隣接する行内矩形の始点との距離を算出する距離算出手段と、前記距離算出手段により算出された距離と行高さとを比較し、その割合が一定値を超えている場合に、空白シンボルを挿入して、行内矩形の配置状態をシンボル系列に変換するシンボル系列変換手段と、
を備えたことを特徴とする請求項１に記載の文書処理装置。
さらに、行内矩形の配置状態を表す複数の特徴を複数次元ベクトルの各次元に対応させてベクトル量子化し、行内矩形の配置状態を示す固定種類のシンボルを生成する行内矩形配置状態シンボル生成手段を備えたことを特徴とする請求項２に記載の文書処理装置。
さらに、前記代表シンボル生成手段で生成された文字行のシンボル情報を原稿全体、所定領域全体などの特定の範囲において集計して、訓練文書と試験文書との類似性を判定する特定範囲内類似性判定手段を備えたことを特徴とする請求項２に記載の文書処理装置。
文字入力手段と、
文字フォントセットと、
前記文字入力手段から入力された文字テキストから前記文字フォントセットに基づいて文字フォントに展開し文字画像を得る文書画像取得手段と、
前記文字入力手段から入力された文字テキストの文字列から文字列画像を生成し、この文字列画像の行内矩形シンボルを生成する行内矩形シンボル生成手段と、
を備えたことを特徴とする請求項１に記載の文書処理装置。
さらに、文字毎にあらかじめ生成された行内矩形シンボルに対して、文字毎にその文字内の矩形の配置状態を表現するシンボルを対応させるシンボル対応手段と、
前記文字入力手段から入力された入力テキストの文字列を矩形シンボル系列へ変換する矩形シンボル変換手段と、
を備えたことを特徴とする請求項７に記載の文書処理装置。
識別対象の原稿画像を入力する画像入力工程と、
前記画像入力工程で入力された原稿画像から矩形を抽出する矩形抽出工程と、
前記矩形抽出工程で抽出された矩形から行内矩形の切り出し処理を行う行内矩形切り出し工程と、
前記行内矩形切り出し工程で切り出された行内矩形から、矩形の配置状態を表す特徴を抽出し、これらを量子化してシンボルを生成する矩形シンボル生成工程と、
前記矩形シンボル生成工程で生成されたシンボル系列に対し、言語別にあらかじめ訓練用の行内矩形シンボルデータで学習したｔｒｉｇｒａｍ表を適用し、当該シンボル系列の出現確率を言語別に算出し、集計する出現確率算出・集計工程と、
前記出現確率算出・集計工程での集計結果から、最も高い出現確率を示した言語が、照合対象行の属する言語だと判断する言語判断工程と、
を含むことを特徴とする文書処理方法。
前記矩形シンボル生成工程は、
前記原稿画像に表現された文字の行高さを推定する行高さ推定工程と、
前記行高さ推定工程で推定された行高さに対する行内矩形の始点位置を基準に当該行内矩形を分類する分類工程と、
前記分類工程で分類された行内矩形の配置状態を表す特徴（行内矩形の始点の高さ、矩形サイズ(高さ、幅)、黒画素密度、隣接矩形との距離など）を測定する行内矩形配置状態測定工程と、
前記行内矩形配置状態測定工程で測定された行内矩形の配置状態を表す特徴を量子化してシンボルを生成する行内矩形配置状態シンボル生成工程と、
を含むことを特徴とする請求項９に記載の文書処理方法。
請求項９または１０に記載の文書処理方法をコンピュータに実行させることを特徴とする文書処理評価プログラム。