JPH1074250A

JPH1074250A - 文書処理装置、文書処理方法、および記憶媒体

Info

Publication number: JPH1074250A
Application number: JP8274732A
Authority: JP
Inventors: Katsuhiko Itonori; 勝彦糸乘; Masaharu Ozaki; 正治尾崎
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 1996-06-26
Filing date: 1996-10-17
Publication date: 1998-03-17
Anticipated expiration: 2016-10-17
Also published as: US5943443A; JP2973944B2

Abstract

(57)【要約】【課題】文書登録時に少ない計算機パワーでしかも高
速に登録処理が行なえるとともに、検索時には漏れの少
ない検索を実現することのできる文書ファイリングを提
供する。【解決手段】類似文字分類部１１において、文字画像
をその画像特徴をもとに類似した文字ごとに類似文字カ
テゴリにあらかじめ分類し、分類されたカテゴリをその
代表となる画像特徴とともに記憶しておく。文書画像登
録時には、擬似文字認識部１２において、そのテキスト
領域の各文字を認識せずに、文字認識を行なうよりも少
ない画像特徴をもとに文字カテゴリに分類し、各文字ご
とに識別されたカテゴリ列を入力画像とともに記憶して
おく。検索時には検索実行部１３において、検索キーワ
ードの各文字を対応するカテゴリに変換し、変換された
カテゴリ列を一部に含む文書を検索結果として取り出
す。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文書を画像として
入力して蓄積する文書処理装置に関するものであり、特
に、文書画像中のテキスト内容を検索する検索機能を有
する文書処理装置に関するものである。

【０００２】

【従来の技術】文書をイメージスキャナ等の画像入力装
置で画像に変換して電子的に蓄積し、後から検索するこ
とを可能とする文書ファイリング装置が実用化されてい
る。しかしながら、その多くは入力した画像１枚ごとに
キーワード等の検索のための属性を人手で付与しなけれ
ばならず、非常に労力を要していた。

【０００３】本来、文書の検索ではテキスト内容による
フルテキスト検索が望ましい。しかし、これはＤＴＰ等
によって作成された電子文書に対しては可能であるが、
文書画像に対しては直接行なうことはできない。このた
め、例えば、特開昭６２−４４８７８号公報では、文書
中のテキスト部分に対して文字認識を行ない、コード化
されたテキスト内容でフルテキスト検索を可能にしてい
る。しかしながら、文字認識、特に多くの文字種を持つ
日本語などにおいては、一般的に数百次元の特徴量ベク
トルを求め、約３，０００文字種以上の文字種の特徴量
との照合を行なうため、特徴ベクトルの照合処理に非常
に多大な計算機パワーが必要であった。また、文字認識
率も高くないため、検索すべきキーワードが誤認されて
しまう可能性があるという問題点があった。さらに特開
昭６２−４４８７８号公報では、文字認識処理中に得ら
れた各文字の候補を保持しておき、誤認による検索のも
れを減少させている。また、特開昭６２−２８５１８９
号公報では、文字を認識後、形態素解析を利用して日本
語として妥当な文字列を得ることで、誤認識した文字の
修正を自動的に行なっている。特開平５−５４１９７号
公報では、誤認識された文字を修正するために、漢字を
複数の代表文字によって置き換え、取り扱う字種を減ら
して確率遷移行列を利用して単語を同定している。しか
し、これらの文献に記載されている技術は、基本的には
文字認識処理を行なうために、文書登録時に多大な計算
機パワーを要し、最終的に得たいものが検索時に指定し
た単語を含む文書画像であるとするならば、文字認識さ
れた結果はほとんどが無駄なものとなってしまう。

【０００４】田中他，「日本語文書画像に対する文字列
検索機能の実現」，情報処理学会情報メディア研究会資
料１９−１，１９９５年１月では、各文字画像から得ら
れる特徴量を取り出して文字認識するのではなく、特徴
量をそのまま３６ｂｉｔのコードに変換する。次に検索
キーワード画像の特徴量を抽出して特徴量のマッチング
によって文字列検索を実現している。しかし、検索キー
ワードを画像として入力するか、あるいは文字フォント
イメージによって画像を生成する必要があり、フォント
の変動には弱いという欠点がある。

【０００５】Ｒｅｙｎａｒ，Ｊ．ｅｔａｌ，“Ｄｏ
ｃｕｍｅｎｔＲｅｃｏｎｓｔｒｕｃｔｉｏｎ：ＡＴ
ｈｏｕｓａｎｄＷｏｒｄｓｆｒｏｍＯｎｅＰｉ
ｃｔｕｒｅ”，ｉｎＰｒｏｃ．ｏｆ４ｔｈＡｎ
ｎｕａｌＳｙｍｐｏｓｉｕｍｏｎＤｏｃｕｍｅｎ
ｔＡｎａｌｙｓｉｓａｎｄＩｎｆｏｒｍａｔｉｏ
ｎＲｅｔｒｉｅｖａｌ，ＬａｓＶｅｇａｓ，Ａ
ｐｒｉｌ１９９５には、ヨーロッパ系言語（英語）の
テキスト画像中の文字をその大きさ、位置によって少数
のカテゴリに分類し、その並びによって単語として識別
しようとする試みが開示されている。また、米国特許第
５３２５４４４号明細書（１９９４）あるいは米国特許
第５４３８６３０号明細書（１９９５）には、“Ｗｏｒ
ｄＳｈａｐｅ”などと呼ばれる単語単位での画像的な
特徴を用いて、ＯＣＲを用いずに特定の単語の出現頻度
を計測したり単語を同定する技術が開示されている。し
かしながら、日本語や中国語などの多くの文字種を含む
言語に対して、手がかりとするような特徴を直感的に設
定することは困難である。また、ヨーロッパ系の言語と
異なり、単語間のスペースが存在しないので単語単位で
画像中から直接得ることができない。このため、直接的
には開示されている手法を用いて日本語などのテキスト
を単語で識別することは困難であった。

【０００６】また、特開平４−１９９４６７号公報に
は、誤認識しやすい文字種同士をグループ化し、グルー
プに対して文字コードを割り当てておき、検索時にもグ
ループを示す文字コードを用いて検索を行なうことが記
載されている。この文献の方法では、一度文字認識処理
を行なって文字コードを得た後、その文字コードをグル
ープを示す文字コードへ変換している。そのため、グル
ープ化によって検索漏れは防げるものの、文字認識のた
めの多大な計算機パワーおよび時間が必要であることに
は変わりはない。

【０００７】また、特開平７−１５２７７４号公報に
は、検索条件式の検索文字列を、誤認識しやすい文字に
ついて複数の候補により展開し、検索を行なうことが記
載されている。さらに特開平６−１０３３１９号公報に
は、正常に変換できない文字が存在するとき、その文字
をあいまいなまま残しておき、あいまいなデータを対象
に検索を行なうことが記載されている。これらの文献に
記載されている技術によれば、いずれも検索漏れを減少
させることができる。しかし、これらの文献に記載され
ている技術においても、文字認識を行なうための多大な
計算機パワーおよび時間が必要となる。

【０００８】

【発明が解決しようとする課題】本発明は、上述した事
情に鑑みてなされたもので、文書登録時に少ない計算機
パワーでしかも高速に登録処理がおこなえるとともに、
検索時には漏れの少ない検索を実現することのできる文
書ファイリングを提供することを目的とするものであ
る。

【０００９】

【課題を解決するための手段】請求項１に記載の発明
は、文書処理装置において、文字の画像特徴をもとに類
似した文字ごとに分類されたカテゴリを前記画像特徴と
対応づけて記憶しておく文字カテゴリ記憶手段と、入力
された文書画像中の文字ごとに画像を切り出すテキスト
領域抽出手段と、該テキスト領域抽出手段によって切り
出された各文字画像を所定の画像特徴をもとに前記文字
カテゴリ記憶手段に記憶されているカテゴリに分類する
擬似文字認識手段と、該擬似文字認識手段によって分類
された前記各文字画像のカテゴリを前記入力された文書
画像と対応づけて記憶しておく擬似文字認識結果記憶手
段と、検索時に入力された検索式中のキーワードの各文
字を前記文字カテゴリ記憶手段に記憶されている対応す
るカテゴリに変換するキーワード変換手段と、該キーワ
ード変換手段によってカテゴリに変換された検索式を満
たすカテゴリを有する文書画像を前記擬似文字認識結果
記憶手段から取り出す文書検索手段を具備することを特
徴とするものである。

【００１０】請求項２に記載の発明は、請求項１に記載
の文書処理装置において、前記文字カテゴリ記憶手段に
記憶されているカテゴリは、文字画像の特徴ベクトルに
よるクラスタリングによって分類を行なったものである
ことを特徴とするものである。

【００１１】請求項３に記載の発明は、請求項１に記載
の文書処理装置において、前記擬似文字認識結果記憶手
段内の文書画像に対応づけて記憶しているカテゴリは、
文書画像内において隣り合う２つの文字画像のカテゴリ
をキーとして該キーが出現する文書の識別子を記憶する
バイグラムテーブルとして記憶されており、前記文書検
索手段は、前記キーワード変換手段によって変換された
カテゴリを前記バイグラムテーブルから検索することを
特徴とするものである。

【００１２】請求項４に記載の発明は、請求項１に記載
の文書処理装置において、前記文字カテゴリ記憶手段
は、１つの文字を複数のカテゴリに記憶している場合が
あり、前記キーワード変換手段は、１つの検索キーワー
ドに対して前記文字カテゴリ記憶手段内に記憶されてい
るすべてのカテゴリに変換することを特徴とするもので
ある。

【００１３】請求項５に記載の発明は、請求項１に記載
の文書処理装置において、前記文字カテゴリ記憶手段
は、１つの文字を複数のカテゴリに記憶している場合が
あるとともにそれぞれのカテゴリに分類される確率を記
憶し、前記文書検索手段は、前記文字カテゴリ記憶手段
内の確率に応じて文書画像を前記擬似文字認識結果記憶
手段から取り出すことを特徴とするものである。

【００１４】請求項６に記載の発明は、請求項１に記載
の文書処理装置において、前記テキスト領域抽出手段
は、複数の文字切り出し解釈が存在する場合は該解釈す
べてについて切り出しを行ない、前記擬似文字認識手段
は、前記テキスト領域抽出手段により切り出されたすべ
ての切り出し結果に対してカテゴリに分類し、擬似文字
認識結果記憶手段は、前記擬似文字認識手段により分類
されたすべてのカテゴリを前記文書画像に対応づけて記
憶することを特徴とするものである。

【００１５】請求項７に記載の発明は、文書処理装置に
おいて、文字の画像特徴をもとに類似した文字ごとに分
類されたカテゴリを前記画像特徴と対応づけて記憶して
おく文字カテゴリ記憶手段と、単語とその単語の各文字
を前記カテゴリに置き換えたカテゴリ単語とを対応づけ
て記憶するカテゴリ単語辞書と、入力された文書画像中
の文字ごとに画像を切り出すテキスト領域抽出手段と、
該テキスト領域抽出手段によって切り出された各文字画
像を所定の画像特徴をもとに前記文字カテゴリ記憶手段
に記憶されているカテゴリに分類する擬似文字認識手段
と、該擬似文字認識手段によってカテゴリに分類された
カテゴリの列であるカテゴリ列を前記カテゴリ単語辞書
から検索するカテゴリ単語検索手段を具備することを特
徴とするものである。

【００１６】請求項８に記載の発明は、請求項７に記載
の文書処理装置において、さらに、前記テキスト領域抽
出手段によって切り出された各文字画像を該文字画像の
外接矩形の大きさおよびその位置のいずれか１つ以上を
用いて句読点か否かを判断する句読点検出手段を具備
し、前記カテゴリ単語検索手段は、前記句読点検出手段
によって句読点と判断された文字画像間の文字画像に対
応する前記類似文字認識手段によって分類されたカテゴ
リ列を検索単位とすることを特徴とするものである。

【００１７】請求項９に記載の発明は、請求項７に記載
の文書処理装置において、さらに、前記カテゴリ単語辞
書に記憶されているカテゴリ単語の品詞およびそのカテ
ゴリ単語に対応する単語間の接続関係を記憶する品詞接
続辞書を具備し、前記カテゴリ単語検索手段は、前記品
詞接続辞書に記憶されているカテゴリ単語の品詞および
該カテゴリ単語に対応する単語間の接続関係に基づいて
カテゴリ列を前記カテゴリ単語辞書から検索することを
特徴とするものである。

【００１８】請求項１０に記載の発明は、請求項７に記
載の文書処理装置において、さらに、前記カテゴリ単語
検索手段により検索されたカテゴリ列に対応する単語が
複数存在する場合に、該カテゴリ列に対応する文字画像
に対して文字認識を行なう文字認識手段を具備すること
を特徴とするものである。

【００１９】請求項１１に記載の発明は、請求項７に記
載の文書処理装置において、前記擬似文字認識手段は、
文字の画像特徴とカテゴリを代表する画像特徴が閾値内
の距離に存在する複数のカテゴリに分類する擬似文字認
識手段と、前記カテゴリ単語検索手段は、前記擬似文字
認識手段によって分類された複数のカテゴリの列であ
り、その複数のカテゴリの組合せであるカテゴリ列を前
記カテゴリ単語辞書から検索することを特徴とするもの
である。

【００２０】請求項１２に記載の発明は、文字の画像特
徴をもとに類似した文字ごとに分類されたカテゴリをそ
の画像特徴と対応づけて記憶しておく文字カテゴリ記憶
手段を具備した文書処理装置における文書処理方法にお
いて、入力された文書画像中の文字ごとに画像を切り出
し、切り出された各文字画像を所定の画像特徴をもとに
前記文字カテゴリ記憶手段に記憶されているカテゴリに
分類し、分類された前記各文字画像のカテゴリを前記入
力された文書画像と対応づけて記憶し、検索時に入力さ
れた検索式中のキーワードの各文字を前記文字カテゴリ
記憶手段に記憶されている対応するカテゴリに変換し、
カテゴリに変換された検索式を満たすカテゴリを有する
文書画像を取り出すことを特徴とするものである。

【００２１】請求項１３に記載の発明は、文字の画像特
徴をもとに類似した文字ごとに分類されたカテゴリを該
画像特徴と対応づけて記憶しておく文字カテゴリ記憶手
段と、単語とその単語の各文字を前記カテゴリに置き換
えたカテゴリ単語とを対応づけて記憶するカテゴリ単語
辞書を具備した文書処理装置における文書処理方法にお
いて、入力された文書画像中の文字ごとに画像を切り出
し、切り出された各文字画像を所定の画像特徴をもとに
前記文字カテゴリ記憶手段に記憶されているカテゴリに
分類し、カテゴリに分類されたカテゴリの列であるカテ
ゴリ列を前記カテゴリ単語辞書から検索することを特徴
とするものである。

【００２２】請求項１４に記載の発明は、コンピュータ
に実行させるプログラムおよび辞書を読取可能に記憶し
た記憶媒体において、前記辞書は、文字の画像特徴をも
とに類似した文字ごとに分類されたカテゴリを前記画像
特徴と対応づけて記憶しておく文字カテゴリ辞書であ
り、前記プログラムは、入力された文書画像中の文字ご
とに画像を切り出すテキスト領域抽出手段と、該テキス
ト領域抽出手段によって切り出された各文字画像を所定
の画像特徴をもとに前記文字カテゴリ辞書に記憶されて
いるカテゴリに分類する擬似文字認識処理と、該擬似文
字認識処理によって分類された前記各文字画像のカテゴ
リを前記入力された文書画像と対応づけて記憶しておく
擬似文字認識結果記憶処理と、検索時に入力された検索
式中のキーワードの各文字を前記文字カテゴリ辞書に記
憶されている対応するカテゴリに変換するキーワード変
換処理と、該キーワード変換処理によってカテゴリに変
換された検索式を満たすカテゴリを有する文書画像を前
記擬似文字認識結果記憶処理によって記憶されているも
のから取り出す文書検索処理を前記コンピュータに実行
させることを特徴とするものである。

【００２３】請求項１５に記載の発明は、コンピュータ
に実行させるプログラムおよび辞書を読取可能に記憶し
た記憶媒体において、前記辞書は、文字の画像特徴をも
とに類似した文字ごとに分類されたカテゴリを前記画像
特徴と対応づけて記憶しておく文字カテゴリ辞書と、単
語とその単語の各文字を前記カテゴリに置き換えたカテ
ゴリ単語とを対応づけて記憶するカテゴリ単語辞書であ
り、前記プログラムは、入力された文書画像中の文字ご
とに画像を切り出すテキスト領域抽出処理と、該テキス
ト領域抽出処理によって切り出された各文字画像を所定
の画像特徴をもとに前記文字カテゴリ辞書に記憶されて
いるカテゴリに分類する擬似文字認識処理と、該擬似文
字認識処理によってカテゴリに分類されたカテゴリの列
であるカテゴリ列を前記カテゴリ単語辞書から検索する
カテゴリ単語検索処理を前記コンピュータに実行させる
ことを特徴とするものである。

【００２４】

【発明の実施の形態】図１は、本発明の文書処理装置の
第１の実施の形態を示す構成図である。図中、１はプロ
セッサ、２は表示装置、３はキーボード、４はマウス、
５はスキャナ、６はプリンタ、７は外部記憶装置、１１
は類似文字分類部、１２は擬似文字認識部、１３は検索
実行部である。プロセッサ１には、操作を指示するため
のキーボード３、マウス４、結果を表示するためのディ
スプレイ２、文書を入力するためのイメージスキャナ
５、結果を印字出力するプリンタ６、プログラムや処理
のためのデータを保持する外部記憶装置７等が接続され
ている。プロセッサ１は、実際の処理を行なう部分であ
り、実際の処理は外部記憶装置７に蓄えられたソフトウ
エアによって実行される。プロセッサ１は、例えば通常
のコンピュータ本体等で構成される。外部記憶装置７と
しては、例えば高速アクセスが可能なハードディスク等
で構成することができる。外部記憶装置７は、文書画像
を大量に保持するために光ディスクなどの大容量デバイ
スを用いるような構成をとっても構わない。

【００２５】プロセッサ１で行なわれる処理は、類似文
字分類部１１、擬似文字認識部１２、検索実行部１３の
３つで構成される。類似文字分類部１１は、対象となる
文字を、画像特徴を基にして類似文字から構成されるカ
テゴリに分類する。ここでは文書の登録の際に必要とな
る類似文字カテゴリテーブル、および検索の際に必要と
なる文字コード・カテゴリ対応テーブルを作成する。実
際の文書の登録および検索にはこれらの２つのテーブル
があればよいので、ここでの処理は文書画像の入力に先
だって行なわれるのみである。類似文字カテゴリテーブ
ルは、カテゴリを代表する文字の文字コード、実際にそ
れに属する複数の文字の文字コード、そのカテゴリを代
表する画像特徴ベクトルを対にして記憶しているもので
ある。文字コード・カテゴリ対応テーブルは、類似文字
カテゴリテーブルの逆引きテーブルであり、検索キーワ
ードを代表文字コード列に変換するために用いられる。

【００２６】擬似文字認識部１２は、入力された文書画
像からテキスト領域を抽出し、各領域内に含まれるそれ
ぞれの文字を類似文字カテゴリに分類して、その代表文
字コードを割り当て、これらを対応する文字の画像上の
位置とともに文書画像を外部記憶装置７に記憶する。

【００２７】検索実行部１３は、利用者に検索式の入力
を促し、入力がなされたならばその検索式に含まれるキ
ーワードを文字コード・カテゴリ対応テーブルによって
カテゴリの代表文字コード列に変換し、その変換された
キーワードのコード列を含む文書画像を取り出し、見つ
かったキーワードの位置とともに利用者に提示する。

【００２８】以下、それぞれの処理の詳細について説明
する。図２は、類似文字分類部の処理の一例を示すフロ
ーチャートである。類似文字分類部１１は、各類似文字
カテゴリに含まれる文字画像のトレーニングサンプルを
入力として、類似文字カテゴリテーブルおよび文字コー
ド・カテゴリ対応テーブルを作成する。トレーニングサ
ンプルは二値の文字画像とそれに対応する文字コードか
ら構成され、さまざまなフォント、二値化のしきい値の
異なるものなどをすべての文字種について用意する。

【００２９】まず、Ｓ２１において、前処理として各文
字画像の大きさの正規化を行なう。ここでは正規化され
た大きさを６４×６４（画素）としておく。次に特徴抽
出を行なう。ここではペリフェラル特徴を用いている。
図３は、ペリフェラル特徴の説明図である。ペリフェラ
ル特徴は、図３に示すように、文字の外接矩形のそれぞ
れの辺から走査し、白画素から黒画素に変化する点まで
の距離を特徴とするもので、最初に変化する位置と２度
目に変化する位置を取り出す。ここでは、水平および垂
直方向にそれぞれ８つの領域に分割して走査することと
し、８×４×２の合計６４次元の特徴ベクトルを取り出
す。図３では、外接矩形の左辺から走査した場合を示し
ており、最初に白画素から黒画素に変化する点までの走
査軌跡を破線の矢印で示している。通常の文字認識では
さらに他の特徴量も併用して識別精度を向上させること
を行なっているが、ここでは少数の類似文字カテゴリに
分類するだけでよいので、少ない次元数の特徴ベクトル
で十分の精度が期待できる。なお、ペリフェラル特徴に
代えて、あるいはペリフェラル特徴とともに、他の特徴
を抽出して特徴ベクトルを形成してもよい。

【００３０】トレーニングサンプルの各文字について特
徴ベクトルが得られたならば、Ｓ２２において、同一の
文字種、すなわち「亜」ならば同じ「亜」であって異な
るフォントや二値化の異なるものなどについて特徴ベク
トルの平均をとり、各文字種ごとの代表ベクトルを作成
する。この代表ベクトル間の距離が特徴空間内で近いも
のが類似文字である。Ｓ２３において、この代表ベクト
ルが近くに集まっているものをグループとしてまとめる
クラスタリング処理を行なう。クラスタリングは、例え
ば、Ｄｕｄａ，Ｈａｒｔ著，“ＰａｔｔｅｒｎＣｌａ
ｓｓｉｆｉｃａｔｉｏｎａｎｄＳｃｅｎｅＡｎａ
ｌｙｓｉｓ”，Ｗｉｌｅｙ−Ｉｎｔｅｒｓｃｉｅｎｃｅ
社刊に記載されている方法などを用いることができる。
この方法はまず、初めに階層的クラスタリングを施し、
これを最初のクラスタの仮定としてクラスタごとの重心
と各特徴ベクトルとの自乗誤差の総和が最小になるよう
に最適化を行なうものである。

【００３１】図４は、階層的クラスタリングの処理の一
例を示すフローチャートである。まずＳ３１において、
所望のクラスタ数をｍ、文字種の総数をｎ、初期クラス
タをＸ＝｛ｃ_i｜ｉ＝１，．．．，ｎ｝とし、ｃ_iは類
似している文字種の代表特徴ベクトルが保持される。ｃ
_iの初期値として、各文字種の代表特徴ベクトルを１つ
ずつ入れる。Ｓ３２において、現在のクラスタ数と所望
のクラスタ数ｍとを比較し、もし現在のクラスタの数が
ｍに等しければ、その時点のＸをクラスタリングの結果
として処理を終わる。そうでない場合はＳ３３へ進む。
Ｓ３３において、特徴空間におけるクラスタの距離ｄが
最も小さい２つのクラスタの組を見つけ出し、これを一
つのクラスタに統合する。そしてＳ３２へ戻る。

【００３２】所望のクラスタ数ｍは任意に与えることが
できるが、ここでは仮に５００に設定しておく。ＪＩＳ
第一水準では約３，０００字種が存在するため、１クラ
スタ当たり平均６字種が含まれることになる。この処理
の中で、クラスタ間の距離ｄを計算する方法としては種
々のものが考えられる。ここでは、２つのクラスタ内の
特徴ベクトルを１つずつ取り出して組を作り、その中で
最も近い位置にあるベクトルの組の距離を２つのクラス
タの距離とする方法を用いることにする。

【００３３】この階層的クラスタリングの結果は最適な
クラスタリングとはいえないため、これを出発点とし
て、図２のＳ２４においてクラスタの最適化を行なう。
最適化は各クラスタ内の特徴ベクトルの平均値と各特徴
ベクトルとの距離の二乗和をとり、すべてのクラスタに
ついての総和を判定関数とする。この判定関数の値が小
さいほどクラスタ内の特徴ベクトルが密集しており、よ
り良いクラスタリングであるといえる。これを最小とす
るようなクラスタリングを見つけることは一般的には困
難であるが、擬似的に最適化を施すことが可能である。

【００３４】図５は、クラスタリングの最適化処理の一
例を示すフローチャートである。まずＳ４１において、
任意の特徴ベクトルｘを取り出す。そしてＳ４２におい
て、特徴ベクトルｘが現在属しているクラスタをｃ_iと
して、そこに登録されている特徴ベクトルがｘのみであ
るか否かを判定し、特徴ベクトルｘのみである場合はＳ
４１へ戻る。そうでない場合は、すべてのクラスタｃ_j
に対して以下の計算を行なう。（ｊ≠ｉの時）ａ＝ｎ_j／（ｎ_j＋１）||ｘ−ｍ_j||² （ｊ＝ｉの時）ａ＝ｎ_i／（ｎ_i−１）||ｘ−ｍ_i||² ただし、ｎ_jはｃ_jに登録されている特徴ベクトルの個
数、ｍ_jはｃ_jに属する特徴ベクトルの平均である。上
記の式は特徴ベクトルｘをｃ_jに移動させた時の判定関
数の変化量を示している。

【００３５】Ｓ４４において、Ｓ４３で計算されたａの
値が最小となるｊがｉ以外であるか否かを判定し、ａの
値が最小となるｊがｉ以外である場合はＳ４５において
特徴ベクトルｘをクラスタｃ_jへ移動させる。

【００３６】Ｓ４６において、すべての特徴ベクトルに
ついてクラスタの移動ができなくなったか否かを判定
し、まだ移動が可能な場合には、Ｓ４１へ戻って次の特
徴ベクトルをｘとしてＳ４２以下の処理を繰り返す。す
べての特徴ベクトルについてクラスタの移動ができなく
なった場合は、その時点でのクラスタを結果とし、処理
を終了する。

【００３７】このようにして類似文字のクラスタリング
が行なわれる。この図５に示した処理において、Ｓ４１
で任意の文字を取り出す際の方法をさまざまに変えて同
様の処理を施し、評価関数（各クラスタ内の特徴ベクト
ルの平均値と各特徴ベクトルとの距離の二乗和の総和）
を最小とするものを結果として採用する。

【００３８】図２に戻り、Ｓ２５において、それぞれの
クラスタに基づき、類似文字カテゴリテーブルを作成し
て記憶する。この類似文字カテゴリテーブルは、文書の
登録の際に用いられる。図６は、類似文字カテゴリテー
ブルの一例の説明図である。図６に一部示した類似文字
カテゴリテーブルは、各カテゴリごとに、属する文字の
文字コード、カテゴリ特徴の代表ベクトル、およびカテ
ゴリを代表する文字コードから構成されている。カテゴ
リ特徴ベクトルは属する文字の特徴ベクトルの平均であ
る。カテゴリを代表する文字コードはそのカテゴリに属
する文字の文字コードのうち、任意の１つが当てられ
る。図６では、文字コードの代わりに文字自体を記載し
ている。

【００３９】さらに、Ｓ２６において、検索処理で検索
キーワードを代表文字コード列に変換するために、類似
文字カテゴリテーブルの逆引きテーブルとして文字コー
ド・カテゴリ対応テーブルを同時に作成する。図７は、
文字コード・カテゴリ対応テーブルの一例の説明図であ
る。文字コード・カテゴリ対応テーブルは、図７に示す
ように、文字コードと、その文字コードに対応するカテ
ゴリの代表文字コードを組にして作成する。

【００４０】次に、擬似文字認識部１２において行なわ
れる文書の登録処理について述べる。図８は、擬似文字
認識部の処理の一例を示すフローチャートである。ま
ず、利用者は接続されているイメージスキャナ５などに
よって登録したい文書を画像として入力する。あるい
は、ＦＡＸやネットワークなどで伝送されて入力される
場合もある。ここではモノクロ二値画像を入力と想定し
ているが、グレースケールあるいはカラー文書として入
力し、擬似文字認識処理に対しての入力の際に、しきい
値処理によって二値画像に変換してもよい。入力された
二値画像に対して、まず前処理としてノイズ除去、スキ
ュー補正などが行なわれる。

【００４１】Ｓ５１において、二値画像の中に含まれる
文字領域が抽出される。この処理は例えば、秋山，増
田，「周辺分布、線密度、外接矩形特徴を併用した文書
画像の領域分割」，電子情報通信学会論文誌Ｄ−ＩＩ，
Ｖｏｌ．Ｊ６９，Ｎｏ．８などに開示されている周辺分
布による領域分割手法などを用いることができる。もち
ろん、領域分割処理方法としては多くの手法が提案され
ており、ここで述べる周辺分布に基づく手法に限ったも
のではないことはいうまでもない。図と判定された部分
は処理対象から除かれる。分割された文字ブロック領域
は矩形領域として順にブロックＩＤと呼ばれる番号が付
与され、メモリ内に保持される。

【００４２】図９は、文字領域抽出結果の一例を示す説
明図である。図９（Ａ）は入力された文書画像の一例を
示しており、ハッチングを施した部分が文字が並んだ行
を示しており、×を付した部分が図の領域である。例え
ば、このような二値の文書画像が入力されると、図９
（Ｂ）に太枠で示すような各文字ブロック領域と図表領
域に分割され、文字ブロック領域に対してブロックＩＤ
が付与される。図９（Ｂ）においてはブロックＩＤ１〜
６が付与されている。

【００４３】図８に戻り、Ｓ５２において、文字領域は
さらに行ごとに分割され、さらに文字ごとに分割され
る。この文字の切り出し処理についても種々の手法が提
案されており、いずれの手法を用いてもよい。

【００４４】Ｓ５３において、切り出された各文字画像
ごとに類似文字カテゴリの代表文字コードへ変換する。
図１０は、代表文字コード列への変換処理の一例を示す
フローチャートである。まず、明らかに検索キーワード
になりえない句読点を取り出しておく。Ｓ６１におい
て、文字画像が句読点であるか否かを判定する。句読点
の判定は、その文字画像の外接矩形の幅、高さがしきい
値Ｔｗ，Ｔｈ以下であるもので、上端が文字行の中心よ
り下にあって、右に隣接する文字までの距離がしきい値
Ｔｒより大きいという条件を満たすものである。しきい
値Ｔｗ，Ｔｈ，Ｔｒは日本語文字幅と高さがほぼ同一で
あるという条件から、文字行の高さをｈとすると、例え
ば、Ｔｗ＝Ｔｈ＝Ｔｒ＝ｈ／２と設定すればよい。句読
点と判定された文字については、Ｓ６２において、文字
カテゴリとして句読点を示す“。”を割り当てる。

【００４５】句読点でない場合、類似文字分類処理と全
く同様に、Ｓ６３において大きさの正規化がなされ、画
像特徴が計算される。ここでは、類似文字分類処理時に
ペリフェラル特徴を抽出したので、それに合わせてペリ
フェラル特徴を計算する。次にＳ６４において、この未
知文字の特徴ベクトルがどの類似文字カテゴリに属する
かを判定する。すなわち、未知文字の特徴ベクトルと類
似文字カテゴリの代表ベクトルとのユークリッド距離を
計算して比較する。代表ベクトルは、類似文字カテゴリ
テーブルに登録されているので、これを用いることがで
きる。Ｓ６５において、計算されたユークリッド距離が
最も近いものをその文字カテゴリとして採用し、その代
表文字コードを結果として出力する。ここでは簡単のた
めに最短距離による識別方法を用いているが、この最短
距離による識別方法以外にもさまざまな識別手法が考え
られ、それらを用いることもできる。

【００４６】図１１は、代表文字コード列への変換処理
の結果の一例を示す説明図である。いま、入力された文
字画像が図１１（Ａ）に示すように「…文書画像解析
…」であった場合に、まず最初の文字画像「文」を切り
出し、特徴ベクトルを求める。次に類似文字カテゴリテ
ーブルに記憶されている各カテゴリの代表ベクトルとの
距離を求め、最短距離を持つカテゴリの代表文字コード
を割り当てる。例えば、図６に示すような類似文字カテ
ゴリテーブルが登録されているとき、順に文字画像すべ
てに対して代表文字コードへの変換を行なうと、この画
像はカテゴリの代表文字コード列「…父家画倶絹肝…」
に変換される。

【００４７】ここでは通常の文字認識は行なっておら
ず、少ない次元の特徴ベクトルを用いて少数の文字カテ
ゴリとの照合を行なっているに過ぎない。類似文字カテ
ゴリテーブルには類似文字コードが登録されてはいる
が、文字認識を行なっていないのでこの類似文字コード
はこの時点では使用されない。

【００４８】このように、代表文字コード列への変換処
理は、少数の文字カテゴリとの照合ですむため、大幅な
速度向上が実現できる。照合はユークリッド距離を用い
ており、計算量は特徴ベクトルの次元数と識別カテゴリ
の数にほぼ比例する。いま、識別する対象の文字種の数
を３，０００、類似文字カテゴリの数を５００とし、特
徴ベクトルの次元数を通常の文字認識の場合を３００、
本手法の場合を６４とすると、トータルで照合のための
計算量は１／２８以下に抑えることができる。日本語の
文字認識の高速化手法として、少数次元の特徴ベクトル
を用いて近い文字種を数十から数百取り出しておき（大
分類）、さらに詳細な識別をさらに多次元の特徴ベクト
ルを用いて行なう（詳細分類）という階層的な識別手法
が知られている。このような手法での大分類処理で本手
法と同一次元数のベクトルを用いたと仮定しても、全文
字種（３，０００）との照合が必要であり、さらに詳細
分類が必要となるので、トータルの計算量は１／６以下
になる。

【００４９】図８に戻り、Ｓ５３で得られた代表文字コ
ード列をそのまま検索処理の時にサーチするのでは効率
が悪いので、検索のためのインデックスを準備し、文書
を登録するごとにその内容を更新する。ここではｂｉ−
ｇｒａｍによるインデックスを用い、Ｓ５４においてｂ
ｉ−ｇｒａｍテーブルへの登録を行なう。ｂｉ−ｇｒａ
ｍは文字列の中の２つの連続する文字からなる部分文字
列を指す。すなわち、「父家画倶絹肝」という文字列の
場合には、ｂｉ−ｇｒａｍ「父家」、「家画」、「画
倶」、「倶絹」、「絹肝」が得られる。これを代表文字
コード列について取り出し、テーブルのインデックスに
して、その文書画像ＩＤとそのｂｉ−ｇｒａｍの代表文
字コード列内の位置（すなわち、何文字目）を保存して
おく。

【００５０】図１２は、ｂｉ−ｇｒａｍテーブルの一例
の説明図である。図１２には、上述の例で用いた「文書
画像解析」という文字列に対して得られた代表文字コー
ド列「父家画倶絹肝」のｂｉ−ｇｒａｍテーブルを示し
ている。図１２に示したｂｉ−ｇｒａｍテーブルは２段
階で構成されており、ｂｉ−ｇｒａｍをキーとしてその
内容を示すテーブルへのポインタを格納する。ポインタ
によって示されるテーブルは、文書ＩＤとその中のどの
領域かを示すブロックＩＤと文字位置との組からなるテ
ーブルとして構成され、入力された文書中の文字ブロッ
ク内に、対応するｂｉ−ｇｒａｍが見つかるたびにその
エントリが追加されていく。ｂｉ−ｇｒａｍテーブルは
公知の技術、例えば、ｂｉ−ｇｒａｍをキーとするＢ−
ｔｒｅｅまたはＨａｓｈテーブルなどによって実現で
き、高速な検索を可能とすることができる。なお、最初
に句読点と判断されたものについてはｂｉ−ｇｒａｍは
生成されない。

【００５１】図８に戻り、Ｓ５５において、Ｓ５３で得
られた代表文字コード列を、文字ブロックごとにその画
像上の位置とともに代表文字コードテーブルとして、入
力画像とともに外部記憶装置７などに蓄える。図１３
は、代表文字コードテーブルの一例を示す説明図であ
る。各代表文字コードと、その文字コードが画像上で占
める矩形位置を対にして記憶している。図１３では、代
表文字コードの代わりに文字を記して示している。ま
た、文字コードが画像上で占める矩形位置は、（左上ｘ
座標、左上ｙ座標、幅、高さ）で表現している。以上の
処理によって入力された文書画像についての登録処理が
完了する。

【００５２】最後に検索実行部１３における検索処理に
ついて説明する。図１４は、検索実行部の処理の一例を
示すフローチャートである。検索実行部１３は、利用者
からの入力があるまで待っている。利用者がディスプレ
イ２を見ながら、例えばキーボード３で検索式を入力す
ると、検索実行部１３はＳ７１において入力された検索
式を読み込む。検索式としては、種々の形態が可能であ
るが、ここでは、検索キーワードを論理和、論理積、論
理否定などブール演算子で結合して構成されているもの
とする。

【００５３】検索式を読み込むと、Ｓ７２において検索
式を解析して検索式内のキーワードを取り出し、Ｓ７３
において、検索式内のキーワードを文字コード・カテゴ
リ対応テーブルを参照してカテゴリの代表文字コード列
に変換する。具体例として、検索式が「文書画像＊解
析」である場合について考える。ここで、＊は論理積を
表わす。この検索式は「文書画像」という単語と「解
析」という単語を共に含む文書画像を検索せよという指
示を意味する。２つのキーワードに対応する代表文字コ
ード列は文字コード・カテゴリ対応テーブルを参照し
て、それぞれ「父家画倶」、「絹肝」に変換される。

【００５４】次に、登録されている文書画像から得られ
た代表文字コード列の中に、この２つのキーワードから
変換された代表文字コード列を含むものがあるか否かを
調べ、あればその画像上の位置を記憶する。実際はＳ７
４においてキーワードに対応する代表文字コード列のｂ
ｉ−ｇｒａｍを作成し、これをＳ７５において前述のｂ
ｉ−ｇｒａｍテーブルの中から検索し、対応する文書画
像のＩＤとそのｂｉ−ｇｒａｍの出現位置を得る。３文
字以上の検索キーワードの場合は複数のｂｉ−ｇｒａｍ
が生成され、それぞれのｂｉ−ｇｒａｍが同一文書の同
一文字ブロック中で連続して出現している必要がある。
したがって、同一の文書画像ＩＤとブロックＩＤについ
てそのｂｉ−ｇｒａｍの出現位置を前から順にトレース
し、連続していないものは結果から削除する。

【００５５】上述の検索式の例では、キーワード「父家
画倶」からｂｉ−ｇｒａｍ「父家」、「家画」、「画
倶」が作成され、キーワード「絹肝」はそのままｂｉ−
ｇｒａｍ「絹肝」となる。例えば、図１２に示すような
ｂｉ−ｇｒａｍテーブルが登録されているとする。まず
ｂｉ−ｇｒａｍ「父家」が含まれる文書は、文書ＩＤが
００００１、０００１５、０００２３の４つである。こ
のうち、文書ＩＤが００００１の文書では、ブロックＩ
Ｄ１，２内の「父家」の位置のあとには「家画」という
ｂｉ−ｇｒａｍが連続していることがわかる。しかし、
文書ＩＤが０００１５や０００２３の文書では、「家
画」というｂｉ−ｇｒａｍは連続していない。したがっ
て、文書ＩＤ００００１の文書が「父家画」という文字
列を含むことが分かる。同様の処理を「画倶」について
も調べて、最終的に「父家画倶」が含まれる文書の文書
ＩＤが得られる。「絹肝」は２文字単語なのでこのｂｉ
−ｇｒａｍテーブルを調べるだけでよい。こうして各検
索キーワードが出現している文書画像ＩＤとその出現位
置が得られる。

【００５６】最後にＳ７６において検索式内の論理演算
を施す。すなわち、各検索キーワードを含む文書画像Ｉ
Ｄの集合に対して論理演算を行ない、最終的に検索式に
合致する文書画像ＩＤの集合を得る。例えば、キーワー
ドに対応する代表文字コード列「父家画倶」、「絹肝」
を含む文書ＩＤの集合がそれぞれ（００００１，０００
３１，００２０２）、（００００１，０００５４，００
２０２）であった場合に、論理積を施すと、（００００
１，００２０２）となる。すなわち、文書画像ＩＤ００
００１の文書画像と、文書画像ＩＤ００２０２の文書画
像が、代表文字コード列「父家画倶」、「絹肝」の両方
を含んでいることになる。

【００５７】Ｓ７７において、このようにして得られた
結果に含まれる文書画像ＩＤに対応する文書画像を例え
ば外部記憶装置７から取り出し、Ｓ７８においてディス
プレイ２上に順に表示する。また、得られたブロックＩ
Ｄと文字位置をもとに、画像とともに記憶している画像
上の代表文字コードテーブルから文字の位置が分かるの
で、対応する文字をハイライト表示する。ハイライト表
示は白黒反転表示でもよいし、カラーディスプレイの場
合は分かりやすい色を用いても構わない。結果を見て利
用者が印刷指定をした場合は、文書画像をプリンタ６へ
出力すればよい。

【００５８】次に、本発明の文書処理装置の第１の実施
の形態における第１の変形例について説明する。この第
１の変形例では、さらに検索の精度を上げるための改良
について述べる。伊藤他，「階層的印刷漢字認識システ
ムにおける字種を複数クラスタに登録する辞書構成
法」，電子情報通信学会論文誌Ｄ−ＩＩ，Ｖｏｌ．Ｊ７
８−Ｄ−ＩＩ，Ｎｏ．６，ｐｐ．８９６−９０５，１９
９５年６月でも示されているように、同一字種の特徴ベ
クトルを平均した代表ベクトルを用いてクラスタリング
を行なった場合には、実際の文字画像に対して正しく対
応するカテゴリに識別できない場合が存在する。これを
避けるために、上記の文献に開示されているε−ｃｏｍ
ｐｏｎｅｎｔ拡張法を用いることができる。すなわち、
文字種ごとの代表ベクトルを用いてクラスタリングした
後、テストサンプルの文字画像それぞれの特徴ベクトル
と各カテゴリの代表ベクトルとのユークリッド距離を調
べ、最短のものおよびその最短距離にスカラーパラメー
タεを加えた距離以内に存在するすべてのカテゴリにそ
の文字コードを類似文字として登録する。εの値は大き
くなればなるほど擬似文字認識の精度は向上するが、カ
テゴリあたりに含まれる文字コードが増加するため、検
索時に誤った結果を出力する可能性が増える。最適なε
の値を決定するために、まずテストサンプルとは別の未
知文字画像のセットを準備する。種々のεに対して拡張
された類似文字カテゴリを用いて擬似文字認識処理を行
ない、未知文字画像セットのすべての文字について識別
されたカテゴリに正しくその文字コードが含まれるよう
な最小の値にεをセットする。

【００５９】このようにした場合、検索のための文字コ
ード・カテゴリ対応テーブルが１つの文字コードに対し
て複数の類似文字カテゴリが対応するようになる。図１
５は、複数のカテゴリへの分類を許容した場合の文字コ
ード・カテゴリ対応テーブルの一例の説明図である。図
１５に示した例では、例えば文字「並」は、代表文字が
「亜」であるカテゴリと、代表文字が「平」であるカテ
ゴリの２つに分類されている。図１５では示されていな
いが、１つの文字が３つ以上のカテゴリに分類されるこ
ともある。

【００６０】このように１つの文字が複数のカテゴリに
分類されているため、検索式中のキーワードを代表文字
コード列に変換する際に、１つのキーワードに対して可
能な代表文字コード列が複数得られることになる。例え
ば、文字コード・カテゴリ対応テーブルが図１５に示す
内容であるとき、文字「文」と「像」はそれぞれ「父、
交」と「倶、場」の２つのカテゴリに属している。この
場合、上述の検索式の例で用いたキーワード「文書画
像」は、４つの代表文字コード列「父家画倶」、「交家
画倶」、「父家画場」、「交家画場」に変換される。こ
れら４つの代表文字コード列の少なくとも１つを含む文
書をすべて取り出し、これら４つのキーワードの論理和
として内部的に処理すればよい。このような処理を行な
うことによって、若干の処理時間が増えるが、漏れのな
い検索を行なうことができる。

【００６１】さらに１つの文字に対して複数のカテゴリ
が対応する場合、カテゴリの確からしさを合わせて保持
しておくことで、内部的に展開された４つのキーワード
の確からしさを示すことができる。例えば、文字「文」
が「父」カテゴリに識別される確率が０．７、「交」カ
テゴリに分類される確率が０．３であり、「像」も同様
に「倶」カテゴリに識別される確率が０．８、「場」カ
テゴリに識別される確率が０．２であるとする。この場
合、「父家画倶」は０．７×０．８＝０．５６、「交家
画倶」は０．３×０．８＝０．２４、「父家画場」は
０．７×０．２＝０．１４、「交家画場」は０．３×
０．２＝０．０６の確率で出現する。このように展開さ
れたキーワードを確からしい順に並べかえることによっ
て、検索された文書画像を確からしいものから順に利用
者に提示することも可能となる。各文字が対応するカテ
ゴリに分類される確からしさは、例えば、カテゴリの拡
張時に用いた未知文字画像セットの同一文字種の文字が
どれくらいの割合で対応するカテゴリに含まれたかを数
え上げることで計算できる。

【００６２】次に、本発明の文書処理装置の第１の実施
の形態における第２の変形例について説明する。これま
では、文字切り出しの段階での誤りがなく、各文字が確
実に切り出されるものとしてきたが、現実には切り出し
時の誤りも多く発生する。日本語文字だけで構成される
場合は固定ピッチが想定できるが、英単語などが入るこ
とが想定される場合は、横書きテキストの場合はへんと
つくりに分離されることが往々にして起こる。もちろ
ん、読み取り時のかすれなどが原因で１つの文字が２つ
の文字に分かれたりすることも想定される。

【００６３】いくつかの文字について可能な文字切り出
し位置が複数存在する場合は、その可能な切り出し結果
を保持した代表文字コード列を表現すればよい。このよ
うな場合を想定して以下のように代表文字コード列を表
現することを考える。これは実施例１で述べた代表文字
コードテーブルを次のように拡張することによって実現
する。

【００６４】図１６は、複数の文字切り出し解釈が存在
する場合の切り出し位置の具体例を示す説明図である。
いま、文字の切り出し処理の対象とする画像が図１６
（Ａ）に示されるような「文書印刷」であった場合を考
える。「文」、「書」については文字間の間隙しか存在
しないので、適切に文字を切り出すことができる。しか
し、「印」の文字中に１か所、「刷」の中に２か所、垂
直方向に白画素のみからなる切り出し位置候補が存在す
る。これら２文字の間も当然切り出し位置が存在するの
で、「印刷」からは図１６（Ｂ）に示すように合計５つ
の部分文字（ａ１，ａ２，ｂ１，ｂ２，ｂ３）が得られ
る。

【００６５】これらについて、文字としての統合を試み
る。統合は部分文字を左から順に見ていき、幅のしきい
値を越えないものはすべて文字として見なすとする。幅
のしきい値としては、例えば行の高さｈを用いることが
できる。この例では、文字「文」と統合できるものはな
いので、そのまま１文字として登録する。「書」も同様
である。文字「印」については、部分文字ａ１，ａ２を
２つの文字として扱う場合と１つの文字として扱う場合
の２つが可能な解釈がある。ａ２とｂ１を統合した場合
は幅のしきい値を越えるため、統合はなされない。した
がって、ここまでの２つの解釈を同じ文字画像領域に対
して保持する必要がある。同様にｂ１以降を順に見てい
くと、可能な解釈が（［ｂ１］，［ｂ２］，［ｂ
３］），（［ｂ１ｂ２］，［ｂ３］），（［ｂ１］，
［ｂ２ｂ３］），（［ｂ１ｂ２ｂ３］）の４通りある。
ここで、［］は中の部分文字が１つの文字と見なされる
ことを示している。

【００６６】図１７は、複数の文字切り出し解釈が存在
する場合の切り出された文字列の関係の説明図である。
上述のようにして文字としての統合を試みた際の可能な
解釈の関係を図１７に示している。図中の○は文字切り
出しの解釈の区切りであり、□は１つの文字として扱う
単位を示している。ａ１とａ２については、上述のよう
な２通り、ｂ１〜ｂ３については４通りの解釈があるの
で、それらの各解釈にそって切り出した候補を並べて線
で結んで示している。この例では全部で８通りの解釈が
成り立つ。これらすべての解釈が保持される。

【００６７】図１８は、複数の切り出し解釈を許容した
場合の代表文字コードテーブルの一例の説明図である。
図１７に示すような複数の解釈を表現するため、具体的
には図１８に示すように、代表文字コードテーブルを基
本テーブルとサブテーブルに分割する。基本テーブルは
図１３に示した代表文字コードテーブルを拡張し、複数
の文字切り出し解釈がある場合にその解釈を表現するサ
ブテーブルへのポインタを、画像上の位置を示していた
カラムに格納できるようにする。複数の解釈がある場
合、図１８では基本テーブルの代表文字コードに０をセ
ットしている。サブテーブルは、ある切り出し位置から
見て右に文字と見なされる部分文字領域とその画像上の
位置、その後に接続するサブテーブルの番号によって構
成されている。

【００６８】図１６に示された文字「印」について考え
ると、文字切り出し位置は部分文字ａ１の左とａ２の左
にある。サブテーブルは切り出し位置の左から順に番号
が付与される。すなわち、ａ１の左を切り出し位置とし
た場合に、可能な文字としての解釈は［ａ１］と［ａ１
ａ２］である。ａ１はａ２の左の切り出し位置を共有し
ているので、［ａ１］に対してはサブテーブルの番号２
が格納されている。［ａ１ａ２］のほうはこれ以上接続
する文字はないので、０が格納されている。

【００６９】次にａ２の左の切り出し位置とした場合に
ついて、２番目のサブテーブルが作成される。この切り
出し位置の右における文字としての解釈は［ａ２］しか
存在しない。そのため、２番目のサブテーブルは［ａ
２］のみが登録され、その後に接続するものがないの
で、次テーブル番号には０がセットされる。

【００７０】文字「刷」についても同様に３つのサブテ
ーブルが生成される。最初のサブテーブルは［ｂ１］，
［ｂ１ｂ２］，［ｂ１ｂ２ｂ３］の３つの解釈が、２番
目のサブテーブルは［ｂ２］，［ｂ２ｂ３］という解釈
が、３番目のサブテーブルには［ｂ３］という解釈が生
成される。当然、それぞれに切り出された文字について
擬似文字認識処理が行なわれ、代表文字コードが割り当
てられ、サブテーブルの代表文字コードの欄に格納され
る。図１８ではそれぞれの切り出された文字に対する代
表文字コードは｛｝で表現している。

【００７１】図１９は、複数の切り出し解釈を許容した
場合の代表文字コードテーブルの作成処理の一例を示す
フローチャートである。図１８に示すような複数の切り
出し解釈を許容した場合の代表文字コードテーブルを作
成する際の処理の一例について説明する。まずＳ８１に
おいて、初期値の設定を行なう。１行に含まれるｋ個の
部分文字領域をｐ₁，ｐ₂，・・・，ｐ_kとし、そのリ
スト｛ｐ₁，ｐ₂，・・・，ｐ_k｝を変数Ｌにセットす
る。このとき、ｋ個の部分文字領域は、左から右にソー
トされているものとする。また、現在処理中の文字の切
り出し解釈が複数存在するか否かを示すフラグＳをＦＡ
ＬＳＥに設定する。さらに、１文字として統合可能な部
分文字領域のリストＣを空にする。さらに、現在のサブ
テーブル番号を示す変数ｎを１に、統合途中の部分文字
列の位置を示す変数ｍを１に、現在注目している部分文
字領域の位置を示す変数ｉを１に、それぞれセットす
る。

【００７２】Ｓ８２において、現在注目している部分文
字領域の位置が行末まで達したか否か、すなわちｉとｋ
を比較し、ｉ≦ｋであればＳ８３に進み、まだ処理され
ていない最左にある部分文字領域ｐ_iを取り出し、リス
トＣにｐ_iをセットする。Ｓ８４において、その部分文
字領域ｐ_iあるいはその部分文字領域ｐ_iを含む統合さ
れた部分文字領域と、その右に隣接する部分文字領域ｐ
_m+1との統合を考え、統合した場合の文字幅を計算す
る。Ｓ８５において、計算された文字幅が閾値を越えた
か否かを判定する。閾値を越えていない場合には、さら
に統合することが可能であるので、Ｓ８６においてフラ
グＳをＴＲＵＥとし、リストＣにｐ_m+1を追加し、変数
ｍを１だけ増加させてＳ８２へ戻る。この場合、変数ｉ
の値は変化せず、変数ｍの値が変化しただけであるの
で、Ｓ８４においてさらに右に隣接する部分文字領域の
統合が試みられることになる。このようにして、文字幅
が閾値を越えるまで処理が繰り返される。Ｓ８５におい
て、統合した文字幅が閾値を越える場合には、Ｓ８４に
おいて最後に試みられた統合は行なわず、Ｓ８７へ進
む。このとき、ｐ_iからｐ_mまでは統合可能であること
になる。それまでに統合可能な部分文字領域のリスト
｛ｐ_i，・・・，ｐ_m｝がリストＣに格納されている。

【００７３】Ｓ８７において、リストＣの要素がｐ_iの
みであるか否かを判定する。すなわち、複数の部分文字
領域が統合可能であるのか否かを判定する。複数存在す
る場合には、複数の部分文字領域について統合可能であ
るので、それらの部分文字領域からサブテーブルを作成
する。Ｓ８８において、リストＣに格納されている部分
文字領域の最左のものを含むすべての可能な統合文字領
域を、部分文字領域の個数の少ない順に番号ｎのサブテ
ーブルへ登録する。このとき、それぞれの統合文字領域
について、大きさを正規化し、特徴量を計算して代表文
字コードを割り当て、サブテーブルに登録する。また、
次テーブル番号は、変数ｎの値に統合文字領域中の部分
文字領域の個数を加えた値とし、サブテーブルの最後の
統合文字領域の次テーブル番号は０にセットする。この
ようにしてｉ番目の部分文字領域から始まる統合文字領
域について、サブテーブルが作成された。

【００７４】Ｓ８９において、次の部分文字領域から始
まる統合文字領域についての処理を行なうべく、変数ｉ
を１だけ増加させ、注目する部分文字領域を次に移す。
それとともに、リストＣを空にリセットし、サブテーブ
ルの番号を示す変数ｎを１だけ増加させ、変数ｍを変数
ｉの値とする。そして、Ｓ８２へ戻り、次の部分文字領
域から部分文字領域の統合を試みる。

【００７５】Ｓ８７においてリストＣの要素がｐ_iのみ
であった場合、さらにＳ９０においてフラグＳを調べ
る。フラグＳがＦＡＬＳＥの場合、ｐ_iは独立した文字
である可能性のある部分文字領域である。Ｓ９１におい
て、その部分文字領域ｐ_iの大きさを正規化し、特徴量
を計算して代表文字コードを割り当て、基本テーブルに
登録する。そして、次の部分文字領域について処理を行
なうべく、変数ｉを１だけ増加させ、リストＣを空にリ
セットする。そしてＳ８２へ戻る。

【００７６】Ｓ９０においてフラグＳがＴＲＵＥであっ
た場合、部分文字領域ｐ_iは、例えば、図１６に示す例
におけるａ２やｂ３のように、統合可能な部分文字領域
群の右端の部分文字領域である。この場合にはＳ９３に
おいて、ｐ_iを正規化して特徴量を計算し、代表文字コ
ードを割り当ててｎ番目のサブテーブルを作成する。こ
の時の次テーブル番号は０である。この部分文字領域ｐ
_iは右に統合する部分文字領域は存在しないので、基本
テーブルの１つのエントリから連鎖するサブテーブルは
終了する。そのため、Ｓ９４においてサブテーブルの番
号を示す変数ｎを１にリセットする。また、次の部分文
字領域を処理すべく、変数ｉを１だけ増加させ、リスト
Ｃを空にリセットし、フラグＳをＦＡＬＳＥにリセット
する。また、変数ｍをｉにセットする。そして、Ｓ８２
へ戻り、新たに注目する部分文字領域からの処理を行な
う。

【００７７】行の右端の部分文字領域まで処理が終了す
ると、ｉ＞ｋとなる。Ｓ８２においてこの条件が判定さ
れると、それ以上の統合処理は不要である。Ｓ９５にお
いてリストＣが空か否かを判定し、空でない場合、リス
トＣに残っている部分文字領域について、Ｓ８７以降の
処理を行ない、基本テーブルあるいはサブテーブルを作
成する。リストＣが空になると処理は終了する。このよ
うな処理によって、例えば、図１８に示すような２層構
造の代表文字コードテーブルが作成される。作成された
代表文字コードテーブルは、入力された文書画像ととも
に登録される。

【００７８】複数の文字切り出しの解釈を許容する場
合、検索のためのインデックスであるｂｉ−ｇｒａｍテ
ーブルも複数の文字切り出しの解釈に対応できるように
拡張を行なう。すなわち、ｂｉ−ｇｒａｍテーブルの２
つの文字について、複数の文字切り出し解釈の１つであ
るか否か、そうであった場合に、どの文字切り出しの解
釈に属するのかを明示する必要がある。そこで、ｂｉ−
ｇｒａｍテーブルを以下のように拡張する。すなわち、
図１２に示した個々のｂｉ−ｇｒａｍに対して格納され
ている文書画像上の位置のテーブルのうち、文書ＩＤ、
ブロックＩＤは共通なのでそのままとし、第一文字、第
二文字それぞれに対して、その位置を（ｐ，ｎ，ｍ）の
組で表わす。ｐはブロック内での文字位置、すなわち代
表文字コードテーブル内での位置、ｎは文字切り出し解
釈のサブテーブルの番号、ｍはサブテーブル内の位置を
それぞれ示す。

【００７９】図２０は、複数の切り出し解釈を許容した
場合のｂｉ−ｇｒａｍテーブルの一例の説明図である。
切り出しの解釈が一通りである場合は、ｎは０にセット
され、ｍは無視される。図２０においてｂｉ−ｇｒａｍ
「父家」の例はこれに該当する。

【００８０】切り出しの解釈が複数あり、ｂｉ−ｇｒａ
ｍの個々の文字がその中の１つである場合、ｎはサブテ
ーブルの番号、ｍはそのサブテーブル内での位置を示
す。図１６に示した「印刷」の複数の文字切り出し候補
の例で、例えば、「印」の文字が２つに分離されたｂｉ
−ｇｒａｍ｛［ａ１］｝｛［ａ２］｝に対応する文字位
置は、（１１６，１，１），（１１６，２，１）とな
り、「印」「刷」が正確に切り出されたｂｉ−ｇｒａｍ
｛［ａ１ａ２］｝｛［ｂ１ｂ２ｂ３］｝の文字位置は、
（１１６，１，２），（１１７，１，３）として格納さ
れる。このようにして、入力された文書画像の代表文字
コード列から作成されたｂｉ−ｇｒａｍテーブルが登録
され、検索の際に使用される。

【００８１】また、検索の際には、入力された検索式の
中のキーワードについて、文書画像の場合と同様にして
代表文字コード列のｂｉ−ｇｒａｍを作成し、登録され
ているｂｉ−ｇｒａｍテーブルの中から検索すればよ
い。キーワードは、例えばキーボード３等によって入力
されるので、検索実行部１３は文字コードとして受け取
るため切り出し位置による複数の解釈は存在せず、一意
に決まる。文書画像から作成されたｂｉ−ｇｒａｍテー
ブルには、正しく切り出された場合のｂｉ−ｇｒａｍも
登録されているので、検索の際にはそのようなｂｉ−ｇ
ｒａｍとの一致が検出されることになる。

【００８２】先に述べたように３文字以上のキーワード
に対して同一文書に連続して存在しているか否かの判定
する必要がある。いま２つのｂｉ−ｇｒａｍが連続して
存在するか否かを判定する場合は、それらが同一文書Ｉ
Ｄ、同一文字ブロックＩＤを持ち、前のｂｉ−ｇｒａｍ
の終わりの文字の位置を示す（ｐ，ｎ，ｍ）が、接続し
ているか否かを判定したいｂｉ−ｇｒａｍの始めの文字
の位置と同一であればよい。このような場合に連続して
いると判定することができる。

【００８３】なお、上述の第１の変形例で述べた複数の
カテゴリへの分類を許容した場合の構成と、第２の変形
例で述べた複数の文字切り出し解釈が存在する場合の構
成を組み合わせて構成することも可能である。

【００８４】次に、本発明の第２の実施の形態について
説明する。上述のように、第１の実施の形態では、類似
文字のカテゴリの列に変換して単純なマッチングによっ
て検索を行なうので、文書中で単語として許容されない
ような文字列も検索してしまう可能性がある。この第２
の実施の形態では、このような単語として許容されない
ような文字列を含む文書が検索されないようにし、さら
に検索精度を向上させた例について説明する。

【００８５】図２１は、本発明の文書処理装置の第２の
実施の形態を示す構成図である。図中、図１と同様の部
分には同じ符号を付して説明を省略する。１０１は画像
入力部、１０２は画像表示部、１０３は類似文字分類
部、１０４はテキスト領域抽出部、１０５は擬似文字認
識部、１０６はカテゴリ単語検出部、１０７はカテゴリ
単語変換部、１０８は中央制御装置、１０９は記憶装
置、１１１は文字カテゴリ保持部、１１２は擬似文字認
識結果記憶部、１１３はカテゴリ単語辞書、１１４はコ
ード変換テーブルである。

【００８６】画像入力部１０１は、例えば図１に示した
スキャナ５等で構成され、文書を画像として読み込む。
画像表示部１０２は、例えば図１に示したディスプレイ
２等で構成され、入力画像の表示や処理結果を確認する
ための表示などを行なう。類似文字分類部１０３は、図
１における類似文字分類部１１と同様のものであり、対
象となる文字をその画像特徴をもとに類似文字からなる
カテゴリに分類する。テキスト領域抽出部１０４は、図
１における擬似文字認識部１２の一部の機能を構成する
ものであり、文書画像中のテキスト領域を切り出し、さ
らに文字ごとに画像を切り出す。擬似文字認識部１０５
は、図１における擬似文字認識部１２の一部の機能を構
成するものであり、各文字画像を類似する類似文字カテ
ゴリに分類し、その代表文字コードを割り当てる。カテ
ゴリ単語検出部１０６は、代表文字コード列から単語を
構成する代表文字コード列を抽出する。カテゴリ単語変
換部１０７は、カテゴリ単語を文字に変換する。中央制
御装置１０８は、装置全体を制御する。

【００８７】さらに記憶装置１０９は、図１に示す外部
記憶装置７を含むものであり、中央制御装置１０８が装
置全体を制御するためのプログラム等を格納するととも
に、文字カテゴリ保持部１１１、擬似文字認識結果記憶
部１１２、カテゴリ単語辞書１１３、コード変換テーブ
ル１１４を含む。文字カテゴリ保持部１１１は、類似文
字分類部１０３で分類されたカテゴリと対応する画像特
徴を記憶する。例えば、上述の類似文字カテゴリテーブ
ルや、文字コード・カテゴリ対応テーブルなどを記憶す
る。擬似文字認識結果記憶部１１２は、擬似文字認識部
１０５で変換された代表文字コード列を保持する。カテ
ゴリ単語辞書１１３は、少なくとも単語を構成する代表
文字コード列と、品詞との対応関係を保持している。ま
た、その代表文字コード列で表現される１以上の文字単
語も保持する場合もある。さらに、品詞の接続関係を示
す品詞接続辞書を保持する。コード変換テーブル１１４
は、単語を表わす代表文字コード列と文字列との対応を
記録している。カテゴリ単語辞書１１３にカテゴリ単語
と対応づけて文字単語を保持している場合、コード変換
テーブル１１４をカテゴリ単語辞書１１３で代用するこ
とも可能である。

【００８８】以下、それぞれの処理の詳細について説明
を行なう。まず、類似文字分類部１０３における処理
は、上述の第１の実施の形態と同様であるので、ここで
は説明を省略する。なお、類似文字分類部１０３で生成
される類似文字カテゴリテーブルおよび文字コード・カ
テゴリ対応テーブルは、文字カテゴリ保持部１１１に保
持される。類似文字分類部１０３は、解析する特徴量を
決めてしまえば、処理ごとに行なう必要がなく、別の装
置上で解析を行なって、その結果のみを文字カテゴリ保
持部１１１に格納して使用することもできる。文字カテ
ゴリ保持部１１１は、具体的には例えば図６に示すよう
な類似文字カテゴリテーブル、および、例えば図７に示
すような文字コード・カテゴリ対応テーブルを記憶す
る。

【００８９】また、文字カテゴリ保持部１１１に記憶さ
れている類似文字カテゴリテーブルおよび文字コード・
カテゴリ対応テーブルを用いて、既存の単語辞書の文字
コードを代表文字コード列で置き換えることによって、
カテゴリ単語辞書１１３およびコード変換テーブル１１
４を生成することができる。図２２は、本発明の文書処
理装置の第２の実施の形態におけるカテゴリ単語辞書の
一例の説明図である。この例では、単語を示す代表文字
コード列と、その代表文字コード列で示される単語の品
詞と、その代表文字コード列で示される単語の文字列を
対応づけている。既存の単語辞書には、文字単語と品詞
とを対にして記憶しているものがあり、この文字単語に
対応する代表文字コード列を得て、並べ替えることによ
って図２２に示すようなカテゴリ単語辞書１１３が得ら
れる。なお、図２２に示すカテゴリ単語辞書１１３で
は、単語を示す代表文字コード列には、例えば活用変化
する単語について、語幹となる単語だけでなく、語尾に
ついても別に記憶している。そして、後述するように、
品詞接続辞書を内蔵し、語幹と語尾との接続関係を示
し、さらに接続される助動詞や助詞などを示すように構
成している。あるいは、活用形をすべて記憶させておい
てもよい。

【００９０】図２３は、本発明の文書処理装置の第２の
実施の形態におけるカテゴリ単語辞書の別の例の説明図
である。カテゴリ単語辞書１１３は、図２２に示したよ
うなが代表文字コード列と、文字コードによる単語、そ
れと品詞の対応を示す表の形式のほかにも種々の形式で
表現することができる。例えば、照合処理を効率的に行
なうため、図２３に示すような形式でカテゴリ単語辞書
１１３を構成することができる。このカテゴリ単語辞書
１１３は、例えば、青江，「トライとその応用」，情報
処理，Ｖｏｌ．３４，Ｎｏ．２，１９９３．２に紹介さ
れているトライ（ｔｒｉｅ）を用い、各代表文字コード
で始まるカテゴリ単語を全て保持するようにトライを構
成している。そして、終端ノードまでたどることで、カ
テゴリ単語を抽出できる構造になっている。なお、図２
３では終端ノードを◎で示している。

【００９１】図２３に示した例では、例えば、「文
字」、「文学」、「文学者」、「文学青年」、「文
化」、「文化遺産」、「文化勲章」の７つの単語を照合
できるカテゴリ単語辞書１１３を示している。７つの単
語は、それぞれを代表文字コード列に直すと、「父
手」、「父羊」、「父羊君」、「父羊君牛」、「父
化」、「父化送屋」、「父化郵琴」となる。これらをそ
れぞれトライで表わすと、図２３に示すようになる。文
字列の先頭から順に１文字ずつこのカテゴリ単語辞書１
１３と照合し、終端記号◎までたどり着くような文字列
を単語として許容し、出力する。図２３では上記の７つ
の単語のみを照合するようなトライを示しているが、実
際は全単語について代表文字コード列に変換してトライ
を生成し、これをカテゴリ単語辞書１１３とする。品詞
や文字単語などの対応する情報は、終端記号の部分に対
応づけておけばよい。あるいは、図２２に示すような表
とともに、図２３に示すようなトライによる辞書を併せ
持っていてもよい。もちろん、他のデータ構造によって
カテゴリ単語辞書１１３を構成してもよい。

【００９２】また図２４は、本発明の文書処理装置の第
２の実施の形態におけるコード変換テーブルの一例の説
明図である。このコード変換テーブル１１４は、特に代
表文字コード列と、その代表文字コード列に対応する単
語を組にして記憶している。ここでは品詞の情報も付加
されている。カテゴリ単語辞書１１３とコード変換テー
ブル１１４の保持するデータはほぼ同じであるので、実
際の処理では共有することが可能である。しかし、ここ
では説明を簡単にするために、別々のデータとして扱う
ことにする。

【００９３】以上の処理は、文書画像から単語を切り出
すために必要なデータを準備するための処理であるの
で、別の装置上で以上の処理を行ない、得られた類似文
字カテゴリテーブル、文字コード・カテゴリ対応テーブ
ル、カテゴリ単語辞書１１３、コード変換テーブル１１
４を予め作成し、それそれのデータのみを使用するよう
にしてもよい。

【００９４】次に、文書の登録処理について説明する。
テキスト領域抽出部１０４は、画像入力部１０１で入力
された２値のディジタル画像を解析して文字領域を切り
出し、さらに各文字を切り出す。このテキスト領域抽出
部１０４の処理は、上述の第１の実施の形態における擬
似文字認識部１２の処理の一部、すなわち図８に示した
フローチャートにおけるＳ５１，Ｓ５２の処理と同じで
あるので、ここでは説明を省略する。

【００９５】擬似文字認識部１０５は、テキスト領域抽
出部１０４で切り出された文字領域ごとに処理を行な
う。この擬似文字認識部１０５の処理は、上述の第１の
実施の形態における擬似文字認識部１２の処理の一部、
すなわち図８に示したフローチャートにおけるＳ５３以
降の処理を行なうが、Ｓ５４におけるｂｉ−ｇｒａｍテ
ーブルへの登録処理は行なわない。

【００９６】擬似文字認識部１０５は、テキスト領域抽
出部１０４で切り出された各文字画像ごとに、類似文字
カテゴリの代表文字コードへ変換する。この処理は、上
述の図１０に示した処理と同じであるので説明を省略す
る。得られた代表文字コード列は、文字ブロックごとに
その画像上の位置と入力画像とともに擬似文字認識結果
記憶部１１２に記憶される。例えば上述の図１３に示し
たように、代表文字コードと画像上で占める矩形位置を
（左上Ｘ座標，左上Ｙ座標，幅，高さ）で表現し、記憶
しておくことができる。

【００９７】カテゴリ単語検出部１０６は、擬似文字認
識部１０５で擬似文字認識結果記憶部１１２に格納され
た代表文字コード列から、カテゴリ単語辞書１１３との
照合を行なって、単語として認定される代表文字コード
列を抽出する。図２５は、図２６は、本発明の文書処理
装置の第２の実施の形態におけるカテゴリ単語検出部の
動作の一例を示すフローチャートである。なお、ここで
はカテゴリ単語辞書１１３は、図２３で示したトライの
データ構造を有しているものとする。

【００９８】まずＳ１２１において、擬似文字認識部１
０５で検出した句読点をカテゴリ文字列から検出し、先
頭文字から句読点、あるいは句読点間の代表文字コード
列を１つの処理ユニットとして、擬似文字認識結果記憶
部１１２に記憶されている代表文字コード列を複数の処
理ユニットに分割する。以下、分割した処理ユニットを
順に処理してゆく。

【００９９】Ｓ１２２において、未処理の処理ユニット
があるか否かを判定し、すべての処理ユニットが処理済
みであれば、カテゴリ単語検出部１０６の処理を終了す
る。未処理の処理ユニットが存在する場合には、Ｓ１２
３において、ある未処理の処理ユニットを特定し、その
処理ユニットの文字数を変数Ｎに格納するとともに、変
数Ｉ，Ｊの値を１にセットする。変数Ｉは処理ユニット
中の処理対象の文字を示すために用いられる。また、変
数Ｊは、カテゴリ単語辞書１１３内のトライのノードの
階層を示すために用いられる。また、Ｓ１２４におい
て、変数Ｐに変数Ｉの値を代入するとともに、変数Ｔの
値を１にセットし、領域ＢＵＦＦＥＲをＮＵＬＬにクリ
アする。変数Ｐは、選択した処理ユニット内で新たな単
語の検出を開始した文字位置を示し、変数Ｔは新たに検
出した単語の文字数を示すために用いられる。領域ＢＵ
ＦＦＥＲには、検出した単語が順に格納される。

【０１００】Ｓ１２５において、選択した処理ユニット
のすべての文字が処理されたか否かを、変数Ｉが変数Ｎ
以内か否かで判定する。未処理の文字が存在する場合に
は、Ｓ１２７において、選択された処理ユニットのＩ番
目の文字を、カテゴリ単語辞書１１３のＪ番目の階層の
全てのノードの内、処理ユニットのＩ−１番目の文字と
接続性のある全てのノードと照合する。このとき、終端
記号は全ての文字と一致するワイルドカードとして扱
う。ここで、Ｓ１２８において照合する文字があるか否
かを判定し、照合する文字がなければ、Ｉ番目までの文
字列は単語として許容されないので、現在の単語照合を
開始した文字の次の文字から照合をやり直す。すなわ
ち、Ｓ１３２において変数Ｐに格納されている単語の検
出開始文字位置に、変数Ｔに格納されている新たに単語
として検出された文字数を加算して、これから照合を開
始する文字位置を計算して変数Ｉに代入する。さらにＳ
１３４において、領域ＢＵＦＦＥＲに格納されているそ
れまでに検出した単語を記憶装置１０９に格納し、Ｓ１
３５でカテゴリ単語辞書１１３の最初から照合を行なう
ように変数Ｊを１にセットして、Ｓ１２４へ戻る。Ｓ１
２４で変数Ｐに変数Ｉの値が代入され、新たに単語の検
出を開始する位置を待避する。そして、新たに単語を検
出すべく、処理を続ける。

【０１０１】Ｓ１２８で照合した文字が、カテゴリ単語
辞書１１３のＪ番目の階層の処理ユニットのＩ−１番目
の文字と接続性のあるノードとして存在する場合、さら
にＳ１２９において照合した文字に終端記号が含まれる
か否かを判定する。終端記号が含まれる場合、変数Ｉが
示す文字位置までに単語が含まれる可能性があるので、
Ｓ１３０において、検出された単語を領域ＢＵＦＦＥＲ
に記憶し、単語長を変数Ｔに記憶する。

【０１０２】Ｓ１２７で照合した際に一致する文字は１
つに限らず、例えば、ある文字と終端記号の２つと一致
する場合がある。Ｓ１３１において、照合により一致し
た文字が終端記号だけであったか否かを判定し、終端記
号だけであれば、それ以上の長さの一致する単語はカテ
ゴリ単語辞書１１３中に存在しないので、Ｓ１３４にお
いて領域ＢＵＦＦＥＲに記憶されている、それまでに検
出した単語を記憶装置１０９に格納し、新たな単語を検
出すべく、Ｓ１３５で変数Ｊの値を１にセットしてカテ
ゴリ単語辞書１１３の先頭に階層を戻し、Ｓ１２４に戻
る。Ｓ１２４で変数Ｐに変数Ｉの値が代入され、新たに
単語の検出を開始する位置を待避する。そして、新たに
単語を検出すべく、処理を続ける。

【０１０３】Ｓ１２９において照合により一致した文字
中に終端記号を含まない場合、あるいは、Ｓ１３１にお
いて照合により一致した文字が終端記号のみでなかった
場合には、Ｓ１３３で次の文字の照合を行なうべく、変
数Ｉ，Ｊの値に１だけ加算し、Ｓ１２５へ戻る。

【０１０４】このような処理を繰り返してゆくと、終端
記号が現われるごとに単語が検出されて記憶装置１０９
に格納されてゆく。そして選択した処理ユニットのすべ
ての文字について処理が終わると、それをＳ１２５にお
いて検出し、領域ＢＵＦＦＥＲに格納されている単語を
記憶装置１０９に格納して、その処理ユニットについて
の処理を終了する。Ｓ１２２で未処理の処理ユニットが
存在すると判定された場合には、その未処理の処理ユニ
ットを選択し、上述のように１文字ずつ照合処理を行な
い、単語を検出してゆく。すべての処理ユニットについ
て処理が終了すると、カテゴリ単語検出部１０６の処理
を終了する。

【０１０５】具体例として、例えば図２３に示したトラ
イを用いて代表文字コード列「父化送琴」を処理ユニッ
トとした照合を考える。最初に「父」の照合を行ない、
一致するので次の代表文字コード「化」の照合を行な
う。図２３に示したトライの２番目の階層の「父」と接
続性のあるすべての代表文字コード「手」、「羊」、
「化」と照合を行なう。この照合により「化」が一致す
る。一致する代表文字コードの中に終端記号が含まれな
いので、さらに次の代表文字コード「送」についての照
合を行なう。すなわち３番目の階層の代表文字コードの
中で「化」と接続性のある終端記号、「送」、「郵」と
の照合を行なう。この場合、終端記号と「送」と一致す
る。終端記号を含むので「父化」が単語として検出さ
れ、領域ＢＵＦＦＥＲに格納される。しかし、一致した
代表文字コードは終端記号だけではなかったので、さら
に照合と続ける。次の代表文字コード「琴」と、４番目
の階層の代表文字コード中の「送」と接続性のある
「屋」との照合を行なう。しかし代表文字コードは一致
しないので、領域ＢＵＦＦＥＲ内の単語「父化」が記憶
装置１０９に格納される。

【０１０６】次の単語の照合は、検出したカテゴリ単語
「父化」の次の文字「送」から始められる。このような
処理を処理ユニットの最後の文字まで行ない、さらに未
処理の処理ユニットがなくなるまで続ける。この処理に
より、カテゴリ単語辞書１１３内に存在し、文書中に出
現する全てのカテゴリ単語を記憶装置１０９に格納する
ことができる。

【０１０７】文書中には同一の単語が複数回出現するの
が一般的であるため、記憶装置１０９には同じカテゴリ
単語が重複して格納されることになる。重複したカテゴ
リ単語は、そのまま残してもよいし、１つ以外を削除し
てもよい。画像上での単語の出現場所を知りたい場合の
ために、擬似文字認識結果記憶部１１２に代表文字コー
ドとともに画像上の位置情報を記憶しているが、重複排
除する場合には、１つの単語に複数の位置情報を記憶す
るように構成すればよい。なお、この位置情報を用いて
単語の出現位置を表示する等の手法としては、周知の種
々の技術を用いることができ、ここではこれ以上の説明
は行なわない。

【０１０８】これまでの処理で、代表文字コードで表現
されたカテゴリ単語を抽出することができた。しかし、
これまでの処理では単に単語辞書に存在する単語を検出
しているのみで、必ずしも日本語の単語として許容でき
るものである保証はない。例えば、複合名詞を本来の名
詞の境界とは違う文字で分けて単語を抽出したり、付属
語との接続が誤っている単語を抽出する可能性がある。
そのため、以下で説明するように、単語間の品詞の接続
性を検証することで、このような言語として誤りを訂正
する。

【０１０９】例えば「将来、実現される技術である。」
という文を代表文字コード列で表わすと、例えば「均
糸。芸温される転術である。」となる。このうちの処理
ユニット「芸温される転術である」について、上述のよ
うにカテゴリ単語の検出を行なってゆくと、例えば、図
２２に示したカテゴリ単語辞書１１３からカテゴリ単語
「芸温」が検出され、さらに「さ」、「れる」が検出さ
れる。カテゴリ単語「芸温」は、文字単語「実現」と
「差損」を、また、「さ」は「さ」（サ変動詞の語尾）
と「き」（下一段活用動詞の語幹）をそれぞれ含んでい
る。しかし、文脈を考えると、「実現」あるいは「差
損」という名詞の後に「き」という語幹を有する動詞が
続くのは、文法上おかしい。また、「差損」という名詞
には、使役の助動詞が続くことはない。したがって、
「実現」と「さ」の単語の組合せの解釈が正しい。同様
に、「さ」と「れる」の組み合わせも正しい。なお、こ
の場合の実際の品詞は、サ変動詞「実現する」と使役の
助動詞「れる」である。

【０１１０】このような単語抽出の誤りは、普通の文字
列の解析においても発生するが、曖昧性の多い代表文字
コード列の方が発生しやすいと考えられる。そのため、
単語を検出するたびに先に検出した単語との接続性を検
証することで、抽出する単語の精度を向上させることが
できる。

【０１１１】このような接続性の検証に、カテゴリ単語
辞書１１３に格納されている品詞接続辞書を用いること
ができる。図２７は、本発明の文書処理装置の第２の実
施の形態における品詞接続辞書の一例の説明図である。
図２７に示した品詞接続辞書は、連続する２つの単語の
品詞の接続関係を示したもので、先の単語の品詞を行
に、後の単語の品詞を列に対応づけて示している。表の
値は、Ｌ_ij＝１；行ｉの品詞は列ｊの品詞に接続可能Ｌ_ij＝０；行ｉの品詞は列ｊの品詞に接続不可能であることを示している。カテゴリ単語を検出する度
に、例えば図２７に示すような品詞接続辞書を用いて単
語間の接続関係を検証する。

【０１１２】しかしながら、カテゴリ単語は１つの代表
文字コード列で複数の文字単語を表現する可能性があ
る。したがって、実際の処理では、単語として抽出され
た代表文字コード列に対応する複数の文字単語の品詞全
てに対して接続性の検証を行ない、そのうちの１つでも
接続性が検証されれば、その代表文字コード列を単語と
して認定する。

【０１１３】図２８は、本発明の文書処理装置の第２の
実施の形態における品詞接続関係の検証処理の一例を示
すフローチャートである。この処理の入力はカテゴリ単
語検出部１０６で検出されるカテゴリ単語であり、検出
されるたびに順次入力されて単語間の接続性を検証する
ものである。まず、Ｓ１４１において、処理ユニットで
最初に検出されたカテゴリ単語を入力し、変数ＷＯＲＤ
１に代入する。そしてＳ１４２において、このカテゴリ
単語が取り得る品詞が、文節の先頭となりえるか否かを
調べる。このとき、カテゴリ単語が文節の先頭となりえ
る品詞の単語を含んでいなければ、このカテゴリ単語は
日本語として受理できないので、この代表文字コード列
を単語として拒絶する。

【０１１４】Ｓ１４２でカテゴリ単語が文節の先頭とな
りえると判定された場合、Ｓ１４３において、処理ユニ
ットから次のカテゴリ単語を入力し、変数ＷＯＲＤ２に
格納する。そしてＳ１４４において、変数ＷＯＲＤ１と
変数ＷＯＲＤ２に格納された２つのカテゴリ単語の接続
性を、例えば図２７に示したような品詞接続辞書を検索
して求める。このとき、２つのカテゴリ単語の取りえる
品詞のうち、接続関係の成立する品詞の組合せがない場
合、変数ＷＯＲＤ１に格納されている最初のカテゴリ単
語は日本語として受理できないため、最初の単語は拒絶
される。２つのカテゴリ単語の取りえる品詞の組合せの
うち、接続関係の成立する品詞の組合せが存在している
時、Ｓ１４５において変数ＷＯＲＤ１に格納されている
最初のカテゴリ単語を正しい単語として受理する。さら
に、Ｓ１４６において変数ＷＯＲＤ２に格納されている
カテゴリ単語を変数ＷＯＲＤ１に移す。Ｓ１４７で処理
ユニットの終端か否かを判定し、終端でなければＳ１４
３に戻り、処理ユニットの残りのカテゴリ単語を順に入
力して、同様に単語間の品詞の接続性を検証する。

【０１１５】Ｓ１４５で受理されたカテゴリ単語は、ど
の品詞でカテゴリ単語が受理されたかを記憶装置１０９
に記憶しておくことで、あとのカテゴリ単語変換部１０
７での出力をより正確にすることができる。単語として
拒絶された場合は、現在処理中の文節の先頭文字まで戻
り、再度、カテゴリ単語検出部１０６で単語の抽出を行
ない、別の単語候補を抽出する。

【０１１６】具体例を用いて、上述の処理の流れを説明
する。ここでは先に示した例「将来、実現される技術で
ある。」を用いて、「実現される」という文節内の品詞
を決定する様子を説明する。まず、代表文字コード列
「芸温される」の先頭の文字から順にカテゴリ単語辞書
１１３と照合し、単語の可能性のある代表文字コード列
「芸温」を得る。図２２に示したカテゴリ単語辞書１１
３の内容から、この代表文字コード列は「差損」（名
詞）、「実現」（名詞）、「実現」（サ変動詞語幹）の
いずれかである可能性がある。次に検出される代表文字
コード列は「さ」であり、「さ」（サ変動詞語尾・未然
形）または「き」（下一段動詞語幹）である可能性があ
る。図２７に示した品詞接続辞書を参照すると、（名
詞）−（サ変動詞語尾）、（名詞）−（下一段動詞語
幹）の接続関係は存在しないので、この時点で最初の単
語の可能性のある代表文字コード列「芸温」は「実現」
（サ変動詞語幹）であることが分かる。そのため、代表
文字コード列「芸温」がカテゴリ単語として受理され
る。

【０１１７】次に検出される代表文字コード列は「れ
る」（助動詞）であるが、図２７に示した品詞接続辞書
によると、語尾・未然形と接続可能なことが分かる。し
たがって、代表文字コード列「さ」はサ変動詞の活用語
尾であることが決定され、カテゴリ単語として受理され
る。さらに、図２７に示した品詞接続辞書によると、助
動詞は文節終端となりえるので、代表文字コード列「れ
る」もカテゴリ単語として受理され、「芸温される」と
いう代表文字コード列は１つの文節として受理されるこ
とになり、サ変動詞の語幹「実現」が自立語として検出
される。

【０１１８】また、単語の切り出し位置が間違ってお
り、品詞の接続性が検証されない場合には、処理を行な
っている文節の先頭に戻り、切り出し位置を変えて、再
度、品詞の接続性の検証を行なう。以上の方法により、
複合名詞の単語の境界、あるいは言語的な単語の接続性
を保ち、単語を抽出することができる。

【０１１９】以上の処理により、少なくとも日本語とし
て受理できる接続関係をもつカテゴリ単語が検出され
た。次に受理されたカテゴリ単語を通常の文字で構成さ
れる単語に変換する。この処理は、カテゴリ単語変換部
１０７でコード変換テーブル１１４を用いて行なわれ
る。カテゴリ単語変換部１０７での処理は簡単である。
単語として受理されたカテゴリ単語をコード変換テーブ
ル１１４で検索し、対応するカテゴリ単語が取りえる全
ての文字単語を出力する。ただし、検索に用いられる単
語は自立語なので、先の品詞接続関係の検証処理で、自
立語として認定された単語だけを出力する。これによ
り、検索に有効な単語を得られるとともに、出力される
単語数を抑制することができる。

【０１２０】以上のようにして、文書画像から文字認識
処理のような計算機パワーを必要とする処理を用いるこ
となく、単語を抽出することができる。ここで検出され
た単語は、品詞の接続関係を検証しているために、文章
として成立しないような単語は含まれていないので、検
索に用いた場合、精度の高い検索が期待できる。なお、
この第２の実施の形態では、カテゴリ単語変換部１０７
で代表文字コード列を文字コード列に変換しているの
で、上述の第１の実施の形態に示したように検索式中の
キーワードを代表文字コード列に変換することなく、そ
のまま文字コード列によって検索を行なうことができ
る。

【０１２１】次に、本発明の文書処理装置の第２の実施
の形態における第１の変形例について説明する。ここで
は、上述の第１の実施の形態における第１の変形例と同
様に、擬似文字認識部１０５で文字画像を代表文字コー
ドに変換する際に、その精度を向上させた例を示してい
る。上述の例では、文字画像に対して各類似文字の代表
文字コードを割り当てる際に、図１０のＳ６５で説明し
たように、特徴空間で特徴量が最も近いものを選択する
最短距離識別法を用いている。しかし、実際の文字画像
の特徴量は、画像のかすれや歪みにより、類似文字のク
ラスタは互いに複雑に重複していることが多い。この場
合、最短距離識別法では誤識別を起こす可能性が高い。

【０１２２】図２９は、代表文字コードの誤識別の一例
の説明図である。例えば、ある２次元の特徴量による空
間において、図２９に示すように２つのクラスタａ１と
ａ２が存在する場合を考える。ｘという未知文字は、本
来クラスタａ１に属する文字である。しかし、最短距離
識別法では、未知文字ｘは距離の最も近いクラスタａ２
に属していると判定される。このような誤識別は、２つ
のクラスタが重複しているとき、未知文字ｘの特徴量が
２つのクラスタの共通部分に存在する場合にも同様に発
生する。

【０１２３】このような誤識別の問題を解決するため
に、上述の第１の実施の形態における第１の変形例で
は、ε−ｃｏｍｐｏｎｅｎｔ拡張法を用いて、１文字種
を複数の類似文字カテゴリに登録している。このように
して生成された類似文字カテゴリテーブルを用いてカテ
ゴリ単語辞書１１３を生成すると、１文字種が複数のカ
テゴリに属しているため、複数の異なる代表文字コード
列が同じ１つの文字単語を表わすことになる。例えば、
文字「画」がカテゴリ「画」に、文字「像」がカテゴリ
「倶」と「根」に登録されていると、単語「画像」は、
カテゴリ単語「画倶」と「画根」という２つの代表文字
コード列で表されることになる。このように１つの文字
単語に複数の異なる代表文字コード列が対応すると、結
果としてカテゴリ単語辞書１１３のサイズを増大させる
ことになる。このような、辞書サイズの増大は、カテゴ
リ単語辞書１１３の構成を複雑にするだけでなく、単語
の抽出速度にも影響を与える。

【０１２４】そのため、ここでは、類似文字分類部１０
３では最短距離識別法を用いて、類似文字カテゴリテー
ブル４１を生成し、これまでと同じカテゴリ単語辞書１
１３を生成し、擬似文字認識部１０５での識別時には、
入力された文字画像の特徴量と各類似文字カテゴリのカ
テゴリ代表ベクトルとのユークリッド距離を計算して、
その距離の近い方からＮ番目までのカテゴリを入力文字
の文字カテゴリとして代表文字コードを出力する。ただ
し、距離に閾値Ｄｔを設けて、閾値Ｄｔ以上離れている
文字カテゴリは、入力文字の文字カテゴリに採用しない
ようにして、１文字種に対応する文字カテゴリを絞りこ
むこともできる。

【０１２５】図３０は、本発明の文書処理装置の第２の
実施の形態の第１の変形例におけるＮ＝２とした場合の
代表文字コード列への変換の一例の説明図である。例え
ば、上述の方法で「自然言語処理」という文字列を代表
文字コード列に変換する場合を考える。ここでＮ＝２と
した。また、「語」の文字には閾値Ｄｔ以内に最短距離
に存在する類似文字カテゴリのみが存在しているとす
る。

【０１２６】Ｎ＝１、すなわち最短距離識別法により変
換された代表文字コード列は「自滅豆記肋喫」である。
例えば、第３文字目の代表文字コード「豆」のカテゴリ
には、文字「言」が含まれていないものとする。このと
き、「自滅豆記肋喫」という代表文字コード列からは、
文字列「自然言語処理」を再現することはできない。

【０１２７】Ｎ＝２までの代表文字コード列を考える。
すなわち、距離が閾値Ｄｔ以内で次に距離的に近いカテ
ゴリを求める。これにより、文字「自」については代表
文字コード「吉」が、「然」については「恩」が、
「言」については「吉」が、「処」については「近」
が、「理」については「均」が、それぞれ得られる。文
字「言」が、このようにして得られた代表文字コード
「吉」のカテゴリに含まれていれば、文字列「自然言語
処理」を再現することが可能となる。

【０１２８】このようにして１つの文字に対して１以上
得られた代表文字コードからなるカテゴリ文字列から、
カテゴリ単語検出部１０６で単語を抽出する。カテゴリ
単語検出部１０６での処理は、上述の方法を変更するこ
となく、全ての代表文字コードをカテゴリ単語辞書１１
３と照合して、単語として許容できる代表文字コード列
を記憶装置１０９に記憶する。すなわち、第１文字目に
「自」または「吉」という代表文字コードを取り、それ
に続く第２文字目に「滅」または「恩」という代表文字
コードが続くか否かを照合する。以下同様に終端記号を
検知するまで照合を続け、終端記号を検出したところ
で、それまで検出した代表文字コード列をカテゴリ単語
として記憶装置１０９に記憶する。このとき、処理途中
で複数のカテゴリ文字列が生成されるが、単語として続
く文字が存在しないところでその代表文字コード列は棄
却すればよい。

【０１２９】例えば、第２文字目までの照合で、「自
恩」、「自滅」、「吉滅」の３つの単語候補が存在して
いるとする。この時点で、カテゴリ単語辞書１１３上で
終端記号を検出して、単語として認定されている代表文
字コード列は「自滅」、「自恩」の２つであるとする。
次に続く代表文字コードは「豆」または「吉」である
が、「自恩」−「豆」あるいは「自恩」−「吉」と続く
単語が、照合用のカテゴリ単語辞書に存在しなければ、
以後の照合では、「自恩」で始まるカテゴリ単語の照合
は行なわない。次に４文字目「記」を照合すると、「吉
滅豆」−「記」あるいは「吉滅吉」−「記」と続く単語
が、照合用の単語辞書に存在しない場合、これまでの照
合では、カテゴリ「吉」で始まる代表文字コード列は終
端記号と照合して、単語として認定されている単語が存
在しないので、以後の照合処理では、カテゴリ「吉」で
始まる単語の候補を棄却する。さらに、処理を続け、第
７文字目まで照合すると、代表文字コード列「自滅吉記
肋喫」に続く文字は終端記号のみであった場合、代表文
字コード列「自滅吉記肋喫」を単語として認定する。

【０１３０】ここで、第１文字目「自」あるいは「吉」
から始まり、照合用の単語辞書で単語として認定された
単語は、「自恩」と「自滅吉記肋喫」である。しかし、
ここでは最長一致の原則を用いて、長い単語として検出
された代表文字コード列「自滅吉記肋喫」のみを単語候
補として残し、出力する。また、上述したように、検出
された単語が言語として許容できるかを、品詞接続辞書
との照合で検証し、言語として許容できるカテゴリ単語
列のみを出力する。

【０１３１】以上のように、１つの文字画像に対して、
複数の類似文字カテゴリを対応つけることで、より正確
に単語の抽出を行なうことが可能となる。このように、
文字画像のかすれや歪みによる文字特徴の変動により、
最短距離識別によるカテゴリ文字の選択では擬似文字認
識で誤りを起こす文字を、特徴の近い文字カテゴリを複
数選択することにより、擬似文字認識の誤りを最小限に
止めることができる。

【０１３２】次に、本発明の文書処理装置の第２の実施
の形態における第２の変形例について説明する。上述の
ように、この第２の実施の形態およびその第１の変形例
では、全文字種に対する詳細な識別処理を行なうことな
く、文書画像中から言語として許容できる単語を抽出す
ることができる。しかしながら、これまでは類似文字カ
テゴリの組合せとして単語を抽出しているので、曖昧性
が残り、１つの単語として抽出された代表文字コード列
に複数の文字単語が対応する場合がある。例えば、名詞
として許容された「琴記」というカテゴリ単語は、「単
語」と「筆記」の２つの文字単語が対応する。上述の構
成では、「単語」と「筆記」の２つの単語を文書画像に
書かれている自立語として抽出することになり、いずれ
の単語が文書画像中に記述されているかを判別すること
はできない。

【０１３３】このような問題を解決するために、この第
２の変形例では、各文字の特徴を詳細に調べて、文字を
一意に決定する。この場合、従来の文字認識のように約
３０００文字種に対して、特徴量の比較を行なう必要は
なく、カテゴリ単語検出部１０６で検出されたカテゴリ
単語に対応する文字単語で使用されている文字との特徴
量の比較で済む。例えば、検出されたカテゴリ単語を３
つの文字単語と解釈できる時、詳細識別処理では、各文
字位置で３文字との特徴量の比較を行なえばよいことに
なる。

【０１３４】図３１は、本発明の文書処理装置の第２の
実施の形態における第２の変形例を示す構成図である。
図中、図２１と同様の部分には同じ符号を付して説明を
省略する。１１０は詳細識別部、１１５は詳細識別辞書
である。詳細識別部１１０は、入力された未知文字の詳
細な特徴量を抽出して、類似文字カテゴリ内の文字の特
徴量と比較し、文字種を一意に決定する。詳細識別辞書
１１５は、類似文字カテゴリごとに文字画像の詳細な特
徴を記憶する。

【０１３５】詳細識別部１１０と詳細識別辞書１１５に
ついてさらに説明する。詳細識別辞書１１５は、類似文
字分類部１０３で類似文字に分類された結果である類似
文字カテゴリテーブルを用いて作成される。詳細識別辞
書１１５を作成するために用いられる特徴量は、従来の
文字認識装置で用いられている特徴量を使用することが
できる。図３２は、本発明の文書処理装置の第２の実施
の形態の第２の変形例において詳細識別辞書を作成する
ために用いる特徴量の一例の説明図である。使用する特
徴量として、例えば、特開平５−１６６００８号公報に
記載されている方向属性を用いた特徴量を適用すること
ができる。この特徴量は、文字画像中の輪郭画素に対し
て、画素の連続性を複数の方向について計測したもの
で、文字を構成する線分の方向や複雑さを表わしてい
る。図３２（Ａ）に示した例では、「漢」という文字画
像の輪郭画素について、それぞれ左右方向、上下方向、
左上−右下の斜め方向、右上−左下の斜め方向について
連続性を示す画素数を計数し、最も計数値の大きい方向
を求めてその画素の方向属性とする。左右方向に最も計
数値が大きくなる輪郭画素を集めると図３２（Ｂ）に示
す特徴が得られる。同様に、上下方向に最も計数値が大
きくなる輪郭画素を集めると図３２（Ｃ）に示す特徴が
得られ、左上−右下の斜め方向では図３２（Ｄ）、右上
−左下の斜め方向では図３２（Ｅ）に示す特徴が得られ
る。このような方向属性の特徴を詳細識別辞書として格
納しておけばよい。

【０１３６】また、萩田他，「外郭方向寄与度特徴によ
る手書き漢字の識別」，電子情報通信学会論文誌Ｄ，Ｖ
ｏｌ．Ｊ６６−Ｄ，Ｎｏ．１０，ｐｐ１１８５−１１９
２，１９８３年１０月で提案されている外郭方向寄与度
特徴を用いてもよい。類似文字分類部１０３で用いてい
るペリフェラル特徴が文字の外形を表わすのに対して、
これらの特徴量は、いずれも文字内部の線の複雑さ、方
向、接続性を表わし、文字のより詳細な特徴を表現して
いる。もちろん、その他の特徴を用いても、複数の特徴
量を組み合せて用いてもよい。

【０１３７】図３３は、本発明の文書処理装置の第２の
実施の形態の第２の変形例における詳細識別辞書の作成
手順の一例を示すフローチャートである。なお、ここで
は使用する特徴量を詳細特徴として表現し、特定の特徴
量として述べることはしない。まずＳ１５１において、
類似文字カテゴリテーブルから１つの類似文字カテゴリ
を選択する。次にＳ１５２において、トレーニングサン
プルの画像から、選択した類似文字カテゴリに属してい
る文字種を表わす画像を取り出す。Ｓ１５３において、
Ｓ１５２で取り出した文字画像から文字種ごとに詳細特
徴を抽出し、Ｓ１５４において、詳細特徴の平均を算出
する。Ｓ１５５において、この特徴量を類似文字カテゴ
リごとにまとめて詳細識別辞書１１５に追加してゆく。
このような処理を各類似文字カテゴリごとに行なうこと
によって、詳細識別辞書１１５を生成する。

【０１３８】図３４は、本発明の文書処理装置の第２の
実施の形態の第２の変形例における詳細識別辞書の一例
の説明図である。詳細識別辞書１１５は、例えば図３４
に示すように、類似文字カテゴリごとに、そのカテゴリ
に属する文字コードとその詳細特徴量ベクトルにより構
成することができる。この詳細識別辞書１１５は、類似
文字カテゴリテーブルや、文字コード・カテゴリ対応テ
ーブル、カテゴリ単語辞書１１３、コード変換テーブル
１１４と同様に、別の装置上で予め用意しておいて、そ
れぞれのデータのみを使用するように構成することも可
能である。

【０１３９】上述のように、この第２の実施の形態で
は、言語として許容できるカテゴリ単語を代表文字コー
ド列から抽出し、カテゴリ単語変換部１０７により、最
終的に文字単語を得ている。このとき、１つのカテゴリ
単語に対して、複数の文字単語への変換が可能である場
合がある。このような時、詳細識別部１１０を呼び出し
て、各文字画像を詳細に識別し、一意に文字コードを決
定して文字単語を決定する。

【０１４０】詳細識別部１１０では、以下のような処理
により文字単語を決定する。いま、複数の単語に変換可
能なカテゴリ単語をＳｃとし、カテゴリ単語Ｓｃの長さ
をＬ（Ｓｃ）で表わす。また、カテゴリ単語Ｓｃが変換
可能な文字単語数をＮとし、第ｎ（≦Ｎ）番目の候補単
語をＳｗｎとする。ただし、候補単語として順番をつけ
ているが、番号が若いほど単語として成立しやすいなど
の意味はなく、単に辞書順で便宜上番号付けを行なって
いる。さらに、文字単語Ｓｗｎのｉ番目の文字を同様に
Ｓｗｎ（ｉ）と表わす。ここで、入力された未知文字Ｘ
と、ある文字Ｍとの特徴量の差をＦ（Ｘ，Ｍ）とすると
き、Ａｎ＝Σ_i=0 ^L(Sc)Ｆ（Ｘ（ｉ），Ｓｗｎ（ｉ））なる式の値Ａｎが最小となる文字単語をカテゴリ変換部
１０７の最終的な結果として出力する。

【０１４１】この式から分かるように、実際には詳細識
別部１１０では、各カテゴリ内の全ての文字種との比較
を行なう必要はなく、単語として可能性のある候補単語
内の文字種とのみ比較を行なえばよい。最悪の場合で
も、１カテゴリに対する比較回数は、カテゴリ内の類似
文字数である。

【０１４２】ここで、特徴量の差の累積値を用いている
のは、各文字画像の詳細識別を行なって、各文字ごとに
最も確からしい文字を組み合せて単語を作った場合に、
文字画像のかすれや歪み等の影響で、候補単語以外の単
語（ときには、言語として許容できない単語）を生成す
ることが考えられるからである。少なくとも、カテゴリ
単語検出部１０７で検出されている単語は、言語的には
許容されている単語なので、カテゴリ単語検出部１０７
で検出された候補単語だけを識別対象とすることができ
る。

【０１４３】図３５は、本発明の文書処理装置の第２の
実施の形態の第２の変形例における詳細識別部の処理の
一例を示すフローチャートである。上述の詳細識別部１
１０における処理の一例を、図３５を用いてさらに説明
する。まず、Ｓ１６１において、処理対象となるカテゴ
リ単語Ｓｃを選択し、そのカテゴリ単語Ｓｃに対応する
文字単語の候補数Ｎを計数する。また、そのカテゴリ単
語Ｓｃの長さＬ（Ｓｃ）をＷとする。さらに、処理に使
用する記憶領域Ａ［Ｎ］の確保と初期化を行なうととも
に、変数ｉを１に初期設定する。このとき、文字単語の
候補数Ｎが１のときは、処理対象から外され、そのまま
カテゴリ単語変換部１０７により文字単語へ変換が行な
われる。そして、処理対象となったカテゴリ単語Ｓｃを
文書画像中から切り出す。処理対象のカテゴリ単語Ｓｃ
の文書画像中での位置は、カテゴリ単語検出部１０６で
カテゴリ単語を切り出す際に位置情報を保存しておき、
これを参照することで知ることができる。

【０１４４】次に、Ｓ１６２において第ｉ文字目の文字
画像を切り出す。カテゴリ単語内の各文字画像の位置
は、擬似文字認識部１０５において各文字画像を文字カ
テゴリに割当てる際に、同時に位置情報を保存してお
き、これを参照することで知ることができる。このよう
にして切り出した文字画像から、Ｓ１６３において、詳
細識別辞書１１５を作成した時と同じ特徴量を抽出す
る。これを特徴量Ｘとする。Ｓ１６４〜Ｓ１６７におい
て、抽出した特徴量と各候補単語の第ｉ文字目の詳細特
徴量とを比較し、その差を候補単語ごとに記憶領域に累
積する。すなわち、Ｓ１６４で変数ｊを１にセットし、
Ｓ１６５において、Ｓ１６３で抽出した特徴量Ｘと第ｉ
文字目の詳細特徴量Ｓｗｊ（ｉ）の特徴量の差Ｆ（Ｘ，
Ｓｗｊ（ｉ））を計算し、Ａ［ｊ］に累積する。Ｓ１６
６で変数ｊを１だけ増加させ、Ｓ１６７で変数ｊの値が
文字単語候補数Ｎを越えたか否かを判定し、越えるまで
Ｓ１６５に戻って処理を続ける。これにより、記憶領域
Ａ［１］〜Ａ［Ｎ］にそれぞれ第１〜ｉ文字目までの特
徴量の差が累積される。

【０１４５】さらに、Ｓ１６８で変数ｉに１を加え、Ｓ
１６９でカテゴリ単語の長さＷと比較して変数ｉの値が
Ｗ以下の場合にＳ１６２へ戻り、処理を続ける。このよ
うにして、最後の文字までＳ１６２〜Ｓ１６９の処理を
繰り返すことによって、記憶領域Ａ［１］〜Ａ［Ｎ］に
は、各文字単語候補ごとに、各文字の特徴量の差の累積
値が格納される。

【０１４６】Ｓ１７０において、記憶領域Ａ［１］〜Ａ
［Ｎ］の値を比較し、最小値を持つ記憶領域のアドレス
Ｃを求める。Ｓ１７１において、このアドレスＣに対応
する候補単語ＳｗＣを抽出し、その単語を最も確からし
い文字単語として出力する。

【０１４７】ここでは未知文字の特徴量と辞書の特徴量
との差の累積値を単語の評価関数として用いた例を示し
たが、辞書作成時に得られるトレーニングサンプルの詳
細特徴量の分散等の統計的な情報を用いて、統計的に未
知文字の確からしさを求めて、その値の累積を単語の評
価関数としてもよい。

【０１４８】以上のように、カテゴリ単語検出部１０７
で検出したカテゴリ単語を複数の文字単語に変換可能な
時、検出したカテゴリ単語に対して詳細識別を行なうこ
とで、正確に単語を抽出することができる。また、詳細
識別の対象を候補単語の文字の組合せに限定すること
で、カテゴリ単語検出部１０７で検出した、言語的に許
容できる単語を得られることが保証される。

【０１４９】次に、本発明の文書処理装置の第２の実施
の形態における第３の変形例について説明する。第２の
実施の形態における上述の各例では、文字切り出しの段
階での誤りがないものとしてきた。しかし、上述の第１
の実施の形態の第２の変形例でも説明したように、切り
出し段階での誤りは、現実には多く存在する。この第３
の変形例では、このような切り出しの誤りに対応する例
を示す。ここでは一例として、上述の第１の実施の形態
の第２の変形例と同様、図１６に示した例について考え
る。

【０１５０】図３６は、本発明の文書処理装置の第２の
実施の形態の第３の変形例における切り出された文字列
の関係の一例の説明図である。上述のように、図１６
（Ａ）に示した「文書印刷」の例の場合、「文」、
「書」については文字間の間隙しか存在しないが、
「印」の文字中に１か所、「刷」の中に２か所、垂直方
向に白画素のみからなる切り出し位置候補が存在すると
ともに、これら２文字の間も当然切り出し位置が存在す
るので、合計５つの部分文字（ａ１，ａ２，ｂ１，ｂ
２，ｂ３）が得られる。これらについて、文字としての
統合を試みる。文字「文」、「書」と統合できるものは
ないので、そのまま１文字として、擬似文字認識部１０
５において類似文字カテゴリの識別を行ない、代表文字
コード「父」、「君」に変換される。文字「印」につい
ては、部分文字ａ１，ａ２を２つの文字として扱う場合
と、１つの文字として扱う場合の２つの可能な解釈があ
る。ａ２とｂ１を統合した場合は幅のしきい値を越える
ため、統合はなされない。したがって、ここまでの２つ
の解釈を同じ文字画像領域に対して保持する必要があ
る。これらそれぞれについて、擬似文字認識部１０５に
おいて類似文字の識別を行なうと、部分文字ａ１は
「Ｅ」、部分文字ａ２は「Ｐ」、ａ１ａ２では「叩」と
いう代表文字コードに変換され、記憶装置１０９に格納
される。図３６において、代表文字コードを括弧書きで
示している。また、図中の○は文字切り出しの解釈の区
切りである。

【０１５１】同様にｂ１以降を順に見ていくと、可能な
解釈が（［ｂ１］，［ｂ２］，［ｂ３］），（［ｂ１ｂ
２］，［ｂ３］），（［ｂ１］，［ｂ２ｂ３］），
（［ｂ１ｂ２ｂ３］）の４通りあるので（［］は中の部
分文字が１つの文字と見なされることを示す）、同様に
擬似文字認識部１０５で処理が行なわれる。［ｂ１］，
［ｂ２］，［ｂ３］，［ｂ１ｂ２］，［ｂ２ｂ３］，
［ｂ１ｂ２ｂ３］はそれぞれ、「凧」、「１」、
「１」、「引」、「リ」、「刷」という代表文字コード
に変換される。これらすべての解釈を記憶装置１０９に
保持する。

【０１５２】このようにして求められた「印刷」に対応
する代表文字コード列を、ここでは「［ＥＰ，叩］［凧
［１１，リ］，引１，刷］」のように表現する。［］内
は文字画像のある範囲内での切り出し解釈が複数ある場
合にそれを並べたものである。これは入れ子にすること
ができ、例えば「刷」の右部分の２本の垂直ストローク
を１つと見なす場合と、２つに見なす場合の２つが表現
できる。

【０１５３】カテゴリ単語辞書１１３を探索する場合
に、複数の切り出し解釈がある場合は、その範囲ごとに
それぞれの代表文字コード列がカテゴリ単語辞書１１３
に存在するか否かを調べ、可能性のあるものはすべて残
す。上記の例で、「印」という字に対しては、まず「Ｅ
Ｐ」、「叩」という代表文字コード列がカテゴリ単語辞
書１１３に存在するか否かを調べる。このとき、両者と
もに存在するとすれば、両者を存在する可能性のあるも
のとして保持する。次に文字「刷」に対しては、「Ｅ
Ｐ」、「叩」それぞれについて後に続く代表文字コード
として「凧」、「引」、「刷」があるので、接続可能か
否かをカテゴリ単語辞書１１３で調べる。ここでは、
「ＥＰ」は３つの候補どれとも接続せず、それ自身で単
語となり、「叩刷」の代表文字コード列はカテゴリ単語
辞書１１３中に存在するので、単語として取り出される
ので、後に続く単語を同様に照合し、品詞接続辞書によ
る接続性のチェックを行なうことになる。「ＥＰ」とい
う解釈については、これをひとつの単語と見なし、次の
文字から始まる単語の接続可能性を見る。ここでは接続
する可能性のある文字カテゴリは「凧」、「引」、
「刷」の３つで、それぞれのカテゴリから始まる単語を
取り出し、品詞接続関係を調べる。これらの単語は「Ｅ
Ｐ」との接続するものがないとすれば、「ＥＰ」という
解釈についての可能性が棄却され、「叩刷」が残ること
になる。

【０１５４】さらに複雑な場合の例として、「 NMRにお
ける」という文字列を考える。ここで、文字「Ｎ」、
「Ｍ」、「Ｒ」は半角文字である。そのため、これらの
英字については、隣接する英字と統合されて漢字として
認識される場合が想定される。さらに、「に」の文字中
に切り出し位置が１カ所存在する。

【０１５５】図３７は、本発明の文書処理装置の第２の
実施の形態の第３の変形例における切り出された文字列
の関係の別の例の説明図である。想定される統合として
は、「ＮＭ」、「ＭＲ」、「Ｒ」と「に」の左側のスト
ロークが一つの文字として統合された場合が考えられ
る。３つの統合文字に対応する代表文字コードとして
「肌」、「狼」、「引」が得られたとする。また、文字
「に」は「に」という代表文字コードと、分離された部
分文字ごとに「１」と「こ」が得られたとする。する
と、文字切り出しの複数の解釈を許す代表文字コード列
は［Ｎ［Ｍ［Ｒに，引こ］，［狼［に，１こ］］］，
［肌［Ｒ［に，１こ］，引こ］］］のように表現され
る。実際に照合される場合は代表文字コード列の表記の
中で［］で示される複数の切り出し解釈から、代表文字
コードをノード、遷移可能な代表文字コード間の接続を
アークとするようなカテゴリ遷移データを作成すること
ができる。

【０１５６】図３７には、「ＮＭＲにお」という文字列
部分を対象にしたカテゴリ遷移データを示している。こ
のカテゴリ遷移データをもとに、先頭からカテゴリ単語
辞書１１３との照合を行なってゆく。例えばカテゴリ単
語辞書１１３中の単語として「ＮＭＲ」（名詞）、
「肌」（名詞）、「肌引」（動詞語幹）という三つが照
合されたとする。これから後の単語との接続を品詞接続
辞書で照合する。例えば、「ＮＭＲ」に対しては「に」
（格助詞）が接続可能で、「肌」については代表文字コ
ード「Ｒ」、「引」からはじまる単語には接続できず、
「肌引」に対しても代表文字コード「こ」から始まる単
語は接続しないことが分かれば、結果として「肌」、
「肌引」という単語候補は棄却され、「ＮＭＲに」が候
補として残る。このようにして、正しい切り出し位置の
候補が残ることになる。

【０１５７】図３８は、図３９は、本発明の文書処理装
置の第２の実施の形態の第３の変形例における切り出さ
れた文字列の統合処理の一例を示すフローチャートであ
る。まず、擬似文字認識部１０５で処理を行なう単位で
ある処理ユニットの代表文字コード列を、上述のような
カテゴリ遷移データに展開する。Ｓ１８１において、処
理ユニットの最初の位置を注目点として処理を開始す
る。

【０１５８】Ｓ１８２において、次の代表文字コードへ
の複数の遷移パスが存在するか否かを判定し、複数の遷
移パスが存在する場合には、Ｓ１８３において、参照す
る階層を１階層深くする。Ｓ１８４において、現在参照
している階層において可能な遷移パスを変数Ｐにセット
する。

【０１５９】Ｓ１８５において、変数Ｐの中でまだ処理
していない遷移パスが存在しているか否かを判定し、未
処理の遷移パスが存在する場合、Ｓ１８６において、そ
の中の１つに注目し、遷移パスの先の代表文字コードを
カテゴリ単語辞書と照合する。Ｓ１８７で照合に成功し
たか否かを判定し、照合に成功したらばさらにＳ１８８
において単語境界か否かを判定する。単語境界でなけれ
ばＳ１８２へ戻り、単語として取り出せるまでカテゴリ
単語辞書との照合を行なう。単語境界までの照合が成功
し、カテゴリ単語の候補が得られると、Ｓ１８９におい
て、直前に得られたカテゴリ単語候補との品詞の接続関
係を調べ、接続可能か否かを判断する。接続可能であれ
ば、それを残してゆく。Ｓ１９０で処理ユニットの最後
まで処理したか否かを判定し、処理ユニットの途中であ
れば次のカテゴリ単語を抽出すべくＳ１８２へ戻って処
理を続ける。処理ユニットの最後まで処理したらば、そ
れまでに得られたカテゴリ単語の列は１つの候補として
成り立つので、Ｓ１９１において得られたカテゴリ単語
の列を出力する。

【０１６０】Ｓ１８６でのカテゴリ単語辞書との照合に
失敗したとＳ１８７で判定された場合は、Ｓ１９３にお
いて、参照する階層を１階層浅くして途中の複数の解釈
が存在する位置まで戻り、Ｓ１８５からの他のパスにつ
いての照合を行なう。また、Ｓ１８９で品詞の接続が許
されていない場合も、それまで仮定してきた単語列の可
能性は棄却し、それ以降の遷移は処理対象外として処理
は行なわず、Ｓ１９３において参照する階層を１階層浅
くして途中の複数の解釈があるところまで戻り、Ｓ１８
５からの処理を同様に続ける。さらに、処理ユニットの
最後まで処理し、Ｓ１９１でカテゴリ単語の列を出力し
た後も、他の可能性を判定すべく、Ｓ１９３に進んで１
階層浅くして途中の複数の解釈が存在する位置まで戻
り、Ｓ１８５に進んで処理を続ける。もちろん、可能性
のある他のカテゴリ単語列が得られた場合には、Ｓ１９
１で出力される。

【０１６１】Ｓ１８５で変数Ｐの中に未処理の遷移パス
が存在しなくなると、Ｓ１９２においてトップの階層の
すべての遷移を調べたか否かを判定し、調べていない遷
移が存在する場合には、Ｓ１９３に進んで１階層浅くし
て途中の複数の解釈が存在する位置まで戻り、Ｓ１８５
で未処理の遷移パスを探して処理を続ける。トップの階
層のすべての遷移について処理が終了すれば、１つの処
理ユニットについて、与えられたカテゴリ遷移データの
すべてのパスについて処理が終了したことを示すので、
この統合処理を終了する。

【０１６２】このように分離した文字があり、複数のカ
テゴリ単語候補がある場合でも、単語としての可能性を
品詞の接続関係から減らしていくことができるので、非
常に高速にかつ精度よく、単語の抽出が可能となる。

【０１６３】上述の各実施の形態は、コンピュータプロ
グラムによっても実現することが可能である。その場
合、そのプログラムおよびそのプログラムが用いる辞
書、テーブルなどは、コンピュータが読み取り可能な記
憶媒体に記憶することも可能である。記憶媒体とは、コ
ンピュータのハードウェア資源に備えられている読取装
置に対して、プログラムの記述内容に応じて、磁気、
光、電気等のエネルギーの変化状態を引き起こして、そ
れに対応する信号の形式で、読取装置にプログラムの記
述内容を伝達できるものである。例えば、磁気ディス
ク、光ディスク、ＣＤ−ＲＯＭ、コンピュータに内蔵さ
れるメモリ等である。

【０１６４】

【発明の効果】以上の説明から明らかなように、本発明
によれば、文書画像中の文字を文字コード列にまで識別
することなく、少数の類似文字のカテゴリに分類するだ
けでフルテキスト検索を実現している。本発明での類似
文字のカテゴリの識別は、通常の文字認識と比較しては
るかに少ない次元の特徴ベクトルを用いて行なってお
り、少数の類似文字のカテゴリに識別するだけで済むの
で、文書画像からキーワードとして使用できる自立語の
抽出と文書画像登録時の飛躍的な速度の向上が実現でき
るという効果がある。

【０１６５】この類似文字のカテゴリを元の文書画像の
属性として保持し、検索時には検索キーワードの各文字
を類似文字のカテゴリの列に変換して検索する。類似文
字のカテゴリには複数の文字が属しているため、キーワ
ードから変換された代表文字コード列に対応する文字列
は所望のキーワード以外のものも含まれる可能性があ
る。しかしながら、検索キーワードは通常複数文字で構
成され、しかも複数指定されるということを考えると所
望のキーワード以外のものが結果として得られることは
現実的には少ない。逆に、類似文字のカテゴリ分けの精
度は文書画像中の文字の誤認識等に比べて格段によいの
で、漏れの少ない検索を実現することができる。また、
通常のフルテキストサーチの手法がそのまま使用できる
ので、通常の電子文書の検索と同様に処理することがで
きるという効果もある。

【０１６６】また、類似文字のカテゴリの列から、カテ
ゴリ単語辞書をもとに単語として取り出すことによっ
て、無意味な文字列を検索する可能性を減少させ、さら
には品詞など単語間の接続性なども考慮することによっ
てさらに検索精度を向上させることができる。同じ類似
文字のカテゴリの列によって異なる複数の単語が表現さ
れることもあるが、このような場合にはカテゴリ内のい
ずれの文字であるかをさらに詳細な認識によって判断す
ればよい。カテゴリ単語が抽出された場合、その少なく
とも一部のカテゴリ単語について、カテゴリ単語に対応
する単語をキーワードとしておけば、検索キーワードに
は処理を行なわずに通常のデータベースで用いるキーワ
ード検索を用いることができるので、電子文書のデータ
と文書画像を同等に扱うことができるという効果があ
る。

【図面の簡単な説明】

【図１】本発明の文書処理装置の第１の実施の形態を
示す構成図である。

【図２】本発明の文書処理装置の第１の実施の形態に
おける類似文字分類部の処理の一例を示すフローチャー
トである。

【図３】ペリフェラル特徴の説明図である。

【図４】階層的クラスタリングの処理の一例を示すフ
ローチャートである。

【図５】クラスタリングの最適化処理の一例を示すフ
ローチャートである。

【図６】本発明の文書処理装置の第１の実施の形態に
おける類似文字カテゴリテーブルの一例の説明図であ
る。

【図７】本発明の文書処理装置の第１の実施の形態に
おける文字コード・カテゴリ対応テーブルの一例の説明
図である。

【図８】本発明の文書処理装置の第１の実施の形態に
おける擬似文字認識部の処理の一例を示すフローチャー
トである。

【図９】本発明の文書処理装置の第１の実施の形態に
おける文字領域抽出結果の一例を示す説明図である。

【図１０】本発明の文書処理装置の第１の実施の形態
における代表文字コード列への変換処理の一例を示すフ
ローチャートである。

【図１１】本発明の文書処理装置の第１の実施の形態
における代表文字コード列への変換処理の結果の一例を
示す説明図である。

【図１２】本発明の文書処理装置の第１の実施の形態
におけるｂｉ−ｇｒａｍテーブルの一例の説明図であ
る。

【図１３】本発明の文書処理装置の第１の実施の形態
における代表文字コードテーブルの一例を示す説明図で
ある。

【図１４】本発明の文書処理装置の第１の実施の形態
における検索実行部の処理の一例を示すフローチャート
である。

【図１５】本発明の文書処理装置の第１の実施の形態
の第１の変形例における複数のカテゴリへの分類を許容
した場合の文字コード・カテゴリ対応テーブルの一例の
説明図である。

【図１６】本発明の文書処理装置の第１の実施の形態
の第２の変形例における複数の文字切り出し解釈が存在
する場合の切り出し位置の具体例を示す説明図である。

【図１７】本発明の文書処理装置の第１の実施の形態
の第２の変形例における複数の文字切り出し解釈が存在
する場合の切り出された文字列の関係の説明図である。

【図１８】本発明の文書処理装置の第１の実施の形態
の第２の変形例における複数の切り出し解釈を許容した
場合の代表文字コードテーブルの一例の説明図である。

【図１９】本発明の文書処理装置の第１の実施の形態
の第２の変形例における複数の切り出し解釈を許容した
場合の代表文字コードテーブルの作成処理の一例を示す
フローチャートである。

【図２０】本発明の文書処理装置の第１の実施の形態
の第２の変形例における複数の切り出し解釈を許容した
場合のｂｉ−ｇｒａｍテーブルの一例の説明図である。

【図２１】本発明の文書処理装置の第２の実施の形態
を示す構成図である。

【図２２】本発明の文書処理装置の第２の実施の形態
におけるカテゴリ単語辞書の一例の説明図である。

【図２３】本発明の文書処理装置の第２の実施の形態
におけるカテゴリ単語辞書の別の例の説明図である。

【図２４】本発明の文書処理装置の第２の実施の形態
におけるコード変換テーブルの一例の説明図である。

【図２５】本発明の文書処理装置の第２の実施の形態
におけるカテゴリ単語検出部の動作の一例を示すフロー
チャートである。

【図２６】本発明の文書処理装置の第２の実施の形態
におけるカテゴリ単語検出部の動作の一例を示すフロー
チャート（続き）である。

【図２７】本発明の文書処理装置の第２の実施の形態
における品詞接続辞書の一例の説明図である。

【図２８】本発明の文書処理装置の第２の実施の形態
における品詞接続関係の検証処理の一例を示すフローチ
ャートである。

【図２９】代表文字コードの誤識別の一例の説明図で
ある。

【図３０】本発明の文書処理装置の第２の実施の形態
の第１の変形例におけるＮ＝２とした場合の代表文字コ
ード列への変換の一例の説明図である。

【図３１】本発明の文書処理装置の第２の実施の形態
における第２の変形例を示す構成図である。

【図３２】本発明の文書処理装置の第２の実施の形態
の第２の変形例において詳細識別辞書を作成するために
用いる特徴量の一例の説明図である。

【図３３】本発明の文書処理装置の第２の実施の形態
の第２の変形例における詳細識別辞書の作成手順の一例
を示すフローチャートである。

【図３４】本発明の文書処理装置の第２の実施の形態
の第２の変形例における詳細識別辞書の一例の説明図で
ある。

【図３５】本発明の文書処理装置の第２の実施の形態
の第２の変形例における詳細識別部の処理の一例を示す
フローチャートである。

【図３６】本発明の文書処理装置の第２の実施の形態
の第３の変形例における切り出された文字列の関係の一
例の説明図である。

【図３７】本発明の文書処理装置の第２の実施の形態
の第３の変形例における切り出された文字列の関係の別
の例の説明図である。

【図３８】本発明の文書処理装置の第２の実施の形態
の第３の変形例における切り出された文字列の統合処理
の一例を示すフローチャートである。

【図３９】本発明の文書処理装置の第２の実施の形態
の第３の変形例における切り出された文字列の統合処理
の一例を示すフローチャート（続き）である。

【符号の説明】

１…プロセッサ、２…表示装置、３…キーボード、４…
マウス、５…スキャナ、６…プリンタ、７…外部記憶装
置、１１…類似文字分類部、１２…擬似文字認識部、１
３…検索実行部、１０１…画像入力部、１０２…画像表
示部、１０３…類似文字分類部、１０４…テキスト領域
抽出部、１０５…擬似文字認識部、１０６…カテゴリ単
語検出部、１０７…カテゴリ単語変換部、１０８…中央
制御装置、１０９…記憶装置、１１０…詳細識別部、１
１１…文字カテゴリ保持部、１１２…擬似文字認識結果
記憶部、１１３…カテゴリ単語辞書、１１４…コード変
換テーブル、１１５…詳細識別辞書。

Claims

【特許請求の範囲】

【請求項１】文字の画像特徴をもとに類似した文字ご
とに分類されたカテゴリを前記画像特徴と対応づけて記
憶しておく文字カテゴリ記憶手段と、入力された文書画
像中の文字ごとに画像を切り出すテキスト領域抽出手段
と、該テキスト領域抽出手段によって切り出された各文
字画像を所定の画像特徴をもとに前記文字カテゴリ記憶
手段に記憶されているカテゴリに分類する擬似文字認識
手段と、該擬似文字認識手段によって分類された前記各
文字画像のカテゴリを前記入力された文書画像と対応づ
けて記憶しておく擬似文字認識結果記憶手段と、検索時
に入力された検索式中のキーワードの各文字を前記文字
カテゴリ記憶手段に記憶されている対応するカテゴリに
変換するキーワード変換手段と、該キーワード変換手段
によってカテゴリに変換された検索式を満たすカテゴリ
を有する文書画像を前記擬似文字認識結果記憶手段から
取り出す文書検索手段を具備することを特徴とする文書
処理装置。
【請求項２】前記文字カテゴリ記憶手段に記憶されて
いるカテゴリは、文字画像の特徴ベクトルによるクラス
タリングによって分類を行なったものであることを特徴
とする請求項１に記載の文書処理装置。
【請求項３】前記擬似文字認識結果記憶手段内の文書
画像に対応づけて記憶しているカテゴリは、文書画像内
において隣り合う２つの文字画像のカテゴリをキーとし
て該キーが出現する文書の識別子を記憶するバイグラム
テーブルとして記憶されており、前記文書検索手段は、
前記キーワード変換手段によって変換されたカテゴリを
前記バイグラムテーブルから検索することを特徴とする
請求項１に記載の文書処理装置。
【請求項４】前記文字カテゴリ記憶手段は、１つの文
字を複数のカテゴリに記憶している場合があり、前記キ
ーワード変換手段は、１つの検索キーワードに対して前
記文字カテゴリ記憶手段内に記憶されているすべてのカ
テゴリに変換することを特徴とする請求項１に記載の文
書処理装置。
【請求項５】前記文字カテゴリ記憶手段は、１つの文
字を複数のカテゴリに記憶している場合があるとともに
それぞれのカテゴリに分類される確率を記憶し、前記文
書検索手段は、前記文字カテゴリ記憶手段内の確率に応
じて文書画像を前記擬似文字認識結果記憶手段から取り
出すことを特徴とする請求項１に記載の文書処理装置。
【請求項６】前記テキスト領域抽出手段は、複数の文
字切り出し解釈が存在する場合は該解釈すべてについて
切り出しを行ない、前記擬似文字認識手段は、前記テキ
スト領域抽出手段により切り出されたすべての切り出し
結果に対してカテゴリに分類し、擬似文字認識結果記憶
手段は、前記擬似文字認識手段により分類されたすべて
のカテゴリを前記文書画像に対応づけて記憶することを
特徴とする請求項１に記載の文書処理装置。
【請求項７】文字の画像特徴をもとに類似した文字ご
とに分類されたカテゴリを前記画像特徴と対応づけて記
憶しておく文字カテゴリ記憶手段と、単語とその単語の
各文字を前記カテゴリに置き換えたカテゴリ単語とを対
応づけて記憶するカテゴリ単語辞書と、入力された文書
画像中の文字ごとに画像を切り出すテキスト領域抽出手
段と、該テキスト領域抽出手段によって切り出された各
文字画像を所定の画像特徴をもとに前記文字カテゴリ記
憶手段に記憶されているカテゴリに分類する擬似文字認
識手段と、該擬似文字認識手段によってカテゴリに分類
されたカテゴリの列であるカテゴリ列を前記カテゴリ単
語辞書から検索するカテゴリ単語検索手段を具備するこ
とを特徴とする文書処理装置。
【請求項８】さらに、前記テキスト領域抽出手段によ
って切り出された各文字画像を該文字画像の外接矩形の
大きさおよびその位置のいずれか１つ以上を用いて句読
点か否かを判断する句読点検出手段を具備し、前記カテ
ゴリ単語検索手段は、前記句読点検出手段によって句読
点と判断された文字画像間の文字画像に対応する前記類
似文字認識手段によって分類されたカテゴリ列を検索単
位とすることを特徴とする請求項７に記載の文書処理装
置。
【請求項９】さらに、前記カテゴリ単語辞書に記憶さ
れているカテゴリ単語の品詞およびそのカテゴリ単語に
対応する単語間の接続関係を記憶する品詞接続辞書を具
備し、前記カテゴリ単語検索手段は、前記品詞接続辞書
に記憶されているカテゴリ単語の品詞および該カテゴリ
単語に対応する単語間の接続関係に基づいてカテゴリ列
を前記カテゴリ単語辞書から検索することを特徴とする
請求項７に記載の文書処理装置。
【請求項１０】さらに、前記カテゴリ単語検索手段に
より検索されたカテゴリ列に対応する単語が複数存在す
る場合に、該カテゴリ列に対応する文字画像に対して文
字認識を行なう文字認識手段を具備することを特徴とす
る請求項７に記載の文書処理装置。
【請求項１１】前記擬似文字認識手段は、文字の画像
特徴とカテゴリを代表する画像特徴が閾値内の距離に存
在する複数のカテゴリに分類し、前記カテゴリ単語検索
手段は、前記擬似文字認識手段によって分類された複数
のカテゴリの列であり、その複数のカテゴリの組合せで
あるカテゴリ列を前記カテゴリ単語辞書から検索するこ
とを特徴とする請求項７に記載の文書処理装置。
【請求項１２】文字の画像特徴をもとに類似した文字
ごとに分類されたカテゴリをその画像特徴と対応づけて
記憶しておく文字カテゴリ記憶手段を具備した文書処理
装置における文書処理方法において、入力された文書画
像中の文字ごとに画像を切り出し、切り出された各文字
画像を所定の画像特徴をもとに前記文字カテゴリ記憶手
段に記憶されているカテゴリに分類し、分類された前記
各文字画像のカテゴリを前記入力された文書画像と対応
づけて記憶し、検索時に入力された検索式中のキーワー
ドの各文字を前記文字カテゴリ記憶手段に記憶されてい
る対応するカテゴリに変換し、カテゴリに変換された検
索式を満たすカテゴリを有する文書画像を取り出すこと
を特徴とする文書処理方法。
【請求項１３】文字の画像特徴をもとに類似した文字
ごとに分類されたカテゴリを該画像特徴と対応づけて記
憶しておく文字カテゴリ記憶手段と、単語とその単語の
各文字を前記カテゴリに置き換えたカテゴリ単語とを対
応づけて記憶するカテゴリ単語辞書を具備した文書処理
装置における文書処理方法において、入力された文書画
像中の文字ごとに画像を切り出し、切り出された各文字
画像を所定の画像特徴をもとに前記文字カテゴリ記憶手
段に記憶されているカテゴリに分類し、カテゴリに分類
されたカテゴリの列であるカテゴリ列を前記カテゴリ単
語辞書から検索することを特徴とする文書処理方法。
【請求項１４】コンピュータに実行させるプログラム
および辞書を読取可能に記憶した記憶媒体において、前
記辞書は、文字の画像特徴をもとに類似した文字ごとに
分類されたカテゴリを前記画像特徴と対応づけて記憶し
ておく文字カテゴリ辞書であり、前記プログラムは、入
力された文書画像中の文字ごとに画像を切り出すテキス
ト領域抽出手段と、該テキスト領域抽出手段によって切
り出された各文字画像を所定の画像特徴をもとに前記文
字カテゴリ辞書に記憶されているカテゴリに分類する擬
似文字認識処理と、該擬似文字認識処理によって分類さ
れた前記各文字画像のカテゴリを前記入力された文書画
像と対応づけて記憶しておく擬似文字認識結果記憶処理
と、検索時に入力された検索式中のキーワードの各文字
を前記文字カテゴリ辞書に記憶されている対応するカテ
ゴリに変換するキーワード変換処理と、該キーワード変
換処理によってカテゴリに変換された検索式を満たすカ
テゴリを有する文書画像を前記擬似文字認識結果記憶処
理によって記憶されているものから取り出す文書検索処
理を前記コンピュータに実行させることを特徴とする記
憶媒体。
【請求項１５】コンピュータに実行させるプログラム
および辞書を読取可能に記憶した記憶媒体において、前
記辞書は、文字の画像特徴をもとに類似した文字ごとに
分類されたカテゴリを前記画像特徴と対応づけて記憶し
ておく文字カテゴリ辞書と、単語とその単語の各文字を
前記カテゴリに置き換えたカテゴリ単語とを対応づけて
記憶するカテゴリ単語辞書であり、前記プログラムは、
入力された文書画像中の文字ごとに画像を切り出すテキ
スト領域抽出処理と、該テキスト領域抽出処理によって
切り出された各文字画像を所定の画像特徴をもとに前記
文字カテゴリ辞書に記憶されているカテゴリに分類する
擬似文字認識処理と、該擬似文字認識処理によってカテ
ゴリに分類されたカテゴリの列であるカテゴリ列を前記
カテゴリ単語辞書から検索するカテゴリ単語検索処理を
前記コンピュータに実行させることを特徴とする記憶媒
体。