JP6542546B2

JP6542546B2 - 文書データ処理方法およびシステム

Info

Publication number: JP6542546B2
Application number: JP2015037981A
Authority: JP
Inventors: 孝志河合; 義行小林; 平林　元明; 平林　　元明; 協川崎
Original assignee: Hitachi Systems Ltd
Current assignee: Hitachi Systems Ltd
Priority date: 2015-02-27
Filing date: 2015-02-27
Publication date: 2019-07-10
Anticipated expiration: 2035-02-27
Also published as: JP2016162040A

Description

本発明は、既存の電子化文書を再利用可能とする方法およびシステムに関する。

現在の電子化文書の利用分野では、文字と文字コードの対応が、全利用者間で完全に共通にはなっていない。このため、ある主体で作成した既存電子文書を他の主体で利用する場合に、不都合が生じる場合がある。

たとえば、事業体Ａでのみ利用している文字コードは、事業体Ｂでは利用できないので、事業体Ａの文書データを事業体Ｂで利用しようとする場合には、事業体Ｂでは利用できない文字コードを持つ文字を、事業体Ｂで利用できるようにデータ化しなければならない。

このとき、該当の文字を事業体Ｂで使用できるようにするため、情報処理装置等に文字等を入力する際には、漢字の読み方を入力し、読み方から提示された変換候補をユーザが選択することで、入力対象の文字を入力することが一般に行われている。しかし、読み方が分からない場合などには、ユーザにマウス等を使って手書き文字を描いてもらい、その文字を文字認識装置で認識することにより、文字候補を出力し、ユーザが文字候補の中から最終的な入力文字を選択することで、文字を入力することが一般に行われている。

その他の文字検索方法としては、特許文献１には、漢字を部首など予め用意された要素に基づいて検索する方法が記載されている。また、特許文献２には、手書き入力された漢字構成部分の入力イメージを作成し、作成された入力イメージとあらかじめ記憶した漢字構成部分のイメージとを比較し、その比較結果に基づいて、漢字構成部分を候補として抽出して表示する技術が開示されている。

特開２００３−２２３４３９号公報特開２００５−１６５５３３号公報

特許文献１，２には、文字検索・入力の例が開示されているが、ある主体で作成した既存電子文書を他の主体で利用する場合の、効率的な方法やシステム構成については、検討がされていない。

本発明は、文字を構成要素に分解して作成したデータベースを用い、主体間での文書データの再利用を容易に行うことを目的とする。

すなわち、背景技術の項に記載したように、文字を表す文字コードには、企業により独自のものや、UnicodeやJISのように規格化されたもの、戸籍統一文字や住民基本台帳ネットワーク統一文字（住基ネット統一文字）のように、官公庁が制定したものがある。しかしながら、これらの文字コード体系は制定・管理者により異なり、また、扱える文字の数が異なる。さらには、文字コードのバイト数も、２バイトもしくは４バイトと、同一とは限らない。このため、ある主体で利用していた文書データは、そのまま他の主体では利用できないことがある。

このために、文書データを送信するたびに変換が必要な仕組としてしまうと、煩雑な変換作業が発生する。そのため、統一された文字コードでデータを交換できるようにする必要がある。

たとえば、住民基本台帳ネットワークにおいては、各自治体で管理している文字コード（自治体特有の外字を含む）を、住基ネット統一文字で同定し、住基ネット統一文字コードとの変換テーブルを作成することで、自治体間の文字データの交換を可能とする。各自治体固有の文字コードが変換テーブルにあれば、文書データの共有が自治体間で可能となる。

しかしながら、人名や地名には後述する異体字など、ほぼ同じ形だが微妙に形状の異なる漢字が多くあり、全てを住基ネット統一文字に同定することが難しい。同定できなかった文字は、残存外字として残る。残存外字は変換テーブルで自動的に対応できず、文字画像を人間が判別して、利用可能な文字コードとの対応付けを行わなければならない。これは大変煩雑な作業であり、極力自動化することが望まれていた。近年、既存の多くのシステムで用いられている文字を包括して利用可能とする文字情報基盤の整備が進められている。文字情報基盤の文字コードを用いて変換テーブルを作成すれば、種々の文字コード間の変換が可能となるが、そのようなテーブルの整備には時間がかかるし、主体ごとに使われているすべての外字に対応することも非効率的である。

本発明の課題は、例えば文字情報基盤のような包括的な文字コード体系を利用して、異なる主体間の文書データの交換・利用をより効率的に行う手法を提供することにある。

本発明の一つの側面は、第１の文字画像の集合と、各文字画像を特定する第１のコードの集合を含む第１のデータベースと、第２の文字画像の集合と、各文字画像を特定する第２のコードの集合を含み、各文字画像に一または複数の文字部品の画像を関連付けた第２のデータベースである認識辞書と、を用いる文書データ処理方法である。この方法では、第３の文字画像の集合に対応した、第３のコードの集合を含む文書データを準備する第１のステップ、第３のコードの集合中の、第１のコードの集合中に存在しないコードを抽出する第２のステップ、抽出されたコードに対応する文字画像を、第３の文字画像の集合から抽出する第３のステップ、抽出した文字画像を、検索対象となる検索対象文字画像とする第４のステップ、検索対象文字画像を複数の部分に分解して、複数の検索対象文字部品の画像を生成する第５のステップ、複数の検索対象文字部品の画像の其々を、認識辞書の文字部品の画像と照合する第６のステップを、有する。

以上の構成は、単体のコンピュータで実行してもよいし、あるいは、入力装置、出力装置、処理装置、記憶装置の任意の部分が、ネットワークで接続された他のコンピュータで構成されてもよい。すなわち、データベースや認識辞書は、遠隔地にありネットワークで接続されてもよい。また、コンピュータの処理装置でソフトウェアにより実行してもよいし、ソフトウエアで構成した機能と同等の機能は、FPGA（Field Programmable Gate Array）、ASIC（Application Specific Integrated Circuit）などのハードウエアでも実現できる。そのような態様も本願発明の範囲に含まれる。

本発明の好ましい態様では、第６のステップは、複数の検索対象文字部品の画像の其々を、認識辞書の文字部品の画像とパターンマッチングし、マッチングした文字部品の画像と関連付けられる文字画像を、第２の文字画像の集合から抽出し、第２のコードの集合から、抽出した文字画像を特定するコードを抽出する。

さらに好ましい具体的な例としては、第３のステップでは、抽出された文字画像を、文書データに添付して作業文書データを作成し、第４のステップでは、作業文書データに添付された文字画像を、検索対象文字画像とする。このようにすると、作業文書データは、可搬性記録媒体に記録保存して別の場所に送ったり、有線もしくは無線通信網経由で送信したりすることができる。受けとり側では受信した作業文書データを読み出し、作業文書データに添付された文字画像を取り出して処理を行うことができ、異なる作業者で、作業文書データをやり取りすることが容易になる。

他の好ましい例としては、第６のステップで抽出した、文字画像を特定するコードと文書データにより、新たな文書データを作成する。この文書データは、第１のコードの集合にないコードが、第２のコードの集合の中のコードに置き換えられているので、第１及び第２のコードを使用できる装置であれば、いずれの装置でも利用できるデータとなる。

認識辞書を作成する際に、文字画像に対応する複数の文字部品を生成するアルゴリズムと、検索対象文字画像を複数の部分に分解して、複数の検索対象文字部品を生成するアルゴリズムは、異なってもよいが、共通のアルゴリズムを用いると精度が向上する。

本発明の他の側面は、入力装置、演算装置、記憶装置、および出力装置を備える文字検索システムである。当該システムは、文字画像と、当該文字画像を特定するコードと、当該文字画像に対応する複数の文字部品の画像を関連付けたデータセットを、複数格納する認識辞書をアクセス可能である。

入力装置は、文書データと、該文書データに添付された検索対象となる検索対象文字画像の入力を受付ける機能を有し、演算装置は、文書データに添付された検索対象文字画像を得る機能と、検索対象文字画像を複数の部分に分解して、複数の検索対象文字部品の画像を生成する機能と、複数の検索対象文字部品の画像の其々を、認識辞書の文字部品の画像と照合する機能と、照合の結果前記認識辞書から抽出された文字画像に対応するコードを抽出する機能と、該抽出したコードを前記文書データに適用して、新たな文書データを作成する機能を有する。

既存文書データの再利用が容易になる。

文字分解情報を用いた文字入力装置の処理例のフロー図。本実施例の文字入力装置の一例を示す構成ブロック図。文字分解処理の一例を示す説明フロー図。異体字の例を説明する概念図。文字要素画像のクラスタリングの一例を説明する概念図。文字画像ＤＢのデータ例を示す表図。文字要素ＩＤと対応する文字要素画像の例を示す表図。文字ＩＤと文字要素ＩＤの例を示す表図。合成文字ＩＤと合成文字画像と文字要素ＩＤと共起数の例を示す表図。文字ＩＤと文字要素、合成文字ＩＤの対応テーブルの例を示す表図。文字分解情報のテーブルの例を説明する表図。文字領域と位置情報の例を説明する表図。文字領域と位置情報の例を説明する概念図。強制切断の処理の例を説明する概念図。強制切断の処理の例を説明する概念図。統計的識別方法の例を説明するフロー図。文字画像のベクトルによるクラスタリングの例を説明する概念図。検索時のユーザーインターフェイスの例を説明する平面図。文字検索の処理の流れを示すフロー図。複数の事業主体が備える文字データベースの例を示す概念図。複数の事業主体と共通文字基盤データベースの利用関係を示すブロック図。共通文字基盤の文字データベースの例を示す概念図。文書データ送信側の処理の流れの例を示すフロー図。文書データ受信側の処理の流れの例を示すフロー図。文書データ送信側の処理の流れの他の例を示すフロー図。事業主体が利用する事業主体の外字データベースの例を示す概念図。本発明の他の実施例を示す構成図。

実施の形態について、図面を用いて詳細に説明する。ただし、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。

以下に説明する発明の構成において、同一部分又は同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、重複する説明は省略することがある。

図面等において示す各構成の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本発明は、必ずしも、図面等に開示された位置、大きさ、形状、範囲などに限定されない。

本発明の文字入力装置の実施例について、図表を参照しながら説明する。本実施例では、異体字をその構成要素に分解し、分解した要素を用いて文字入力を効率化する。

＜１．文字画像データベースと文字分解情報の作成＞
図２は、本実施例の文字入力装置の一例を示す構成図である。

本実施例の文字分析システム２０１は、ユーザの文字入力を支援する装置であり、入力装置２０２、表示装置２０３、イメージ取得装置２０４、通信装置２０５、演算装置（ＣＰＵ）２０６、外部記憶装置２０７を備える。外部記憶装置２０７は、文字画像ＤＢ２１３、文字分解情報２１４を含む。

入力装置２０２は、コマンド等を入力するためのキーボードやマウス等である。入力装置２０２は、演算装置（ＣＰＵ）２０６で実行されるプログラムの制御や、その他、接続機器の制御のために実行されるコマンド等を入力するための装置である。

表示装置２０３は、処理内容を適宜表示するディスプレイ等の装置である。イメージ取得装置２０４は、スキャナなどのイメージ取得用の装置である。取得したイメージは、外部記憶装置等に記憶してもよい。

通信装置２０５は、ＰＣやサーバ等の外部機器からのデータのやりとりを行うために用いる。通信装置２０５は、外部機器からのユーザによる実行コマンドの取得や、画像やテキストなどの情報の外部機器からの取得等の目的に用いられる。また、通信装置２０５は、処理内容を外部機器に送信する等の目的にも用いられる。

演算装置（ＣＰＵ）２０６は、文字分解などの各種処理を実行する演算装置である。外部記憶装置２０７は、ＨＤＤ，メモリ等の外部記憶装置である。外部記憶装置２０７には、文字の画像や文字を構成要素に分解した情報などの各種データが保存されている。また、外部記憶装置には、演算装置（ＣＰＵ）２０６によって実行される処理の途中で生成されるデータ等を一時的に記憶しておくためにも用いられる。

入力装置２０２、表示装置２０３、イメージ取得装置２０４、通信装置２０５はなくてもよい。入力装置２０２が無い場合には、処理の開始は、通信装置２０５を用いて外部機器から指示するか、または、時刻指定等により自動的に行う。表示装置２０３が無い場合には、処理結果は通信装置２０５を用いて外部機器に送信するか、外部記憶装置２０７に記憶しておく。次に、本実施例における文字分析システム２０１によって実施される処理の説明に移る。

図３は文字分解処理の一例を示す。文字分解処理では、文字画像ＤＢ２１３を用いて文字分解情報２１４を作成する。文字分解情報２１４は、文字入力の際に用いられるが、文字入力の処理は、文字分解処理の後に説明する。

図４で字の種類の一つである異体字について説明する。図４に異体字の例を画像で示した。異体字とは、一般に同等の意味を有するが互いに異なる形の字体をいう。４０１のように、複雑な字形で一部のみが異なるものや、４０２のように僅かに字形が異なるものなどがある。文字画像ＤＢ２１３は、このような異体字の文字画像が文字を識別するＩＤと文字コードなどの付加情報とともに保存されたものである。なお、文字画像ＤＢ２１３には、異体字以外にも、常用漢字などどのような文字種の画像が入っていてもよい。

なお、文字符号の国際規格であるISO/IEC 10646では、文字符号としては同一視される漢字の、細かな字形の差異を特別に使い分けるための仕組みである、IVS(Ideographic Variation Sequence/Selector)が規定されている。具体的には、データベースのそれぞれの文字コードの後に、それぞれの字形を特定するための枝番号を表現するための符号を付けることによって字形を区別する。この枝番号は、”Variation Selector（字形選択子）”と呼ばれる。電子文書中にこの符号列を記述することで、細かな字形の差異を区別して指定できる。以下、本実施例では、特に限定する意図ではないが、異体字の具体例として、上記IVSで規定された文字データを用いるものを想定する。

図６（Ａ）のテーブル６０１に文字画像ＤＢのデータ例を示した。文字を識別するＩＤと文字画像情報が含まれている。さらに、文字に対応するＵＴＦ、ＥＵＣ、ＳＪＩＳなどの文字コード等、付加情報があれば、それらの情報を含んでいてもよい。

図３に戻り、文字細分化３０１では、文字画像ＤＢ２１３に含まれる文字画像を細かい要素に細分化する。なお、以下の例では文字画像は予め２値化処理をしているものとする。その結果、黒画素と白画素の何れかになる。以降、細分化の例を説明する。ここで説明する例では、まず文字画像を連結成分ごとに分解し、接触部などは、さらに強制切断をすることで、文字を細かい要素に細分化する。連結成分ごとの分解のみの場合や、強制切断のみの場合もある。まず、連結成分ごとに分解する。図４の４０４は、同じく４０３の５つの文字をその連結成分（黒画素が繋がっている成分）ごとに分割した例である。連結成分でわけることにより、多くの文字要素を生成する事ができ、多くの文字種に対応できるようになる。

ただし、連結成分だけでは分離できない字形もあるため、強制切断などの方法を用いて、要素を細かく細分化してもよい。この処理では、細分化した文字を元の文字コードの情報とともに、出力する。なお、強制切断などによって、複数通りの細分化の仕方が生じた場合には、そのうちの一通りの細分化を選んでもよいし、それら複通りの細分化でできた文字要素を生成し、保存しておいてもよい。このとき、テーブル６０３のテーブルの文字要素ＩＤには、複数の細分化でできた文字要素もまとめて保持しておく。

図１０により、文字の強制切断の方法例を説明する。図１０の１００１では、矢印１００７で示した箇所で、接触がある。このような場合には、連結成分ごとの分解では不十分であるため、強制切断によって、切り離す。この方法の一例について１００１の左側の文字の例を用いて説明する。テーブル１００２は、テーブル１００１の左側の文字の接触部を拡大したものである。文字線１００３と文字線１００４が接触している。このとき、１００５と１００６に示す矢印のように文字線１００５の輪郭を辿り、それを文字線１００５に沿って少し延長した場合に、１００５と１００６は交わる。このような場合に、文字線１００３と文字線１００４を切り離すことにより切断する。

図１１によって、文字の強制切断を画像１１０１の模式図を用いて説明する。画像１１０１のひとつのマスはひとつの画素を表わす。画像１１０１の輪郭を辿ると、１、２、３、…のようになる。ここで、輪郭は黒画素に接触している白画素のことであり、輪郭を辿るとは、隣接する輪郭を黒画素を右方向、または左方向に見て辿ることを意味するものとする。また、白画素と黒画素の境界線を辿るとしてもよい。ここで、輪郭位置４の部分で輪郭の角度が変化する（例えば、輪郭位置３から輪郭位置４に向かう方向と、輪郭位置４から輪郭位置５へ向かう方向が異なるがこの角度変化が予め定めた閾値以上である場合）が、このような部分を切断候補箇所として、この箇所から輪郭位置１，２，３，４に沿った方向に延長した直線を考える。すなわち、輪郭位置４の右下の画素、さらに右下の画素、のように延長する。

逆に、輪郭位置８，輪郭位置９の方向からも輪郭位置９の左上の画素、さらに左上の画素、のように延長する。このように延長した２つの直線が交わるが、予め閾値を定めておき、延長数が閾値以下である場合には、この直線に沿って文字を切り離す。画像１１０１の例の場合には、画像１１０１に示すように画素１０と画素１１が延長された画素の数であり、この部分の画素が白画素になり文字が切り離される。なお、後に文字要素を合成して文字部品を生成するため、この処理では、過剰に文字を切り離してもよい。また、強制切断処理が無い場合には、画像１００１のような例では分解ができないが、このようなケースは比較的少数であるため、一定の部品分解の効果は得られるため、この処理はなくてもよい。このようにして、強制切断を行うことにより連結成分ごとに分ける場合よりもさらに細分化した文字要素を生成し、より多くの文字種に対応することが可能となる。

図３のクラスタリング３０２では、文字細分化３０１で生成した文字要素の画像を、その位置や字形が類似しているものはクラスタリングしてまとめる。

図５に、図４の４０４の１５個の文字要素画像をクラスタリングした例を示した。各行にまとめられた文字要素を並べている。この例では、位置や字形が類似した画像をまとめて、９種の画像にクラスタリングしている。ここで、クラスタリングされた文字要素画像同士を同一視し、それらを識別するＩＤをつける。

図６（Ｂ）に記載のテーブル６０２にその例を示した。ＩＤと、それに対応する文字要素画像が示されている。類似判定については以下に述べる。

クラスタリングでは、パターンマッチングの方法や統計的なクラスタリング方法などを用いることができる。統計的なクラスタリング方法を用いる場合には、各画像から特徴抽出を行い、ベクトルに変換する。これには勾配特徴、画素特徴などを用いることができる。ベクトルのクラスタリングには、ｋ−ｍｅａｎｓや凝集法、ＥＭ−Ａｌｇｏｒｉｔｈｍなどを用いることができる。このときベクトル同士の距離について、ユークリッド距離を用いると、黒画素数が少ないもの同士は類似性が低くとも距離が小さく、黒画素が多いものは類似性が高くとも距離が大きいと判定されてしまう傾向がある。

図１３は、文字画像のベクトルによるクラスタリングの例を説明する図である。例えば、図１３の文字要素１３０３と文字要素１３０４のユークリッド距離は、文字要素１３０５と文字要素１３０６のユークリッド距離よりも小さい。これは、黒画素が多い字形のほうが、一致しない画素の数が大きくなり、その分が距離として計算されてしまうためである。そのため、２つの画像の画素数でユークリッド距離を正規化してもよい。例えば、ｆ（Ａ，Ｂ）を２つの画像Ａ，Ｂの黒画素数に対して単調非増加な関数として、ユークリッド距離にｆ（Ａ，Ｂ）を掛けた値を距離としてもよい。例えば、ｆ（Ａ，Ｂ）としては、１÷（画像Ａと画像Ｂの黒画素数の合計）や１÷√（画像Ａと画像Ｂの黒画素数の合計）としてもよい。平方根をとったのは、黒画素数は面積に相当するため、黒画素領域のスケールを計算するためである。

ここで、文字要素を元の文字画像と結び付けるテーブルを作成しておくとよい。テーブルの例をテーブル６０３に示した。元の文字のＩＤ（第一列目）に対して、それを構成する文字要素のＩＤが第二列目に記されている。例えば、テーブル６０３より、要素ＩＤがＥ００１の文字要素は、テーブル６０１の文字ＩＤがＣ０１の文字に含まれていることが分かる。

ここまでの処理では、文字をなるべく細分化し、類似した位置や字形のものをまとめることにより、文字要素画像を生成する。しかし、この段階でできた要素画像は細かすぎる場合がある。例えば、「波」のような文字のさんずいの３つの点は３つの異なる文字要素画像に分解されるが、これらは文字の部品としては、ひとつのまとまりとして、扱いたい。つまり「波」の分解ではさんずいと皮の部分に分解したい。このように分解することで、偏や旁のような意味のあるまとまりに分解することができ、後に説明する入力支援に役立てることができる。

文字部品生成３０３では、文字要素が同じ文字の中で共起（出現）する回数をカウントし、共起回数に基づいて文字要素をまとめることで、文字の部品となる画像を生成する。例えば、さんずいの３つの点は、「波」、「池」、「濯」、など様々な文字で共起、つまり同時に現れる。このように同時に現れる文字要素同士を合成することで、さんずいを文字部品として取り出すことができる。以下で、文字要素から文字部品を生成する例について説明する。

図３の後半を参照し、文字部品生成の処理例を説明する。ここで挙げる例では、共起回数に予め定めた閾値Ｎを設定しておき、共起回数がＮ回以上共起する文字要素を合成対象とする。

共起数計算３０４では、２つの要素文字のペアのうち、共起回数が最大となるようなペアを探索する。そのようなペアは複数存在する場合もある。

共起回数判定３０５では、共起数計算３０４で得られた共起回数の最大値が閾値Ｎより大きいかどうかを判定する。大きい場合には、文字要素追加３０６に進み、小さい場合には、文字部品生成３０７に進む。ここでは、Ｎ＝２とする。

合成文字生成３０６では、共起数計算３０４で得られた共起回数が最大又は予め定められた別の閾値よりも高くなるようなペアに対して、そのようなペアを合成した新たな合成文字を生成する。生成した合成文字はＩＤを付与し、合成元の文字要素ＩＤ、共起数の情報とともに保持しておく。

図６（Ｃ）のテーブル６０３の例では、文字Ｃ００１と文字Ｃ００４の２つの文字で、文字要素Ｅ００２と文字要素Ｅ００５、文字要素Ｅ００２と文字要素Ｅ００４、文字要素Ｅ００４と文字要素Ｅ００６、の３つのペアが共起している。図６（Ｃ）の例では、これらの２回の共起数の文字要素ペアが共起回数最大となるため、共起数計算３０４では、これら３つのペアが抽出される。そして、合成文字生成３０６では、これら３つのペアの合成文字を生成し、合成文字を識別するＩＤと合成元の文字要素ＩＤの情報を保持しておく。

図６（Ｄ）は合成文字ＩＤと合成文字画像と文字要素ＩＤと共起数の例を示す図である。ここまでの処理で、テーブル６０４の合成文字が生成される。

次に、共起数計算３０４では、共起回数が最大となるようなペアを探索する。ただし、２回目以降の共起数計算３０４の処理では、すでに探索済みのペアは対象から除く。つまり、ペアＡ，Ｂのうち、すでに合成文字生成３０６において合成文字として生成されたペアは探索対象から除く。

また、ペアとして、要素文字だけでなく、合成文字も対象とする。つまり、ペアＡ，Ｂの一方、または両方が合成文字のものも探索対象とする。これは、テーブル６０３の代わりにテーブル６０６の対応を共起の探索に用いることに相当する。ただし、合成文字は、Ａ，Ｂを構成する文字要素は互いに重ならないものを対象とする。つまり、Ａに対応する文字要素（Ａが合成文字の場合にはそれを構成する文字要素）とＢに対応する文字要素（Ｂが合成文字の場合にはそれを構成する文字要素）の間に重複がないようなペアを対象とする。例えば、合成文字Ｉ００１と文字要素Ｅ００２、合成文字Ｉ００１と合成文字Ｉ００２、などは共通する文字要素としてＥ００２を含むため、探索対象としない。

図６（Ｃ）のテーブル６０６の例では、Ｉ００１とＥ００４，Ｉ００２とＥ００５，Ｉ００３とＥ００２が文字Ｃ００１と文字Ｃ００４で共起しており、共起回数が最大となる。

次に、共起回数判定３０５では、共起数計算３０４で探索した共起回数を閾値Ｎと比べる。テーブル６０６の例では、２回共起しているため、合成文字生成３０６に進む。

合成文字生成３０６では、探索したペアを合成することにより合成文字を生成する。このとき、合成文字はその要素文字に展開する。つまり、Ｉ００１とＥ００４のペアは、合成文字Ｉ００１をその要素文字Ｅ００２とＥ００５に展開し、３つの要素文字Ｅ００１とＥ００２とＥ００５から成ると考える。そして、これを合成文字として追加する。テーブル６０５のＩ００４がこの例である。今回の例の場合、残る２つのペアＩ００２とＥ００５，Ｉ００３とＥ００２についても、３つの要素文字Ｅ００１とＥ００２とＥ００５から成るため、同じものは追加する必要がない。

図６（Ｅ）は文字ＩＤと文字要素、合成文字ＩＤの対応テーブルの例を示す図である。次に、この例では、共起数計算３０４に進むが、最大共起数が１となり、共起回数判定３０５でＮ＝２以下であるため、文字部品生成３０７に進む。ここまでの処理で、Ｉ００４を、それを含む文字Ｃ００１とＣ００４のエントリーに追加すると図６（Ｅ）のテーブル６０７のようになる。

文字部品生成３０７では、各文字を図６（Ｅ）のテーブル６０７のような文字ＩＤと文字要素、合成文字の対応テーブルを用いて、各文字をその部品に分解する。このとき、テーブル６０７の２列目の文字を構成する文字要素、合成文字の中から、文字を組み立てる組み合わせを選択する。ただし、文字を構成する文字要素と合成文字を文字要素に展開したものの集合に、文字要素の重複がないようにする。このとき、文字を組み立てる文字要素と合成文字の数の合計がなるべく小さくなるような分解方法を選択する。

例えば、文字Ｃ００１を分解する際、以下のような組み合わせが考えられる。
Ｃ０００１＝Ｅ００１＋Ｅ００２＋Ｅ００４＋Ｅ００５
Ｃ０００１＝Ｅ００１＋Ｅ００４＋Ｉ００１
Ｃ０００１＝Ｅ００１＋Ｅ００５＋Ｉ００２
Ｃ０００１＝Ｅ００１＋Ｅ００２＋Ｉ００３
Ｃ０００１＝Ｅ００１＋Ｉ００４
ここで、この例の場合には、最後の分割が分割数が少ないため、文字Ｃ００１は、Ｅ００１＋Ｉ００４に分割される。上記の例のように、分割の最小数で選択する方法をとってもよいし、共起数を基準に分割を選択してもよい。例えば、分解要素の共起数の合計が大きくなるような分割をとってもよい。例えば、
Ｃ０００１＝Ｅ００１＋Ｉ００４
の場合には、Ｅ００１の共起数が２、Ｉ００４の共起数が２であるため、共起数の合計は４である。共起数と分割数の両方を考慮して分割を選択してもよい。また、分割の仕方は複数であってよい。この結果をテーブル７０１の例のようなテーブルに保存しておく。分解方法が複数ある場合には、ひとつの文字に対して複数のエントリーが存在する。他にも、ある閾値よりも小さいとして分解の判定をしても良い。

これにより文字をその部品（文字部品）に分解することができる。この例では、文字Ｃ００１はこざとへんと、允に分解できている。また、この例では、文字Ｃ００２の旁の元は、Ｅ００７，Ｅ００８に分解されてしまっているが、より多くの文字を対象として共起をとった場合、Ｅ００７，Ｅ００８は複数の文字で共起しているため、これらを合わせた合成文字を要素として抽出される。

図７は文字分解情報のテーブルの例を説明する図である。文字分解に使われる文字部品は、図７のテーブル７０２に示すように、文字部品ＩＤと文字部品画像のテーブルとして整理しておいてもよい。文字分解処理の結果は文字分解情報２１４に格納しておく。文字分解情報２１４には、テーブル７０１、テーブル６０５、テーブル６０２、テーブル７０２など情報が保存されている。

このように、共起数をベースに文字を分解することで、複数の文字においてよく現れるパターンを抽出できる。そのようなパターンは、意味としてひとまとまりとして考えることができる場合が多いため、これにより、高精度な文字部品の生成と文字認識、文字の構成のされ方に合った分解の仕方が可能となり、このように文字を分解することで、文字入力の効率化などが可能となる。

＜２．認識辞書と文字分析システム＞
図１を用いて文字分解情報２１４を用いた文字分析システムの処理例について説明する。文字画像ＤＢ２１３、文字分解情報２１４についてはすでに述べたため、説明を省略する。文字分解１０４の処理は、図３の処理フローにより文字画像ＤＢから文字分解情報２１４を生成する処理である。

認識辞書生成１０５では、入力文字画像を文字分解情報２１４の文字、合成文字、および文字要素に照合するための文字認識辞書を生成する。文字認識技術では、入力文字画像の照合対象は文字であるが、今回の場合には、文字分解で生成した合成文字、文字要素も照合対象となる。入力文字画像に近い文字、合成文字、または文字要素を近い順にスコア（類似度）付きで出力するための辞書を生成しておく。生成した辞書は認識辞書２１５に保存しておく。ここでは、統計的識別方法を用いても良いし、テンプレートマッチングなどの画像のマッチング方法を用いても良い。なお、ここでは、認識辞書生成で学習する照合対象をテーブル７０２に現れる文字部品のみとしてもよい。

なお、図６（Ｂ）のテーブル６０２に示すように、文字要素には複数の文字画像が保存されている。ここで、代表となる文字画像をひとつだけ代表画像としてテーブルに保存しておいてもよいが、テーブル６０２に示すように、文字画像を複数準備しておくことにより、学習時に用いることができる学習サンプル数が増加し、認識精度のよい認識辞書を作成することができる。テーブル６０５には、合成文字画像のサンプルを１つしか示していないが、文字要素から生成されるすべての組み合わせ画像を保存しておいてもよい。これも、同様にして認識精度を向上させる効果がある。また、文字のクラスタリングに誤りが生じる場合、つまり字形の異なるものがひとつの文字要素としてクラスタリングされてしまった場合でも、クラスタに所属する文字要素画像を全て保持しておくことにより、認識の処理が頑健となる。

また、複数の文字を保持しておくことで、後に説明するフォント生成において合成に用いる画像の選択肢が広がる。例えば、フォント生成の際に合成に用いる画像の黒画素同士が重ならないような画像を選択する、文字線の長さが近い画像を選択する、などの方法が考えられる。

図１２を用いて、統計的識別方法の簡単な例を説明する。学習フェーズでは、学習データセットを用いて認識辞書を生成する。学習データセットには、画像とそのカテゴリを示すラベルの組が複数保存されている。本実施例の場合には、例えば、文字画像と文字種を示すラベル（テーブル６０１）、合成文字と合成文字ＩＤ（テーブル６０５）、文字要素と文字要素ＩＤ（テーブル６０２）、の組が保存されている。

まず、正規化１２０１では、画像を予め定めたサイズに正規化した正規化画像を生成する。これには、サイズ正規化法、モーメント正規化法、非線形正規化法などの方法を用いることができる。サイズ正規化法では、画像を予め定めたサイズに拡大、縮小することで、正規化画像を生成する。これを、学習用データセットの各画像に対して適用する。

次に特徴抽出１２０２では、正規化１２０１で生成した正規化画像をベクトルに変換する。これには、画素特徴、勾配特徴、などを用いることができる。

図１３で文字画像のベクトルによるクラスタリングの例を説明する。例えば、図１３の１３０１の文字画像から画素特徴を抽出する例を説明する。画像１３０１がサイズ５０×５０の正規化画像とする。このとき、画像１３０１を画像１３０２に示すように１０×１０の小領域に２５分割する。各小領域の黒画素数をベクトルの要素とし、２５次元のベクトルを生成する。このベクトル化処理を全ての学習用データセットの画像に対して適用する。

次に、認識辞書学習１２０３では、入力画像がどのラベルに属するかを判定するための認識辞書を特徴抽出１２０２で生成されたベクトルとラベルの組を用いて生成する。この認識辞書は、入力画像の各ラベルに対するスコア（類似度）を出力する。通常、最大のスコア（類似度）をもつラベルを入力画像が所属するラベルとする。これには、最近傍法、ＳＶＭ、ニューラルネットワークなどの方法を用いることができる。最近傍法の場合には、生成されたベクトルとラベルの組をそのまま保存しておく。

次に、認識フェーズでは、入力された画像のラベルを認識辞書１２０７に基づいて判定する。正規化１２０４、特徴抽出１２０５では、学習フェーズと同じ方法により画像を正規化、ベクトル化する。次に、生成されたベクトルがどのラベルに所属するか、認識辞書１２０７を用いて判定する。最近傍法の場合には、入力画像より生成されたベクトルと最も近いＫ個（Ｋは予め定めた正の整数）のベクトルを認識辞書より探索し、それらＫ個のベクトルのラベルのうち、もっとも数が多いラベルを入力画像のラベルとして判定する。

認識辞書２１５を用いることで、入力画像が、どの文字、合成文字、または文字要素に近いか、順位付きで出力することができる。

文字情報入力１０１では、ユーザが入力したい文字の一部を、ウィンドウなどの所定の位置にマウスやタッチパネルの操作などで描くことにより、入力する。例えば、テーブル６０１の文字Ｃ００１を入力したいとする。このとき、入力したい文字全体を入力すると、複雑な文字になるほど、文字認識による正解文字との照合が難しく、異体字のように１０万種程度の文字種となる場合には、上位に入力したい正解候補を挙げることが難しくなる。そのため、ここでは、文字の一部を入力することで、照合しやすくする。例えば、まず、こざとへんのみを描く。

文字絞り込み探索１０２では、こざとへんを文字部品として含む文字に入力候補を絞り込む。この方法を説明する。認識辞書２１５には、入力画像を文字の部品となる文字要素（文字部品）または合成文字と照合するための情報が保存されている。ここでは、ユーザが入力した画像との類似度が高い文字要素または合成文字を算出する。類似度が高い順に予め指定した数だけ類似度が高い順に文字要素または合成文字を算出してもよいし、予め定めた閾値以上となる類似度の文字要素または合成文字を算出してもよい。類似度は、先に統計的識別フェーズなどで説明した方法などで計算してもよい。

ここで、算出された文字要素または合成文字をユーザに出力し、ユーザは入力しようとした文字要素または合成文字を選択する。ここで、こざとへんの例では、こざとへんは、すでに説明した文字分解処理により、複数の文字の中で現れるため、文字要素または合成文字に含まれると想定される。認識辞書による照合により、こざとへんが候補として上位に現れるため、ユーザによりこざとへんが選択される。これにより、こざとへんを文字部品としてもつ文字に候補が絞られる。ここで、こざとへんを部品としてもつ文字をユーザに提示する。

次に、入力文字選択終了１０３では、入力文字の選択が終了したかどうかを次のように判定する。文字絞り込み検索１０２で、候補として提示された文字をユーザが入力文字として選択すれば、その文字が入力され終了する。提示された候補から選択できなかった場合には、文字情報入力１０１に移り、さらにユーザに文字情報の入力を促す。

たとえば、こざとへんの例では、こざとへんをもつ全ての文字が候補として出力されるため、候補が多すぎて選択が困難であることが想定される。そのため、文字情報入力１０１に移り、さらに文字情報を入力する。

文字Ｃ００１の例の場合、文字情報入力１０１では、こざとへん以外の文字部品である「允」の部分をユーザが入力する。同様にして、文字絞り込み検索１０２で、現在まで絞り込みを行った文字（こざとへんを部品としてもつ文字）の中から、さらに「允」を部品としてもつ文字が絞り込まれる。ここで、こざとへんをもち允と類似した字形の部品をもつ文字が候補として出力される。ここで、ユーザが入力したい文字が見つかれば、入力文字選択終了１０３にて、処理を終え、文字が入力される。

異体字にはかなり複雑な字形をもつ文字が多数含まれる。また文字種も１０万種近く存在する。このような複雑な字形では、精度の良い文字の認識が困難となる。そこで、本実施例のように、文字を部品ごとに絞り込むことによって、効率よく入力したい文字の絞り込みを行うことが出来る。

異体字の文字種は多いが、図４の例のように、その部品は常用漢字の部品にも現れる字形であることが多い。そのため、部品に分解すれば、部品の数は異体字の字種数よりは少なくなることが期待できるため、認識辞書２１５を用いた認識対象字種は少なくすることが出来る。また、認識対象の字形も単純化できる。

なお、本実施例では、ユーザによる部品部分の入力、および、絞り込みを繰り返す形となっているが、最初から、部品ごとに全て入力してもらい、それらをそれぞれ認識辞書２１５により照合し、類似度と照合結果に基づいて、候補文字を出力してもよい。

また、文字要素と合成文字に、その位置情報も保持しておいても良い。これによって、文字絞り込みの効率を上げることができる。

図８は文字領域と位置情報の例を説明する図である。図８を用いて位置情報を保持する例について説明する。図８のテーブル８０１に示すように、文字領域を複数の領域、例えば９つの領域に分ける。正方格子以外の格子に分けても良い。そして、各文字要素や合成文字、文字部品が占有する領域（例えば、黒画素が一定以上となる領域）を、テーブル６０２のような文字要素テーブルやテーブル６０４、６０５、テーブル７０２のような合成文字テーブルに保存しておく。また、これらのテーブルを画面などに出力して、文字要素と共起度を確認できるようにしてもよい。確認する事によって、文字分析の妥当性の確認や、閾値の調整などが可能となる。

そして、文字情報入力１０１では、ユーザは入力したい文字の部品を描くとともに、画像領域９０１のように任意で位置情報も指定する。画像領域９０１では１、４、７の領域をユーザが指定している。このとき、文字絞り込み検索１０２では、この指定領域と文字要素テーブルや合成文字テーブルに保存されている文字領域との重なりがある文字要素と合成文字、文字部品のみを検索対象とする。これによって、効率的に文字を絞り込むことが出来る。

さらに、文字要素や合成文字、文字部品のうちＵＴＦ−８、ＳＪＩＳ，ＥＵＣのような文字コードをもつ文字形と合致するものや、文字情報基盤に含まれる文字形と合致するもの（ＭＪコード）については、これらの文字コード情報を文字要素テーブルや合成文字テーブルに保持しておくとよい。これは、ＵＴＦ−８やＭＪコードをもつ文字と照合するための文字認識辞書を学習しておき、これと文字要素や合成文字を照合することで、文字要素や合成文字に自動的に文字コードを付与してもよいし、コストはかかるが人手により作成しておいてもよい。

このようなコードを保持しておくことで、文字情報入力１０１において、手書きで文字を入力するかわりに、コードで入力することができ、文字絞り込み検索１０２が正確になる。例えば、文字情報入力１０１において、「允」を入力する場合には、これを手書きで描く代わりに、「允」を通常の常用漢字の入力のように入力することができる。また、こざとへんの入力の場合には、対応するＭＪコードを入力することができる。これにより、認識辞書２１５による照合は不要となり、正確かつ高速に、文字情報入力１０１で入力された部品を含む文字を絞り込むことができる。これにより、高速に文字を入力できる。

＜３．文字検索に用いるユーザーインターフェィス（１）＞
図１４にユーザーインターフェィスの例を示した。まず、ユーザによる、１４０３、１４０４、１４０５、１４０７、１４０８のひとつ以上の箇所に入力したい文字、または文字部品の情報の入力を受け付ける。１４０３は部品画数、１４０４は部品のＭＪコードを入力する箇所である。また、１４０５は文字を通常のキーボード入力の方法での入力を受け付ける。例えば、常用漢字等であれば、ＳＪＩＳやＵＴＦコードをもっているため、通常のキーボード入力の受付が可能である。例えば、「允」などの文字の場合には、通常通り字形の入力を受け付ける。例えば、１４０７には手書きによる文字形の入力を受け付ける。１４０８では、文字部品の占める主な位置の指定を受け付ける。

図９は、文字領域と位置情報の例を説明する図である。例えば、テーブル７０２の文字部品Ｉ００４を検索したい場合には、文字入力１４０５にて「允」の入力を受付け、位置指定１４０８に、図９で示す２，３，５，６，８，９の位置の指定を受け付ける、などとする。情報の入力の受付けが終われば、検索１４０２で検索すると、図１の各処理により部品検索結果（候補）が１４０９に示される。１４１０には、その部品を含む文字候補が示される。１４０９からユーザが選択すれば、それが文字部品として選択され、１４１０からユーザが選択すれば、それが最終的にユーザが入力したい入力文字として選択される。１４０６にはこれまでに選択した文字部品を合成したテーブル６０１の文字Ｃ００１を入力したいとして、まず「允」を検索し、その選択を受け付けたとすると、１４０６のように「允」が表示される。次に、こざとへんを１４０７、１４０８の例のように入力すると、１４０９、１４１０のように候補文字が示される。ここで、１４１０より入力したい文字を選択することによって、最終的な入力文字が指定される。

また、異体字の種類は多く、予めあらゆる文字種を準備することは難しく、準備した文字種のいずれとも異なる未知の文字種の入力が必要となる場合がある。そのような場合には、入力したい文字のフォントが存在しない。そのような文字が現れた場合に、ユーザが入力したい文字部品と文字領域を指定することで、文字要素と合成文字を認識辞書２１５により照合し、当該文字種が準備されていない場合には、これらの部品のフォントを組み合わせて、入力したい文字のフォントを合成することができる。

異体字は、複雑であるが、その部品は、他の文字にも現れる字形であることが多いため、この方法により未知の文字の入力にも対応できる場合がある。

この例について、図１を用いて説明する。

まず、文字部品情報入力１０６では、文字の部品に関する情報をユーザが入力する。これは、文字情報入力１０１の場合と同様に、文字部品の手書き画像や、画数、コードなどである。

次に、文字部品抽出１０７では、ユーザが入力した文字部品に関する情報に基づいて、文字部品候補を抽出する。

次に、文字部品選択１０８では、文字部品候補の中からユーザが文字部品を選択する。選択終了判定１０９では、全ての文字部品が選択されたかどうか判定し、選択されていない文字部品がある場合には、１０６の処理に戻り、残りの文字部品を選択する処理を行う。

選択が終了すれば、フォント生成１１０で、文字部品画像を合成することにより、入力したい文字のフォントを生成する。合成する場合の各文字部品画像の位置の調整などはユーザが行っても良いし、各文字部品の位置情報に基づいて自動的に行っても良い。このようにして、未知の文字の入力にも対応できる。

文字入力１１１では、合成されたフォントを用いて文字を入力する。

なお、フォント生成による文字入力は、すでに１０１〜１０３の処理のフロー図で説明した方法により文字が見つからず、文字入力ができない場合にのみ、用いるなどとすればよい。

処理１０１〜１０３では、文字の情報を入力することで文字を検索する。これに対し、上記のフォント生成では、処理１０６〜１０８までは文字部品を検索する。処理１０１〜１０３では、文字の分解情報を用いることで検索を効率化した。同様のことを、処理１０６〜１０８についても行っても良い。つまり、文字部品自体が、より小さい文字部品に分解できる。このような入れ子状の分解情報を文字の分解情報と同様にして階層的に保存しておくことにより、処理１０１〜１０３と同様の方法によって文字部品の検索を効率化することができる。この場合には文字の分解情報に加えて、文字分解に用いられる文字部品に対しても、その分解情報を保存しておく。文字部品の分解情報の生成、および保存方法については、文字の場合と同様であるため、説明は省略する。

なお、本発明の方法は、中国で用いられる簡体字、繁体字などの漢字についても適用可能である。

また、自治体等、異体字を扱う組織においては、異体字を識別するために独自の識別コードやフォントを用いているケースが想定される。そのような場合において、異なる組織の異体字データベース（異体字画像とその識別コードの組からなるデータベース）を収集し、本発明の方法により分解することによって、異なる識別コードの文字であっても、同一文字であれば、同一の部品で構成されていることが検出できる。異体字のような複雑な文字で、文字サンプルの数も少ない場合には、文字同士の直接のマッチングにより一致と不一致を判定することが難しい場合があるが、部品に分解することにより、文字形が一致するかどうかが判定し易くなるケースがある。このような状況において、文字形が同じ文字を検出し、共通のコードを付与することによって、異体字を扱う異なる組織間においてもデータの移行が容易となる。

また、本発明の方法は、異なる組織間から収集された異体字データベースにおいて、識別コードが組織間で統一されていない場合においても、識別コードとは関係なく、同一文字における共起回数をもとに文字分解を行うことができるため、適用が可能である。

また、上記の例では文字要素の文字での共起回数に基づいて、文字部品を生成したが、ユーザが検索時に描く文字の単位を画像データとして蓄積しておき、ユーザが描く画像の単位を、その頻度が一定以上の場合には、文字要素またはその合成文字とその画像を照合し、照合された文字要素またはその合成文字を文字部品として定めるようにしてもよい。
このようにすることで、ユーザが検索時に思い描き易い単位を文字部品として定めることができる。

本発明によって生成された文字分解情報は人手によるメンテナンスにより、修正してもよい。例えば、テーブル７０１に示される文字とそれを構成する文字部品の情報、および、テーブル７０２に示される文字部品の情報をメンテナンス画面に表示し、人手による修正をしてもよい。このとき、修正を補助する情報として、文字部品の共起頻度の数、位置情報、標準文字コード情報（存在する場合）、その文字部品を含む文字の表示、文字の分解の様子を文字部品ごとに色分けして表示するＵＩなどをつけると良い。

＜４．文字検索に用いるユーザーインターフェィス（２）＞
作成方法は上記の実施例に限らないが、文字を部品に分解して作成した文字分解情報を用いて、所望の文字を検索する方法は種々考えられる。ただし、できるだけ入力者の負担が少なく、かつ、所望の文字が容易に得られる方式が望ましい。以下では、手書き入力を用いた、文字検索用ユーザーインターフェィスの例を説明する。手書き入力としては、その場で手書きをするものと、前もって手書きを行った書類をデータ化したものの両方を含む。なお、印字された文字にも適用可能であることはいうまでもない。

＜３．文字検索に用いるユーザーインターフェィス（１）＞では、文字部品を描画入力して検索する例等を示したが、手書き入力を行う場合には、どこで文字を分解するか考えずに、そのままの文字を記入するほうが入力者にとっては自然である。そこで、一つの文字をそのまま手書き入力できるインターフェースを検討する。この場合、入力文字とマッチングを行う辞書は、文字部品レベルに分解されているため、入力文字をシステム側で自動的に文字部品に分解してやれば、入力者は意識せずに、文字部品レベルのマッチングを行うことができる。

図１５は、本実施例の処理の流れを示すフロー図である。この処理は、図２に示した構成のシステム２０１で、ソフトウェアを演算装置２０６で実行することで行うことができる。

文字入力処理Ｓ１５１０では、検索の対象となる文字画像を入力する。これは、入力装置２０２から手書き入力で行うことができる。あるいは、イメージ取得装置から入力された文字画像等でもよい。あるいは、他の情報処理装置から送信された文字画像でもよい。

文字細分化処理Ｓ１５２０では、入力された文字画像を細分化あるいは文字分解して文字部品を生成する。この処理は、図３で説明した文字細分化処理３０１と同様でよい。あるいは、他の画像処理アルゴリズムを用いて分解してもよい。

文字部品生成保存処理Ｓ１５３０では、文字を分解した文字部品について、記憶装置（外部記憶装置２０７でもよいし、図示しない一時メモリでもよい）に記憶する。処理内容は図３で説明した文字部品生成・保存処理３０３と同様でよい。図３の処理と異なり、クラスタリングや、文字要素をまとめる処理は必要なく、分解された文字部品をそのまま入力文字と関連付けて保存すればよい。

図６（Ａ）〜（Ｅ）に入力文字データの保存形式例を示す。入力文字ＩＤに対応付けられて、文字画像データが格納される（図６（Ａ））。また、入力文字ＩＤに対応付けられて、文字要素画像として、文字部品に分解されたデータが格納される（図６（Ｂ）（Ｃ））。図には示していないが、同時に、各文字要素画像の配置、大きさ、縦横比、傾き等のデータを付加してもよい。

図１５の辞書検索処理Ｓ１５４０では、文字部品について、辞書検索を行う。辞書検索では、図６（Ａ）〜（Ｅ）に示した文字部品と認識辞書２１５との照合を行う。認識辞書および照合方法については、＜２．認識辞書と文字分析システム＞や、図１、図８、図１２、図１３で説明したものを使用すればよい。もっとも、認識辞書の生成方法や文字画像の細分化方法、分解方法は、上記した実施例には限らない。

認識辞書の最も基本的な構成は、文字画像データと、文字部品画像データと、文字画像データと文字部品画像データの対応を示す情報からなる。具体的には、例えば図６（Ａ）のような、文字ＩＤと文字画像の組のデータと、図７の７０２に示す文字部品ＩＤと文字部品画像の組のデータと、図７の７０１に示す文字ＩＤと文字部品ＩＤの組のデータを有する。データ７０２の文字画像と、文字部品１６３１と１６３２の画像マッチングを行い、適合する文字部品ＩＤを得ることができる。画像マッチングの方法については、種々の従来技術を適用することができ、特に限定されない。

図１５の文字抽出処理Ｓ１５５０では、検索された文字部品を含む文字を抽出する。検索された文字部品を含む文字は、図７の７０１に示す、文字ＩＤと文字部品ＩＤの組をデータとして持つデータテーブルを検索することにより、抽出することができる。

なお、上述のように入力文字を分解して文字要素画像１６３０を生成するアルゴリズムと、認識辞書を作成する際に用いる文字分解のアルゴリズムとは、異なっていてもよいが、同じアルゴリズムを用いれば、同じ文字は同様の文字部品に分解されることが期待できるので、照合時の精度向上が期待できる。

図１５の表示処理Ｓ１５６０では、抽出した文字を表示し、ユーザが確認、選択を行う。

＜５．文字検索を応用した文書情報の利用（１）＞
＜４．文字検索に用いるユーザーインターフェイス（２）＞等、上述した技術では、文字を入力するユーザの負担を低減して、入力された文字に対応する文字を認識辞書から抽出することができる。このような技術を応用した、既存文字情報の二次利用の例を説明する。

事業主体、例えば地方自治体や企業によって、情報システム（サーバー、情報処理端末や情報機器）で使用する文字を規定した文字コードが複数種あり、情報システムによって、対応した文字コードが異なっている場合がある。また、情報システムによって、使える文字の水準（漢字の数）が異なっておいる場合がある。例えば戸籍情報システムでは、使用できる文字の水準が高く、数万文字の漢字を扱っている。

ある事業主体Ａで決められた文字コードで作成した電子化文書（電子データ）を、他の事業主体Ｂに送り、事業主体Ｂで利用する場合、当該他の事業主体Ｂで文字コードのルールが異なっていると、電子データをそのまま利用することができない。このような場合は、文字コードが異なる文字については、画像データを事業主体Ａから事業主体Ｂに送り、事業主体Ｂでは画像データに基づいて、既存の文字コードを割り当てたり、新しく文字コードを作成したりする必要がある。これは、人手を介する必要があり煩雑である。

図１６で上記の課題を具体的に示す。事業主体Ａの文書データを、事業主体Ｂで利用することを考える。事業主体Ａと事業主体Ｂは、文字（画像）とコードを関連付けた文字データベースを利用し、情報処理システム上で紙文書を電子データ化したり、電子データを格納・送信したりすることができる。ここで、上述のように、システムごとに使用できる文字コードが制限されている場合がある。最も一般的な文字コード体系は、例えばＪＩＳ漢字コードで、１〜４までの水準がある。ＪＩＳ漢字コード第１水準であれば、ほとんどの情報処理装置で使用することができる。図１６において、事業主体Ａと事業主体Ｂは、ＪＩＳ漢字コード第１水準のような共通文字データベース１６１０を備えるものとする。このデータベースは例えば名字の「渡辺」の「渡」「辺」を共通のコードＣ０１，Ｃ０２のように管理しているため、文字コードで文字情報をやり取りすることが可能である。

一方、ＪＩＳ漢字コードだけでは、氏名や住所を正確に表示するためには不足する場合がある。共通文字データベース１６１０に登録されていない文字については、事業主体は独自に外字としてデータベースに登録する必要がある。例えば、「辺」の字には約３０の異体字があるといわれる。共通文字データベース１６１０にない文字については、外字データベース１６２０Ａ、１６２０Ｂに、事業主体ごとに登録する。この場合、同じ文字であっても文字コードはＡ０１，Ｂ９９のように異なることがあるため、事業主体Ａのデータはそのままでは事業主体Ｂでは使用できない。

このような課題を解決するためには、理想的には全ての文字に対してコードを割り付けた統合文字データベースを作成して使用すればよい。このような包括的な統合文字データベースとしては、政府や自治体で準備している住民基本台帳ネットワーク統一文字（約２１０００字）や、戸籍統一文字（５６０４０字）がある。これらは、住民基本台帳ネットワーク関連業務や戸籍業務などの特定範囲で使われるデータベースであるが、さらにこれらを統合した「文字情報基盤」が独立行政法人情報処理推進機構(IPA)で準備されている。「文字情報基盤」は６万文字弱の文字を含むため、ほとんどの文字に対応可能と考えられる。しかし、現在稼働中のシステムを全てこれに対応させる（例えば文字コードを付け直す）のは、時間も費用もかかる。そこで、より迅速に、低コスト、低負担で対応可能とする実施例を以下に説明する。

図１７は本実施例の全体概要図である。本実施例では、例えば、「文字情報基盤」を共通文字基盤データベース１７１０として利用する。そして、当該共通文字基盤データベース１７１０に格納されている各文字を、例えば、前記＜１．文字画像データベースと文字分解情報の作成＞、＜２．認識辞書と文字分析システム＞で説明した手法により文字部品に分解し、文字認識辞書として用いる共通文字部品データベース１７２０を作成する。この共通文字部品データベース１７２０は、１回作成しておけば、何度でも検索に利用できる。

図１８は共通文字基盤データベース１７１０と共通文字部品データベース１７２０の詳細説明図である。例えば、共通文字基盤データベース１７１０に格納されている、コードＪ０１の「辺」の異体字は、共通文字部品データベース１７２０において、コードＰ０１〜Ｐ０４の文字部品に分解されて格納される。図１８では１文字分のデータしか示していないが、共通文字基盤データベース１７１０に含まれるその他の文字についても、同様に文字部品に分解される。また、必要に応じて＜１．文字画像データベースと文字分解情報の作成＞で説明したクラスタリングで類似の文字部品を纏め、共通文字部品データベース１７２０を作成する。このとき、共通文字部品データベース１７２０には、図８，９で説明したように、文字中の文字部品の配置の情報を付加情報として含めてもよい。付加情報としては他に、文字部品の大きさ、縦横比などが考えられる。また、必要に応じて、文字コードと文字部品コードを対応付けた、文字部品関連データベース１７３０を準備してもよい。

共通文字基盤データベース１７１０が広範囲な文字を含んでいるため、このようにして作成された、共通文字部品データベース１７２０は、広範囲な文字の文字部品を含むと考えられる。

図１７に示したように、事業主体Ａ，Ｂはこのような、共通文字基盤データベース１７１０と共通文字部品データベース１７２０を利用可能とする。利用可能とするには、データベースのコピーを保持していてもよいし、図１７のようにデータベースを格納したサーバ等に、通信網を介してアクセス可能に構成してもよい。

ここで、具体的な例として、図１７の事業主体Ａから事業主体Ｂに、事業主体Ａで使用していた文書データを送信し、事業主体Ｂで当該データを利用することを考える。

図１９は、事業主体Ａのデータ送信処理を示すフロー図である。

処理Ｓ１９１０では、送信すべき文書の文字をコード化する。このとき、図１６、図１７の共通文字データベース１６１０に登録されている文字は、共通文字データベース１６１０のコードに変換され、外字データベース１６２０Ａに登録されている文字は、外字データベースのコードに変換される。このとき、共通文字データベース１６１０に登録されている文字は、事業主体Ｂでも同じコードで使用できる。しかし、事業主体Ａの外字データベースのコードが割り振られている文字は、事業主体Ｂではそのまま利用できない。なお、ワードプロセッサの文書ファイルなど、文字が最初からコード化されている場合は、送信すべき文書データを準備するだけでよい。

処理Ｓ１９２０では、文書データから共通文字データベース１６１０にないコードを抽出する。例えば、図１６で「渡辺」の「辺」が共通文字データベース１６１０に登録されていない異体字であった場合には、当該文字の外字コードＡ０１を抽出する。

処理Ｓ１９３０では、共通文字データベース１６１０にないコードに対応する文字の画像を、文書データに添付する。共通文字データベースにないコードとは、外字データベース１６２０Ａに登録されているコードである筈なので、外字データベース１６２０Ａを検索し、当該コードに対応する文字画像を抽出する。抽出した文字画像データは、文書データ中の外字コードと関連付けて添付する。例えば、文書データ中の外字コードの前や後ろに、特殊符号を付しておき、受信側で認識できるようにしてもよい。あるいは、外字コードを画像データを特定する別のコードに置き換えてもよい。

処理Ｓ１９４０では、文字画像を添付した文書データを事業主体Ｂへ送信する。送信方法は、オンラインでもよいし、郵便その他の手法によるオフラインでもよい。

図２０は、文書データを受信した事業主体Ｂの処理を示すフロー図である。

処理Ｓ２０１０では、事業主体Ａからの文書データを入力する。

処理Ｓ２０２０では、例えば、特殊符号を用いて添付されている文字画像を抽出する。図１６の例では、事業主体Ａの外字Ａ０１の「辺」の異体字が添付されているので、これを抽出する。先に述べたように、事業主体Ｂでは「辺」の異体字は外字データベースでＢ９９として管理されているので、このまま使用することができない。

処理Ｓ２０３０では、文字画像を文字部品に分解し、文字部品で共通文字部品データベース１７２０を検索し、文字部品を含む文字を抽出する。この処理は、図１５で説明した処理と同じであり、検索する辞書として、図１８に示す共通文字基盤データベース１７１０、共通文字部品データベース１７２０を用いる点が特有である。図１８の例で説明すれば、事業主体Ａの外字Ａ０１の「辺」の異体字の画像は、文字部品に分解され、各文字部品により共通文字部品データベース１７２０を検索する。ここでは、共通文字部品として、Ｐ０１〜Ｐ０４が該当する。そこで、文字部品関連データベース１７３０を参照すると、共通文字基盤データベースのコードＪ０１の文字が抽出される。この処理では、検索結果となる文字が複数ある場合には、オペレータが目視などで一または複数を指定する。

処理Ｓ２０４０では、最終的に決定された文字画像に対応する文字を、共通文字基盤データベース１７１０のコードで置き換える。以上で作成された文書データは、全ての文字コードが、共通文字データベース１６１０か共通文字基盤データベース１７１０に存在するコードとなる。よって、事業主体Ｂでそのまま電子データとして利用することができる。

以上の処理によると、事業主体Ｂでは、自事業主体ではコードを割り当てていない文字を受信した場合でも、当該文字に該当する共通文字基盤データベースのコードを容易に得ることが可能となる。

なお、以上の説明では、事業主体Ａから外字文字画像を添付した文書データを事業主体Ｂに送付し、事業主体Ｂで文字画像の分解や共通文字部品データベース１７２０の検索を行ない、文字部品を含む文字を抽出した（図１５のＳ１５１０〜Ｓ１５６０）。

他の例としては、事業主体Ａで外字文字画像の分解と、文字部品による共通文字部品データベース１７２０の検索までを行う（図１５のＳ１５１０〜Ｓ１５４０）。その後、検索結果である文字部品コードを事業主体Ｂに送付し、事業主体Ｂにおいて、文字部品を含む文字を抽出してもよい。

＜６．文字検索を応用した文書情報の利用（２）＞
図２１は送信側の事業主体Ａの他の処理例を示すフロー図である。図１９、図２０と同じ構成の処理は同じ番号で示している。図２１の例では、送信側で共通文字ＤＢにないコードに対応する文字の画像を抽出し（Ｓ２１１０）、共通文字部品データベース１７２０の検索を送信側で行っている。この例から明らかなように、共通文字部品データベースの検索は、データベースにアクセス可能な主体なら、いずれが行ってもよい。図２１の例では、送信側の事業主体Ａで、外字に対応する共通文字基盤データベースのコードを付して、事業主体Ｂに送信している。よって、文書データを受信した事業主体Ｂは、共通文字基盤データベース１７１０のコードを参照することによって、文字を特定することができる。

この例では、事業主体Ｂの処理の負担を事業主体Ａで分担しているので、事業主体Ｂのリソースが限定される場合には有効である。

＜７．文字検索を応用した文書情報の利用（３）＞
図１７〜図２２の例では、文字を広範囲に網羅する共通文字基盤データベースを、複数の事業主体が共同で利用するものであり、効果が大きい。ただし、事業主体単独の設備投資により、より早期に対応したい場合もある。

図２２は、このような要求に対応する実施例である。図１８では共通文字基盤データベース１７１０を基に、共通文字部品データベース１７２０と文字部品関連データベース１７３０を作成したが、図２２では、事業主体Ｂの外字データベース２２１０を基に、文字部品データベース２２２０と文字部品関連データベース２２３０を作成する。用いるデータベースが異なるだけで、他の処理は同様である。

事業主体Ａから事業主体Ｂへ文書データを送る処理は、図１９で説明したものと同様である。事業主体Ｂで受信した文書データの処理方法は、図２０で説明したものと基本的に同じであるが、処理Ｓ２０３０で、共通文字部品データベース１７２０ではなく、事業主体Ｂの文字部品データベース２２２０を用いる点が異なる。このような処理により、事業主体Ｂは、自事業主体のデータベースでコードがない文字についても、コードを割り当てることが容易となる。

なお、共通基盤関連データベース２２４０は、事業主体の外字データベースと、共通文字基盤データベースの文字のコードを、対応付ける情報を管理するものである。このような情報を予め準備しておけば、事業主体の外字データベース１６２０のコード（例えばＢ９９）を求めれば、共通文字基盤データベース１７１０のコード（例えばＪ０１）を知ることができる。

＜８．文字検索を応用した文書情報の利用（４）＞
図２３は他の例を示す。図２３はネットワークＮＷを介して、事業主体Ａ、事業主体Ｂ、処理装置（サーバー）２３０が接続されている。処理装置２３０は、共通文字基盤データベース１７１０、共通文字部品データベース１７２０、外字データベース２３１、共通文字データベース１６１０を利用可能である。外字データベース２３１は、事業主体の外字データベース１６２０Ａ，１６２０Ｂその他の内容を格納しているものとする。また、同じ文字に関する各文字データベースのコードは、対応付けておいてもよい。図２３の例では、上述の例で事業主体Ａや事業主体Ｂが行っていた処理を、処理装置２３０が代行して行う。

例えば、事業主体Ａが事業主体Ｂへ自分の文書データを転送する場合を考える。処理装置２３０の処理例としては、以下を含むいくつかの態様が考えられる。

１）事業主体Ａは、共通文字データベース１６１０にコードが存在する文字はそのコードにより、それ以外の文字は文字画像データを付して、処理装置２３０に転送する。

処理装置２３０は、図２０で説明した処理を行い、文字画像データの文字に共通文字基盤データベース１７１０のコードを割り当て、事業主体Ｂに転送する。事業主体Ｂでは、共通文字データベース１６１０のコードと、共通文字基盤データベース１７１０のコードで、文書を取り扱うことができる。

２）事業主体Ａは、文書文字コードをそのまま処理装置２３０に送付する。処理装置２３０は、共通文字データベース１６１０のコードはそのままにしておき、外字データベース２３１にコードがある文字は、その文字画像データを抽出する。抽出された文字画像データに対して、図２０で説明した処理を行い、文字画像データの文字に共通文字基盤データベース１７１０のコードを割り当て、共通文字データベースのコードとともに事業主体Ｂに転送する。

３）この例では、共通文字基盤データベース１７１０と共通文字データベース１６１０の、同じ文字に関するコードは、対応付けられており、相互変換可能とする。事業主体Ａは、文書文字コードをそのまま処理装置２３０に送付する。処理装置２３０は、共通文字データベース１６１０のコードを共通文字基盤データベース１７１０のコードに変換する。外字データベース２３１にコードがある文字は、その文字画像データを抽出する。抽出された文字画像データに対して、図２０で説明した処理を行い、文字画像データの文字に共通文字基盤データベース１７１０のコードを割り当て、事業主体Ｂに転送する。事業主体Ｂでは、全てが共通文字基盤データベース１７１０のコードに変換された文書を利用することができる。

図２３のようにネットワークで接続されたサーバで実施例を構成する場合は、検索対象となる文字画像を分解して文字部品とする処理、文字部品と共通文字部品データベースを照合する処理、照合された文字部品を含む文字を抽出する処理、抽出結果を確認する処理、の各処理は、同一の情報処理装置で実行されてもよいし、複数の情報処理装置で分担して行われてもよい。複数の情報処理装置の場合は、ネットワークで接続されていれば、ネットワーク上のいずれに存在してもよい。

例えば、検索対象文字を文字部品へ分解した後、共通文字部品データベース１７２０との照合のみ行い、照合の結果得られた文字部品ＩＤを別の情報処理装置へ送信し、当該別の主体でその文字部品を含む文字の出力を行ってもよい。その場合、当該別の情報処理装置において、受信した文字部品ＩＤを含む文字を、例えば図７のテーブルを検索することで抽出することができる。あるいは、テーブルの検索はせず、文字部品ＩＤから文字部品画像を生成し、所定ルールで組み合わせた文字候補を複数表示して、オペレータが選択するように構成してもよい。

本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることが可能である。また、各実施例の構成の一部について、他の実施例の構成の追加・削除・置換をすることが可能である。

２０１文字分析システム
２０２入力装置
２０３表示装置
２０４イメージ取得装置
２０５通信装置
２０６演算装置（ＣＰＵ）
２０７外部記憶装置
２１３文字画像ＤＢ
２１４文字分解情報

Claims

入力装置、演算装置、記憶装置、および出力装置を備える情報処理装置において、
第１の文字画像の集合と、各文字画像を特定する第１のコードの集合を含む第１のデータベースと、
第２の文字画像の集合と、各文字画像を特定する第２のコードの集合を含み、各文字画像に一または複数の文字部品の画像を関連付けた第２のデータベースである認識辞書と、
を用いる文書データ処理方法であって、
前記入力装置もしくは記憶装置から、第３の文字画像の集合を準備し、前記第３の文字画像の集合に対応した、第３のコードの集合を含む文書データを準備する第１のステップ、
前記演算装置により、前記第３のコードの集合中の、前記第１のコードの集合中に存在しないコードを抽出する第２のステップ、
前記演算装置により、前記抽出されたコードに対応する文字画像を、前記第３の文字画像の集合から抽出する第３のステップ、
前記演算装置により、前記抽出した文字画像を、検索対象となる検索対象文字画像とする第４のステップ、
前記演算装置により、前記検索対象文字画像を２値化処理して連結成分ごとに分解することにより、複数の部分に分解して、複数の検索対象文字部品の画像を生成する第５のステップ、
前記演算装置により、前記複数の検索対象文字部品の画像の其々を、前記認識辞書の文字部品の画像と照合する第６のステップ、
を有し、
前記第６のステップは、
前記複数の検索対象文字部品の画像の其々を、前記認識辞書の文字部品の画像とパターンマッチングし、
前記複数の検索対象文字部品の画像の全てが文字部品として関連付けられた文字画像を、前記第２の文字画像の集合から抽出し、
前記第２のコードの集合から、前記抽出した文字画像を特定するコードを抽出し、
前記検索対象文字画像に対応する前記第３のコードの集合中のコードを、前記第２のコードの集合から抽出したコードに置き換える、
文書データ処理方法。
前記情報処理装置として、送信側入力装置、送信側演算装置、送信側記憶装置、および送信側出力装置を備える送信側情報処理装置と、受信側入力装置、受信側演算装置、受信側記憶装置、および受信側出力装置を備える受信側情報処理装置とを用い、
第１の手法か、第２の手法のいずれかを実行するものであって、
前記第１の手法は、
前記第１のステップ、前記第２のステップ、および前記第３のステップを、前記送信側情報処理装置で実行し、
前記第３のステップで抽出された文字画像を前記文書データに付加して、前記送信側情報処理装置から前記受信側情報処理装置に送る第１の送信ステップを実行し、
前記第４のステップ、前記第５のステップ、および前記第６のステップを、前記受信側情報処理装置で実行するものであり、
前記第２の手法は、
前記第１のステップ、前記第２のステップ、前記第３のステップ、前記第４のステップ、前記第５のステップ、および前記第６のステップを、前記送信側情報処理装置で実行し、
前記第６のステップでコードを置き換えた新たな文書データを、前記送信側情報処理装置から前記受信側情報処理装置に送る第２の送信ステップを実行するものである、
請求項１記載の文書データ処理方法。
前記第１の手法を実行するものであって、
前記第３のステップでは、前記抽出された文字画像を、前記文書データに添付して作業文書データを作成し、
前記第４のステップでは、前記作業文書データに添付された文字画像を、前記検索対象文字画像とする、
請求項２記載の文書データ処理方法。
前記第３のステップで作成した作業文書データを、可搬性記録媒体に記録保存し、
前記第４のステップでは、前記可搬性記録媒体から前記作業文書データを読み出し、前記作業文書データに添付された文字画像を取り出す、
請求項３記載の文書データ処理方法。
前記第３のステップで作成した作業文書データを、有線もしくは無線通信網経由で送信し、
前記第４のステップでは、受信した前記作業文書データから、前記作業文書データに添付された文字画像を取り出す、
請求項３記載の文書データ処理方法。
前記第２の手法を実行するものであって、
前記第２の送信ステップは、
前記新たな文書データを、記録媒体に記録保存するか、あるいは、有線もしくは無線通信網経由で送信する、
請求項２記載の文書データ処理方法。
前記認識辞書を作成する際に、前記文字画像に対応する複数の文字部品を生成するアルゴリズムと、前記検索対象文字画像を複数の部分に分解して、複数の検索対象文字部品を生成するアルゴリズムに、共通のアルゴリズムを用いる、
請求項１記載の文書データ処理方法。
入力装置、演算装置、記憶装置、および出力装置を備える文字検索システムであって、
当該システムは、
文字画像と、当該文字画像を特定するコードと、当該文字画像に対応する複数の文字部品の画像を関連付けたデータセットを、複数格納する認識辞書をアクセス可能であって、
前記入力装置は、
文書データと、該文書データに添付された検索対象となる検索対象文字画像の入力を受付ける機能を有し、
前記演算装置は、
前記文書データに添付された検索対象文字画像を得る機能と、
前記検索対象文字画像を２値化処理して連結成分ごとに分解することにより、複数の部分に分解して、複数の検索対象文字部品の画像を生成する機能と、
前記複数の検索対象文字部品の画像の其々を、前記認識辞書の文字部品の画像と照合し、前記複数の検索対象文字部品の画像の全てが文字部品として関連付けられた文字画像を、前記認識辞書から抽出する機能と、
前記照合の結果前記認識辞書から抽出された文字画像に対応するコードを、前記認識辞書から抽出する機能と、
該抽出したコードを前記検索対象文字画像に対応するコードとして前記文書データに適用して、新たな文書データを作成する機能を有する、文書処理システム。
前記記憶装置は、
文字画像と、当該文字画像を特定するコードを関連付けたデータセットを、複数格納するデータベースを格納し、
前記新たな文書データは、前記認識辞書のコードと、前記データベースのコードの両者を含む、
請求項８記載の文書処理システム。
前記認識辞書を作成した際に、前記文字画像に対応する複数の文字部品を生成するアルゴリズムと共通のアルゴリズムを用いて、前記検索対象文字画像を複数の部分に分解して、複数の検索対象文字部品を生成する、
請求項９記載の文書処理システム。
送信元の第１の計算機から送信先の第２の計算機へ文字データを送信する文字データ送信方法において、
前記第１の計算機および前記第２の計算機は、文字画像と、当該文字画像を特定する文字コードと、当該文字画像に対応する複数の文字部品の画像と、当該文字部品を特定する部品コードと、を関連付けたデータセットを、複数格納する認識辞書を用い、
前記第１の計算機は、
第１の文字コードで表現される第１の文字画像を、２値化処理して連結成分ごとに分解することにより、複数の文字部品に分解する分解ステップと、
前記分解した複数の文字部品のそれぞれを、前記認識辞書を参照して当該文字部品を特定する部品コードに変換する部品コード変換ステップと、
変換した前記部品コードを、前記第２の計算機に送信する送信ステップと、
を行い、
前記第２の計算機は、
前記第１の計算機から前記部品コードを受信する受信ステップと、
前記認識辞書を参照して、前記受信した部品コードを全て含むデータセットに関連付けられた、前記第１の文字コードとは異なる第２の文字コードを抽出し、前記第１の文字画像を表現する文字コードを第２の文字コードに変換する文字コード変換ステップと、
前記変換した第２の文字コードに基づいて前記認識辞書を参照し、文字画像を出力する出力ステップと、
を行うことを特徴とする文字データ送信方法。
前記第１の計算機から第２の計算機への文字データの送信は、前記第２の文字コードを扱えるが、前記第１の文字コードまたは第３の文字コードのいずれかを扱うことができない第３の計算機を介して行うことを特徴とする請求項１１に記載の文字データ送信方法。
入力装置、演算装置、記憶装置、および出力装置を備え、
第１の文字画像の集合と、各文字画像を特定する第１のコードの集合を含む共通文字基盤データベースと、
前記第１の文字画像の集合の各文字画像に、一または複数の文字部品の画像を関連付けた共通文字部品データベースと、
第２の文字画像の集合と、各文字画像を特定する第２のコードの集合を含む共通文字データベースと、
にアクセス可能な文書データ処理システムであって、
前記入力装置は、前記第２のコードの集合に含まれるコードで特定されない文字画像を含むデータを受付け、
前記演算装置により、前記第２のコードの集合に含まれるコードで特定されない文字画像を、検索対象となる検索対象文字画像とし、
前記演算装置により、前記検索対象文字画像を２値化処理して連結成分ごとに分解することにより、複数の部分に分解して、複数の検索対象文字部品の画像を生成し、
前記演算装置により、前記複数の検索対象文字部品の画像の其々を、前記共通文字部品データベースの文字部品の画像と照合し、
前記演算装置により、前記照合結果に基づいて、前記第１のコードの集合から、前記検索対象文字部品の画像がすべて文字部品の画像として関連付けられた文字画像に対応するコードの候補を抽出する、
文書データ処理システム。
前記入力装置は、
前記文字画像を含むデータとして、前記第２のコードの集合から選ばれるコードと、前記第２のコードの集合に含まれるコードで特定されない文字画像を含む文書データを受付ける請求項１３記載の文書データ処理システム。
前記演算装置により、前記第２のコードの集合に含まれるコードで特定されない文字画像を、検索対象となる検索対象文字画像とする、請求項１４記載の文書データ処理システム。