JPH07271829A

JPH07271829A - 文字形状コードを用いたテキスト画像と原稿とのマッチング方法

Info

Publication number: JPH07271829A
Application number: JP7064381A
Authority: JP
Inventors: A Lawrence Spitz; ローレンススピッツエイ; Antonio P Dias; ピーディアスアントニオ
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1994-03-31
Filing date: 1995-03-23
Publication date: 1995-10-20

Abstract

(57)【要約】【目的】コンパクト化された文字形状コードで、テキ
スト画像とテキスト原稿との正確なマッチングを行う。【構成】原稿データベースに記憶された原稿の正確ま
たは厳密でないマッチングを行う第１の方法は、データ
ベース原稿をコンパクト化されトークン化された形態に
変換する処理を含む。検索文字列または検索原稿はコン
パクト化トークン化形態に変換され、比較される。テス
ト文字列がデータベース原稿内にあるかどうか、または
データベース原稿がテスト原稿と対応するか否かが判断
される。テスト原稿とデータベース原稿との厳密でない
マッチングを行う第２の方法は、各データベース原稿お
よびテスト原稿の一または複数の浮動小数点数セットを
生成する処理を含む。データベースの浮動小数点数セッ
トはテスト原稿の浮動小数点数セットと比較され、一致
度が決定される。しきい値が用いられる。

Description

【発明の詳細な説明】

【０００１】

【技術分野】本発明は、テキスト画像（テキスト・イメ
ージ）を原稿（ドキュメント）と比較するための方法、
およびテキスト画像と原稿の文字形状コード表記の比較
に基づき、原稿データベース内に原稿を発見するための
方法に関する。特に、本発明は、テキスト画像および原
稿の文字の全体の物理的形状を表す、制限された個数の
文字コードを使用して、テキスト画像と原稿を文字形状
コード表記に変換することに関する。

【０００２】

【発明の背景】この技術分野における周知の従来システ
ムにおいては、テキスト画像をテキスト原稿と比較する
前に、テキスト画像は、まず、光学式文字読取り（ＯＣ
Ｒ：Optical Character Recognition ）技術を用いて、
分離したテキスト原稿に変換されなければならない。し
かしながら、光学式文字読取り過程においては、一般
に、認識テキスト原稿内に置換、消滅および挿入のよう
な多くのエラーを有するものが生成される。このよう
に、光学的に認識されたテキスト原稿と電子テキスト原
稿との正確な照合を行うことは一般に不可能である。し
たがって、認識されたテキスト原稿を正確なデータベー
ス・テキスト原稿と正しく照合することは、不可能でな
い場合であっても、困難であることが多い。

【０００３】

【発明の概要】本発明は、文字形状でコード化されたワ
ード・トークンを含むテキスト画像を、コンパクト化さ
れた文字形状コード表記に変換するための方法を提供す
る。

【０００４】また、本発明は、コンパクト化された文字
形状コードで、テキスト画像とテキスト原稿との正確な
照合を行う方法を提供する。

【０００５】さらに、本発明は、トークン化されたテキ
スト画像およびトークン化されたテキスト原稿のそれぞ
れから生成された複数の浮動小数点数を生成することに
より、トークン化されたテキスト画像とテキスト原稿と
の厳密でない照合を行う方法を提供する。続いて、これ
らの浮動小数点数は比較され、テキスト画像とテキスト
原稿とを厳密でない照合が行われる。

【０００６】本発明のこれらの目的および他の目的を達
成するために、第１の好ましい実施例においては、テキ
スト画像は、まず走査され、続いてトークン化されたテ
キスト画像に変換される。この変換には、出願係属中の
特許出願第6-70296 号（参照のためここに引用）に示さ
れている自動文字形状分類方法が用いられる。

【０００７】電子的に記憶された（すなわち、文字コー
ド・テキストとして記憶された）テキスト原稿のライブ
ラリは、この方法を用いて、トークン化された電子テキ
スト原稿（以下「トークン化電子テキスト原稿」ともい
う）のライブラリに予め変換される。続いて、このトー
クン化電子テキスト原稿は、本発明のコンパクト化方法
の第１の好ましい実施例を用いて、コンパクト化された
トークン化電子テキスト原稿に変換される。同様にし
て、テキスト画像がトークン化されたテキスト画像（以
下「トークン化テキスト画像」ともいう）に変換された
後に、これは、本発明のコンパクト化方法の第１の好ま
しい実施例を用いて、コンパクト化されたトークン化テ
キスト画像に変換される。続いて、このコンパクト化さ
れたトークン化テキスト画像は、データベースに記憶さ
れた原稿のライブラリと比較され、正確に一致（マッ
チ）するものが決定される。

【０００８】第２の好ましい実施例においては、データ
ベースは、コンパクト化されたトークン化電子テキスト
原稿ではなく、コンパクト化されたトークン化テキスト
画像のライブラリを含んでいる。電子テキスト文字列
（電子テキスト・ストリング）は、コンパクト化され、
トークン化された形態に変換され、テキスト画像のデー
タベース・ライブラリを検索するために使用され、その
テキスト文字列と正確に一致するものを含むテキスト画
像が突き止められる。

【０００９】第３の好ましい実施例においては、テキス
ト画像および電子テキスト原稿は、一または二以上の浮
動小数点数からなるセットによってそれぞれ表される。
テスト原稿（テキスト画像または電子テキスト原稿のい
ずれか）の浮動小数点数のセットは、テキスト画像また
は電子テキスト原稿の複数の他のものを表す浮動小数点
のセットのデータベースと比較される。データベース原
稿の浮動小数点数のセットは、テスト原稿のセットと比
較され、このテスト原稿と一致するテキスト画像または
原稿の厳密でない識別が行われる。

【００１０】

【実施例】テキスト画像（テキスト・イメージ）および
電子テキスト原稿（電子テキスト・ドキュメント）が以
下に示す方法を用いてコンパクト化される前に、このテ
キスト原稿およびテキスト画像は、まず、電子テキスト
原稿の場合には文字コードからトークン化された文字形
状コード表記に、テキスト画像の場合にはビットマップ
からトークン化された文字形状コード表記にそれぞれ変
換されなければならない。

【００１１】図１は、文字形状コード認識システムを示
している。このシステムは、電荷結合素子（ＣＣＤ）等
を有するスキャナ110 を備えている。スキャナ110 は、
図２に示すような原稿（ドキュメント）100 を走査す
る。原稿100 は画像（イメージ）102 を有する。画像10
2 は、ヨーロッパ・スクリプト・タイプのテキスト文字
列を有する。スキャナ110 は、オリジナルの原稿100 の
画像102 を含む複数のピクセルの位置および画像濃度を
表すディジタル・データ信号を出力する。

【００１２】このディジタル・データ信号はメモリ112
に送られる。メモリ112 では、ディジタル・データ信号
が一時的または無期限に記憶される。ディジタル・デー
タ信号は、メモリ112 から出力されると、汎用ディジタ
ル・コンピュータ114 に入力される。コンピュータ114
に入力されると、まず、ディジタル・データ信号は、画
像102 の非テキスト部分を除去してテキスト部分104 を
残すことにより整理（クリーン・アップ）される。さら
に、歪み等のディジタル・データ信号上のスキャナ生成
物が補正される。整理されたディジタル・データ信号
は、メモリ112 にに再び記憶されるか、または、コンピ
ュータ114 のメモリに記憶される。選択的に、スキャナ
110 がスキャナ生成物の除去のような前処理を提供する
ことができる。

【００１３】図１に示すように、本発明の汎用ディジタ
ル・コンピュータ114 は、メモリ22および入出力回路24
を備えている。メモリ22には、制御プログラムが記憶さ
れる。入出力回路24は、メモリ112 からのディジタル・
データ信号を入力し、画像102 のテキスト部分104 また
は一致（マッチ）する原稿の決定されたワード・トーク
ンを表す信号を出力する。汎用コンピュータ114 は、画
像メモリ26、結合コンポーネント生成手段28、空間的特
徴決定手段30、文字形状分類手段32、およびコンパクト
手段34も備えている。画像メモリ26には、ディジタル・
データ信号が記憶される。結合コンポーネント生成手段
28は、ディジタル・データ信号から、結合したコンポー
ネント（結合コンポーネント）を生成する。空間的特徴
決定手段30は、テキスト部104 のライン（行）、ワード
および文字セルの座標、ならびに各文字セル内の各結合
コンポーネントの位置を決定する。文字形状分類手段32
は、文字セルを、抽象化された文字形状コードに変換す
る。コンパクト手段34は、決定されたワード・トークン
に基づいて、テキスト部104 を、コンパクト化され、か
つ、トークン化された形に変換する。制御プログラムを
記憶するメモリ22は、ＲＯＭ22ａまたはＲＡＭ22ｂのい
ずれを含んでいてもよい。

【００１４】分類手段32の好ましい実施例においては、
分類手段32は、結合コンポーネント計数手段320 、トッ
プ位置検出手段322 、ボトム位置検出手段324 、結合コ
ンポーネント・サイジング手段326 、ライン位置記憶手
段328 および比較手段330 を備えている。結合コンポー
ネント計数手段320 は、現在の文字セル内における結合
コンポーネントの個数を決定する。トップ位置検出手段
322 は、現在の文字セル内の少なくとも一つの結合コン
ポーネントのトップの位置を突き止める。ボトム位置検
出手段324 は、現在の文字セルの少なくとも一つの結合
コンポーネントのボトムの位置を突き止める。結合コン
ポーネント・サイジング手段326 は、現在の文字セルの
少なくとも一つの結合コンポーネントの高さと幅を決定
する。ライン位置記憶手段328 は、現在の文字セルを含
んだラインの基底ラインおよびｘラインの少なくとも一
つのものを記憶する。比較手段330 は、結合コンポーネ
ントのトップ位置、結合コンポーネントのボトム位置お
よび結合コンポーネントの高さの少なくとも一つを、基
本ラインの位置、ｘラインの位置および結合コンポーネ
ントの幅の少なくとも一つと比較する。

【００１５】コンパクト化を行う方法の第１の好ましい
実施例と関連した選択的な実施例においては、前記分類
手段はギャップ決定手段332 も含んでいる。ギャップ決
定手段332 は、結合コンポーネントの右側部分にギャッ
プが存在するかどうかを判定する。もちろん、結合コン
ポーネント生成手段28、空間的特徴決定手段30、分類手
段32および比較手段34の各機能および対応する手段を、
独立した手段によって実現することもできるし、このよ
うな構造は、上述した本発明の好ましい実施例に相当す
ることが分かる。コンパレータ36は、コンパクト化され
たテキスト文字列または原稿をデータベースと比較す
る。また、コンパレータ36は、第４の好ましい実施例の
浮動小数点の値のセット（集合）も比較する。

【００１６】処理において、図２に示すような画像102
を含む原稿100 は、スキャナ110 の上または内部に置か
れ、走査される。そして、シリアルまたはパラレルのデ
ィジタル・データ信号が生成される。このディジタル・
データ信号は複数の信号部分を含んでいる。各部分はオ
リジナル画像102 に対応したピクセルを表す。画像102
の各ピクセルは、画像102 における位置および画像濃度
を有する。したがって、ディジタル・データ信号の各信
号部分は、対応するピクセルの位置および画像濃度を表
すデータを含んでいる。

【００１７】続いて、スキャナ110 から出力されたディ
ジタル・データ信号は、メモリ112に記憶される。メモ
リ112 は、ＲＡＭ、フラッシュ・メモリ、ディスク・メ
モリ等で構成することができる。メモリ112 のタイプに
関係なく、ディジタル・データ信号は、各信号部分に含
まれる位置および画像濃度データに応じてメモリ112に
記憶される。もちろん、ディジタル・データ信号を、こ
の中継を行うメモリ112 に記憶することなく、汎用ディ
ジタル・コンピュータ114 に直接入力することもでき
る。選択的に、汎用ディジタル・コンピュータ114 にメ
モリ112 を組み込むこともできる。メモリ112 は、走査
された画像102 の長期記憶として使用される場合もあ
る。

【００１８】オペレータがスキャナ110 への原稿の入力
を完了するか、またはそうでなれば、システムが、画像
102 を表すディジタル・データ信号を文字形状コード・
シンボルに変換すべきと判断すると、画像102 を表すデ
ィジタル・データ信号はメモリ112 から汎用コンピュー
タ114 へ出力される。もちろん、特殊な用途のディジタ
ル・コンピュータまたはハードウェア・ロジック回路
を、汎用ディジタル・コンピュータ114 に代わって使用
することもできる。

【００１９】メモリ112 に記憶されたディジタル画像デ
ータ信号は、汎用コンピュータ114に出力され、入出力
手段24を介して画像メモリ26に入力される。ディジタル
・データ信号の画像メモリ26への記憶が完了すると、続
いて、結合コンポーネント生成手段28がディジタル・デ
ータ信号を処理する。結合コンポーネント生成手段28
は、画像102 を表すディジタル・データ信号を複数の結
合コンポーネントに分解する。各結合コンポーネント
は、単一のラインの一または複数の信号部分を備えてい
る。各結合コンポーネントは、オリジナル画像102 にお
けるある最小の画像濃度を有し、かつ、連続した経路を
形成するピクセルに対応した信号部分を含んでいる。一
般に、各スクリプト文字は“Ｆｕｊｉ”の“Ｆ”のよう
に一つの結合コンポーネントに対応するものもあり、ま
た、“Ｆｕｊｉ”の“ｊ”または“ｉ”のように二以上
の結合コンポーネントに対応するものもある。

【００２０】結合コンポーネント生成手段28が、画像10
2 の複数の結合コンポーネントをディジタル・データ信
号から生成すると、画像102 に対応したディジタル・デ
ータ信号、ならびに結合コンポーネント生成手段28によ
って生成された結合コンポーネントのリストおよびそれ
らの位置は、画像メモリ26に記憶され、空間的特徴決定
手段30に出力される。

【００２１】空間的特徴決定手段30は、ラインの位置、
ワードのスペースおよび文字セルのようなテキスト部分
の空間的特徴を決定する。各文字セルは、隣接するスペ
ース間のライン内の垂直方向に並んだ結合コンポーネン
トを含んでいる。例えば、“Ｆｕｊｉ”の文字“ｉ”お
よび“ｊ”は、２つの独立した結合コンポーネントから
それぞれ形成されている。空間的特徴決定手段30は、一
ラインの垂直方向に並んだ全ての結合コンポーネントを
一つの文字セルにグループ化する。結合コンポーネント
の生成および結合コンポーネントからテキスト部分104
の空間的特徴の決定を行う一つの好ましい方法および装
置は、米国特許出願第07/047,514号に示されている。こ
の米国出願は、本特許出願と同一の出願人により出願さ
れたものであり、参照のためにここに引用される。

【００２２】続いて、結合コンポーネントおよび文字セ
ルのリストは、空間的特徴決定手段30によって出力さ
れ、文字形状コード分類手段32に与えられる。文字形状
コード分類手段32は、文字セル内の結合コンポーネント
または結合コンポーネント群を、文字セル内の結合コン
ポーネントの個数および位置に基づいて複数の抽象的な
文字コード（抽象文字コード）の一つに変換する。図３
は、好ましい文字コード・リストおよび各コードに対応
する文字を示している。図３に示すように、13個の異な
った抽象文字形状コードが使用される。しかしながら、
第１および第２の好ましい実施例においては、これらの
13個の文字形状コードはコード“Ａ，Ｕ，ｉ，ｘ，ｇ，
ｊ”に限定される。さらに、“スペース”および“Ｃ
Ｒ”の２つの追加コードが使用される。コード“スペー
ス”はワード間のスペースを示す。コード“ＣＲ”（キ
ャリッジ・リターン）はラインの終了を示す。各抽象文
字形状コードは、文字セル内の独立した結合コンポーネ
ントの個数、各文字セルの独立した結合コンポーネント
間の相対的な位置、および文字セル内の結合コンポーネ
ントの位置に基づいて、一または複数の文字を代表する
ものである。

【００２３】上述したトークン化を行うシステムの処理
を簡単化したフローチャートが図４に示されている。ス
テップS100において、システムは処理を開始する。原稿
がステップS110で走査され、ディジタル・データ信号が
生成される。続いて、ステップS120において、ディジタ
ル画像データ信号は整理（クリーンアップ）される。こ
の整理は、所望の前処理アルゴリズムをこのディジタル
画像データに適用することによって行われる。ステップ
S130において、ディジタル画像データ信号の結合コンポ
ーネントが識別され、ステップS140において、文字セル
が決定される。ステップS150において、各文字セルの文
字タイプ分類が決定される。ステップS160において、文
字コードがともにグループ化され、ワード間およびワー
ドの内部スペースに基づいてトークンが形成される。

【００２４】図３に示すコード化を実行する決定木が図
５に示されている。図５に示すように、１つの結合コン
ポーネントを有する文字セル用の７つの抽象文字コー
ド、２つの結合コンポーネントを有する文字セル用の５
つの抽象文字コード、および３つの結合コンポーネント
を有する文字セル用の１つの抽象文字コードがある。

【００２５】本発明の方法の好ましい実施例は図５に示
す決定木を実行する。ステップS300において、分類手段
32は、まず、現在の文字セル内の結合コンポーネントの
個数を決定する。本発明の好ましい実施例において、文
字形状コード分類手段32は、テキスト部分104 の各文字
セルをセルごとに処理する。

【００２６】本発明の方法および装置は統計的に強固な
全体の特徴を分析するので、この方法および装置は非常
に質の悪い印刷および（または）走査された原稿であっ
ても処理でき、歪みが容易に生じる従来のＯＣＲ技術と
対べて、優れた特徴を分析できる。したがって、ディジ
タル・データ信号またはこのディジタル・データ信号か
ら生成された結合コンポーネントに対して、原稿の全て
の文字を完全に表すことは必要ない。むしろ、本発明は
よく起こる走査エラーに耐えることができる。すなわ
ち、本発明は、例えば、１つの結合コンポーネント文字
が２つまたはそれ以上の結合コンポーネントに分離した
り、２つまたはそれ以上の分離した結合コンポーネント
が１つの結合コンポーネントに合体したり、結合コンポ
ーネントがライン上に間違って置かれたりするようなエ
ラーに対して強い。また、本発明の方法および装置は、
歪みおよび（または）ねじれを有する画像を分析すると
きにも強さを発揮する。

【００２７】ステップS300において、分類手段32が、文
字セルが一つだけの結合コンポーネントを有すると判断
すると、次に、分類手段32は、その結合コンポーネント
のトップ位置が現在のラインのｘライン（ミーンライ
ン）位置より上にあり、かつ、ボトム位置がベースライ
ン（並び線）より上にあるかどうかを判定する。ライン
位置および結合コンポーネントの位置は、最上部の位置
またはその近傍および最左端の位置またはその近傍にあ
る基準位置から測定され、下方および右方がそれぞれ正
になるように測定されることが分かる。

【００２８】ステップS310が肯定的ならば、分類手段32
は、ステップS320において文字セルをアポストロフィ
（省略符号）に変換する。一方、ステップS310が否定的
ならば、分類手段32はステップS330に進む。ステップS3
30において、分類手段32は、結合コンポーネントのトッ
プ位置がｘライン位置より上にあり、かつ、結合コンポ
ーネントのボトムがベースライン位置上またはそれより
下にあるかどうかを判定する。ステップS330が肯定的な
らば、分類手段32はステップS340において文字セルを
“Ａ”に変換する。“Ａ”は、図３に示すように、全て
の大文字、全ての数字、アセンダを有する小文字、およ
び一般に垂直方向（縦方向）を向いた句読点（パンクチ
ュエーション・マーク）の全てを代表するものである。

【００２９】ステップS330が否定的ならば、分類手段32
はステップS350に進む。ステップS350において、分類手
段32は、結合コンポーネントのトップがｘライン位置よ
り下にあり、かつ、結合コンポーネントのボトムがベー
スライン位置よりも上にあるかどうかを判定する。ステ
ップS350が肯定的ならば、分類手段32はステップS360に
おいて文字セルをハイフンに変換する。

【００３０】ステップS350が否定的ならば、分類手段32
はステップS370に進む。ステップS370において、分類手
段32は、結合コンポーネントのトップ位置がｘライン位
置より下にあり、かつ、結合コンポーネントのボトム位
置がベースライン位置より下にあるかどうかを判定す
る。ステップS370が肯定的ならば、分類手段32は、ステ
ップS380において文字セルをカンマに変換する。ステッ
プS370が否定的ならば、分類手段32はステップS390に進
む。ステップS390において、分類手段32は、結合コンポ
ーネントのトップ位置がｘライン位置の下にあるかどう
かを判定する。ステップS390が肯定的ならば、分類手段
32はステップS400において文字セルをピリオドに変換す
る。

【００３１】ステップS390が否定的ならば、分類手段32
はステップS410に進む。ステップS410において、分類手
段32は、結合コンポーネントのボトム位置がベースライ
ン位置より下にあるかどうかを判定する。ステップS410
が肯定的ならば、分類手段32はステップS420でその文字
セルを“ｇ”に変換する。コード“ｇ”は、図３に示す
ように、ディセンダを有する任意の小文字を代表するも
のである。

【００３２】ステップS410が否定的ならば、分類手段32
はステップS430に進む。ステップS430において、分類手
段32は結合コンポーネントがアセンダまたはディセンダ
のいずれも有しない小文字であると仮定し、その結合コ
ンポーネントを“ｘ”に変換する。続いて、ステップS4
30、またはステップS320、S340、S360、S380、S400およ
びS420に続いて、分類手段32は次の文字セルを現在の文
字セルとして選択して、ステップS300に戻る。

【００３３】一方、ステップS300において、分類手段32
が、現在の文字セル内に２つの結合コンポーネントがあ
ると判断すると、分類手段32はステップS440に進む。ス
テップS440において、分類手段32は上部にある結合コン
ポーネントの高さが上部にある結合コンポーネントの幅
の３倍よりも大きいかどうかを判定する。結合コンポー
ネントの高さとは、そのトップ位置とボトム位置との間
の差であり、結合コンポーネントの幅はその右端位置と
左端位置との間の差である。ステップS440が肯定的なら
ば、分類手段32はステップS450に進む。ステップS450に
おいて、分類手段32はその文字セルを感嘆符（！）に変
換する。

【００３４】ステップS440が否定的ならば、分類手段32
はステップS460に進む。ステップS460において、分類手
段32は上部にある結合コンポーネントのトップ位置がｘ
ライン位置より上にあり、かつ、下部にある結合コンポ
ーネントのボトム位置がベースライン位置より下にある
かどうかを判定する。ステップS460が肯定的ならば、分
類手段32はステップS470においてその文字セルを“ｊ”
に変換する。“ｊ”は、ｘラインよりも上に延びる分離
した結合コンポーネントおよびベースラインよりも下に
延びる分離した結合コンポーネントを有する任意の小文
字を代表するものである。

【００３５】ステップS460が否定的ならば、分類手段32
はステップS480に進む。ステップS480において、分類手
段32は、上部にある結合コンポーネントのトップ位置が
ｘライン位置より上にあり、かつ、ボトム位置がベース
ライン位置より下にないかどうかを判定する。ステップ
S480が肯定的ならば、分類手段32はステップS490におい
てその文字セルを“ｉ”に変換する。“ｉ”は、図３に
示すように、ｘライン位置より上に延びる分離した結合
コンポーネントと、ベースライン位置より下には延びて
いない分離した結合コンポーネントとを有する任意の小
文字を代表するものである。

【００３６】ステップS480が否定的ならば、分類手段32
はステップS500に進む。ステップS500において、分類手
段32は、上部および下部にある結合コンポーネントの双
方がそれらの高さの３倍の幅を有するかどうかを判定す
る。ステップS500が肯定的ならば、分類手段32はステッ
プS510においてその文字セルを“＝”に変換する。ステ
ップS500が否定的ならば、分類手段32はその文字セルが
“：”に変換されるべきと仮定して、ステップS520にお
いて、その文字セルはそのように変換される。ステップ
S520、ならびにステップS450、ステップS470、ステップ
S490およびステップS510の後、分類手段32は次の文字セ
ルを現在の文字セルとして選択して、ステップS300に進
む。

【００３７】一方、分類手段32が、ステップS300におい
て、現在の文字セル内に３つの結合コンポーネントがあ
ると判断すると、分類手段32はステップS530に進む。ス
テップS530において、分類手段32は、文字セルがウムラ
ウト符号を有する大文字または小文字を表すものと仮定
して、これにより、図５に示すように、その文字セルを
“Ｕ”に変換する。続いて、分類手段32は、次の文字セ
ルを現在の文字セルとして選択し、ステップS300に進
む。一方、次の文字セルがないならば、分類手段32はテ
キスト部分104 の分類を終了し、文字セルの代わりに抽
象文字コードのリストを画像メモリ26に出力する。この
ようにして、図２のテキスト画像は、図６に示す文字形
状コード表記に変換される。

【００３８】一または二以上のコード化された文字のワ
ード・トークン・リストは、コンパクト化手段34に与え
られる。コンパクト化手段34は、テキスト部分104 を表
すワード・トークンのリストを入力し、続いて“Ａ、
Ｕ、Ｉ、Ｘ、Ｇ”を除くトークンの全てをテキスト画像
から消去して、コンパクト化され、かつ、トークン化さ
れたテキスト部分104 の形態を生成する。もちろん、Ａ
ＳＣＩＩ（アスキー）のような文字コード体系ですでに
表されている電子テキスト原稿の場合には、コントロー
ラ114 の文字コード変換器36は、一般に、ＡＳＣＩＩコ
ードを文字形状コードに直接変換することができる。

【００３９】トークン化されたテキスト画像（以下「ト
ークン化テキスト画像」ともいう）およびトークン化さ
れた電子テキスト原稿（以下「トークン化電子テキスト
原稿」ともいう）が生成されると、これらのトークン化
テキスト画像およびトークン化電子テキスト原稿は、コ
ンパクト化手段34によって、コンパクト化されたトーク
ン化テキスト画像および原稿に変換される。この変換に
おいて、図７に示すように、コンパクト化方法の第１の
好ましい実施例が用いられる。第１の好ましい実施例に
おいて、ステップS1000 で、変換プロセスがスタートす
る。ステップS1010 において、トークン化テキスト原稿
は文字形状コードのフル・セットから文字形状コードの
縮小セットに縮小される。これらの縮小された文字形状
コード（Ａ、Ｕ、ｇ、ｉ、ｊ、ｘ、［スペース］および
［CR］）は、実際の原稿に使用されるワード・トークン
の大多数に使用されるコードを表す。可能な文字形状コ
ードをこれらの８つの縮小された文字形状コードに限定
することにより、文字形状コードを、８つの異なる３ビ
ットのバイナリ数に変換することができる。すなわち、
例えば、文字形状コード“Ａ”はバイナリ数“０００”
に変換され、“Ｕ”は“００１”に変換され、文字形状
コード“ｇ”は“０１０”に変換される。この限定セッ
トの他の文字形状コードは、同様にして、ユニークな３
ビットのバイナリ数に変換される。トークン化テキスト
原稿が、ステップS1010 において、文字形状コードの限
定セットからバイナリ数の列に変換されると、このビッ
ト列は、ステップS1020 において、バイトの境界に渡っ
て覆う３ビットのバイナリ・コードを必要なものとして
有する、８ビットのバイトにグループ化される。すなわ
ち、（２＋2/3 ）個の形状コードが各８ビットのバイト
に圧縮される。続いて、ステップS1030 において、圧縮
された「コンパクト化されたトークン化」コードは、
［コンパクト化コードのバイト数］［コンパクト化コー
ドのバイト］の形で記憶される。続いて、処理はステッ
プS1040 で終了する。

【００４０】図８は、検索文字列（検索ストリング）を
使用してコンパクト化されたトークン化テキスト・ファ
イルを検索する方法の第１の好ましい実施例を示してい
る。ステップS1100 からスタートし、ステップS1110 に
おいて、検索文字列が入力される。ステップS1120 にお
いて、検索文字列は、ステップS310〜S530およびステッ
プS1000 〜S1040 の方法を使用して、まず、トークン化
され、続いて、コンパクト化される。次に、ステップS1
130 において、コンパクト化されたトークン化検索文字
列は、コンパクト化されたトークン化データベース内に
おいて、第１のコンパクト化されたトークン化原稿と比
較され、検索文字列と検索している原稿の一部との間で
正確に一致するものが突き止められる。ステップS1140
において、システムは、正確に一致するものがコンパク
ト化されたトークン化検索文字列とコンパクト化された
トークン化テキスト原稿との間に存在するかどうかを判
定する。ステップS1150 において、正確に一致するもの
がステップS1140 で突き止められると、制御はステップ
S1160 に進む。ステップS1160 で、一致ファイルと正確
に一致するものを有するコンパクト化されたトークン化
テキスト原稿の名前が出力される。続いて、制御はステ
ップS1170 に進む。一方、ステップS1150 において、正
確に一致するものがステップS1140 で発見されなかった
ならば、制御はステップS1170 に直接進む。

【００４１】ステップS1170 において、システムはデー
タベースの全てのエントリが分析されたかどうかを判定
する。そうでなければ、制御はステップS1180 に進む。
ステップS1180 において、次の原稿が選択される。続い
て、制御はステップS1130 に戻る。データベース内の全
ての原稿が検索されると、制御はステップS1190 に進
み、一致するファイルを出力し、テキスト文字列と一致
したデータベース・ファイルをリストする。続いて、制
御はステップS1200 に進み、処理は終了する。

【００４２】このようにして、第１の好ましい実施例
（正確に一致するものを発見する）においては、テスト
文字列は、直接入力されるか、またはテキスト画像から
取り出される。テスト文字列は、トークン化され、か
つ、コンパクト化される。続いて、テスト文字列は、コ
ントローラ114 のコンパレータ36を用いて、コンパクト
化されたトークン化テキスト画像またはコンパクト化さ
れたトークン化電子テスト原稿の各エントリとそれぞれ
比較され、正確に一致するものが突き止められる。正確
に一致するものを有する各テキスト原稿は、テキスト文
字列を有するデータベースの各原稿を識別するために出
力される。

【００４３】処理において、コンパクト化されたトーク
ン化テスト文字列は、コンパクト化されたトークン化原
稿または画像と、左から右へビットごとに、各原稿のビ
ット列の開始部からビット列の終了部に向けて比較され
る。

【００４４】第１の好ましい実施例の第１の変形例にお
いては、ステップS1110 〜S1140 でテスト文字列の入力
および比較を行うのではなく、検索原稿全体が使用され
る。したがって、検索原稿とデータベースの複数の原稿
のそれぞれとの比較の準備のために、原稿全体がトーク
ン化され、かつ、コンパクト化される。

【００４５】第１の好ましい実施例の第２の変形例にお
いては、分類手段32は、最初に結合コンポーネントをス
テップS430において“ｘ”の文字形状コード・シンボル
に変換した後に、結合コンポーネントの右側の中央部分
がベースライン位置とｘラインの位置との間で開いた部
分を有するかどうかを判定する。そのような開きがある
場合には、文字分類手段34は文字形状コード“ｘ”を文
字形状コード“ｅ”に変換する。文字形状コード“ｅ”
は、文字“ｅ”および“ｃ”を代表するものである。こ
の第１の実施例の第２の変形例において、トークン化画
像またはトークン化原稿がステップS1010 で縮小される
と、限定されたコード・セットは文字形状コード［CR］
ではなくむしろ文字形状コード“ｅ”を含むものとな
る。一方、この第１の実施例の第２の変形例では、一致
処理は、比較ステップの実行のために、第１および第２
の好ましい実施例のいずれも使用することができる。

【００４６】第２の好ましい実施例において、電子検索
文字列は、トークン化されたテキスト画像のデータベー
スを検索するために使用される。

【００４７】第３の好ましい実施例において、コンパク
ト化手段34は、ステップS1000 〜S1040 のように、トー
クン化原稿を縮小トークン化原稿に変換して、この原稿
をコンパクト化する代わりに、縮小トークン化原稿を使
用して、少なくとも一つの浮動小数点数のセット（集
合）を生成する。表１に示すように、少なくとも５つの
可能な浮動小数点数を、値１〜５として識別し、生成す
ることができる。

【００４８】

【表１】

【００４９】表１に示すように、第１の値は、各文字形
状コード・シンボルを数字のセットの一つに変換するこ
とにより生成される。数字のセットを構成する数字は、
すべて相対的に互いに素である。続いて、連続した形状
コードの各ペアにXOR 演算が施される。各XOR 演算の結
果は加算され、第１の値が生成される。

【００５０】第２の値は、トークン化ファイルの文字を
表す数字を加算して、その合計値をテキスト文字列また
は原稿のトークン化文字の全体の個数によって割ること
により生成される。第３の値は、各文字形状コードがテ
キスト文字列または原稿に現れる回数をそれを表す数字
に乗じ、続いて各文字コードの乗算結果を加算すること
により形成される。

【００５１】第４の値は、各隣接したペアではなく、全
ての他のコードがXOR 演算される点を除いて、第１の値
と同様にして生成される。最後に、第５の値は第１の値
と同様にして生成される。しかしながら、第５の値にお
いて、XOR 演算は、ワードの境界に渡って拡張されない
（各ワード・トークンのリーディング・スペースを含む
が）。

【００５２】データベースの各テキスト画像または原稿
に対するこれらの値の少なくとも一つと、検索文字列ま
たは原稿に対する対応する値とを生成することによっ
て、テキスト文字列または原稿とデータベースを形成す
る画像またはテキスト原稿との間の正確でない（厳密で
ない）一致を突き止めることができる。すなわち、図９
に示すように、ステップS2000 でスタートした後、テス
ト原稿の少なくとも一つの浮動小数点数のセットがステ
ップS2010 で生成される。続いて、ステップS2020 にお
いて、テスト原稿の浮動小数点数のセットのそれぞれ一
つの値は、原稿データベースのテキスト画像またはテキ
スト原稿の現在のものの浮動小数点数のセットのそれぞ
れ一つの対応する浮動小数点数と比較される。続いて、
ステップS2030 において、距離メジャーが、原稿データ
ベースのエントリの現在のもの用に生成される。この距
離メジャーは、テスト原稿の浮動小数点の値のセットと
原稿データベースの現在のエントリの浮動小数点の値の
セットとの間の全体の相違および類似を表す。

【００５３】続いて、この距離の値はステップS2040 で
分析され、テスト原稿と現在のエントリとの間の少なく
とも厳密でない一致点を示しているかどうかが判定され
る。ステップS2050 で、少なくとも厳密でない一致点が
発見されると、ステップS2060 において、一致する原稿
の名前が一致ファイルへ出力される。一致するものが発
見されないならば、制御はステップS2050 から直接ステ
ップS2070 に進む。続いて、ステップS2070 において、
データベースはチェックされ、全てのエントリがテスト
原稿と比較されたかどうかが判断される。そうでなけれ
ば、制御はステップS2080 に進む。ステップS2080 にお
いて、次のエントリが選択され、制御はステップS2030
に戻る。そうであれば、少なくとも厳密でない一致する
エントリのリストがステップS2090 で出力される。ステ
ップS2100 でシステムは停止する。検索文字列またはデ
ータベースとテキスト画像またはテキスト原稿との間の
少なくとも厳密でない一致点として識別されたものが正
当であることを確認するために、しきい値が用いられ
る。これに加えて、オペレータがテキスト画像またはテ
キスト原稿と検索原稿とをどの程度の近似度で一致させ
たいかに依存して、このしきい値は調整可能である。

【００５４】上述した第１の好ましい実施例を用いて、
英語、フランス語およびドイツ語の原稿を有する多重言
語原稿データベースが、これらの言語の話し手に興味の
ある167 個の異なるテスト文字列を用いて検索された。
UNIXの“AGREP ”コマンド（近似した文字列の一致検索
を行う）を用いて、文字列のコンパクト化され、トーク
ン化された形態のものがデータベースの原稿のコンパク
ト化され、トークン化された形態のものと比較された。
167 個の検索文字列の68％（114 個の検索文字列）が、
フォールス・ポジティブが返されず、すなわちフォール
ス・ネガティブが返された。他の32％（54個の検索文字
列）は、エラー・レートが増加した。しかしながら、こ
れらの54個の検索文字列は、より短く、あまり特異性の
ない文字列になる傾向があった。

【００５５】第２の好ましい実施例において、46個の英
語、フランス語およびドイツ語の原稿がトークン化さ
れ、かつ、コンパクト化されて、データベースを形成し
ている。これらの原稿のうちの36個の走査されたもの
が、走査された原稿をトークン化するが、データベース
の原稿をコンパクト化しないことにより、オリジナル原
稿と比較された。続いて、走査された原稿の縮小トーク
ン化形態が、オリジナル原稿の縮小トークン化形態と比
較された。36個のオリジナル原稿を生成するときに、特
別な注意は払われなかった。したがって、これらの原稿
は1.8 °上向きにスキューしていた。このテストにおい
て、36個の全原稿はそのオリジナルと正確に一致した。
さらなるテストにおいて、写真複写の複数の生成物が走
査され、データベース原稿と比較された。この第２の好
ましい実施例は、３番目および４番目の写真複写生成物
にまで耐えた。さらに、この第２の好ましい実施例は、
場合によっては、７番目の写真複写生成物でさえも正確
に一致させることができた。

【００５６】これらの上記テストは300dpiの走査解像度
で行われた。さらなるテストは、200dpiのテキスト画像
を走査することにより行われた。このより低い解像度の
テストにおいて、36個の原稿のうちの34個の原稿が、デ
ータベースのオリジナルの原稿と正確に一致した。２つ
の原稿がデータベースの原稿のいずれにも一致しなかっ
たが、フォールス・ポジティブは生成されなかった。

【００５７】最後のテストは浮動小数点のフルの５次元
セットを使用し、これらの36個の走査された原稿がデー
タベースの原稿と比較された。第４の好ましい実施例が
最も近似して一致するものを発見するために試験され、
一致度95％のしきい値が使用された。この第４の好まし
い実施例を用いて、36個の走査されたテキスト画像のう
ちの34個の対応するオリジナル原稿が最も近似して一致
するものとして識別された。他の２つのものでは、対応
するオリジナル原稿は２番目に近似して一致するもので
あった。

【図面の簡単な説明】

【図１】文字形状コード認識システムのブロック図であ
る。

【図２】オリジナルの原稿を示す。

【図３】文字形状コードのシンボルおよび実際の対応す
るスクリプト文字を示す。

【図４】本発明による文字形状コード分類方法の好まし
い実施例のフローチャートを示す。

【図５】文字形状コード分類の決定木を示す。

【図６】図３の文字形状コード分類計画によって変換さ
れた図２のテキスト部分を示す。

【図７】コンパクト化方法の第１の好ましい実施例のフ
ローチャートを示す。

【図８】テキスト・ファイルの検索およびマッチング方
法の第１の好ましい実施例のフローチャートを示す。

【図９】テキスト・ファイルの検索およびマッチング方
法の第４の好ましい実施例のフローチャートを示す。

【符号の説明】

110 スキャナ 112 メモリ 114 コントローラ 24 入出力装置 26 画像メモリ 28 結合コンポーネント生成器 30 空間的特徴決定手段 32 文字タイプ分類手段 34 コンパクト化手段 36 比較器

───────────────────────────────────────────────────── フロントページの続き (72)発明者アントニオピーディアスアメリカ合衆国マサチューセッツ州 02138ケンブリッジハーヴァードユニヴァーシティークインシーメイルセンター 200

Claims

【特許請求の範囲】

【請求項１】テスト・ストリングを複数の原稿とマッ
チングするための方法であって、前記複数の原稿のそれぞれを文字形状コード表記に変換
し、前記複数の原稿のそれぞれに対して、前記文字形状コー
ド表記を、縮小されたバイナリ・データ・ストリングに
変換し、前記複数の原稿のそれぞれの縮小されたバイナリ・デー
タ・ストリングをデータベースに格納し、テストストリングを入力し、前記テスト・ストリングを文字形状コード表記に変換
し、前記テスト・ストリングの前記文字形状コード表記を縮
小されたバイナリ・データ・ストリングに変換し、前記テスト・ストリングの前記縮小されたバイナリ・デ
ータ・ストリングを前記複数の原稿のそれぞれの縮小さ
れたバイナリ・データ・ストリングとマッチングし、マッチングした原稿のリストを出力する、方法。