JPH07271829A - 文字形状コードを用いたテキスト画像と原稿とのマッチング方法 - Google Patents

文字形状コードを用いたテキスト画像と原稿とのマッチング方法

Info

Publication number
JPH07271829A
JPH07271829A JP7064381A JP6438195A JPH07271829A JP H07271829 A JPH07271829 A JP H07271829A JP 7064381 A JP7064381 A JP 7064381A JP 6438195 A JP6438195 A JP 6438195A JP H07271829 A JPH07271829 A JP H07271829A
Authority
JP
Japan
Prior art keywords
original
character
text
manuscript
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP7064381A
Other languages
English (en)
Inventor
A Lawrence Spitz
ローレンス スピッツ エイ
Antonio P Dias
ピー ディアス アントニオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US08/220,926 external-priority patent/US5438628A/en
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JPH07271829A publication Critical patent/JPH07271829A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 コンパクト化された文字形状コードで、テキ
スト画像とテキスト原稿との正確なマッチングを行う。 【構成】 原稿データベースに記憶された原稿の正確ま
たは厳密でないマッチングを行う第1の方法は、データ
ベース原稿をコンパクト化されトークン化された形態に
変換する処理を含む。検索文字列または検索原稿はコン
パクト化トークン化形態に変換され、比較される。テス
ト文字列がデータベース原稿内にあるかどうか、または
データベース原稿がテスト原稿と対応するか否かが判断
される。テスト原稿とデータベース原稿との厳密でない
マッチングを行う第2の方法は、各データベース原稿お
よびテスト原稿の一または複数の浮動小数点数セットを
生成する処理を含む。データベースの浮動小数点数セッ
トはテスト原稿の浮動小数点数セットと比較され、一致
度が決定される。しきい値が用いられる。

Description

【発明の詳細な説明】
【0001】
【技術分野】本発明は、テキスト画像(テキスト・イメ
ージ)を原稿(ドキュメント)と比較するための方法、
およびテキスト画像と原稿の文字形状コード表記の比較
に基づき、原稿データベース内に原稿を発見するための
方法に関する。特に、本発明は、テキスト画像および原
稿の文字の全体の物理的形状を表す、制限された個数の
文字コードを使用して、テキスト画像と原稿を文字形状
コード表記に変換することに関する。
【0002】
【発明の背景】この技術分野における周知の従来システ
ムにおいては、テキスト画像をテキスト原稿と比較する
前に、テキスト画像は、まず、光学式文字読取り(OC
R:Optical Character Recognition )技術を用いて、
分離したテキスト原稿に変換されなければならない。し
かしながら、光学式文字読取り過程においては、一般
に、認識テキスト原稿内に置換、消滅および挿入のよう
な多くのエラーを有するものが生成される。このよう
に、光学的に認識されたテキスト原稿と電子テキスト原
稿との正確な照合を行うことは一般に不可能である。し
たがって、認識されたテキスト原稿を正確なデータベー
ス・テキスト原稿と正しく照合することは、不可能でな
い場合であっても、困難であることが多い。
【0003】
【発明の概要】本発明は、文字形状でコード化されたワ
ード・トークンを含むテキスト画像を、コンパクト化さ
れた文字形状コード表記に変換するための方法を提供す
る。
【0004】また、本発明は、コンパクト化された文字
形状コードで、テキスト画像とテキスト原稿との正確な
照合を行う方法を提供する。
【0005】さらに、本発明は、トークン化されたテキ
スト画像およびトークン化されたテキスト原稿のそれぞ
れから生成された複数の浮動小数点数を生成することに
より、トークン化されたテキスト画像とテキスト原稿と
の厳密でない照合を行う方法を提供する。続いて、これ
らの浮動小数点数は比較され、テキスト画像とテキスト
原稿とを厳密でない照合が行われる。
【0006】本発明のこれらの目的および他の目的を達
成するために、第1の好ましい実施例においては、テキ
スト画像は、まず走査され、続いてトークン化されたテ
キスト画像に変換される。この変換には、出願係属中の
特許出願第6-70296 号(参照のためここに引用)に示さ
れている自動文字形状分類方法が用いられる。
【0007】電子的に記憶された(すなわち、文字コー
ド・テキストとして記憶された)テキスト原稿のライブ
ラリは、この方法を用いて、トークン化された電子テキ
スト原稿(以下「トークン化電子テキスト原稿」ともい
う)のライブラリに予め変換される。続いて、このトー
クン化電子テキスト原稿は、本発明のコンパクト化方法
の第1の好ましい実施例を用いて、コンパクト化された
トークン化電子テキスト原稿に変換される。同様にし
て、テキスト画像がトークン化されたテキスト画像(以
下「トークン化テキスト画像」ともいう)に変換された
後に、これは、本発明のコンパクト化方法の第1の好ま
しい実施例を用いて、コンパクト化されたトークン化テ
キスト画像に変換される。続いて、このコンパクト化さ
れたトークン化テキスト画像は、データベースに記憶さ
れた原稿のライブラリと比較され、正確に一致(マッ
チ)するものが決定される。
【0008】第2の好ましい実施例においては、データ
ベースは、コンパクト化されたトークン化電子テキスト
原稿ではなく、コンパクト化されたトークン化テキスト
画像のライブラリを含んでいる。電子テキスト文字列
(電子テキスト・ストリング)は、コンパクト化され、
トークン化された形態に変換され、テキスト画像のデー
タベース・ライブラリを検索するために使用され、その
テキスト文字列と正確に一致するものを含むテキスト画
像が突き止められる。
【0009】第3の好ましい実施例においては、テキス
ト画像および電子テキスト原稿は、一または二以上の浮
動小数点数からなるセットによってそれぞれ表される。
テスト原稿(テキスト画像または電子テキスト原稿のい
ずれか)の浮動小数点数のセットは、テキスト画像また
は電子テキスト原稿の複数の他のものを表す浮動小数点
のセットのデータベースと比較される。データベース原
稿の浮動小数点数のセットは、テスト原稿のセットと比
較され、このテスト原稿と一致するテキスト画像または
原稿の厳密でない識別が行われる。
【0010】
【実施例】テキスト画像(テキスト・イメージ)および
電子テキスト原稿(電子テキスト・ドキュメント)が以
下に示す方法を用いてコンパクト化される前に、このテ
キスト原稿およびテキスト画像は、まず、電子テキスト
原稿の場合には文字コードからトークン化された文字形
状コード表記に、テキスト画像の場合にはビットマップ
からトークン化された文字形状コード表記にそれぞれ変
換されなければならない。
【0011】図1は、文字形状コード認識システムを示
している。このシステムは、電荷結合素子(CCD)等
を有するスキャナ110 を備えている。スキャナ110 は、
図2に示すような原稿(ドキュメント)100 を走査す
る。原稿100 は画像(イメージ)102 を有する。画像10
2 は、ヨーロッパ・スクリプト・タイプのテキスト文字
列を有する。スキャナ110 は、オリジナルの原稿100 の
画像102 を含む複数のピクセルの位置および画像濃度を
表すディジタル・データ信号を出力する。
【0012】このディジタル・データ信号はメモリ112
に送られる。メモリ112 では、ディジタル・データ信号
が一時的または無期限に記憶される。ディジタル・デー
タ信号は、メモリ112 から出力されると、汎用ディジタ
ル・コンピュータ114 に入力される。コンピュータ114
に入力されると、まず、ディジタル・データ信号は、画
像102 の非テキスト部分を除去してテキスト部分104 を
残すことにより整理(クリーン・アップ)される。さら
に、歪み等のディジタル・データ信号上のスキャナ生成
物が補正される。整理されたディジタル・データ信号
は、メモリ112 にに再び記憶されるか、または、コンピ
ュータ114 のメモリに記憶される。選択的に、スキャナ
110 がスキャナ生成物の除去のような前処理を提供する
ことができる。
【0013】図1に示すように、本発明の汎用ディジタ
ル・コンピュータ114 は、メモリ22および入出力回路24
を備えている。メモリ22には、制御プログラムが記憶さ
れる。入出力回路24は、メモリ112 からのディジタル・
データ信号を入力し、画像102 のテキスト部分104 また
は一致(マッチ)する原稿の決定されたワード・トーク
ンを表す信号を出力する。汎用コンピュータ114 は、画
像メモリ26、結合コンポーネント生成手段28、空間的特
徴決定手段30、文字形状分類手段32、およびコンパクト
手段34も備えている。画像メモリ26には、ディジタル・
データ信号が記憶される。結合コンポーネント生成手段
28は、ディジタル・データ信号から、結合したコンポー
ネント(結合コンポーネント)を生成する。空間的特徴
決定手段30は、テキスト部104 のライン(行)、ワード
および文字セルの座標、ならびに各文字セル内の各結合
コンポーネントの位置を決定する。文字形状分類手段32
は、文字セルを、抽象化された文字形状コードに変換す
る。コンパクト手段34は、決定されたワード・トークン
に基づいて、テキスト部104 を、コンパクト化され、か
つ、トークン化された形に変換する。制御プログラムを
記憶するメモリ22は、ROM22aまたはRAM22bのい
ずれを含んでいてもよい。
【0014】分類手段32の好ましい実施例においては、
分類手段32は、結合コンポーネント計数手段320 、トッ
プ位置検出手段322 、ボトム位置検出手段324 、結合コ
ンポーネント・サイジング手段326 、ライン位置記憶手
段328 および比較手段330 を備えている。結合コンポー
ネント計数手段320 は、現在の文字セル内における結合
コンポーネントの個数を決定する。トップ位置検出手段
322 は、現在の文字セル内の少なくとも一つの結合コン
ポーネントのトップの位置を突き止める。ボトム位置検
出手段324 は、現在の文字セルの少なくとも一つの結合
コンポーネントのボトムの位置を突き止める。結合コン
ポーネント・サイジング手段326 は、現在の文字セルの
少なくとも一つの結合コンポーネントの高さと幅を決定
する。ライン位置記憶手段328 は、現在の文字セルを含
んだラインの基底ラインおよびxラインの少なくとも一
つのものを記憶する。比較手段330 は、結合コンポーネ
ントのトップ位置、結合コンポーネントのボトム位置お
よび結合コンポーネントの高さの少なくとも一つを、基
本ラインの位置、xラインの位置および結合コンポーネ
ントの幅の少なくとも一つと比較する。
【0015】コンパクト化を行う方法の第1の好ましい
実施例と関連した選択的な実施例においては、前記分類
手段はギャップ決定手段332 も含んでいる。ギャップ決
定手段332 は、結合コンポーネントの右側部分にギャッ
プが存在するかどうかを判定する。もちろん、結合コン
ポーネント生成手段28、空間的特徴決定手段30、分類手
段32および比較手段34の各機能および対応する手段を、
独立した手段によって実現することもできるし、このよ
うな構造は、上述した本発明の好ましい実施例に相当す
ることが分かる。コンパレータ36は、コンパクト化され
たテキスト文字列または原稿をデータベースと比較す
る。また、コンパレータ36は、第4の好ましい実施例の
浮動小数点の値のセット(集合)も比較する。
【0016】処理において、図2に示すような画像102
を含む原稿100 は、スキャナ110 の上または内部に置か
れ、走査される。そして、シリアルまたはパラレルのデ
ィジタル・データ信号が生成される。このディジタル・
データ信号は複数の信号部分を含んでいる。各部分はオ
リジナル画像102 に対応したピクセルを表す。画像102
の各ピクセルは、画像102 における位置および画像濃度
を有する。したがって、ディジタル・データ信号の各信
号部分は、対応するピクセルの位置および画像濃度を表
すデータを含んでいる。
【0017】続いて、スキャナ110 から出力されたディ
ジタル・データ信号は、メモリ112に記憶される。メモ
リ112 は、RAM、フラッシュ・メモリ、ディスク・メ
モリ等で構成することができる。メモリ112 のタイプに
関係なく、ディジタル・データ信号は、各信号部分に含
まれる位置および画像濃度データに応じてメモリ112に
記憶される。もちろん、ディジタル・データ信号を、こ
の中継を行うメモリ112 に記憶することなく、汎用ディ
ジタル・コンピュータ114 に直接入力することもでき
る。選択的に、汎用ディジタル・コンピュータ114 にメ
モリ112 を組み込むこともできる。メモリ112 は、走査
された画像102 の長期記憶として使用される場合もあ
る。
【0018】オペレータがスキャナ110 への原稿の入力
を完了するか、またはそうでなれば、システムが、画像
102 を表すディジタル・データ信号を文字形状コード・
シンボルに変換すべきと判断すると、画像102 を表すデ
ィジタル・データ信号はメモリ112 から汎用コンピュー
タ114 へ出力される。もちろん、特殊な用途のディジタ
ル・コンピュータまたはハードウェア・ロジック回路
を、汎用ディジタル・コンピュータ114 に代わって使用
することもできる。
【0019】メモリ112 に記憶されたディジタル画像デ
ータ信号は、汎用コンピュータ114に出力され、入出力
手段24を介して画像メモリ26に入力される。ディジタル
・データ信号の画像メモリ26への記憶が完了すると、続
いて、結合コンポーネント生成手段28がディジタル・デ
ータ信号を処理する。結合コンポーネント生成手段28
は、画像102 を表すディジタル・データ信号を複数の結
合コンポーネントに分解する。各結合コンポーネント
は、単一のラインの一または複数の信号部分を備えてい
る。各結合コンポーネントは、オリジナル画像102 にお
けるある最小の画像濃度を有し、かつ、連続した経路を
形成するピクセルに対応した信号部分を含んでいる。一
般に、各スクリプト文字は“Fuji”の“F”のよう
に一つの結合コンポーネントに対応するものもあり、ま
た、“Fuji”の“j”または“i”のように二以上
の結合コンポーネントに対応するものもある。
【0020】結合コンポーネント生成手段28が、画像10
2 の複数の結合コンポーネントをディジタル・データ信
号から生成すると、画像102 に対応したディジタル・デ
ータ信号、ならびに結合コンポーネント生成手段28によ
って生成された結合コンポーネントのリストおよびそれ
らの位置は、画像メモリ26に記憶され、空間的特徴決定
手段30に出力される。
【0021】空間的特徴決定手段30は、ラインの位置、
ワードのスペースおよび文字セルのようなテキスト部分
の空間的特徴を決定する。各文字セルは、隣接するスペ
ース間のライン内の垂直方向に並んだ結合コンポーネン
トを含んでいる。例えば、“Fuji”の文字“i”お
よび“j”は、2つの独立した結合コンポーネントから
それぞれ形成されている。空間的特徴決定手段30は、一
ラインの垂直方向に並んだ全ての結合コンポーネントを
一つの文字セルにグループ化する。結合コンポーネント
の生成および結合コンポーネントからテキスト部分104
の空間的特徴の決定を行う一つの好ましい方法および装
置は、米国特許出願第07/047,514号に示されている。こ
の米国出願は、本特許出願と同一の出願人により出願さ
れたものであり、参照のためにここに引用される。
【0022】続いて、結合コンポーネントおよび文字セ
ルのリストは、空間的特徴決定手段30によって出力さ
れ、文字形状コード分類手段32に与えられる。文字形状
コード分類手段32は、文字セル内の結合コンポーネント
または結合コンポーネント群を、文字セル内の結合コン
ポーネントの個数および位置に基づいて複数の抽象的な
文字コード(抽象文字コード)の一つに変換する。図3
は、好ましい文字コード・リストおよび各コードに対応
する文字を示している。図3に示すように、13個の異な
った抽象文字形状コードが使用される。しかしながら、
第1および第2の好ましい実施例においては、これらの
13個の文字形状コードはコード“A,U,i,x,g,
j”に限定される。さらに、“スペース”および“C
R”の2つの追加コードが使用される。コード“スペー
ス”はワード間のスペースを示す。コード“CR”(キ
ャリッジ・リターン)はラインの終了を示す。各抽象文
字形状コードは、文字セル内の独立した結合コンポーネ
ントの個数、各文字セルの独立した結合コンポーネント
間の相対的な位置、および文字セル内の結合コンポーネ
ントの位置に基づいて、一または複数の文字を代表する
ものである。
【0023】上述したトークン化を行うシステムの処理
を簡単化したフローチャートが図4に示されている。ス
テップS100において、システムは処理を開始する。原稿
がステップS110で走査され、ディジタル・データ信号が
生成される。続いて、ステップS120において、ディジタ
ル画像データ信号は整理(クリーンアップ)される。こ
の整理は、所望の前処理アルゴリズムをこのディジタル
画像データに適用することによって行われる。ステップ
S130において、ディジタル画像データ信号の結合コンポ
ーネントが識別され、ステップS140において、文字セル
が決定される。ステップS150において、各文字セルの文
字タイプ分類が決定される。ステップS160において、文
字コードがともにグループ化され、ワード間およびワー
ドの内部スペースに基づいてトークンが形成される。
【0024】図3に示すコード化を実行する決定木が図
5に示されている。図5に示すように、1つの結合コン
ポーネントを有する文字セル用の7つの抽象文字コー
ド、2つの結合コンポーネントを有する文字セル用の5
つの抽象文字コード、および3つの結合コンポーネント
を有する文字セル用の1つの抽象文字コードがある。
【0025】本発明の方法の好ましい実施例は図5に示
す決定木を実行する。ステップS300において、分類手段
32は、まず、現在の文字セル内の結合コンポーネントの
個数を決定する。本発明の好ましい実施例において、文
字形状コード分類手段32は、テキスト部分104 の各文字
セルをセルごとに処理する。
【0026】本発明の方法および装置は統計的に強固な
全体の特徴を分析するので、この方法および装置は非常
に質の悪い印刷および(または)走査された原稿であっ
ても処理でき、歪みが容易に生じる従来のOCR技術と
対べて、優れた特徴を分析できる。したがって、ディジ
タル・データ信号またはこのディジタル・データ信号か
ら生成された結合コンポーネントに対して、原稿の全て
の文字を完全に表すことは必要ない。むしろ、本発明は
よく起こる走査エラーに耐えることができる。すなわ
ち、本発明は、例えば、1つの結合コンポーネント文字
が2つまたはそれ以上の結合コンポーネントに分離した
り、2つまたはそれ以上の分離した結合コンポーネント
が1つの結合コンポーネントに合体したり、結合コンポ
ーネントがライン上に間違って置かれたりするようなエ
ラーに対して強い。また、本発明の方法および装置は、
歪みおよび(または)ねじれを有する画像を分析すると
きにも強さを発揮する。
【0027】ステップS300において、分類手段32が、文
字セルが一つだけの結合コンポーネントを有すると判断
すると、次に、分類手段32は、その結合コンポーネント
のトップ位置が現在のラインのxライン(ミーンライ
ン)位置より上にあり、かつ、ボトム位置がベースライ
ン(並び線)より上にあるかどうかを判定する。ライン
位置および結合コンポーネントの位置は、最上部の位置
またはその近傍および最左端の位置またはその近傍にあ
る基準位置から測定され、下方および右方がそれぞれ正
になるように測定されることが分かる。
【0028】ステップS310が肯定的ならば、分類手段32
は、ステップS320において文字セルをアポストロフィ
(省略符号)に変換する。一方、ステップS310が否定的
ならば、分類手段32はステップS330に進む。ステップS3
30において、分類手段32は、結合コンポーネントのトッ
プ位置がxライン位置より上にあり、かつ、結合コンポ
ーネントのボトムがベースライン位置上またはそれより
下にあるかどうかを判定する。ステップS330が肯定的な
らば、分類手段32はステップS340において文字セルを
“A”に変換する。“A”は、図3に示すように、全て
の大文字、全ての数字、アセンダを有する小文字、およ
び一般に垂直方向(縦方向)を向いた句読点(パンクチ
ュエーション・マーク)の全てを代表するものである。
【0029】ステップS330が否定的ならば、分類手段32
はステップS350に進む。ステップS350において、分類手
段32は、結合コンポーネントのトップがxライン位置よ
り下にあり、かつ、結合コンポーネントのボトムがベー
スライン位置よりも上にあるかどうかを判定する。ステ
ップS350が肯定的ならば、分類手段32はステップS360に
おいて文字セルをハイフンに変換する。
【0030】ステップS350が否定的ならば、分類手段32
はステップS370に進む。ステップS370において、分類手
段32は、結合コンポーネントのトップ位置がxライン位
置より下にあり、かつ、結合コンポーネントのボトム位
置がベースライン位置より下にあるかどうかを判定す
る。ステップS370が肯定的ならば、分類手段32は、ステ
ップS380において文字セルをカンマに変換する。ステッ
プS370が否定的ならば、分類手段32はステップS390に進
む。ステップS390において、分類手段32は、結合コンポ
ーネントのトップ位置がxライン位置の下にあるかどう
かを判定する。ステップS390が肯定的ならば、分類手段
32はステップS400において文字セルをピリオドに変換す
る。
【0031】ステップS390が否定的ならば、分類手段32
はステップS410に進む。ステップS410において、分類手
段32は、結合コンポーネントのボトム位置がベースライ
ン位置より下にあるかどうかを判定する。ステップS410
が肯定的ならば、分類手段32はステップS420でその文字
セルを“g”に変換する。コード“g”は、図3に示す
ように、ディセンダを有する任意の小文字を代表するも
のである。
【0032】ステップS410が否定的ならば、分類手段32
はステップS430に進む。ステップS430において、分類手
段32は結合コンポーネントがアセンダまたはディセンダ
のいずれも有しない小文字であると仮定し、その結合コ
ンポーネントを“x”に変換する。続いて、ステップS4
30、またはステップS320、S340、S360、S380、S400およ
びS420に続いて、分類手段32は次の文字セルを現在の文
字セルとして選択して、ステップS300に戻る。
【0033】一方、ステップS300において、分類手段32
が、現在の文字セル内に2つの結合コンポーネントがあ
ると判断すると、分類手段32はステップS440に進む。ス
テップS440において、分類手段32は上部にある結合コン
ポーネントの高さが上部にある結合コンポーネントの幅
の3倍よりも大きいかどうかを判定する。結合コンポー
ネントの高さとは、そのトップ位置とボトム位置との間
の差であり、結合コンポーネントの幅はその右端位置と
左端位置との間の差である。ステップS440が肯定的なら
ば、分類手段32はステップS450に進む。ステップS450に
おいて、分類手段32はその文字セルを感嘆符(!)に変
換する。
【0034】ステップS440が否定的ならば、分類手段32
はステップS460に進む。ステップS460において、分類手
段32は上部にある結合コンポーネントのトップ位置がx
ライン位置より上にあり、かつ、下部にある結合コンポ
ーネントのボトム位置がベースライン位置より下にある
かどうかを判定する。ステップS460が肯定的ならば、分
類手段32はステップS470においてその文字セルを“j”
に変換する。“j”は、xラインよりも上に延びる分離
した結合コンポーネントおよびベースラインよりも下に
延びる分離した結合コンポーネントを有する任意の小文
字を代表するものである。
【0035】ステップS460が否定的ならば、分類手段32
はステップS480に進む。ステップS480において、分類手
段32は、上部にある結合コンポーネントのトップ位置が
xライン位置より上にあり、かつ、ボトム位置がベース
ライン位置より下にないかどうかを判定する。ステップ
S480が肯定的ならば、分類手段32はステップS490におい
てその文字セルを“i”に変換する。“i”は、図3に
示すように、xライン位置より上に延びる分離した結合
コンポーネントと、ベースライン位置より下には延びて
いない分離した結合コンポーネントとを有する任意の小
文字を代表するものである。
【0036】ステップS480が否定的ならば、分類手段32
はステップS500に進む。ステップS500において、分類手
段32は、上部および下部にある結合コンポーネントの双
方がそれらの高さの3倍の幅を有するかどうかを判定す
る。ステップS500が肯定的ならば、分類手段32はステッ
プS510においてその文字セルを“=”に変換する。ステ
ップS500が否定的ならば、分類手段32はその文字セルが
“:”に変換されるべきと仮定して、ステップS520にお
いて、その文字セルはそのように変換される。ステップ
S520、ならびにステップS450、ステップS470、ステップ
S490およびステップS510の後、分類手段32は次の文字セ
ルを現在の文字セルとして選択して、ステップS300に進
む。
【0037】一方、分類手段32が、ステップS300におい
て、現在の文字セル内に3つの結合コンポーネントがあ
ると判断すると、分類手段32はステップS530に進む。ス
テップS530において、分類手段32は、文字セルがウムラ
ウト符号を有する大文字または小文字を表すものと仮定
して、これにより、図5に示すように、その文字セルを
“U”に変換する。続いて、分類手段32は、次の文字セ
ルを現在の文字セルとして選択し、ステップS300に進
む。一方、次の文字セルがないならば、分類手段32はテ
キスト部分104 の分類を終了し、文字セルの代わりに抽
象文字コードのリストを画像メモリ26に出力する。この
ようにして、図2のテキスト画像は、図6に示す文字形
状コード表記に変換される。
【0038】一または二以上のコード化された文字のワ
ード・トークン・リストは、コンパクト化手段34に与え
られる。コンパクト化手段34は、テキスト部分104 を表
すワード・トークンのリストを入力し、続いて“A、
U、I、X、G”を除くトークンの全てをテキスト画像
から消去して、コンパクト化され、かつ、トークン化さ
れたテキスト部分104 の形態を生成する。もちろん、A
SCII(アスキー)のような文字コード体系ですでに
表されている電子テキスト原稿の場合には、コントロー
ラ114 の文字コード変換器36は、一般に、ASCIIコ
ードを文字形状コードに直接変換することができる。
【0039】トークン化されたテキスト画像(以下「ト
ークン化テキスト画像」ともいう)およびトークン化さ
れた電子テキスト原稿(以下「トークン化電子テキスト
原稿」ともいう)が生成されると、これらのトークン化
テキスト画像およびトークン化電子テキスト原稿は、コ
ンパクト化手段34によって、コンパクト化されたトーク
ン化テキスト画像および原稿に変換される。この変換に
おいて、図7に示すように、コンパクト化方法の第1の
好ましい実施例が用いられる。第1の好ましい実施例に
おいて、ステップS1000 で、変換プロセスがスタートす
る。ステップS1010 において、トークン化テキスト原稿
は文字形状コードのフル・セットから文字形状コードの
縮小セットに縮小される。これらの縮小された文字形状
コード(A、U、g、i、j、x、[スペース]および
[CR])は、実際の原稿に使用されるワード・トークン
の大多数に使用されるコードを表す。可能な文字形状コ
ードをこれらの8つの縮小された文字形状コードに限定
することにより、文字形状コードを、8つの異なる3ビ
ットのバイナリ数に変換することができる。すなわち、
例えば、文字形状コード“A”はバイナリ数“000”
に変換され、“U”は“001”に変換され、文字形状
コード“g”は“010”に変換される。この限定セッ
トの他の文字形状コードは、同様にして、ユニークな3
ビットのバイナリ数に変換される。トークン化テキスト
原稿が、ステップS1010 において、文字形状コードの限
定セットからバイナリ数の列に変換されると、このビッ
ト列は、ステップS1020 において、バイトの境界に渡っ
て覆う3ビットのバイナリ・コードを必要なものとして
有する、8ビットのバイトにグループ化される。すなわ
ち、(2+2/3 )個の形状コードが各8ビットのバイト
に圧縮される。続いて、ステップS1030 において、圧縮
された「コンパクト化されたトークン化」コードは、
[コンパクト化コードのバイト数][コンパクト化コー
ドのバイト]の形で記憶される。続いて、処理はステッ
プS1040 で終了する。
【0040】図8は、検索文字列(検索ストリング)を
使用してコンパクト化されたトークン化テキスト・ファ
イルを検索する方法の第1の好ましい実施例を示してい
る。ステップS1100 からスタートし、ステップS1110 に
おいて、検索文字列が入力される。ステップS1120 にお
いて、検索文字列は、ステップS310〜S530およびステッ
プS1000 〜S1040 の方法を使用して、まず、トークン化
され、続いて、コンパクト化される。次に、ステップS1
130 において、コンパクト化されたトークン化検索文字
列は、コンパクト化されたトークン化データベース内に
おいて、第1のコンパクト化されたトークン化原稿と比
較され、検索文字列と検索している原稿の一部との間で
正確に一致するものが突き止められる。ステップS1140
において、システムは、正確に一致するものがコンパク
ト化されたトークン化検索文字列とコンパクト化された
トークン化テキスト原稿との間に存在するかどうかを判
定する。ステップS1150 において、正確に一致するもの
がステップS1140 で突き止められると、制御はステップ
S1160 に進む。ステップS1160 で、一致ファイルと正確
に一致するものを有するコンパクト化されたトークン化
テキスト原稿の名前が出力される。続いて、制御はステ
ップS1170 に進む。一方、ステップS1150 において、正
確に一致するものがステップS1140 で発見されなかった
ならば、制御はステップS1170 に直接進む。
【0041】ステップS1170 において、システムはデー
タベースの全てのエントリが分析されたかどうかを判定
する。そうでなければ、制御はステップS1180 に進む。
ステップS1180 において、次の原稿が選択される。続い
て、制御はステップS1130 に戻る。データベース内の全
ての原稿が検索されると、制御はステップS1190 に進
み、一致するファイルを出力し、テキスト文字列と一致
したデータベース・ファイルをリストする。続いて、制
御はステップS1200 に進み、処理は終了する。
【0042】このようにして、第1の好ましい実施例
(正確に一致するものを発見する)においては、テスト
文字列は、直接入力されるか、またはテキスト画像から
取り出される。テスト文字列は、トークン化され、か
つ、コンパクト化される。続いて、テスト文字列は、コ
ントローラ114 のコンパレータ36を用いて、コンパクト
化されたトークン化テキスト画像またはコンパクト化さ
れたトークン化電子テスト原稿の各エントリとそれぞれ
比較され、正確に一致するものが突き止められる。正確
に一致するものを有する各テキスト原稿は、テキスト文
字列を有するデータベースの各原稿を識別するために出
力される。
【0043】処理において、コンパクト化されたトーク
ン化テスト文字列は、コンパクト化されたトークン化原
稿または画像と、左から右へビットごとに、各原稿のビ
ット列の開始部からビット列の終了部に向けて比較され
る。
【0044】第1の好ましい実施例の第1の変形例にお
いては、ステップS1110 〜S1140 でテスト文字列の入力
および比較を行うのではなく、検索原稿全体が使用され
る。したがって、検索原稿とデータベースの複数の原稿
のそれぞれとの比較の準備のために、原稿全体がトーク
ン化され、かつ、コンパクト化される。
【0045】第1の好ましい実施例の第2の変形例にお
いては、分類手段32は、最初に結合コンポーネントをス
テップS430において“x”の文字形状コード・シンボル
に変換した後に、結合コンポーネントの右側の中央部分
がベースライン位置とxラインの位置との間で開いた部
分を有するかどうかを判定する。そのような開きがある
場合には、文字分類手段34は文字形状コード“x”を文
字形状コード“e”に変換する。文字形状コード“e”
は、文字“e”および“c”を代表するものである。こ
の第1の実施例の第2の変形例において、トークン化画
像またはトークン化原稿がステップS1010 で縮小される
と、限定されたコード・セットは文字形状コード[CR]
ではなくむしろ文字形状コード“e”を含むものとな
る。一方、この第1の実施例の第2の変形例では、一致
処理は、比較ステップの実行のために、第1および第2
の好ましい実施例のいずれも使用することができる。
【0046】第2の好ましい実施例において、電子検索
文字列は、トークン化されたテキスト画像のデータベー
スを検索するために使用される。
【0047】第3の好ましい実施例において、コンパク
ト化手段34は、ステップS1000 〜S1040 のように、トー
クン化原稿を縮小トークン化原稿に変換して、この原稿
をコンパクト化する代わりに、縮小トークン化原稿を使
用して、少なくとも一つの浮動小数点数のセット(集
合)を生成する。表1に示すように、少なくとも5つの
可能な浮動小数点数を、値1〜5として識別し、生成す
ることができる。
【0048】
【表1】
【0049】表1に示すように、第1の値は、各文字形
状コード・シンボルを数字のセットの一つに変換するこ
とにより生成される。数字のセットを構成する数字は、
すべて相対的に互いに素である。続いて、連続した形状
コードの各ペアにXOR 演算が施される。各XOR 演算の結
果は加算され、第1の値が生成される。
【0050】第2の値は、トークン化ファイルの文字を
表す数字を加算して、その合計値をテキスト文字列また
は原稿のトークン化文字の全体の個数によって割ること
により生成される。第3の値は、各文字形状コードがテ
キスト文字列または原稿に現れる回数をそれを表す数字
に乗じ、続いて各文字コードの乗算結果を加算すること
により形成される。
【0051】第4の値は、各隣接したペアではなく、全
ての他のコードがXOR 演算される点を除いて、第1の値
と同様にして生成される。最後に、第5の値は第1の値
と同様にして生成される。しかしながら、第5の値にお
いて、XOR 演算は、ワードの境界に渡って拡張されない
(各ワード・トークンのリーディング・スペースを含む
が)。
【0052】データベースの各テキスト画像または原稿
に対するこれらの値の少なくとも一つと、検索文字列ま
たは原稿に対する対応する値とを生成することによっ
て、テキスト文字列または原稿とデータベースを形成す
る画像またはテキスト原稿との間の正確でない(厳密で
ない)一致を突き止めることができる。すなわち、図9
に示すように、ステップS2000 でスタートした後、テス
ト原稿の少なくとも一つの浮動小数点数のセットがステ
ップS2010 で生成される。続いて、ステップS2020 にお
いて、テスト原稿の浮動小数点数のセットのそれぞれ一
つの値は、原稿データベースのテキスト画像またはテキ
スト原稿の現在のものの浮動小数点数のセットのそれぞ
れ一つの対応する浮動小数点数と比較される。続いて、
ステップS2030 において、距離メジャーが、原稿データ
ベースのエントリの現在のもの用に生成される。この距
離メジャーは、テスト原稿の浮動小数点の値のセットと
原稿データベースの現在のエントリの浮動小数点の値の
セットとの間の全体の相違および類似を表す。
【0053】続いて、この距離の値はステップS2040 で
分析され、テスト原稿と現在のエントリとの間の少なく
とも厳密でない一致点を示しているかどうかが判定され
る。ステップS2050 で、少なくとも厳密でない一致点が
発見されると、ステップS2060 において、一致する原稿
の名前が一致ファイルへ出力される。一致するものが発
見されないならば、制御はステップS2050 から直接ステ
ップS2070 に進む。続いて、ステップS2070 において、
データベースはチェックされ、全てのエントリがテスト
原稿と比較されたかどうかが判断される。そうでなけれ
ば、制御はステップS2080 に進む。ステップS2080 にお
いて、次のエントリが選択され、制御はステップS2030
に戻る。そうであれば、少なくとも厳密でない一致する
エントリのリストがステップS2090 で出力される。ステ
ップS2100 でシステムは停止する。検索文字列またはデ
ータベースとテキスト画像またはテキスト原稿との間の
少なくとも厳密でない一致点として識別されたものが正
当であることを確認するために、しきい値が用いられ
る。これに加えて、オペレータがテキスト画像またはテ
キスト原稿と検索原稿とをどの程度の近似度で一致させ
たいかに依存して、このしきい値は調整可能である。
【0054】上述した第1の好ましい実施例を用いて、
英語、フランス語およびドイツ語の原稿を有する多重言
語原稿データベースが、これらの言語の話し手に興味の
ある167 個の異なるテスト文字列を用いて検索された。
UNIXの“AGREP ”コマンド(近似した文字列の一致検索
を行う)を用いて、文字列のコンパクト化され、トーク
ン化された形態のものがデータベースの原稿のコンパク
ト化され、トークン化された形態のものと比較された。
167 個の検索文字列の68%(114 個の検索文字列)が、
フォールス・ポジティブが返されず、すなわちフォール
ス・ネガティブが返された。他の32%(54個の検索文字
列)は、エラー・レートが増加した。しかしながら、こ
れらの54個の検索文字列は、より短く、あまり特異性の
ない文字列になる傾向があった。
【0055】第2の好ましい実施例において、46個の英
語、フランス語およびドイツ語の原稿がトークン化さ
れ、かつ、コンパクト化されて、データベースを形成し
ている。これらの原稿のうちの36個の走査されたもの
が、走査された原稿をトークン化するが、データベース
の原稿をコンパクト化しないことにより、オリジナル原
稿と比較された。続いて、走査された原稿の縮小トーク
ン化形態が、オリジナル原稿の縮小トークン化形態と比
較された。36個のオリジナル原稿を生成するときに、特
別な注意は払われなかった。したがって、これらの原稿
は1.8 °上向きにスキューしていた。このテストにおい
て、36個の全原稿はそのオリジナルと正確に一致した。
さらなるテストにおいて、写真複写の複数の生成物が走
査され、データベース原稿と比較された。この第2の好
ましい実施例は、3番目および4番目の写真複写生成物
にまで耐えた。さらに、この第2の好ましい実施例は、
場合によっては、7番目の写真複写生成物でさえも正確
に一致させることができた。
【0056】これらの上記テストは300dpiの走査解像度
で行われた。さらなるテストは、200dpiのテキスト画像
を走査することにより行われた。このより低い解像度の
テストにおいて、36個の原稿のうちの34個の原稿が、デ
ータベースのオリジナルの原稿と正確に一致した。2つ
の原稿がデータベースの原稿のいずれにも一致しなかっ
たが、フォールス・ポジティブは生成されなかった。
【0057】最後のテストは浮動小数点のフルの5次元
セットを使用し、これらの36個の走査された原稿がデー
タベースの原稿と比較された。第4の好ましい実施例が
最も近似して一致するものを発見するために試験され、
一致度95%のしきい値が使用された。この第4の好まし
い実施例を用いて、36個の走査されたテキスト画像のう
ちの34個の対応するオリジナル原稿が最も近似して一致
するものとして識別された。他の2つのものでは、対応
するオリジナル原稿は2番目に近似して一致するもので
あった。
【図面の簡単な説明】
【図1】文字形状コード認識システムのブロック図であ
る。
【図2】オリジナルの原稿を示す。
【図3】文字形状コードのシンボルおよび実際の対応す
るスクリプト文字を示す。
【図4】本発明による文字形状コード分類方法の好まし
い実施例のフローチャートを示す。
【図5】文字形状コード分類の決定木を示す。
【図6】図3の文字形状コード分類計画によって変換さ
れた図2のテキスト部分を示す。
【図7】コンパクト化方法の第1の好ましい実施例のフ
ローチャートを示す。
【図8】テキスト・ファイルの検索およびマッチング方
法の第1の好ましい実施例のフローチャートを示す。
【図9】テキスト・ファイルの検索およびマッチング方
法の第4の好ましい実施例のフローチャートを示す。
【符号の説明】
110 スキャナ 112 メモリ 114 コントローラ 24 入出力装置 26 画像メモリ 28 結合コンポーネント生成器 30 空間的特徴決定手段 32 文字タイプ分類手段 34 コンパクト化手段 36 比較器
───────────────────────────────────────────────────── フロントページの続き (72)発明者 アントニオ ピー ディアス アメリカ合衆国 マサチューセッツ州 02138ケンブリッジ ハーヴァード ユニ ヴァーシティー クインシー メイル セ ンター 200

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 テスト・ストリングを複数の原稿とマッ
    チングするための方法であって、 前記複数の原稿のそれぞれを文字形状コード表記に変換
    し、 前記複数の原稿のそれぞれに対して、前記文字形状コー
    ド表記を、縮小されたバイナリ・データ・ストリングに
    変換し、 前記複数の原稿のそれぞれの縮小されたバイナリ・デー
    タ・ストリングをデータベースに格納し、 テストストリングを入力し、 前記テスト・ストリングを文字形状コード表記に変換
    し、 前記テスト・ストリングの前記文字形状コード表記を縮
    小されたバイナリ・データ・ストリングに変換し、 前記テスト・ストリングの前記縮小されたバイナリ・デ
    ータ・ストリングを前記複数の原稿のそれぞれの縮小さ
    れたバイナリ・データ・ストリングとマッチングし、 マッチングした原稿のリストを出力する、 方法。
JP7064381A 1994-03-31 1995-03-23 文字形状コードを用いたテキスト画像と原稿とのマッチング方法 Withdrawn JPH07271829A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/220,926 US5438628A (en) 1993-04-19 1994-03-31 Method for matching text images and documents using character shape codes
US08/220926 1994-03-31

Publications (1)

Publication Number Publication Date
JPH07271829A true JPH07271829A (ja) 1995-10-20

Family

ID=22825589

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7064381A Withdrawn JPH07271829A (ja) 1994-03-31 1995-03-23 文字形状コードを用いたテキスト画像と原稿とのマッチング方法

Country Status (1)

Country Link
JP (1) JPH07271829A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009009527A (ja) * 2007-06-29 2009-01-15 Canon Inc 画像処理装置、画像処理方法、コンピュータプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009009527A (ja) * 2007-06-29 2009-01-15 Canon Inc 画像処理装置、画像処理方法、コンピュータプログラム

Similar Documents

Publication Publication Date Title
US5438628A (en) Method for matching text images and documents using character shape codes
US6151423A (en) Character recognition with document orientation determination
JP2973944B2 (ja) 文書処理装置および文書処理方法
US6501855B1 (en) Manual-search restriction on documents not having an ASCII index
US7181068B2 (en) Mathematical expression recognizing device, mathematical expression recognizing method, character recognizing device and character recognizing method
JP3183577B2 (ja) 画像内容を復号することなく文書画像中の意味的に重要な画像を選択するための方法
JPH08166970A (ja) コード化したワードトークンを使用して文書画像をハイライトで強調する方法
Lee et al. Understanding mathematical expressions using procedure-oriented transformation
CN102782702B (zh) 在光学字符识别(ocr)过程中的段落识别
JP4577931B2 (ja) ドキュメント処理システム及びインデックス情報獲得方法
Lu et al. Information retrieval in document image databases
JP2713622B2 (ja) 表形式文書読取装置
JPH05250408A (ja) 取り込んだ情報で文書画像を復号することなく選択した文書の重要な部分を補完するための方法
JP3485020B2 (ja) 文字認識方法及び装置ならびに記憶媒体
JPH076206A (ja) 自動文字分類装置
JP2890482B2 (ja) 文書画像再配置ファイリング装置
CN111860524A (zh) 一种数字档案智能分类的装置及方法
He et al. Content-based indexing and retrieval method of Chinese document images
JPH07271829A (ja) 文字形状コードを用いたテキスト画像と原稿とのマッチング方法
Lu et al. Word searching in document images using word portion matching
KR20000035325A (ko) 문서 인식 장치 및 우편 구분기
Ting et al. A syntactic business form classifier
EP0692768A2 (en) Full text storage and retrieval in image at OCR and code speed
JP2866920B2 (ja) 標準パターン作成方法及び装置並びに文字認識装置及び方法
JP3083609B2 (ja) 情報処理装置及びそれを用いた文字認識装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20020604