JPH06215199A

JPH06215199A - 光学的文字認識システムによって出力される誤った文字を識別及び解明する方法

Info

Publication number: JPH06215199A
Application number: JP5239189A
Authority: JP
Inventors: C Murdoch Michael; マイケル・シー・マードック; Marc A Newman; マーク・エイ・ニューマン
Original assignee: Motorola Inc
Current assignee: Motorola Solutions Inc
Priority date: 1992-09-02
Filing date: 1993-08-31
Publication date: 1994-08-05
Also published as: US5418864A; GB2270406B; CA2100508A1; GB9316585D0; GB2270406A; TW222337B

Abstract

(57)【要約】【目的】複数のＯＣＲエンジン（１６）を組合せより
高い文字認識精度を実現した光学的文字認識（ＯＣＲ）
のための後処理方法を提供する。【構成】認識のための文字は多くの異なるタイプの文
字環境から発生し得る。ＯＣＲエンジン出力は同期ヒュ
ーリスティクス（１８）を使用して前記ＯＣＲエンジン
出力間の整合及び不整合を検出するため同期される。前
記不整合は解明ヒューリスティクス（２４）及びニュー
ラルネットワーク（２６）を使用して解明される。解明
ヒューリスティクス（２４）及びニューラルネットワー
ク（２６）はどの特定のＯＣＲエンジンが特定の属性を
有するある文字を正しく識別するかを見付けるために異
なる文字環境における数多くの異なる伝統的なＯＣＲエ
ンジンの観察に基づく。得られた結果は解明ヒューリス
ティクス（２４）及びニューラルネットワーク（２６）
へと符号化され最適のＯＣＲ後処理解を生成する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は一般的には光学的文字
認識システムに関しかつ、特定的には、異なる光学的文
字認識エンジンを組合せて光学的文字認識エンジンによ
って誤って認識されかつ出力された文字および文字の属
性を識別および解明するための後処理（ｐｏｓｔ−ｐｒ
ｏｃｅｓｓｉｎｇ）方法に関する。

【０００２】

【従来の技術】光学的文字認識（ＯＣＲ）技術は紙の書
類をデジタル化された形式に変換するための良く知られ
た方法である。基本的には、書類は商業的に入手可能な
スキャナによって走査されてラスタイメージ（ｒａｓｔ
ｅｒ−ｉｍａｇｅ）を生成する。該ラスタイメージは商
業的に入手可能なソフトウェア、すなわち光学的文字認
識（ＯＣＲ）エンジン、に受け渡され、そこで対応する
文字認識アルゴリズムが前記走査されたラスタイメージ
を処理し数字桁および、たとえば、“＆”，“＄”およ
び“＃”のようないくつかの特別の文字を含む文字を認
識する。

【０００３】

【発明が解決しようとする課題】伝統的なＯＣＲ技術の
主な問題の１つは文字認識の精度が制限されていること
である。いくつかのＯＣＲエンジンはいくつかの文字環
境からの文字を正確に認識できるが、他の形式の文字環
境においては性能がよくない。例えば、第１のＯＣＲエ
ンジンはヘルベティカ（Ｈｅｌｖｅｔｉｃａ）スタイル
の文字を９０％の正解率で認識できる。しかしながら、
この第１のＯＣＲエンジンはプラチノ（Ｐａｌａｔｉｎ
ｏ）スタイルの文字を５０％の正解率でしか認識できな
いかもしれない。第２のＯＣＲエンジンはヘルベティカ
文字に対しては正確な結果を提供するがクーリエ（Ｃｏ
ｕｒｉｅｒ）スタイルの文字に対しては正確な結果を提
供しないかもしれない。第３のＯＣＲエンジンは１８ポ
イントのクーリエ文字に対するよりも１０ポイントのク
ーリエ文字に対して良好に動作するかもしれない。した
がって、ある文書の１ページが１０ポイントおよび１８
ポイントのクーリエスタイルおよびいヘルベティカスタ
イルの文字を含んでいれば、１つのＯＣＲエンジンのみ
を使用することは適切でない結果を生じることになり、
その理由はＯＣＲエンジンのいずれも全ての異なるタイ
プの文字環境において適切に文字を認識できないからで
ある。

【０００４】したがって、数多くの異なるタイプの文字
環境から誤った文字を識別しかつ解明するためにＯＣＲ
ソフトウェアエンジンの各々の最善の光学的文字認識機
能を組合せる方法を提供することが光学的文字認識にお
いておおいに必要となる。

【０００５】

【課題を解決するための手段および作用】本発明によれ
ば、光学的文字認識エンジンによって発生した文字認識
誤りを識別しかつ解明するための光学的文字認識方法が
提供される。この発明は異なる文字環境において数多く
の異なる従来の文字認識エンジンを観察しかつどの特定
のＯＣＲエンジンが前記異なる文字環境の各々に対して
どの様なタイプの誤りを生じるかを決定した結果生まれ
たものである。いったん前記決定が行なわれると、単一
のＯＣＲエンジンのみが使用された場合に可能なものよ
りも高い精度のレベルを生み出す複数のＯＣＲエンジン
を併合するための後処理方法が構築可能になった。

【０００６】したがって、本発明の利点でもあり目的と
するものは、異なる文字環境において数多くの異なる従
来のＯＣＲエンジンを観察しどの特定のＯＣＲエンジン
が大部分の場合に各々の文字をより正確に認識するかを
検出しかつ前記異なるＯＣＲエンジンからの観察の結果
をＯＣＲ文字誤りを識別しかつ解明する後処理方法へと
組合せることである。

【０００７】本発明の他の利点でありかつ目的とするも
のは、数多くの異なるタイプの文字環境からの誤った文
字を識別しかつ解明することである。

【０００８】本発明のさらに他の利点でありかつ目的と
するものは、ＯＣＲエンジンによって出力された文字を
同期するために発見的方法（ヒューリスティックス：ｈ
ｅｕｒｉｓｔｉｃｓ）を使用することである。

【０００９】さらに、本発明の他の利点であり目的とす
ることは、文字を認識する上で最も正しくなる可能性の
あるＯＣＲエンジンを選択することにより文字認識誤り
を解明するために発見的方法を使用することである。

【００１０】本発明のさらに他の利点でありかつ目的と
するものは、前記発見的方法のみでは文字認識エラーを
解明することが不可能である場合にどのＯＣＲエンジン
が最も正しくなる可能性があるかを予測する上での助け
とするためニューラルネットワークを使用することであ
る。

【００１１】本発明の１つの態様によれば、光学的文字
認識システムによって出力される誤った文字を識別しか
つ解明するための光学的文字認識方法が提供される。該
方法はコンピュータによって実現されるプロセスの一部
としてコンピュータ上で実行される。さらに、前記コン
ピュータは光学的文字認識（ＯＣＲ）エンジンの出力を
受けるよう接続可能である。

【００１２】前記方法は、（ａ）同期ヒューリスティッ
クスを使用することによりＯＣＲエンジン出力における
文字と前記文字の属性との間の不整合を識別する段階、
そして（ｂ）前記段階（ａ）において識別された前記不
整合の各々を解明（ｒｅｓｏｌｕｔｉｏｎ）ヒューリス
ティックスおよびニューラルネットワークを使用するこ
とにより解明する段階、を具備する。

【００１３】本発明は特に添付の特許請求の範囲に記載
されている。しかしながら、本発明の他の特徴は添付の
図面とともに以下の詳細な説明を参照することによりさ
らに明らかとなりかつ最も良く理解されるであろう。

【００１４】

【実施例】本システムのハードウェア構成が図１に示さ
れている。Ｆｕｊｉｔｓｕ社またはＸｅｒｏｘ社によっ
て製造されるもののような、商業的に入手可能なスキャ
ナ１２がＳｐａｒｃｓｔａｉｔｉｏｎ^ＴＭコンピュータ
１４に接続されている。コンピュータ１４はＳＵＮによ
って作られている。該ＳＵＮコンピュータ１４を動作さ
せるオペレーティングシステムはＵＮＩＸ^ＴＭである。
該コンピュータ１４は、例えば、ＣＲＴディスプレイ１
５のような、表示装置に結合されている。該ＣＲＴ１５
は前記スキャナによって走査されたイメージおよびこの
発明によって行なわれる後処理の結果を表示する。この
発明は大部分の商業的に入手可能なスキャナ、コンピュ
ータ、およびＣＲＴシステム構成とともに動作しかつ容
易に携帯可能である。

【００１５】文書の１ページをデジタル化文字ストリー
ムに変換するための文書変換プロセスは文書のページ１
０をスキャナ１２に供給することにより開始される。こ
の発明は任意の形式の本、技術マニュアル、雑誌、新
聞、その他を含む任意のタイプの文書を読取るが、本質
的にスキャナそれ自体の制約に依存する。さらに、前記
文書は異なるタイプフェイス、ピッチ、ポイントサイ
ズ、間隔、その他を含む数多くの異なるタイプの文字環
境の内の任意のものを持つことができる。スキャナ１２
が前記ページを走査した後、該スキャナ１２は前記ペー
ジのラスタイメージをＴＩＥＦファイルとして発生しか
つそれをコンピュータ１４に転送する。ＴＩＥＦは“Ｔ
ａｇｇｅｄＩｍａｇｅＦｉｌｅＦｏｒｍａｔ”を
表しかつ技術的によく知られている。この発明はＴＩＥ
Ｆフォーマットされたファイルのみを受信することに依
存するのみではなく異なるタイプの出力フォーマットを
有する出力をも受信できる。

【００１６】いったんコンピュータ１４が前記ＴＩＥＦ
ファイルを受信すると、前記文字が図２に示されるよう
にＯＣＲエンジン１６によってラインごとのベースで処
理される。ＯＣＲエンジン１６の主な目的は前記ラスタ
イメージまたはＴＩＥＦファイルから文字を認識するこ
とである。いくつかの商業的に入手可能なＯＣＲエンジ
ン１６は、例えば、Ｃａｌｅｒａ社およびＺｅｒｏｘ社
によって作られている。ＯＣＲエンジンは通常ソフトウ
ェアでありかつ付随するスキャナとともにパッケージの
一部として取引される。しかしながら、この発明は任意
のＯＣＲエンジン１６を使用可能でありかついずれか特
定のタイプのＯＣＲエンジンまたはスキャナに依存する
ものではない。

【００１７】前記ＯＣＲエンジン１６の各々はそれらの
それぞれの文字認識アルゴリズムを実行し、該アルゴリ
ズムは各文字をゾーンで調べかつその文字が何であるか
の最善の可能な近似を決定する。前記ＯＣＲエンジン１
６の各々はそれらの結果を埋込まれたマークアップ（ｅ
ｍｂｅｄｄｅｄｍａｒｋｕｐ）を有するＡＳＣＩＩ文
字ストリームのような標準文字ストリームとして出力す
る。ＡＳＣＩＩストリームは通常初めにワードおよび文
字に関する埋込まれたマークアップまたは属性情報を有
し、それに続きそれらが実際にどの文字であるかが続
く。前記ＡＳＣＩＩ出力フォーマットは通常商業的に入
手可能なＯＣＲスキャナおよびソフトウェアエンジンの
パッケージに添付されたマニュアルに記載されている。
この発明は前記Ｃａｌｅｒａ社のＰａｇｅＤｅｓｃｒ
ｉｐｔｉｏｎＡｒｃｈｉｔｅｃｔｕｒｅフォーマット
またはＸｅｒｏｘ社のＸＤＯＣフォーマットを含む任意
の商業的に入手可能なＯＣＲエンジンからの出力の任意
のものとともに動作する。

【００１８】ＯＣＲエンジン１６によって実行される文
字認識アルゴリズムは主として２つのプロセスを持って
いる。第１のプロセスは処理されるべき文字の境界を定
めるボックスを識別する文字区分（ｓｅｇｍｅｎｔａｔ
ｉｏｎ）プロセスである。第２のプロセスはその文字が
どのクラスに分類されるべきかを決定するための弁別プ
ロセスである。

【００１９】

【表１】要素タイプ要素典型的な要素値 −−−−− −−−−−−− −−−−−−−−−−−−−−−−− 文字タイプフェイスタイムズ、ヘルベティカ、クーリエラインサイズ細、中、太リガチャ属性オン／オフセリフ属性オン／オフピッチローマン、斜体、イタリックポイントサイズ文字サイズ間隔固定、プロポーショナルカーニングオン／オフモディファイア区別マーク、アンダーラインイメージスキュー回転度ノイズ広帯域、インパルス、アーティファクツ解像度アンダーリゾルブドコントラスト明るすぎ、暗すぎ

【００２０】表１は文字区分および弁別アルゴリズムの
精度に影響を与える異なるタイプの文字環境のいくつか
を示す。これらの環境のいくつかはラインサイズ、ポイ
ントサイズ、ピッチおよび間隔（ｓｐａｃｉｎｇ）を含
む。区分（ｓｅｇｍｅｎｔａｔｉｏｎ）および弁別（ｄ
ｉｓｃｒｉｍｉｎａｔｉｏｎ）アルゴリズムはこれらの
要素を考慮しなければならないが、その理由は文書の各
ページは上に示された全ての文字環境を含む可能性があ
るからである。初期の文字認識システムのいくつかは一
般に固定フォント認識に依存し、かつしたがって、例え
ば、パイカまたはエリートのような、特定のポイントサ
イズ、または、例えば、クーリエまたはヘルベティカの
ような、特定のフォントスタイルまたはタイプフェイス
に制約されていた。これらの制約は検出率を改善するた
めにタイプフェイスの要素を一定に保っていた。近代の
全フォント文字認識システムはこの制約を持たないが、
全てのあり得るパターン変動を適切に取扱うための機構
を持っていない。例えば、いくつかのシステムは文字セ
グメントが接続しない飾り（ｏｒｎａｔｅ）、細いスト
ロークの（ｔｈｉｎ−ｓｔｒｏｋｅ）タイプフェイスス
タイルに関してかなり認識精度が低下する。

【００２１】ＯＣＲソフトウェアエンジンは、一般に、
２つのタイプの文字認識エラーを発生する。第１のタイ
プの文字認識エラーは文字置換えエラー（ｃｈａｒａｃ
ｔｅｒｓｕｂｓｔｉｔｕｔｉｏｎｅｒｒｏｒ）であ
る。これらのタイプのエラーは、ある文字がなんらの文
字も存在しない場合に認識される時、１つの文字が複数
の文字として認識される時、あるいは複数の文字が異な
る組の文字に対して認識される場合に発生する。文字置
換えエラーは前記エラーの形式を表すが、それは特定の
エラータイプにおいて発生されるエラーの種類を特定し
ない。１対２（ｏｎｅ−ｔｏ−ｔｗｏ）文字置換えエラ
ーの例はワード“ｏｌｄ”がＯＣＲエンジンによって
“ｏｌｃｌ”として誤って処理された場合である。ＯＣ
Ｒエンジンは２つの文字（“ｃｌ”）を“ｄ”と誤って
置換えている。同じエラータイプを有するが、異なるエ
ラーの例はワード“ｍａｎ”がＯＣＲエンジンによって
“ｎｉａｎ”と誤って処理された場合である。該ＯＣＲ
エンジンは誤って２つの文字（“ｎｉ”）を文字“ｍ”
と置換えている。

【００２２】

【表２】置換えエラータイプＯＣＲＯＣＲ出力ストリーム −−−−−−−−− −−− −−−−−−−−−− Ａ０Ｂ１ＡａｂｄｅｆＢａｂ（ｃ）ｄｅＡ０Ｂ２ＡａｂｅｆｇＢａｂ（ｃｄ）ｅＡ０Ｂ３ＡａｅｆｇｈＢａ（ｂｃｄ）ｅＡ１Ｂ０Ａａｂ（ｃ）ｄｅＢａｂｄｅｆＡ１Ｂ１Ａａｂ（ｃ）ｄｅＢａｂ（ｘ）ｄｅＡ１Ｂ２Ａａｂ（ｃ）ｄｅＢａｂ（ｘｙ）ｄＡ１Ｂ３Ａａｂ（ｃ）ｄｅＢａｂ（ｘｙｚ）Ａ２Ｂ０Ａａｂ（ｃｄ）ｅＢａｂｅｆｇＡ２Ｂ１Ａａ（ｂｃ）ｄｅＢａ（ｘ）ｄｅｆＡ３Ｂ０Ａａ（ｂｃｄ）ｅＢａｅｆｇｈＡ３Ｂ１Ａａ（ｂｃｄ）ｅＢａ（ｘ）ｅｆｇ

【００２３】上記表２はシステムが２つのソフトウェア
ＯＣＲエンジンＡおよびＢのみを有する場合の１１個の
文字置換えエラーを含む。エラータイプＡｘＢｙはＯＣ
ＲＡエンジンがｘの数の文字を認識しかつＯＣＲＢが
ｙの数の文字を認識する場合のエラーである。例えば、
表２に示されたＡ０Ｂ１はＯＣＲＡがなんらの文字を
も認識しないが、ＯＣＲＢが１つの文字を認識した場
合を表す。したがって、これはゼロ−１（０：１）文字
置換えエラーである。同様に、２−１文字置換えエラー
（Ａ２Ｂ１）はＯＣＲＡエンジンが２つの文字を認識
したが、ＯＣＲＢによって１つの文字のみが認識され
た場合に生じる。表２においては、各ＯＣＲエンジンか
らの出力ストリームは文字ａ，ｂ，ｃ，ｄ，等によって
表されている。表２において括弧で括った文字はＯＣＲ
エンジンＡおよびＢによって異なって認識されたＯＣＲ
出力ストリームの文字を表す。

【００２４】第２のタイプの文字認識エラーは文字属性
エラーであり、これらはＯＣＲエンジンがイタリック、
ボールドフェイス、アンダライン、ポイントサイズ、そ
の他を含む文字の１つまたはそれ以上の属性を誤って認
識するかあるいは認識しない場合に発生する。

【００２５】

【表３】属性エラー正しい文字ＯＣＲ文字 −−−−−−−−−−−−− −−−−−−−−−− −−−−−−−−− イタリック誤りｘ χ（イタリック）イタリックでないと認識 χ（イタリック）ｘボールドフェイス誤りｘｘ（ボールド）ボールフェイスでないと認識ｘ（ボールド）ｘアンダライン誤りｘｘアンダラインなしと認識ｘｘ文字ポイントサイズｘ Χ

【００２６】なお、この表３においてアンダラインを付
した文字ｘは電子出願においてアンダラインを付した文
字が使用できないのでｘと並べて表現している。ま
た、イタリック体およびボールド（太字）の文字はそれ
ぞれ（イタリック）および（ボールド）と表示してい
る。

【００２７】表３は、数多くの異なるタイプの文字属性
エラーの内の７個を示している。表３に示されるよう
に、ＯＣＲエンジンは該ＯＣＲエンジンが“ｘ”がボー
ルドフェイスでないのに拘らず“ｘ（ボールド）”とし
て認識した場合に文字属性エラーを発生する。このタイ
プの文字属性エラーは偽ポジティブ（ｆａｌｓｅｐｏ
ｓｉｔｉｖｅ）状態と称されるが、それはＯＣＲエンジ
ンがある属性をそれが存在しないにも拘らず認識したた
めである。さらに、ＯＣＲエンジンはそれが前記属性を
前記属性が存在するにも拘らず認識しなかった場合に文
字認識エラーを発生する。例えば、“ｘ ”は単に
“ｘ”と認識される。このタイプのエラーは非認識エラ
ー（ｆａｉｌｅｄｒｅｃｏｇｎｉｔｉｏｎｅｒｒｏ
ｒ）と称される。

【００２８】図２に示されるように、ＯＣＲエンジン１
６が文字を処理しかつ認識した後、正しく認識された文
字および誤って認識された文字の双方を含む文字ストリ
ームが光学的文字認識後処理方法部１８に送られる。相
互接続されたソフトウェアモジュールのブロック図とし
て図２に示される、ポストプロセッサ１８はＯＣＲエン
ジン１６によって誤って認識された文字を識別しかつ解
明するための方法である。該ソフトウェアモジュールは
コントローラ２０、同期ヒューリスティックス２２、エ
ラー解明（ｅｒｒｏｒｒｅｓｏｌｕｔｉｏｎ）ヒュー
リスティックス２４および１組の修正された多層パーセ
プトロンニューラルネットワーク２６を具備する。

【００２９】図２に示されるように、ＡＳＣＩＩ文字Ｏ
ＣＲエンジン出力の各々はポストプロセッサ１８に送ら
れかつコントローラ２０によって受信される。ポストプ
ロセッサ１８によって行なわれる総合的な方法動作は図
３に示されている。簡単に言えば、コントローラ２０は
ステップ３０においてＯＣＲエンジン出力を受信しかつ
ステップ３２において該ＯＣＲエンジン出力の各々を２
つの別個のリスト、文字リストおよび文字属性リストに
変換する。コントローラ２０は次にステップ３４におい
て前記文字リストを同期ヒューリスティックスを使用し
て互いに同期し互いに組合わされた文字属性リストを形
成する。もし文字またはそれらの対応する属性のなんら
かの不整合がステップ３６の試験により前記組合わされ
た文字属性リストにおいて発生すれば、ＯＣＲポストプ
ロセッサ１８はステップ３８においてヒューリスティッ
クスおよびニューラルネットワークを使用してそれら不
整合を解明する（ｒｅｓｏｌｖｅ）。いったん該不整合
が解明されると、コントローラ２０はステップ４０にお
いて前記整合および不整合の結果を一緒に単一の文字ス
トリームに併合しかつステップ４２において併合された
結果を標準の文字出力ストリームに出力する。図３に示
されたこれらのステップの各々は以下により詳細に説明
する。

【００３０】文字リストは文字それら自体のみを含む。
文字は、例えば、アッパーケースおよびロウアーケース
文字、数字桁（０−９）および“＄”，“％”および
“！”のような特別のシンボルを含む。文字属性リスト
はワードの文字を含みかつ、例えば、いずれかの文字が
イタリック体であるか、ボールドフェイスであるか、あ
るいはアンダラインされているか否かのような、文字の
特別の属性の各々を含む。大文字使用については属性は
なく、それは前記ロウアーケース文字からの大文字に対
する別個のＡＳＣＩＩ値があるからである。文字属性リ
ストはまたＯＣＲエンジンが文字を認識する上でどの位
確かであるかについての不確定性（ｕｎｃｅｒｔａｉｎ
ｔｙ）情報を含む。

【００３１】コントローラ２０がステップ３０において
ＯＣＲエンジン出力を受信した後、該コントローラ２０
はステップ３２において前記出力の各々を２つのリス
ト、文字リストおよび文字属性リストに変換する。当業
者はＯＣＲエンジンマニュアルに記載されたフォーマッ
トに基づきＡＳＣＩＩ文字ストリームを読取りかつ該Ｏ
ＣＲ出力を文字リストおよび文字属性リストに変換でき
る。

【００３２】もし、例えば、２つのＯＣＲエンジン、Ａ
およびＢ、のみが存在すれば、コントローラ２０はＯＣ
ＲＡおよびＯＣＲＢに対して別個の文字リストを作
成する。以下に示すのはＯＣＲＡおよびＯＣＲＢか
ら、フレーズ“Ｔｈｉｓｏｌｄｍａｎ”から、作成
され得る文字リストの例であり、この場合φはブランク
スペースを表す。ＯＣＲＡ＝［Ｔｈｉｓφｏｌｄφｒｒｉａｎ］ＯＣＲＢ＝［Ｔｈｉｓφｏｌｃｌφｍａｎ］文字リスト

【００３３】明らかに、ＯＣＲＡもＯＣＲＢも前記
フレーズの各ワードに関して完全に正しくない。ＯＣＲ
ＡおよびＢによって実行される文字認識アルゴリズム
の各々はある文字を認識する上で別個の誤りを生じてい
る。ＯＣＲＡは文字“ｍ”を“ｒｒｉ”と誤って認識
し、一方ＯＣＲＢは文字“ｄ”を“ｃｌ”と誤って認
識している。

【００３４】フレーズ“Ｔｈｉｓｏｌｄｍａｎ”に
対する文字属性リストの例は次に示され、この場合、φ
はブランクスペースと等価であり、かつ前記フレーズに
おいてワード“ｏｌｄ”のみが太字になっているものと
する。Ｔｈｉｓ φ ｏｌｄ φ ｒｒｉａｎ <１><１><１><１><１><１><１><１><１><１><１><１><１><１> <２><２><２><２><２><２><２><２><２><２><２><２><２><２> ＯＣＲＡ文字属性リストＴｈｉｓ φ ｏｌｃｌ φ ｍａｎ <１><１><１><１><１><１><１><１><１><１><１><１><１> <２><２><２><２><２><２><２><２><２><２><２><２><２> ＯＣＲＢ文字属性リスト

【００３５】上の文字属性リストにおいて、＜１＞およ
び＜２＞は前記属性の内の１つがオンであるかあるいは
オフであるかを表す。上に示された例についていえば、
もし属性＜１＞が文字がアンダラインされているか否か
を表せば、前記フレーズに対する＜１＞の全てはオフに
なる。同様に、もし属性＜２＞が文字が太字であるか否
かを表すものとすれば、前記ワード“Ｔｈｉｓ”および
“ｍａｎ”における各文字に対する前記＜２＞はオフで
あり、一方“ｏｌｄ（太字）”の各文字に対する＜２＞
はオンとなる。上に示されたリストは文字属性リストの
例として与えられているが、各文字に対して２つより多
くの属性がある。

【００３６】前記文字リストに示したように、文字置換
えエラーが発生すれば、前記ＯＣＲＡおよびＢの文字属
性リストに示されるように各々の誤った文字にある属性
が割当てられる。前に示したように、前記文字“ｄ”と
置換えられた文字“ｃｌ”の各々は前記文字属性リスト
において対応する属性を有している。誤った文字に対し
ても、前記属性情報は不整合を解明しかつ正しい文字お
よびそれらの対応する属性を以下により詳細に説明する
ように決定する上で重要である。

【００３７】いったんＯＣＲ出力がステップ３２におい
て文字および文字属性リストに変換されると、変換され
た出力文字リストはステップ３４において同期されＯＣ
Ｒエンジンによって発生したなんらかの文字認識エラー
を検出する。前記出力を同期することは１つのＯＣＲエ
ンジンの出力からの各文字が他のＯＣＲエンジンからの
出力ストリームの同様の文字に整合されるよう試みてい
ることを意味する。したがって、文字認識エラーはＯＣ
Ｒエンジンの出力間の不一致、例えば、文字、大きさ、
属性、および含まれる文字の数の整合または不整合を識
別しかつ対応するＯＣＲエンジンから直接与えられる文
字不確定性レポートをアクノレッジすることにより決定
される。文字不確定性レポートはＯＣＲエンジンの出力
から受信されたＡＳＣＩＩ文字ストリームにおける埋め
こまれたマークアップの一部である。エラーに含まれる
文字の数は主たる関心事であるが、それはＯＣＲエンジ
ンは文字を完全に喪失し、幻の（ｐｈａｎｔｏｍ）文字
を発生し、あるいは他の数の文字に対して１つの文字の
数を誤ることがあるからである。

【００３８】ステップ３４においては、コントローラ２
０はＯＣＲエンジンの出力を同期するためにおよびＯＣ
Ｒエンジン出力のエラーをエラーのないものから分離す
るために同期ヒューリスティックス２２を使用する。同
期ヒューリスティックス２２は１つまたそれ以上のＯＣ
Ｒエンジン出力をパターン整合するためのルールであ
る。ステップ３４においてどの様にして同期または文字
整合が行なわれるかについての擬似符号が次に与えられ
る。

【００３９】文書の１ページの各ラインに対して、ＯＣ
ＲＡの文字リストまたはＯＣＲＢの文字リストが空
になるまで、もしＯＣＲＡの文字リストからの文字が
ＯＣＲＢの文字リストからの文字と等しければ、ＯＣ
ＲＡおよびＯＣＲＢの双方の文字属性リストからの
対応する文字および属性情報を併合し、さもなければ、
同期ヒューリスティックスを使用して同期不整合のタイ
プを識別する。

【００４０】同期プロセス前記擬似符号からわかるように、ステップ３４における
同期はラインごとのベースで実行される。もし前記ＯＣ
ＲＡの文字リストまたは文字属性リストが空であれば
コントローラ２０はそれがラインの終わりであることを
認識する。したがって、コントローラ２０はメインルー
プに戻りかつ同期はいずれかの残りのラインに継続す
る。

【００４１】はじめに、コントローラ２０は異なるＯＣ
Ｒ出力からの文字を同期または整合するために前記文字
リストを使用する。もしＯＣＲＡおよびＯＣＲＢの
出力の双方かの現在の文字が整合すれば、それらの文字
は同期している。前記出力を同期するための重要なヒュ
ーリスティックスの１つは一致する前記ＯＣＲ出力の各
々における文字の最も長い連続するリストが同期したテ
キストを表すことである。上の例の“Ｔｈｉｓｏｌｄ
ｍａｎ（ｏｌｄのみ太字）”については、コントロー
ラ２０はＯＣＲＡおよびＢの出力を整合する文字の最
も長い連続するリストにしたがって整合する。したがっ
て、“Ｔｈｉｓφｏｌ”における文字は最初に同期す
る。

【００４２】もし文字が整合しなければ、コントローラ
２０はどの様なタイプの文字置換えエラーが発生したか
を決定しなければならない。文字認識エラーを突き止め
ることは４つの要因から複雑化する。第１に、エラーに
おける連続する文字の数の不確定性のために誤った文字
を突き止めることがより困難になる。例えば、もし“ｏ
ｌｄ”が“ｄｃｌ”としてあるいは“ｏｌｃｌ”として
ＯＣＲエンジンによって認識されれば、コントローラ２
０は“ｄｃｌ”が２つの連続する文字置換えエラーを有
し、一方“ｏｌｃｌ”が１つの文字置換えエラーのみを
有することを決定できなければならない。

【００４３】文字認識エラーの発見を複雑化している第
２の要因は連続する正しい文字の数が正しくないＯＣＲ
文字によって表されることである。例えば、文字“ｒ
ｎ”はＯＣＲエンジンによって“ｍ”または“ｒｒｉ”
と認識されることがある。第３に、競合するＯＣＲエン
ジンは文字の数に関して異なるエラーを生じる可能性が
ある。例えば、文字“ｍ”は１つのＯＣＲエンジンによ
って“ｒｒｉ”と認識され、一方第２のＯＣＲエンジン
は“ｍ”を“ｒｎ”と認識する。

【００４４】ＯＣＲ出力を同期するのを複雑化している
第４の要因は問題のエラーが前記テキストの他のエラー
によって密に（ｃｌｏｓｅｌｙ）囲まれることがあり得
ることである。例えばワード“ｍａｎ”は“ｒｒｉｏ
ｎ”または“ｒｎａｒｉ”と認識され得る。いずれの文
字も最初の誤った文字“ｒ”を除き整合しないことを注
目すべきである。

【００４５】図３のステップ３４においては、異なるＯ
ＣＲエンジンの出力を同期するためにコントローラ２０
によって行なわれるパターン整合は図２に示されるよう
な同期ヒューリスティックス２２使用することによって
行なわれる。同期ヒューリスティックス２２はＰｒｏｌ
ｏｇによってプログラムされるが、任意の他のコンピュ
ータ言語も同様に使用できる。文字の不整合が検出され
た場合、コントローラ２０は各ＯＣＲ出力において問題
のある単数または複数の文字の両側で文字を比較するた
めにアッパーケースおよびロウアーケース情報を含む文
字ＩＤ情報のみを使用する。したがって、コントローラ
２０は同期ヒューリスティックス２２を使用して各ライ
ンの文字を左から右へと処理し、同期を維持するために
必要なだけ多くの文字をルックアヘッド（ｌｏｏｋｉｎ
ｇａｈｅａｄ）する。さらに、コントローラ２０は同
期ヒューリスティックス２２を使用してエラーが検出さ
れた場合に該エラーを解明または解消し、それによって
周囲の文字が常に左側に解明または解消されかつ少なく
とも部分的に右側に一致する文字と整合するようにす
る。

【００４６】前記同期ヒューリステックス２２はＯＣＲ
エンジン出力をルックアヘッド文字の数および文字置換
え比率を変えることによりパターンマッチングする。コ
ントローラ２０によって使用される同期ヒューリスティ
ックス２２は他の文字の不整合よりもより頻繁に発生す
る文字の不整合を解明または解消することが統計的にわ
かっている順序で適用される。

【００４７】ルックアヘッド文字の数は前記文字置換え
比率によって設定される疑わしい文字の数を過ぎて（ｐ
ａｓｔ）コントローラ２０によって調べられる文字リス
トにおける文字の数を意味する。４つのルックアヘッド
文字が同期ルール２２において初期的には好ましい。し
かしながら、ルックアヘッド文字の数は最も効率的な同
期を生成するものにしたがって設定できる。例えば、同
期ヒューリスティックス２４は４つのルックアヘッド文
字が整合するか否かを判定するために前記文字リストの
各々における単一の疑わしい文字を過ぎて４つの文字を
調べることができる。もしコントローラ２０が前記第１
のヒューリスティックスを使用して４つのルックアヘッ
ド文字が単一の文字の後の文字リストの各々において一
致するものと判定すれば、コントローラ２０は文字の不
整合を検出したことになる。この例の文字の不整合は一
致しない文字リストの各々における単一の文字である。

【００４８】前記文字置換え比率はコントローラ２０が
ＯＣＲ出力の文字リスト内でどの様なタイプの文字置換
えエラーが発生したかを決定するのを助ける。前記文字
置換え比率は各々の文字リストにおいてどれだけ多くの
文字を無視するかを指示し、それによってルックアヘッ
ド文字の数が比較できるようにする。好ましい実施例に
おいては、コントローラ２０は次のような文字置換え比
率の組合せを試みるが、これは必ずしもこの順序である
必要はない。すなわち、１：１，０：１，１：０，２：
１，１：２，３：２，２：３，１：３，４：３，３：
４，４：２，２：４，４：１，１：４である。この発明
はこれらの特定の文字置換え比率に制限されるものでは
なく、例えば、７：５または３：５の文字置換え比率の
ような、比率でより多くの文字を使用することを含む。

【００４９】前記同期ヒューリスティックス２２はコン
トローラ２０がどの文字が不整合であるかを決定するの
を助けるために所定の順序で前記文字置換え比率および
ルックアヘッド文字の数を変更する。この不整合はＯＣ
Ｒエンジンによって生じた誤りを識別する。同期ヒュー
リスティックス２２に対する重要事項の１つはそれらが
コントローラ２０が間違って識別された文字の数を最小
にするよりはむしろ不整合を囲む整合の数を最大にする
のを助けることである。この技術は単に整合しない文字
を対にするよう試みるよりは高速で整合しない文字の同
期を解明するのを助ける。

【００５０】以下に示すのはコントローラ２０がどの様
にして文字置換え比率およびルックアヘッド文字の数を
セットするヒューリスティックスに基づきＯＣＲエンジ
ン出力ＡおよびＢを同期させるかを示すための例であ
る。この例では、もしヒューリスティックスが前記文字
置換え比率を１：２の比率にセットしかつ前記ルックア
ヘッド文字の数を４にセットすれば、コントローラ２０
はＯＣＲＡの出力文字リストから１つの文字を無視
し、一方ＯＣＲＢの出力文字リストから２つの文字を
無視する。コントローラ２０は次にＯＣＲＡの文字リ
ストからの文字２−５をＯＣＲＢの文字リストからの
文字３−６に整合するよう試みる。もしルックアヘッド
文字の数が特定の文字置換え組合せに対して一致すれ
ば、コントローラ２０はどの文字が整合しておらずかつ
不整合の文字の比率を知ることになる。したがって、Ｏ
ＣＲＡの文字リストの文字２−５がＯＣＲＢ文字リ
ストの文字３−６と整合すれば、コントローラは１対２
の文字置換えエラーが発生したことを知りかつＯＣＲエ
ンジンＡの文字リストの文字１およびＯＣＲＢの文
字リストの文字１および２がその不整合に関与している
ことを知る。

【００５１】上に示した“Ｔｈｉｓｏｌｄｍａｎ”
（ただし文字ｏｌｄは太字）およびＯＣＲＡおよびＢ
からの付随する文字リストに対しては、コントローラ２
０は４，３または２のルックアヘッド文字を整合するこ
とができない。その理由はＯＣＲＡからの文字“ｒｒ
ｉ”が決してＯＣＲＢからの“ｍ”と整合しないため
である。コントローラ２０は前記スペース（φ／φ）を
前記同期ヒューリスティックス２２の１つによってセッ
トされる１つのルックアヘッド文字および１：２の文字
置換え比率を使用してのみ整合することができる。した
がって、コントローラ２０は１：２の文字置換えエラー
が発生したことを決定できる。

【００５２】前記整合したスペースが結果リストに記憶
された後、コントローラ２０は残りの文字“ｒｒｉａ
ｎ”および“ｍａｎ”に対してどの文字置換えエラーが
生じたかを決定する必要がある。同期ルール２２を使用
して、コントローラは文字置換え比率が３：１である場
合に結局２つのルックアヘッド文字（“ａｎ”）を整合
することになる。したがって、コントローラ２０は３対
１の文字置換えエラーが生じたことを知ることになる。

【００５３】いったん全ての同期エラーが解明される
と、ＯＣＲ出力の同期が完了する。ステップ３４におけ
る同期の結果はどの様にしてＯＣＲ文字が整合されるか
を詳細に示す組合わされた文字属性リストである。例え
ば、次のリストは上に示した文字リストの同期の結果で
ある。すなわち、（Ｔ／Ｔ），（ｈ／ｈ），（ｉ／
ｉ），（ｓ／ｓ），（φ／φ），（０／０），（ｌ／
ｌ），（ｄ／ｃｌ），（φ／φ），（ｒｒｉ／ｍ），
（ａ／ａ），（ｎ／ｎ）である。このリストは属性情報
に加えて前記ＯＣＲエンジンの各々が文字（単数または
複数）を認識する上でどの位確かであるかを含む。

【００５４】図３によれば、いったんＯＣＲエンジンの
出力がステップ３４において同期すると、もし不整合が
なければあるいはＯＣＲ出力の各ラインにおいて全ての
文字が一致しかつそれらの対応する属性情報が一致すれ
ば、ステップ３６のコントローラ２０はＯＣＲエンジン
出力間のなんらかの衝突（ｃｏｎｆｌｉｃｔｓ）を解明
する必要はない。したがって、ステップ３４における同
期から生じる文字属性リストは正しい文字およびそれら
の属性を含む。これに対し、もし、前にＯＣＲＡおよび
Ｂについての例で示したように、ＯＣＲ出力の間になん
らかの不整合が存在することがステップ３６で検出され
れば、本光学的文字認識方法はステップ３８においてＯ
ＣＲエンジンの各々によって処理されたものから何が正
しい文字であるかを決定するために前記不整合を解明し
なければならない。前記不整合を解明するために光学的
文字認識によって使用される方法は図４のフローチャー
トに示されている。

【００５５】次に図４に示されるステップの簡単な説明
を行なう。第１に、コントローラ２０はステップ１５０
において文字認識エラー、文字置換えエラーまたは文字
−属性衝突のタイプを識別し、かつステップ１５２にお
いて前記組合わされた文字−属性リスト内のエラーの位
置を識別する。この情報に基づき、コントローラ２０は
ステップ１５４において始めに文字認識エラーを解明す
るよう試みるため解明ヒューリスティックス２４を適用
する。もし前記エラーがステップ１５６において１つま
たはそれ以上の解明ヒューリスティックス２４によって
解明されなければ、エラー置換えタイプに対応するニュ
ーラルネットワークが選択されかつステップ１５８にお
いて前記文字または属性不一致を解明するのを助ける上
で適用される。いったん、ニューラルネットワークが何
が適切な文字であるか（すなわち、どのＯＣＲエンジン
が最も正しい可能性があるか）を出力すると、コントロ
ーラ２０はステップ１６０において１つまたはそれ以上
の解明ヒューリスティックス２４を使用しどの文字がニ
ューラルネットワークの出力に基いているかを決定す
る。前記ステップの各々についてのより詳細な説明は以
下に行なう。

【００５６】いったんステップ３４において出力が同期
すると、コントローラ２０はステップ１５０において発
生した文字認識エラーのタイプを認識したことになる。
コントローラ２０は文字比率の不整合、属性情報、およ
びエラーの確かさに基づきエラータイプを分類する。文
字置換え比率の不整合はコントローラ２０によって解明
される不整合に含まれる文字の数を表す。文字の不整合
は作成された文字−属性の文字のペアリングから容易に
決定できる、１：２のエラーは２：１のエラーと異なる
から、文字比率の不整合における順序が重要である。こ
れは、異なるＯＣＲエンジンは独自の文字認識アルゴリ
ズムおよび特性を持っており、これらはヒューリスティ
ックまたはニューラルネットワークにおいて考慮するこ
とができるからである。例えば、ＯＣＲエンジンＡはし
ばしば文字“ｄ”に対して“ｃｌ”を出力するかもしれ
ない。したがって、本光学的文字認識方法はヒューリス
ティックスまたはニューラルネットワークを使用してこ
の誤った文字置換えを正しかつ“ｃｌ”を正しい文字
“ｄ”で置換えることができる。

【００５７】前記エラー属性情報は文字ＩＤおよびアン
ダライン、イタリック体、ボールド、サイズ、その他を
含む属性情報によって特徴付けられる。前記エラーの確
かさは直接各々のＯＣＲ出力、標準のＡＳＣＩＩ文字ス
トリームにおける埋めこまれたマークアップの部分、か
ら得られ、これはＯＣＲレポートの総合的な信用の程度
を含む。前記信用のレベルは、コントラスト、明瞭さ、
フォント、その他のような、走査されたページの特性、
および各々の認識を行なうために各ＯＣＲエンジンによ
って使用される努力の程度（ｌｅｖｅｌ−ｏｆ−ｅｆｆ
ｏｒｔ）に基ずく。前記信用係数（ｃｏｎｆｉｄｅｎｃ
ｅｆａｃｔｏｒ）はまた個々の文字の程度および形状
そして文字が正しく綴られたワードの一部として認識さ
れるか否かに基ずく。

【００５８】いったんステップ１５２においてエラータ
イプが識別されると、ステップ１５４においてコントロ
ーラ２０は適切な解明方法が何であるかを決定するため
に１つまたはそれ以上の解明ヒューリスティックス２４
（ｒｅｓｏｌｕｓｉｏｎｈｅｕｒｉｓｔｉｃｓ）を使
用する。ヒューリスティックスはＯＣＲエンジンによっ
て示される行為パターン（ｂｅｈａｖｉｏｒｐａｔｔ
ｅｒｎｓ）に関係する領域特定の経験的方法（ｒｕｌｅ
ｓ−ｏｆ−ｔｈｕｍｂ）である。いくつかのエラーはヒ
ューリスティックスによって容易に解明されるが、より
困難かつ複雑なエラーはニューラルネットワークを使用
して解明される。もしヒューリスティックスの手法のみ
が使用されれば、実行する上で効率が悪くかつ開発に非
常にコストがかかる。しかしながら、ヒューリスティッ
クスによって解明される各々のエラータイプはエラーを
解明するためにニューラルネットワークを使用する必要
性を低減し、ニューラルネットワークの学習コストを低
減し、そしてニューラルネットワークによって解明され
るべき残りのエラーの精度を増大させる。したがって、
２つの解明方法、すなわちヒューリスティックスおよび
ニューラルネットワーク、の間のバランスが開発コスト
を低減しかつ実行する上での効率および精度を改善する
のに重要である。２つの解明方法の間のバランスは統計
を使用して決定される。前記解明ヒューリスティックス
２４はＰｒｏｌｏｇによってプログラムされるが、他の
プログラム言語も使用できる。

【００５９】ヒューリスティックスおよびニューラルネ
ットワークは各々のＯＣＲエンジンからの最善の文字認
識機能に依存する。言い換えれば、ヒューリスティック
スおよびニューラルネットワークによって行なわれる分
析はどのＯＣＲエンジンがある属性情報を有するある文
字を認識する上で最も信頼性があるかを観察することに
基いている。ＯＣＲエンジンによって示される行為パタ
ーンは数多くの異なる文字環境においてＯＣＲエンジン
を試験することにより知られる。試験はＯＣＲエンジン
に知られた文字環境を入力しかつどの様な結果が生成さ
れるかを評価することにより実行される。他方の文字環
境に対して一方の文字環境でそのＯＣＲエンジンが良好
に機能するか否かについての結果は始めにオペレータに
よって決定され、その結果は経験的方法のヒューリステ
ィックまたはニューラルネットワークに導入される。し
たがって、前記ＯＣＲエンジンはある文字環境において
どのＯＣＲエンジンが最も良く動作するかについての評
価に基づき解明ヒューリスティックス２４およびニュー
ラルネットワーク２６を使用することにより最適のポス
トプロセッサ１８へと組合わされる。

【００６０】

【表４】ＯＣＲＡＯＣＲＢ同期部出力 −−−−− −−−−− −−−−−−−−−−−− ａａａａａ？ａ？ａｂ？ニューラルネットワークａｂニューラルネットワークａ？ａ？ａ？ａ？ｂ？ニューラルネットワークａ？ｂニューラルネットワークｂ？ｂ？ｂ？ｂ？ｃ？ニューラルネットワークｂ？ｂｂ？ｂ？ｃニューラルネットワークｂｂｂｂｃニューラルネットワーク

【００６１】表４は文字認識エラーを解明する上でコン
トローラ２０によって使用されるヒューリスティックス
のいくつかを示す。表４において、文字“ａ”は正しい
文字を表し、一方文字“ｂ”および“ｃ”は正しくない
文字を表す。疑問符（“？”）は不確定文字のマーカあ
るいはコントローラ２０がある特定の文字に対する後処
理の結果が実際に正しいことが１００パーセント確かで
はないことを示す。もし前記確かさがあるしきい値より
低ければ、コンピュータ１４は図１に示される表示装置
１５に表示されたラスタイメージの前記不確かな文字を
ハイライトで示す。オペレータはもしそれらが間違って
いればコンピュータ１４に変更を入力することによりハ
イライトで表された文字のいずれかを変更することがで
きる。この方法は最も重要なことにオペレータが人手に
より誤った文字を変更する必要のある回数を低減する。

【００６２】前記表４において、ＯＣＲＡおよびＯＣ
ＲＢの双方が文字“ａ”に対して“ａ”を認識した場
合には、ヒューリスティックはコントローラが両方のＯ
ＣＲエンジンが同じ文字に一致した場合に、その出力は
整合する文字であることを理解することを助ける。した
がって、このヒューリスティックはＯＣＲＡおよびＢ
が正しい文字“ａ”を認識した場合のみでなくＯＣＲ
ＡおよびＢの双方が正しくない文字“ｂ”を認識した場
合にも使用される。しかしながら、この結果はＯＣＲエ
ンジンが文字を認識する確かさのような他の情報に依存
する。表４からの他のヒューリスティックは両方の文字
が同じであるが前記ＯＣＲの一方または双方が前記文字
について不確かである場合に、その不確かさを有する文
字をコントローラ２０に出力することである。このヒュ
ーリスティックスはＯＣＲＡがそれが“ａ”を見るこ
とは確かであるがＯＣＲＢはそれが“ａ”を見ること
が完全に確かではない（“ａ？”）場合、あるいは両方
のＯＣＲＡおよびＢがそれらが“ａ”を見るか否かが
完全には確かでない（“ａ？”）である場合の解明を行
なう。

【００６３】表４に与えられたもの以外のヒューリステ
ィックスがある。例えば、もしあるワード内の単一の文
字がそのワードの残りによって共有されない属性を持っ
ていれば、前記単一の属性はそのワードの他の文字の属
性を取り入れる可能性が最も高いことになる。例えば、
もし１つの文字がアンダラインされていないが、そのワ
ードの残りがアンダラインされていれば、ヒューリステ
ィックはもしＯＣＲエンジンが文字のアンダラインを欠
如したものと知られればその単一の文字にアンダライン
をすることになる。同様に、もしあるワードがイタリッ
ク体であるが、１つの文字がイタリック体でなければ、
ヒューリスティックはそのワードの残りに整合するため
にその単一の文字をイタリック体にすることができる。
他のヒューリスティックはピリオド（“．”）および２
つのスペースに続くロウアーケース文字をその対応する
アッパーケース文字に変更するが、それはその文字が文
書の始めでありかつ通常アッパーケースの文字である可
能性が高いからである。

【００６４】使用されるヒューリスティックスは英語、
言語学上の原理、機械的な文章構造および文書の形式の
一般的なルールを観察しかつ理解することから得られる
ルールである。本後処理方法はこれらのルールを特定の
属性を有するある文字を認識するために他のＯＣＲエン
ジンより信頼できるＯＣＲエンジンのためのヒューリス
ティックスに導入する。しかしながら、もしエラーがス
テップ１５６において前記ヒューリスティックスのいず
れかを使用することにより解明できなければ、ステップ
１５８において文字置換えエラーまたは文字−属性エラ
ーが図５に示されるニューラルネットワークを使用して
解明される。表４に示されるように、例えば、“ａ”お
よび“ｂ？”のような、あるタイプのエラーは自動的に
ヒューリスティックにプログラムされ１つまたはそれ以
上のヒューリスティックスがどのＯＣＲエンジンの出力
がより信頼できるかを解明できないためニューラルネッ
トワークを使用する必要があることを知る。

【００６５】ニューラルネットワークは頭脳および神経
システムのトポロジー的なおよび処理特性の後にモデル
化された情報処理技術である。ニューラルネットワーク
はシナプスの重みによって相互接続された、ニューロン
と呼ばれる、単純な計算要素を具備する。現在のニュー
ラルネットワークのモデルを特徴付けるために使用され
る３つの際立つ特徴は（ｉ）ニューロンモデル、（ｉ
ｉ）ネットワークのトポロジー、および（ｉｉｉ）学習
ルールと呼ばれる適応のためのメカニズムである。この
発明において使用されるニューラルネットワークはＢａ
ｃｋｗａｒｄＥｒｒｏｒＰｒｏｐａｇａｔｉｏｎ
（ＢＥＰ）と称される学習ルールによってトレーニング
された、修正多層パーセプトロン（ｍＭＬＰ）である。
前記ｍＭＬＰは以下に説明するニューラルネットワーク
のモデルでありかつ前記ＢＥＰは良く知られたニューラ
ルネットワークのトレーニング技術である。

【００６６】ＢＥＰを使用したｍＭＬＰの重要な特徴は
その特定の問題領域の学習および適応の能力である。こ
の発明においては、この特徴は、例えば、図５に示され
る直交ＯＣＲエラー（ｏｒｔｈｏｇｏｎａｌＯＣＲ
ｅｒｒｏｒｓ）の統計的モデルを構築する目的で活用さ
れる。図５は他のＯＣＲエンジンＢとともに使用された
場合のかつ認識精度に影響を与える１３の要素が特定の
値に調整された場合のＯＣＲエンジンＡの認識精度の統
計的モデルである。

【００６７】図５に示される統計的モデルは表１の１３
の要素から構成されている。１５次元の概略的な構成ス
ペース、£、が構成でき、そこでは各要素が該スペース
の１つの次元である。ＯＣＲＡによって出力される全
ての文字の組合せの集合およびＯＣＲＢによって出力
される全ての文字の組合せの集合は前記£の最終的な２
つの次元である。例えば、ＯＣＲＡの出力＝“ｄ”、
ＯＣＲＢの出力＝“ｃｌ”、タイプフェース＝Ｈｅｌ
ｖｅｔｉｃａ、ラインサイズ＝ボールド、ポイントサイ
ズ＝１４その他のような、特定の要素の集合は、例え
ば、前記£におけるポイントとして表される。

【００６８】前記£のいくつかの領域においては、ＯＣ
Ｒは高い精度で動作するであろう。しかしながら、他の
領域においては、エラー率が高くなる。この観察は前記
£における確率面（ｐｒｏｂａｂｉｌｉｔｙｓｕｒｆ
ａｃｅ）として定量化される。この確率面、Ｓ_Ａおよび
Ｓ_Ｂ、は、それぞれ、ＯＣＲＡおよびＯＣＲＢの認
識精度に影響を与える１３の要素の関数である。ＯＣＲ
Ａが高い精度で動作する前記£の領域では、Ｓ_Ａ＝１
である。高いエラー率が生じる領域では、Ｓ_Ａ＝０であ
る。図５に示される、この確率面Ｓ_ＡはＯＣＲＡの認
識精度の統計的モデルである。それは特定の条件の集合
が与えられればＯＣＲＡに対する正しさの確率を符号
化する。図５に示される面は、他の１３の次元を明示さ
れないが特定の値に一定に保持し、３次元のプロットで
構成されている。

【００６９】Ｓ_Ａ≠Ｓ_Ｂである£の領域は「エラー直交
（ｅｒｒｏｒ−ｏｔｈｏｇｏｎａｌ）」領域と称され
る。ＯＣＲエンジンはそれらが組合わされて大きなエラ
ー直交領域を生じる場合に「直交」している。種々の実
験を行なった後、いくつかのＯＣＲエラー直交が観察さ
れたが、観察のみによっては２つの特定のＯＣＲエンジ
ンに対するエラー直交領域の小さなグループ（ｆａｃｔ
ｉｏｎ）以上に正確に識別することは不可能であった。
エラー直交領域を正確に識別するためには、確率面、Ｓ
_ＡおよびＳ_Ｂの学習の自動化された方法が考案されなけ
ればならないことが判明した。ニューラルネットワーク
はそのような方法である。

【００７０】図２におけるニューラルネットワーク２６
は複数のニューラルネットワークモジュールのシステム
からなる。前記表１に示された文字置換えの各タイプに
対して別個のニューラルネットワークが使用される。該
ニューラルネットワークモジュールの各々は図６に示さ
れる形式を有する。図６に示されるニューラルネットワ
ークのトポロジーはニューロンが相互接続される方法を
規定する。この発明において使用される修正多層パーセ
プトロンニューラルネットワークは一緒に縦続接続され
たニューロンの層によって特徴付けられるフィードフォ
ワードトポロジーを使用する。

【００７１】前記ニューラルネットワークの各々は特定
のエラータイプの統計的モデルを学習するためにトレー
ニングされる。例えば、１つのニューラルネットワーク
はＯＣＲエンジンＡおよびＢの間のＡ１Ｂ２の不整合を
解明するための専用のものとされる。いったんトレーニ
ングされると、各ニューラルネットワークは、入力とし
て、前記表１に示されている文字認識精度に影響を与え
る種々の要素を受入れかつ各々のＯＣＲエンジンからの
出力文字を受入れ、問題の文字が何であるべきかについ
ての最善の推定を生成する。

【００７２】図６に示されるように、各々の影を付けた
円７０，７２，７４，７６はニューロンである。各ニュ
ーロンはその入力の封じ込められかつ重み付けされた和
を計算する。入力パターンは入力層ニューロン７０か
ら、第１および第２の隠れた層すなわちヒドン層（ｈｉ
ｄｄｅｎ−ｌａｙｅｒ）ニューロン７２，７４を通り出
力層ニューロン７６に流れる。特定の層におけるニュー
ロンはそれらの出力を引続く層のニューロンにのみ受け
渡す。第１の層のニュウーロンは入力層ニューロン７０
と称され、１つの入力を有し、なんらの接続重み付けを
持たずかつなんらの記号論理学的非線型アクティベーシ
ョン機能を持たない。各入力層ニューロンはそのＯＣＲ
エンジンのクラス内のヒドン層における各ニューロンに
接続する。ニューラルネットワークへの入力はＯＣＲエ
ンジンの出力から構成される。ニューラルネットワーク
の出力は最もあり得る文字およびボールドフェイス、イ
タリック体、アンダライン、その他の属性情報を示す変
数である。

【００７３】図６に示される前記修正された多層パーセ
プトロン（ｍＭＬＰ）ニューラルネットワークはニュー
ラルネットワークの分野では広く知られかつ使用されて
いる一般的な多層パーセプトロン（ＭＬＰ）構造に基い
ている。ｍＭＬＰのトポロジーは商業的にともに入手可
能なＧｅｎｅｓｉｓ^ＴＭまたはＰｌａＮｅｔ^ＴＭを使用
して構築できる。前記ｍＭＬＰ構造はニューラルネット
ワークが学習すべき統計的モデルに関する多量の先見的
な（ａｐｒｉｏｒｉ）知識を使用して設計された。ニ
ューラルネットワークに対する修正は入力層ニューロン
および第１のヒドン層ニューロンの間の両方のまばらな
ローカル接続を使用する接続機構の形で行なわれた。多
層パーセプトロンニューラルネットワークのさらに他の
修正は前記第１のヒドン層ニューロンと出力層ニューロ
ンとの間のショートカット接続を作成することであっ
た。これらの修正は入力文字と対応する属性情報との間
に構造的な関係を持たせるために行なわれた。例えば、
ＯＣＲＡの入力層ニューロンはＯＣＲＢの入力層ニ
ューロンに接続されていない、この接続方法の効果は２
つの独立の内部表現が形成されることである。各表現は
ＯＣＲエンジンＯＣＲＡまたはＯＣＲＢの内の１つの
入力属性情報およびそれらの共通の入力属性情報に対す
る関係に対応する。これは重要な可変関係を強化し、そ
れによって第２のヒドン層に形成された総合的な内部表
現が正確に前記モデルを表現するようにする。

【００７４】図７は、前記表１に示された文字置き換え
エラーに対するニューラルネットワークの１つのブロッ
ク図である。図７に示されたニューラルネットワークは
Ａ１Ｂ２のために使用される。入力層は文字およびその
対応する属性を含むＯＣＲＡエンジンからの出力を受け
る。Ａ１Ｂ２ニューラルネットワークはまたＯＣＲＢか
ら２つの文字およびそれらの属性情報を受けとる。上の
例については、入力層ＯＣＲＡは文字“ｄ”を受けと
り、一方入力層ＯＣＲＢは文字“ｃ”および“ｌ”を
受けとる。前記入力層の各々はまた受けとった文字に対
する対応する属性情報を受けとる。さらに、共通の情報
がＡ１Ｂ２入力層によって受信される。この情報はＯＣ
ＲＡおよびＯＣＲＢの全てのニューロンに接続され
る。この情報に基づき、ニューラルネットワークは正し
い文字（単数または複数）がＯＣＲＡからの文字
“ｄ”であるかあるいはＯＣＲＢからの文字“ｃ”お
よび“ｌ”であるかを認識するためにあらかじめトレー
ニングされる。

【００７５】図７に示されるように、ニューラルネット
ワークの出力は前記ＯＣＲエンジンの内のどれがより信
頼できるかを示す。前記出力はゼロから１の範囲の間の
浮動小数点数である。もしニューラルネットワークＡ１
Ｂ２がＯＣＲＡを選択すれば、ＯＣＲＡの文字は１
でありかつＯＣＲＢの文字１および２はゼロであろ
う。さらに、文字“ｄ”は太字、アンダライン付きまた
はイタリック体でないから、前記属性情報もまたオール
ゼロである。前記出力はどのＯＣＲ出力が矛盾するＯＣ
Ｒ出力の間の不整合を解明する可能性があるかを示す。

【００７６】もしニューラルネットワークの出力がＯＣ
ＲＡに対しては０．７でありかつＯＣＲＢに対して
は０．４であれば、これはニューラルネットワークがＯ
ＣＲＡが正しい文字を認識する上でＯＣＲＢよりも確
かであると考えていることを示す。ニューラルネットワ
ーク２６の結果はコントローラ２０によって受信され、
そこで前記解明ヒューリスティスクス２４が再び使用さ
れてどのＯＣＲエンジンがこの特定のエラーに対しより
正しい可能性があるかを解明するよう試みる。

【００７７】バックワードエラー伝搬（ＢＥＰ）は修正
された多層パーセプトロンモジュールの各々の接続重み
を決定するための広く知られかつ使用されている学習ア
ルゴリズムである。前記ｍＭＬＰ及びＢＥＰを使用する
ことにより、当業者は表１に示された置き換え及び文字
属性エラーの訂正を前記ネットワークの各々に教示する
ことができる。

【００７８】ヒューリスティクスまたはニューラルネッ
トワークの１つがステップ１５８においてどの文字が正
しい文字であるかを決定した結果に基づき、コントロー
ラ２０は前記選択された文字を文字ストリームに編成し
かつ格納する。このステップは正しいものと分析された
ＯＣＲエンジンの１つからの出力を受け入れかつそれら
を出力ストリームに与える。この文字ストリームはステ
ップ４２において埋め込まれたマークアップを有するＡ
ＳＣＩＩ文字ストリームとしてフォーマットされかつス
テップ４２において図３に示されるように出力される。
前記情報のいくらかはもしヒューリスティクスまたはニ
ューラルネットワークが分析により文字が正しいことが
極めて不確かであればさらに分析するためにオペレータ
に表示できる。

【００７９】

【発明の効果】当業者は、本発明は、ＯＣＲエンジンに
よって誤って認識されかつ送信された文字を識別しかつ
解明するためにＯＣＲのソフトウェアエンジンの各々の
最善の光学的文字認識機能を組合せる後処理を提供する
ことによって光学的文字認識におけるかなりの必要性を
満たすことが理解できるであろう。さらに、この発明は
例示のためにのみこの明細書にわたり使用された２つだ
けのＯＣＲエンジン出力よりも多い場合でも同様に適用
できる。

【００８０】従って、添付の特許請求の範囲により本発
明の真の精神及び範囲内にある本発明の全ての修正をカ
バーすることを意図している。

【図面の簡単な説明】

【図１】本発明の好ましい実施例に従ってスキャナがコ
ンピュータに接続されたハードウェア構成を示すブロッ
ク図である。

【図２】本発明の好ましい実施例に係わる同期装置によ
る方法のソフトウェアモジュールを示すブロック図であ
る。

【図３】本発明の好ましい実施例に係わるＯＣＲエンジ
ンの出力を同期しかつ不整合を解明するための光学的文
字認識処理を示す流れ図である。

【図４】本発明の好ましい実施例に係わる同期している
が矛盾したＯＣＲエンジン出力の間の不整合を解明する
ための処理を示すより詳細な流れ図である。

【図５】２つのＯＣＲエンジンの間の差を解明するため
にニューラルネットワークによって学習される統計的モ
デルの例を示す説明図である。

【図６】本発明の好ましい実施例に係わる文字置き換え
エラーのために使用されるニューラルネットワークのト
ポロジーを示す説明図である。

【図７】本発明の好ましい実施例に係わる１：２（Ａ１
Ｂ２）文字置き換えニューラルネットワークを示すブロ
ック図である。

【符号の説明】

１０ページ１２スキャナ１４コンピュータ１５表示装置１６ＯＣＲエンジン１８ポストプロセッサ２０コントローラ２２同期ヒューリスティクス２４解明ヒューリスティクス２６ニューラルネットワーク

Claims

【特許請求の範囲】

【請求項１】複数の光学的文字認識エンジン（１６）
によって誤って認識された文字及び該文字の属性を識別
及び解明するためにコンピュータプログラムの一部とし
てコンピュータ（１８）によって実行される方法であっ
て、前記文字は異なるタイプの文字環境から発生し、前
記コンピュータ（１８）は複数の光学的文字認識（ＯＣ
Ｒ）エンジン出力を受けるよう接続可能であり、前記方
法は、ａ）同期ヒューリスティクス（２２）を使用することに
より前記ＯＣＲエンジン出力における文字及び該文字の
属性間の不整合を識別する段階、そしてｂ）解明ヒューリスティクス（２４）及びニューラルネ
ットワーク（２６）を使用することにより前記段階
（ａ）において識別された前記不整合の各々を解明する
段階、を具備することを特徴とする複数の光学的文字認識エン
ジン（１６）によって誤って認識された文字及び前記文
字の属性を識別及び解明する方法。
【請求項２】複数の光学的文字認識エンジン（１６）
によって誤って認識された文字及び該文字の属性を識別
及び解明するためにコンピュータプログラムの一部とし
てコンピュータ（１８）によって実行される方法であっ
て、前記文字は異なるタイプの文字環境から発生し、前
記コンピュータ（１８）は複数の光学的文字認識（ＯＣ
Ｒ）エンジン出力を受けるよう接続可能であり、前記方
法は、ａ）前記ＯＣＲエンジン出力を互いに同期して前記ＯＣ
Ｒエンジン出力の間の整合及び不整合を検出する段階、ｂ）前記段階（ａ）において何らかの不整合が検出され
れば前記不整合の各々を解明する段階、そしてｃ）前記整合及び前記解明された不整合を出力する段
階、を具備することを特徴とする複数の光学的文字認識エン
ジン（１６）によって誤って認識された文字及び前記文
字の属性を識別及び解明する方法。
【請求項３】複数の文字リストからの文字を整合する
ための同期方法であって、ａ）前記文字リストの各々においてどれだけ多くの文字
が整合しているかを規定するルックアヘッド文字の数を
調整する段階、ｂ）前記文字リストの各々においてどれだけ多くの文字
が無視されているかを規定する文字置き換え比率を調整
する段階、ｃ）前記文字置き換え比率に基づき前記文字リストの各
々においてある数の文字を無視する段階、ｄ）前記ルックアヘッド文字の数に基づき前記文字リス
トの各々における前記無視された文字に続くある数の文
字を比較する段階、そしてｅ）もし前記文字リストの各々における前記ルックアヘ
ッド文字の数が整合すれば文字置き換えエラーを識別す
る段階、を具備することを特徴とする複数の文字リストからの文
字を整合するための同期方法。
【請求項４】複数の光学的文字認識エンジン（１６）
によって誤って認識された文字及び該文字の属性を識別
及び解明するためにコンピュータプログラムの一部とし
てコンピュータ（１８）によって実行される方法であっ
て、前記文字は異なるタイプの文字環境から発生し、前
記コンピュータ（１８）はスキャナから走査されたイメ
ージを受信するよう接続可能であり、前記方法は、ａ）前記走査されたイメージに基づき複数の光学的文字
認識（ＯＣＲ）エンジン（１８）によって複数の文字認
識アルゴリズムを実行して対応する出力を生成する段
階、ｂ）前記ＯＣＲエンジン出力の各々を対応する文字リス
ト及び文字属性リストに変換する段階、ｃ）前記文字リストの各々を互いに比較する段階、ｄ）前記段階（ｃ）における前記比較に基づき前記ＯＣ
Ｒエンジン出力の間の整合及び不整合を識別する段階、ｅ）前記整合及び前記不整合に対する文字−属性リスト
の間の不整合を識別する段階、ｆ）前記不整合を解明するために１つまたはそれ以上の
解明ヒューリスティクス（２４）を実行する段階、ｇ）前記１つまたはそれ以上の解明ヒューリスティクス
（２４）によって解明することができない前記不整合の
内のいずれかを解明するために複数のニューラルネット
ワーク（２６）の１つを実行する段階、ｈ）前記ＯＣＲエンジン出力の内どれが最も信頼できる
かを判定するために前記１つのニューラルネットワーク
（２６）の結果に基づき前記１つまたはそれ以上の解明
ヒューリスティクス（２４）を実行する段階、ｉ）前記整合及び前記解明された不整合を埋め込まれた
マークアップを有するＡＳＣＩＩ文字ストリームに併合
する段階、そしてｊ）埋め込まれたマークアップを備えた前記ＡＳＣＩＩ
文字ストリームを出力する段階、を具備することを特徴とする複数の光学的文字認識エン
ジン（１６）によって誤って認識された文字及び該文字
の属性を識別及び解明する方法。