JPH0684008A

JPH0684008A - 走査画像の品質を高める方法、文字認識方法、およびテキスト認識システム

Info

Publication number: JPH0684008A
Application number: JP4357269A
Authority: JP
Inventors: Chinmoy B Bose; ビューサンボーズチンモイ; Shyh-Shiaw Kuo; クオシュ−ショー
Original assignee: American Telephone and Telegraph Co Inc
Current assignee: AT&T Corp
Priority date: 1991-12-23
Filing date: 1992-12-24
Publication date: 1994-03-25
Anticipated expiration: 2015-06-26
Also published as: CA2081406C; JP2000148911A; EP0551738A2; US5644648A; EP0551739A3; DE69222141D1; EP0551739B1; DE69225128T2; DE69225128D1; EP0551738B1; EP0551739A2; JP3056905B2; CA2081406A1; US5559902A; DE69222141T2; EP0551738A3

Abstract

(57)【要約】【目的】品質が劣化し連結したテキストを品質向上さ
せて認識する。【構成】品質向上の過程は、画像の画素の２進画像値
を補足するべきかどうかを判断するための走査画像の濾
過、その画素の値を補足することにより画像におけるく
さび状の図形のシャープネス（輪郭の明瞭さ）が減少す
るかどうかを判断し、これを行うことがシャープネスを
損なわない場合にその画素の２進値を補足するからな
る。認識の過程は、走査画像の本来の筆跡の決定、筆跡
に基づく走査画像の文字の小区画への分割、文字の小区
画を特徴付ける特徴部位（造作）の特定、ならびに特定
された特徴部位の既知の文字の確率的なモデルとの比較
およびビタビ・スコア評価およびレベル形成の手順の使
用による前記比較に基づいた既知の文字の最適な文字列
の決定からなる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、概して光学的文字認識
の分野に関し、詳細には、連続し品質が劣化したテキス
トの認識に関する。

【０００２】

【従来の技術】現在のビジネス・オフィス環境におい
て、文書の作成、処理、および配布に関係する速度およ
び効率を向上させるために多くの装置およびシステムが
使用されている。これらには、テキスト処理システム、
ファクシミリ装置および写真複写機が含まれる。

【０００３】テキスト処理または通信のために、印刷さ
れた文書の内容を電子的な形に変換する必要がある場合
がときどきある。このような状況は、例えば、１つのテ
キスト処理システム上で作成された文書を電子的な通信
機能がない別のシステムで編集しなければならない時に
発生する。そのようなテキストの変換処理は、光学的な
走査および画像解析の過程からなる。変換過程の目的
は、一般に印刷されたテキストを反映するＡＳＣＩＩ文
字からなるコンピュータのテキスト・ファイルの生成で
ある。印刷された文書が、良く書式化されたきれいなテ
キストからなる場合、この変換処理はそれほど困難では
ない。

【０００４】度重なる複写およびファクシミリ送信に関
係する歪の影響のために、テキスト変換処理を難しいも
のにするぼやけて膨らみ（品質が劣化した）、さらに重
なり合った（連続した）文字が文書中に含まれることが
ある。劣化と連結の程度が激しいほど、印刷されたテキ
ストの文字を正確に見分けて識別することが益々困難と
なる。そのようなテキストを頻繁に含む文書の変換によ
ってできたコンピュータ・ファイルがその文書の単語お
よび文字の表現にエラーを含む。

【０００５】

【発明が解決しようとする課題】発明が解決しようとす
る課題は、連結して品質が劣化したテキストを認識する
方法および装置を与えることである。

【０００６】

【課題を解決するための手段】前記の課題を達成するた
めに、本発明は、走査されたテキスト画像における紛ら
わしい雑音の量を減少させる画像処理技術を与える。ま
た、画像を文字の一連の小区画へと分割する区分処理を
与える。特徴部位（造作）抽出手順により、文字の小区
画を所定の特徴部位の集合によって表す。区画の特定さ
れた特徴部位をテキスト認識のために既知の文字の確率
的モデルおよび文字シーケンスと比較する。

【０００７】

【実施例】Ａ．序論図１のテキスト認識処理１０は、認識するべき個々の単
語の２進画素イメージを受信するほか、ワード前処理処
理１００、文字区画化処理２００、特徴部位抽出処理３
００、トレーニング処理４００、および認識処理５００
からなる。処理１０において受信された画像は、（例え
ば、接触したり、重なり合ったりして）連結し品質が低
下した（即ち、雑音が多く）文字を含むことがある。画
像は、テキスト走査システム（ステップ１）およびペー
ジ前処理システム（ステップ５）によって与えられる。
これらのシステムにより、文書の紙のコピーからテキス
トを走査し、走査画像から印刷されたテキストの列を識
別し、１列の中の行を識別し、さらに、１行内の単語の
境界を識別する。当分野において周知のテキスト走査シ
ステムおよびページ前処理システムは、これらの目的に
使用することができる。例えば、統語論的構造的パタン
認識に関するＩＡＰＲ研究会会報（１９８８年９月）の
Ｈ．Ｓ．ベアード（Baird）による「全体から部分への
レイアウト分析（Global-to-local layout analysi
s）」、およびパタン認識の第８回国際会議会報（１９
８６年１０月）p.434-p.436のＳ．Ｎ．スリハリ（Sriha
ri）およびＧ．Ｗ．ザック（Zack）による「文書画像の
分析（Document Image Analysis）」を参照されたい。
これらのシステムは、走査された単語の画像を与えるほ
か、文字のポイント・サイズおよび基本線の位置の評価
も与える。

【０００８】ワード前処理１００においては、雑音を減
らしワード画像のシャープネス（輪郭の明瞭さ）を保つ
ために、線隣接グラフに基づいて濾過およびその他の処
理を行う。文字区画化２００では、前処理されたワード
画像を多数の文字以下の水準の区画（以下「文字区画」
と称する）に分割する。これらの文字区画は、運筆を識
別する線隣接グラフを用いて定義される。区画は、識別
された運筆に基づいて定義される。結果的に、ワード前
処理１００から受信された濾過された画素マップが複数
の文字区画マップへと分割される。

【０００９】文字の区画化に続いて、特徴部位の抽出３
００を行う。特徴部位抽出３００により、識別された各
区画が、種々の運筆または弧である特徴部位によって特
徴付けられる。（認識しようとするワードが連結し合っ
て著しく品質が低下した文字からならないようにした場
合、抽出された特徴部位の既知の文字の特徴部位モデル
との比較に基づいて認識を行うことが可能である。）

【００１０】文字区画がその特徴部位によって特徴付け
られると、処理１０は、２つの処理、即ちトレーニング
４００および認識５００のうちの何れを実行してもよ
い。トレーニング処理４００では、各テキスト文字を認
識するために、ヒドン・マルコフ・モデル（ＨＭＭ：Hi
dden Markov Model）を形成する。トレーニング済みの
ＨＭＭ（例えば、状態遷移確率）に関係付けられたデー
タが、読出し専用記憶装置（ＲＯＭ）などの半導体メモ
リ（図示せず）に記憶される。認識処理５００では、メ
モリに記憶されているＨＭＭの状態遷移確率およびこれ
に関係付けられた双グラムの確率に基づいて、未知の文
字区画シーケンスの確率的な距離を得る。この距離は、
その未知の観察された画像部分を生成したと思われる最
も確からしいテキスト文字シーケンスを決定するため
に、使用する。最も確からしいテキスト文字シーケンス
は、将来の検索のためにメモリ（図示せず）に記憶す
る。

【００１１】本発明の実施例は、市販されている通常の
光学的文字認識システムの能力を増大するために使用す
ることができる。このためには、そのようなシステムに
次の説明する機能を行うソフトウェアを与えればよい。
この場合、通常のシステムは、テキストの走査および前
述のページ前処理の作業を実行することが求められるこ
とになる。

【００１２】本発明の実施例のためにＣ言語で記述され
たソフトウェア・プログラムの例を本明細書に付した付
録にまとめて掲げる。付録には、ワード前処理１００、
文字区画化２００、特徴部位抽出３００、トレーニング
４００、および認識５００の各処理に関係するプログラ
ムのリストも掲げてある。これらのプログラムは、SUN
SPARCstaton１の商標で販売されているコンピュータ上
で実行できる。

【００１３】本発明の典型的なテキスト認識処理１０を
個々の機能ブロックからなるものとして示す。これらの
機能ブロックは、ソフトウェアの実行可能なハードウェ
アとは限らないが、これを含む共用または専用のハード
ウェアの使用によって与えてもよい。典型的な実施例
は、例えば、ＡＴ＆ＴのＤＳＰ１６またはＤＳＰ３２Ｃ
などのデジタルシステム処理（ＤＳＰ）ハードウェア、
および次に説明する動作を実行するソフトウェアからな
る。本発明は、極めて大規模な集積回路（ＶＬＳＩ）の
ハードウェアで実現しても、ＤＳＰとＶＬＳＩの混成ハ
ードウェアで実現してもよい。

【００１４】１．線隣接グラフ典型的な処理１０のいくつかの面において線隣接グラフ
（ＬＡＧ：line adjancy graph）が使用される。処理１
０において使用する場合、ＬＡＧは、走査されてデジタ
ル化された画像における走査行程を表し、メモリに格納
される。走査線上の連続した黒い画素の各行程をＬＡＧ
のノードとして示す。ノードの次数を（ａ，ｂ）として
示される数の順序対として表す。数ａは、所与のノード
に接続され、それより上にあるノードの数に等しく、一
方数ｂは、所与のノードに接続され、それより下にある
ノードの数に等しい。

【００１５】接合部は、２以上のａまたはｂを有するＬ
ＡＧのノードである。パスは、ａおよびｂが１または０
であるノードである。図２および３の左の部分は、それ
ぞれ文字ＸおよびｅのＬＡＧ表示である。これらの図に
おいて、パスおよび接合部を実線および点線によってそ
れぞれ示す。

【００１６】図２および３におけるＬＡＧ表示は、圧縮
ＬＡＧと称する圧縮形式でも表すことができる。接続さ
れた複数のパスは、圧縮ＬＡＧにおいて圧縮パスと称す
る１つの圧縮形式で表すことができる。図２および３の
右側の部分は、文字Ｘおよびｅの圧縮ＬＡＧ表示をそれ
ぞれ表す。接合部は円で表し、圧縮パスは影付きの円で
表す。

【００１７】接合部の次数のうちの１つが１の場合、そ
の接合部がそれに接続された対応する圧縮パスにおける
ノードに比較して外側にないならば、その接合部は、そ
の圧縮パスにも含まれる。接合部幅を圧縮パスの平均幅
で割った値がしきい値、例えば１．４を超える場合、そ
の接合部は、外側にあるものと考えられる。例えば、図
２のＸの２つの接合部は、それに対応する圧縮パスに含
まれる。

【００１８】Ｂ．ワード前処理トレーニングまたは認識の前に、見かけの雑音を減らす
ために所与のワード画像に対して典型的なワード前処理
１００を行う。図４に示したように、ワード前処理１０
０は、変形中間値フィルタ１２０およびＬＡＧ処理１４
０からなる。変形中間値フィルタ１２０により、雑音を
減らし、かつシャープネスおよび連結性の性質を保存す
る一方で、ＬＡＧ処理１４０により、画像における雑音
状の行程を除去する。

【００１９】変形中間値フィルタ１２０は、ある条件の
下で修正される公称のフィルタ処理からなる。公称のフ
ィルタ処理では、図５に示したような３ｘ３の画素のウ
ィンドウを用いる。この公称の処理において、ウィンド
ウの中心（５番目のウィンドウ要素）を画像における所
与の画素に置き、その画素にウィンドウにおける画素の
大半に関係付けられた２進値（即ち、９画素中の少なく
とも５画素が有する２進値）を割り当てる。

【００２０】前記の公称のフィルタ処理は、２つの規則
によって修正される。第１の規則は、例えば図６におけ
る画素（ｉ，ｊ）（ただし、ｉおよびｊは画像における
特定の行および列を示す）のような空の画素を公称のフ
ィルタ処理にしたがって埋める（即ち、黒くする）べき
場合の状況に関係するものである。図７に説明のために
示した３ｘ７のウィンドウの中心を画素（ｉ，ｊ）に合
わせる。影付きの画素の１４以上が埋まっていて（即
ち、黒であり）、かつ画素（ｉ−１，ｊ）および（ｉ−
２，ｊ）がともに空である場合、画素（ｉ，ｊ）は埋め
るべきではない。この第１の規則により、画像における
くさび状の形のシャープネスが保存され、次の処理段階
における効率を高めることができる。この例の処理にお
いて、くさび状の形がＶ字型に維持される。

【００２１】図８の３ｘ７のウィンドウを用いて同様の
処理を行い、逆Ｖ字状のくさび形のシャープネスを維持
する。この処理において、影付きの画素のうちの１４以
上が埋まっていて、かつ画素（ｉ＋１，ｊ）および（ｉ
＋２，ｊ）がともに空である場合、画素（ｉ，ｊ）は埋
めるべきではない。

【００２２】公称のフィルタ処理を修正する第２の規則
は、埋められた画素を公称処理によって空にするべきと
きの状況に関するものである。このような画素が少なく
とも５つの連続する埋められた画素の列（即ち、ランレ
ングス）の要素である場合、その画素は空にしてはなら
ない。この第２の規則により、中間値フィルタ１２０の
公称のフィルタ処理によって切られてしまう可能性のあ
るランレングスの接続性が保たれる。

【００２３】画像に関係付けられたＬＡＧの決定および
検査による雑音状のランレングスを除去するために、ワ
ード前処理１００には、さらにＬＡＧフィルタ処理１４
０も含まれる。それぞれのブロッブ（画素の小集合）の
最上部または最下部に位置し次数がそれぞれ（０，１）
または（１，０）である各パス（ｉ）、および接合部に
接続された各パス（ii）を除去する。例えば、図９にお
けるｗの左の最上部にある２つのパス（この場合、ブロ
ッブは複数の画素の任意の集合であり、その集合の各画
素は、１つの画素が隣接する隣の画素に連結され得る８
方向（垂直に上下、水平に左右、さらに斜め方向に右
上、左上、右下、左下）のうちの何れかの方向に、その
集合の他の少なくとも１つの画素に接続されている）
が、除去される。付録の「モジュールprep.c、lag.c、
およびclag.c」を参照されたい。ワード前処理１００の
動作後に図６から得られた文運筆像ｗを図１０に示す。

【００２４】Ｃ．文字区画化文字区画化処理２００により、ワード前処理１００から
受け取った画像情報を区画へと分割し、区画の特徴によ
ってその画像を特徴付けるために使用できるようにす
る。このような特徴付けは、トレーニング処理４００お
よび認識処理５００の両方に役立つ。区画化は、画像に
存在する運筆（筆運び、ストローク）を識別することに
よって行う。

【００２５】１．運筆の識別処理２００において、画像における主な運筆の方向を最
初に決定することにより運筆の識別を行う。小さい間隔
で所定の角度方向の範囲にある画素の輪郭を走査し、そ
の輪郭における最高の部類の峰を選択することなどによ
り、主な運筆を識別する。主な運筆の方向が垂直でない
場合、画素を想像上の傾斜した線に関して（傾斜角に基
づいて）回転させ、画素が垂直線上に来るようにするこ
とによって、方向を正規化する。

【００２６】区画化のために有用な構造上の情報を与え
るために基本運筆を特定する。認識するべき画像の圧縮
ＬＡＧを生成・分析することにより、単語の基本運筆を
識別することができる。付録のモジュールlag.cおよびc
lag.cを参照されたい。基本運筆の識別は、２次元の平
面においてｘ1，ｙ1およびｘ2，ｙ2にある端点（ｘおよ
びｙに対する値は、走査されるブロッブ（画素の小集
合）を囲む長方形の左上隅の画素に関係付けられる）に
よって識別される。その長方形は、そのブロッブの高さ
および幅に等しい寸法を有する。付属のモジュールblob
_extr.cを参照されたい。

【００２７】圧縮ＬＡＧの各圧縮パスは、それ自体の特
性およびその近傍情報によって分析される。圧縮パスを
分析する最初の段階は、その圧縮パスを同様の幅および
同一直線上にある中心を有するノードのグループに分割
することである。

【００２８】連続するノード（ｉおよびｉ＋１によって
示される）は、次の検査がすべて満たされる場合、異な
る幅ｗ(i)およびｗ(i+1)を有すると考えられる。

【数１】ここでは例えば、α＝２．０、β＝０．７、γ＝０．１
５とする。同様の幅を有するノードからなるグループに
対しては、ノードの中心の共線性は、そのグループの最
初と最後のノードの中心を通る線を定義し、その線から
グループ内のノードの中心までの最大距離を決定するこ
とによって、決定することができる。この最大距離が、
例えば２．６画素単位に満たない場合、そのグループの
ノードは、共線的な中心を有すると言う。

【００２９】同様の幅と共線的な中心とを備えたノード
を有する各グループに対応する運筆が、次の規則にした
がって識別される（即ち、返される）。ｉ．グループの高さのそのグループの平均幅に対する割
合（Ｒh/wと表される）が、しきい値（例えば、１．５
０）より大きい場合、ノードの共線的な中心である垂直
な運筆を返す。 ii．割合Ｒh/wがしきい値（例えば、０．６５）より小
さい場合、そのグループの中間にある水平な運筆を返
す。 iii．あるグループが、上下の一方の端において、はる
かに広い接合部または別のグループのパスに隣接する場
合、垂直な運筆を返す（図１１参照）。あるグループの
隣接する点の幅を他方のグループの平均幅で割った値が
しきい値、例えば１．７より大きい場合、そのグループ
は、他方より「はるかに広い」と言う。 iv．圧縮パスが１グループしか含まず、そのグループが
２つの圧縮パスに上下両端で接続されている場合、２つ
の交差した運筆を返す（図１２参照）。

【００３０】それぞれの垂直な運筆は、区画化において
使用される幅によって特徴付けられる。垂直な運筆の幅
は、その運筆を返す元となったグループのノードの平均
幅として定義される。これに対して、水平の運筆は、そ
の幅の情報が区画化処理２００で使用されないので、そ
の幅によって特徴付けられることはない。

【００３１】区画化処理２００における曖昧さを避ける
ために、曖昧な圧縮パス、即ち運筆を返すための規則
（i−iv）の何れをも満たさないような圧縮パスから
は、運筆が返されない。例えば、図１３において、「ｌ
ｏ」が接触する画像の部分および「ｏ」の右上部に対し
ては運筆が返されない。

【００３２】典型的な区画化処理２００において運筆を
識別するための最終段階は、隣接する運筆の合併であ
る。合併の結果として招くことになる偏差が所定の許容
範囲内にあるならば、運筆を合併してもよい。図１４に
おいて、Ｅ1、Ｅ2、Ｅ3、Ｅ4は２つの隣接する運筆の端
点であるが、この例を考察する。第１の運筆の始点Ｅ1
を第２の運筆の終点Ｅ4に接続することにより、新たな
合併した運筆を形成する。次に、５つの量、即ち３つの
距離Ｅ2Ｐ2、Ｅ3Ｐ3、Ｅ2Ｅ3、ならびに２つの割合Ｅ2
Ｐ2／Ｅ1Ｅおよび4Ｅ3Ｐ3／Ｅ1Ｅ4を調べる。これらの
距離および割合がすべて所定のしきい値（例えば、距離
に対してはそれぞれ２．２、２．２、５．１、さらに両
方の割合に対しては１／７．４）より小さい場合、その
偏差は許容できるとみなし、２つの基本運筆を新たな合
併した運筆で置き換えてもよい。これらのしきい値は、
走査解像度（単位長さあたりの画素---既知とする）、
フォントの種類および大きさ（ページ・レイアウト・プ
ロセッサから利用できるものと仮定する）の関数であ
り、参照テーブルによって設定することができる。

【００３３】２．区画化規則文字の区画化は、返された運筆に基づいて１組の規則を
適用することによって達成される。これらの規則を適用
することによって得られる区画の境界により、元の画素
画像が個々の画像区画へと分割される。区画化規則は、
次のとおりである。ｉ．他の運筆と垂直な重複をしない水平でない運筆によ
り、水平でない区画が識別される。この場合、「垂直な
運筆」とは、垂直な方向から見た場合に一部または全体
が他の運筆の上または下にある運筆を指す。その区画の
幅は、その運筆の幅から得る。 ii．２つの水平でない区画の間の空間により、水平な区
画が識別される。 iii．２つの垂直な（または垂直に近い）運筆または２
つの傾斜した運筆の垂直な重複により、個々の運筆の重
複幅によって決まる幅を有する水平でない区画が識別さ
れる。具体的には、水平でない区画の幅とは、垂直に重
複する水平でない運筆によって横切られる横の距離に各
運筆端に加えられる付加的な距離を加えたものを指す。
この付加的な距離は、それらの運筆を形成するすべての
パスの平均パス幅の一部である。この割合は、その運筆
が垂線となす角度に依存する。付属のモジュールblob2f
eat.cを参照されたい。１区画には運筆があり得るの
で、異なる水平でない運筆によって、１つの区画の左右
の端が決定されることがある。結果的に、各端を定義す
るために加えられる平均パス幅は、同じとは限らない。 iv．垂直な運筆の他の垂直でない運筆との垂直な重複に
より、その垂直な運筆によって指示される区画境界線が
与えられる。ｖ．傾斜した運筆の水平な運筆との垂直な重複により、
その傾斜した運筆によって指示される区画境界線が与え
られる。 vi．反対符号の傾斜を有する２つの交差する傾斜した運
筆（例えば、ｘのパタンを形成する２つの運筆）は、交
差点において区画境界線を与える。

【００３４】Ｄ．特徴部位の抽出区画化処理２００によって画素の画像が区画化される
と、それらの区画において特徴部位を特定することによ
り、個々の区画を特徴付けることができる。このように
特定された特徴部位は、トレーニング４００および文字
認識５００の両方で使用することができる。

【００３５】典型的な特徴部位抽出処理３００におい
て、区画内部の２種類の特徴部位---運筆および弧---が
特定される。図１５に運筆の例および弧の例を示す。運
筆は線分であり、重心、長さおよび傾きによって一義的
に特定され、５要素の組（ｘ，ｙ，rsin２θ，rcos２
θ，ｄ）によって表すことができる。ただし、（ｘ，
ｙ）はシステム１、５によって与えられる基本線情報に
関して測定された重心であり、ｒは運筆の長さであり、
θは傾斜角である。（傾斜角が−９０°から９０°まで
変化するときにパラメータ表現における連続性を維持す
るために傾斜角の２倍を使用する。）運筆の場合、値ｄ
は常に０である。弧も５要素の組（ｘ，ｙ，rsin２θ，
rcos２θ，ｄ）として表すことができる。ただし、最初
の４つのパラメータは、（運筆と同じように）弧の弦を
表し、ｄは、弧の弦からの最大垂直距離である。

【００３６】１．区画前処理特徴部位の特定に先立ち、雑音状の画素を除去するため
に特徴部位抽出処理３００により個々の区画の前処理を
行う。例えば、文字列ｋｙの区画を図１６に示す。これ
らの区画に典型的な特徴部位抽出方式を直接適用した場
合、図１７においてラベルａ〜ｆによって示したような
雑音状の画素のグループのために、望ましくない特徴部
位が抽出されることになる。

【００３７】ラベルｅによって特定される雑音状の画素
のグループを考察する。このグループは、通常、文字ｙ
の１つの圧縮パスの小さな部分であるから、（文字ｋの
一部分に関する）第２の区画から除外することができ
る。雑音状の画素の除外は、隣接する区画における
（ｉ）パスまたは（ii）圧縮パスの一部である画素グル
ープをすべて除去することによって行う。文字列ｋｙの
前処理済みの区画から抽出された特徴部位を図１８に示
す。雑音状の画素グループａ〜ｆに関係する運筆は同図
には現れない。

【００３８】２．特徴部位の特定文字の区画化に対して既に説明したものと同様の構造分
析を区画の特徴部位の特定（または抽出）に使用する。
この分析の第１段階では、各画像区画を圧縮ＬＡＧによ
って表す必要がある。次に、圧縮ＬＡＧの各圧縮パスを
分析して、その特徴部位を特定する。区画が水平である
と分かった場合、その区画の各圧縮パスにより水平の運
筆が返される。付録のpath_s.c参照。水平でない区画の
場合、その各圧縮パスを検査し、可能な場合、ノードの
グループへと再分割する。

【００３９】特徴部位の特定のために圧縮パスを再分割
する処理は、文字の区画化に対して行うものとは異な
る。即ち、圧縮パスの再分割は、２つの隣接するノード
または非共線的なノード中心の間の大きな幅の変化に基
づいて行う。この時、前記のような幅の変化のみを確認
することによってグループを形成する。

【００４０】１つの区画で隣接する２つのグループは、
次の２つの条件を満たす場合、単一のグループへと合併
される。

【数２】ここで、横線を冠したｗ1およびｗ2は、２つの隣接する
潜在的なグループの平均幅を示し、αおよびβは、所定
の定数（例えば、それぞれ３．０および０．６）であ
る。

【００４１】グループを条件的に合併する目的は、区画
内部の弧の特徴部位を保存するためである。図１８に示
すように、（文字の底部における）著しいノード幅の変
化のために文字ｙの第１の区画において特定される可能
性のある２つの潜在的なグループがある。しかしなが
ら、２つの潜在的な隣接するグループの間の幅の変化が
十分には大きくないので、前記の条件（ｉ）および（i
i）によって決まるように、その圧縮パスには１つのグ
ループのみが含まれる。このようにして、以下に述べる
基準にしたがって、その区画から弧を抽出することがで
きる。これに対して、図１９に示す文字ｚのＬＡＧで
は、文字の最上部で始まる圧縮パスは、条件（ｉ）およ
び（ii）の下では合併し得ない２つのグループに再分割
される。従って、以下のおいて説明する規則により、別
個の対応する運筆が特定される。

【００４２】区画内部のノードの各グループにおいて弧
および運筆が順次特定される。弧は、グループ内の最初
と最後のノードの中心を結ぶ線を作ることによって特定
してもよい。次に、その線から最も遠くに位置するグル
ープ内のノードの中心を決定する。その線の長さに対す
るその最長距離の比が、しきい値（例えば、０．１）よ
り大きい場合、弧が、特定されて、そのグループから返
される。例えば、図２０において、第４および第１０の
区画から三角形によって示される弧が返される。３つの
頂点は、第１および第２のノードの中心、および前記の
線から最長距離に位置するノードの中心である。

【００４３】一般に、文字の区画化処理のために運筆の
定義に用いた前述の規則と同様の規則をこの場合も使用
できる。従って、グループの幅に対する高さの割合（Ｒ
h/w）に基づいて、運筆が特定できる。しかし、区画化
のための運筆の定義とは異なり、ほとんどのグループか
ら運筆を返すようにするために、より柔軟なしきい値を
用いてもよい（例えば、１．５および０．６５の代わり
に１．２および０．８５をそれぞれ使用している）。

【００４４】不明瞭なグループに対しては、次のような
特別な規則を用いる。ｉ．例えば図２１の文字ｉの最上部のように孤立した単
独の圧縮パスに対しては、Ｒh/wが０．９より大きい場
合は、垂直な運筆を返し、そうでない場合は、水平な運
筆を返す。 ii．区画化の最中に特定された垂直な運筆が、ある区画
に入る場合、その区画内部の曖昧な各グループが、特徴
部位として垂直な運筆を返す。 iii．接合部が圧縮ＬＡＧにおける最初かまたは最後の
ノードである場合、水平な運筆を返す。例えば、図１９
における文字ｚの底部にある水平な運筆を参照された
い。特定された各特徴部位は、連続的なベクトル空間に
おける５要素のベクトルとして表す。認識よおびトレー
ニングの両モードにおいては、これらのベクトルは、ク
ラスタ化アルゴリズム（トレーニングに関する節を参照
されたい）によって定義される離散的な空間に写像され
る（割り当てられる）。

【００４５】Ｅ．トレーニング１．概説連結して品質が劣化した未知の画像の識別は、前述のよ
うに抽出され観察された特徴部位を既知の文字の既知の
特徴部位に処理１０により関係付けることによって達成
される。与えられた既知の文字の確率モデルに対し特徴
部位を綿密に観察するほど、その特定部位を生成した画
像を既知の文字であるとさらに確実に特定することがで
きるようになる。

【００４６】画像における文字の出現状況によって、所
与の文字の画像の所与の区画から抽出される特徴部位
が、（識別されるべき文字の２つの標本に対して）常に
同じであるとは限らない。例えば、隣接する文字との接
続性の変化および文字の劣化（かすれ）の変化により、
文字が違って見えることがある。さらに、個々の文字の
始点および終点が曖昧になる。

【００４７】連結され劣化した文字の画像を観察し、か
つ特徴部位が対応する文字を決定することは、二重に埋
め込まれた確率過程に依存する。つまり、画像の区画か
ら何れの特徴部位が抽出されるかということに関して根
底をなし観察可能な確率過程、および何れの確率的特徴
部位が抽出された特徴部位に関係付けられるかというこ
とに関して直接観察可能ではないもう１つの確率過程を
有するものである。

【００４８】説明のための処理１０は、連結し劣化した
テキストの認識に関係付けられた二重に埋め込まれた確
率過程をヒドン・マルコフ・モデル（ＨＭＭ：Hidden M
aekov Models）の使用によって表す。各モデルの状態が
観察可能な事象に対応する離散的かつ観察可能なマルコ
フ・モデルとは異なり、ＨＭＭの状態は、直に観察する
ことができない。むしろ、観察内容が、決定されるべき
状態の確率的な関数である。認識されるべき各文字に対
して、１つのＨＭＭが与えられる。付録のモジュールre
cinit.cおよびndorec.cを参照されたい。ＨＭＭの各状
態は、文字の１区画を表す。従って、１つのモデルにお
ける状態の数は、１文字を表すのに必要な区画の数に依
存する。

【００４９】説明のための処理１０の各ＨＭＭ（λ）
は、一般に次のように記述される。ｉ．各モデルは、状態の集合Ω＝｛ωj：１≦ｊ≦Ｊ｝
からなる。ただし、Ｊはそのモデルにおける状態数であ
る。各状態は、認識されるべき文字の１区画の確率的表
現である。 ii．各モデルには、状態遷移確率の行列Ａ＝｛ａjm：１
≦ｊ，ｍ≦Ｊ｝が関係付けられる。ただし、ａjm＝Ｐ
（i+1においてωm｜iにおいてωj）である。これらの確
率は、所与のモデルに対して、１つの状態（即ち、区
画）ωmが時間的に所与の状態（即ち、区画）ωjの後に
来る尤度（可能性）を表す。 iii．モデルの各状態について、観察内容Ｘiに対する観
察確率のベクトルは、Ｂ＝｛ｂj（Ｘi）｝である。ただ
し、ｂj（Ｘi）＝Ｐ（Ｘi｜iにおけるωj）である。こ
れらの確率は、所与の観察された区画ベクトルＸiが所
与の状態ωj（以下の第４節参照）に関係付けられる尤
度を表す。 iv．モデルの各状態に初期状態確率Π＝｛πj｝が関係
付けられる。ただし、πi＝Ｐ（i=1におけるωj）であ
る。これらの確率は、所与のモデル状態が、最初の状態
遷移が行われる初期状態である尤度を表す。ｖ．後述の認識処理５００の一部として、各ＨＭＭの各
状態が、観察ベクトル列Ｘ＾（横線を冠したＸ）＝｛Ｘ
i：１≦ｉ≦Ｉ｝における各区画ベクトルに対して比較
される。ただし、Ｉは観察内容の数である。このベクト
ルは、文字列の画像から順次抽出される特徴部位を表す
一連の２進区画ベクトルを表す。

【００５０】処理１０では、文字の各モデルに関係付け
られた確率（即ち、状態遷移確率ａjm、観察確率ｂj
（Ｘi）、および初期状態確率πj）の使用に加えて、画
像における文字の連続性に関係付けられた尤度の測度も
使用する。処理１０では、認識のために提示された単語
において１つの文字がさらに続く尤度を反映する双グラ
ム確率を利用する。双グラム確率は、文字および単語の
認識処理を支援するための前後関係の情報を与える。

【００５１】トレーニング処理４００により、連結して
劣化した文字を識別する問題に対する最尤解を決定する
ために観察内容Ｘiを分析するのに使用できる情報が処
理１０のＨＭＭに与えられる。つまり、トレーニング処
理４００は、状態遷移確率ａjm、観察確率ｂj（Ｘi）、
および初期状態確率πjのみならず、前後関係の分析の
ための双グラム確率も与える。観察内容のシーケンスＸ
＾（以下において、「Ｘ＾」は「横線を冠したＸ」を表
す）およびトレーニング４００によって決定されるモデ
ル・パラメータが与えられると、認識処理５００を用い
て、観察内容｛ωji：１≦ｊ≦Ｊ，１≦ｉ≦Ｉ｝に関係
付けられた最適状態シーケンスを決定することができ
る。換言すれば、認識処理５００により、観察内容が与
えられたと仮定される最も確からしい文字シーケンスが
決定される。

【００５２】２．トレーニング・データ集合ＨＭＭパラメータを誘導するために適したトレーニング
・データ集合を得るためには、一般に文字データの集合
が認識のために提示されたすべての単語において予測さ
れる文字を表すことが好ましい。トレーニング用の文字
の集合を得るには、統語論的構造的パタン認識に関する
ＩＡＰＲ研究会会報（Proc. IAPR Workshop on Syntact
ic and Structual Pattern Recog.）（１９９０年６
月）のＨ．Ｓ．ベアード（Baird）による「文書画像の
欠陥モデル（Document image defectmodels）」におい
て説明された種類の疑似ランダム文字発生器を使用して
もよい。例えば、この文字発生器により、３００ドット
／インチで（シミュレートされて）走査されタイムズ・
ローマン・フォント（ポイント数１０）で印字される小
文字のローマ字からなるトレーニング集合が与えられ
る。文字発生器は、印字テキスト中に２つの主な雑音源
---重複およびかすれ---を与えなければならない。図２
５において、Ｓによって指定される点が、単語内の別個
の文字を示し、Ｔによって指定されるものが、文字が僅
かに接触していることを示す。重複およびかすれは、直
行するパラメータではない、即ち、ある一定量のかすれ
により、重複が生じることがある。しかしながら、かす
れのパラメータによって引き起こされない一定量の重複
についてトレーニングを行う方が好ましいと言える。例
えば、文字発生器により、約５５０の重複しないトレー
ニング文字の集合をいくつかのかすれ水準で前記の文字
発生器の他のパラメータを一定に保って発生させる。

【００５３】３．特徴部位のクラスタ化文字のトレーニング集合は、区画化し、さらにそれらの
特徴部位を前述のように抽出して、例えば、合計で約２
０００の特徴部位からなる１４００の区画の集合を生成
しなければならない。これらの特徴部位は、例えばｋ平
均アルゴリズムを用いてクラスタ化する。ｋ平均アルゴ
リズムは、「データのクラスタ化のためのアルゴリズム
（Algorithms for Clustering Data）」（１９８８年）
の第３章においてＡ．Ｋ．ジャイン（Jain）およびＲ．
Ｃ．デュブズ（Dubes）により、また「クラスタ化アル
ゴリズム（Clustering algorithms）」（１９７５年）
の第４章においてＪ．Ａ．ハーティガン（Hartigan）に
より説明されている。このアルゴリズムは、（ａ〜ｚ）
のトレーニング集合のうちの１つの集合から選択した視
覚的に異なる１５のクラスタ中心からなる集合から開始
する。「クラスタのコンパクト度」のインデックスは、
次のように定義される。Ｃc＝他のクラスタ中心への平均加重距離÷クラスタ要
素の標準偏差

【００５４】クラスタの現在の番号に対するクラスタ化
アルゴリズムの反復の最後に、すべてのクラスタに対す
るＣcの平均を決定する（分子の距離を要素の数によっ
て加重する）。クラスタの数は、平均の「コンパクト
度」が増加する場合、クラスタが所定の数に達しない限
り、増加させるべきである。新たな繰り返しに対し、新
たなクラスタ中心を最悪の（「コンパクト度」の基準の
意味において）クラスタの最も遠い要素として選択して
もよい。例えば、アルゴリズムは、約２０００の特徴部
位の集合から３２のクラスタ（または特徴部位）中心の
集合を返す。図２２は、３２の特徴部位の中心の例をま
とめて示したものである（弧は、その弧の弦からの最大
偏差を示す頂点を有する三角形によって表される）。各
特徴部位の中心がある範囲の各ドットは、１画素からな
る隅を表す。「＋」は、垂直の中心線および文字の基本
線の交点を表す。１０ポイントの走査された文字が与え
られると、特徴部位の中心が与えられる。これらは、シ
ステム１、５から入力される文字ポイント位置情報に基
づいて都合良く尺度調節される。付録のモジュールclus
ter.cおよびquant.cを参照されたい。

【００５５】４．区画および観察確率のベクトル表現特徴部位のクラスタ化によって、連続的な特徴空間から
離散的な特徴空間へと分割する方法が与えられる。トレ
ーニング文字区画は、３２ビットの２進区画ベクトルに
よって表される。この時設定される各ビットにより、そ
の区画において特定された特徴部位に最も近い離散的特
徴空間における所与の特徴部位の中心が特定される。

【００５６】トレーニング処理４００を通して、特徴部
位間のクラス条件的統計的独立の仮定の下で、Ｒ．Ｏ．
デューダ（Duda）およびＰ．Ｅ．ハート（Hart）による
「パタンの分類とシーンの分析（Patern Classificatio
n and Scene Analysis）」（１９７３年）の第２節に説
明されているような２進特徴部位を用いベイズ的（Baye
sian）歪測度を使用することによって、観察確率を評価
する。それぞれの文字モデルに対するトレーニングは、
各クラスタの標本の区分け、各区画から抽出された特徴
部位の２進区画ベクトルへの割り当て、およびそのベク
トルの各ビット---発生確率（即ち、そのビット位置に
関係付けられた特徴部位が観察される確率）---の抽出
された各特徴部位への関係付けによって、行われる。

【００５７】ＨＭＭの各区画にラベルを付けるのもよ
い。例えば、文字ｕに対する区画であれば、ｕ０、ｕ１
およびｕ２と付けることができる。これらのラベルは、
各文字に対するＨＭＭの対応する状態を表す場合にも使
用することができる。

【００５８】文字モデルの各状態は、各ビット位置に関
係付けられた２進確率分布によって特徴付けられる。ｐ
n（以下において、例えば「ｐに下付け文字ｎを付けた
もの」を「ｐn」のように記す）がビット位置ｎの確率
密度関数の推定値であり、１≦ｎ≦Ｎ（例えば、Ｎ＝３
２）であるならば、次式が成り立つ。

【数３】ただし、ｘnは、ベクトルＸ＝｛ｘn：１≦ｎ≦Ｎ｝にお
けるビットｎの２進値、ωjkは、モデルｋのｊである状
態の事象、ｙjk（ｎ）は、トレーニング中に設定された
モデルｋの状態ｊに対する区画ベクトルのビットｎの総
数倍、ｙjkは、トレーニング中に現れたモデルｋの状態
ｊの総数倍である。

【００５９】勿論、密度関数ｐnは、密度の推定値に過
ぎないが、標本の大きさが大きくなると、実際の密度に
近づく。異なる状態および異なるモデルに対応する特徴
部位の差異のために、文字モデルにおけるビット確率の
多くは、トレーニング実行ののち０となる。この状況か
ら起こり得る計算上の問題を解決するために、すべて０
の確率とする代わりに小さい確率を割り当ててもよい。

【００６０】特徴部位の間のクラス条件的確率的独立を
仮定すると、観察内容Ｘに対する観察確率は、次のよう
になる。

【数４】この式の対数をとり（これによって、積から和へと簡単
化しても、相対的な距離関係は維持される）、｛ｂj
（Ｘ）｝を定義し直すと、次のようになる。

【数５】この観察（対数）確率は、モデルの状態に関する観察ベ
クトルＸの歪または距離のベイズ測度として働く。

【００６１】５．状態遷移確率ある文字の特定のＨＭＭにおいて、状態遷移確率が次の
ように定義される。ａjm＝Ｐ（i+1においてωm｜iにおいてωj）ただし、ｉは観察順序であり、１≦ｊ、ｍ≦Ｊかつｍ≧
ｊである。１つのモデルの内部で状態の物理的順序が与
えられる場合、ＨＭＭ状態の左側のシーケンスの方が好
ましい。従って、Ｊ＝３のとき、文字ｕに対するＨＭＭ
は、ω1＝ｕ０、ω2＝ｕ１、ω3＝ｕ２となる。１文字
の範囲の状態遷移確率は、ａjm＝ｚj（ｍ）／ｚj と推定される。ただし、ｚj（ｍ）は、状態ωjからωm
への遷移の総数であり、ｚjは、状態ωjからの遷移の総
数である。連結された文字の観察に基づいて、状態遷移
の最中に多くとも１つの状態を省略する（即ち、ｍ−ｊ
≦２）ことが好ましい。

【００６２】大きな「代表的」なトレーニング・データ
集合によって、同一の文字モデルの状態間の意味のある
遷移確率を決定する必要がある。典型的なトレーニング
・データ集合の文字モデルについては、遷移確率は、被
接続性（重複）の程度、接続した文字の対、および検査
標本に存在する雑音量に大いに依存する。トレーニング
・データ集合における重複およびかすれの程度は、動作
中のシステムに対して予測されるものを代表するべきで
あり、そうすることにより、遷移確率が、識別されるべ
き実際の文字画像における状態（区画）の連続の可能性
を反映するようにする。

【００６３】従って、状態の省略または同一の状態への
停留を不利にするために、遷移確率に代えて、累積距離
速度に処罰関数を加える。付録のモジュールndorec.c参
照。（ｉ）異なる文字、または（ii）所与の文字モデル
における重要な状態に有利になるように調整（または等
級付け）した処罰関数を備えることによって、性能を高
めることができる。状態の省略は、２つの文字の重複に
よって誘発される（例えば、図２３の文字列「．．ｊ
ｕ．．」における区画列｛ｊ０，ｊ１｝の最後の区画の
区画列｛ｕ０，ｕ１，ｕ２｝における最初の区画との重
複）。また、状態の省略は、文字の変形による区画の消
失によって引き起こされることもある。同じ状態に停留
するという判断は、文字の変形によって発生された余分
な区画によって生じることがある。

【００６４】文字のモデルの間の遷移確率---双グラム
確率は、認識のために扱うことが予測されるテキスト材
料の種類を統計学的に研究することによって決定され
る。一般的な英文テキストについては、文字間の遷移確
率に関して行われた以前の研究の統計学的成果を使用し
てもよい。この例としては、Ａ．Ｇ．コウンヘイム（Ko
nheim）による「暗号学の入門（Cryptography: A Prime
r）」（１９８１年）第２．３節があり、英語における
２つの連続した文字の間の一次遷移確率が報告されてい
る。付録のモジュールrecinit.c参照。これらの確率
は、以下において説明するレベル形成技法において使用
する。説明のための処理１０では双グラム確率を使用し
ているが、計算上の負担が増すという点では多くを必要
とすることなく、ｎグラム確率（ｎ＞２）を実施例に使
用することができる。

【００６５】６．初期状態確率各文字は、left-rightモデルにおける第１および第２の
状態に割り当てられたそれ自体の初期確率を有するＨＭ
Ｍによって表される。（モデルの最初の状態の省略に向
かうように、第２の状態の初期確率を割り当てる。）初
期状態確率は、文字列の第１文字に対応するモデルに適
応される。レベル形成アルゴリズム（後述）の開始時に
この確率を用いて、予想される文字列の間で区別する。
この場合も、認識のために扱うことが予測されるテキス
ト材料の種類の統計学的研究によって、初期状態確率を
推定する。一般的な英文テキストの場合は、「パタン認
識（Parrern Recognition）」第２２巻、第３号（１９
８９年）のＡ．クンデュ（Kundu）、Ｙ．ヒー（He）お
よびＰ．バール（Bahl）による「手書き言葉の認識---
一次および二次のヒドン・マルコフ・モデルに基づく方
法（Recognition of handwritten word: First and sec
ond order Hidden Markov Model based approach）」に
より、有用なデータが提供されている。このデータは、
各文字で始まる英単語の辞書の見出しを基にしている。

【００６６】Ｆ．認識１．概説既に説明した文字を小区画に分離するための区画化技術
を文字列の認識に使用する。トレーニング・モードに対
して既に説明した処理を用いて、各区画に対応する２進
特徴ベクトルを発見する。観察された区画のトレーニン
グ済みの区画に対する確率モデルからの距離を発見する
ためのベイズ的歪測度（定義済み）を用いる。未知の接
続された区画を単一文字のＨＭＭと照合するには、変形
ビタビ・スコア評価を用いる。レベル形成処理により、
文字列に対し区画までの最小距離（最大確率）を与える
パスとの接触を保つ。認識処理５００の処理時間を最小
にするためには、並列処理方式が好ましい。付録のモジ
ュールnrec.cおよびndorec.c参照。

【００６７】２．ビタビ・スコア評価観察Ｉに対応する状態が、Ｑ＝｛ｑ1，ｑ2，．．，ｑ
i，．．．，ｑI｝と定義されるものとする。最良の状態
シーケンス（つまり、Ｘ＾を入力された観察シーケンス
としたとき、Ｐ（Ｑ｜Ｘ＾）を最大とするもの）は、次
に定義するビタビ・スコア評価手順の応用によって与え
られる。ｉ．初期化 δ1（ｊ）＝πjｂj（Ｘ1）ただ
し、１≦ｊ≦２ Ψ1（ｊ）＝０ただし、δ1（ｊ）は、観察ｉにおける単一パスにそっ
た最良評価（最高確率）であり、Ψ1（ｊ）は、そのよ
うなスコアを与える最適な状態を追跡する。 ii．再帰

【数６】 iii．終了

【数７】 iv．状態シーケンスの遡上

【数８】

【００６８】図２０に示したような格子構造（ベル・シ
ステム・テクニカル・ジャーナル第６２巻、第４号（１
９８３年４月）p.1035-p.1074の「マルコフ過程の確率
的関数理論の自動音声認識への応用入門（An introduct
ion to the application ofthe theory of probablisti
c functions of a Markov process to automatic speec
h recognition）」においてＳ．Ｅ．レビンソン（Levin
son）、Ｌ．Ｒ．ラビナ（Rabiner）およびＭ．Ｍ．サン
ディ（Sondhi）による説明がある）によって、ビタビ・
スコア評価（およびレベル形成方式）の実施が説明され
る。各文字は、λ,k（以下において、「λに上付き文字
ｋを付けたもの」を「λ,k」と表す）（１≦ｋ≦Ｋ）と
して表されるＨＭＭによって表される。ただし、Ｋは、
モデルの総数であり、識別されるべき文字の数より一般
に大きい。このＨＭＭにより、同一の状態、次の状態、
および（状態を１つ省略した）さらに高い次の状態の何
れかへの（２つの連続した観測内容の間の）状態遷移が
許される。処罰関数および状態省略に関して既に説明し
た制約は、モデルの特性の一部であり、文字の変形の性
質を反映する。文字のモデルは、第１または第２の状態
で開始するものと期待される。観察ｉごとに、各モデル
の各状態に対するδi（ｍ）が計算される。累積的な測
度またはスコアに基づいて、前の観察時の最適な前の状
態に関する判断が再帰的に行われる（図２４参照）。単
一モデルの場合に対する終了および遡上の前記表現は、
次の節において説明するレベル形成アルゴリズムにおい
ては修正されている。扱いを容易にするために、ｂm
（Ｘi）およびδi（ｍ）の計算における確率を負の対数
確率で置き換えてある。（これらは、本明細書では「距
離」とも称する。）

【００６９】３．レベルの形成典型的な処理１０および認識処理５００において、認識
は、個々の文字モデルに基づき、未知の文字列と（最尤
という意味において）最も良く一致する文字モデルの最
適シーケンスを決定することによって為される。先に導
入したレベル形成技法は、そのような文字モデルの最適
シーケンスの解決に適応される。

【００７０】レベル形成アルゴリズムを図２４に提示す
る。同図において、ｉは観察Ｘiに対応する観察点であ
り、ｊはλ,kで示されるＨＭＭの１つの状態であり、ｌ
は積み重ねたモデルの一レベル（即ち、文字列内部の文
字位置に対応するレベル）であり、さらにｋはモデル
λ,kに対応する文字である。観察の度に、各モデルおよ
び各状態に対する累積距離を各レベルに対して更新す
る。（この操作は、格子の傾斜およびＨＭＭ中の状態の
最大数に基づいて格子のある領域には到達できないこと
に注目することにより、かなり削減されることがあ
る。）ある観察に対する各レベルｌの最後に、それぞれ
続くモデルに関してその観察時の最良のモデルを特定す
るために、累積距離の最小化をすべてのｋに対して行
う。

【００７１】観察ｉに対するレベルｌの最後における累
積距離がＤl,k（ｉ）と定義される場合（以下におい
て、「Ｄに上付き文字ｋおよび下付き文字ｌを付けたも
の」を「Ｄl,k」のように表す）、次の文字モデルｐに
対する観察ｉにおける最良のモデル（ｄtr（ｋ，ｐ）
は、モデルｋからモデルｐへの状態遷移確率である）
は、次のとおりである。

【数９】ただし、Ｃlp,B（ｉ）は、次の文字ｐに対する観察ｉ、
レベルｌにおける最良の文字モデルに対応するｋの値を
格納する。Ｐlp,B（ｉ）は、Ｃlp,B（ｉ）に対応する前
のレベルの最良モデルへの逆ポインタを格納する。ｉl
は、モデルＣlp,B（ｉ）の現在のレベルの長さ（観察の
数）を示す。モデル内部の状態の飛び越し（省略）が許
されているので、Ｄl,k（ｉ）は、モデルλ,kの最後の
状態および最後から２番目の状態における累積距離のう
ちの小さい方を保持する。

【００７２】各モデルｐに対する新たな各レベルｌの初
期最良確率（最短の累積距離）をＤb,lp（ｉ−１）の格
納されている値から得る。その新たなレベルで始まる文
字モデルを照合することにより、ビタビ・スコアをイン
クリメントする。ｌ＝１までポインタＰlp,B（ｉ）を後
戻りさせることにより、長さｌの最良の文字列を観察ｉ
において特定することができる。この処理を最大予測レ
ベルの最後まで再帰的に続ける。min［１≦ｌ≦Ｌ］Ｄl
p,B（Ｉ）から全体的としての最良の文字列が得られる
（「慣例的にminの下に１≦ｌ≦Ｌを小さく書くべき表
記」を「min［１≦ｌ≦Ｌ］」と記す）。ただし、Ｌ
は、文字列において予測される最大文字数であり、Ｉ
は、最後の観察であり、さらにｄtr（ｋ，ｐ）＝０であ
る。付録のモジュールnrec.cおよびndorec.c参照。

【００７３】４．レクシコンによる前後関係双グラム確率の使用によって与えられる前後関係に加え
て、辞書またはレクシコン（単語目録）の使用によって
前後関係を与えても良い。ビタビ／レベル形成技法によ
って特定した単語を単語目録と比較して、そのような単
語があるかどうかを調べてもよい。ない場合には、特定
した単語の代わりに単語目録にある最も近い単語を用い
るか、または最も近い単語を将来使用できるようにオペ
レータが記録しておいてもよい。

【００７４】尚、本明細書においては、「Ｘ＾」により
「横線を冠したＸ」を示すものとする。また、「Ｄに上
付き文字ｋを付けたもの」、「Ｄに下付き文字ｌを付け
たもの」および「前記の両方を付けたもの」をそれぞれ
「Ｄ,k」「Ｄl」「Ｄl,k」のように表した。

【００７５】

【発明の効果】以上述べたように、本発明によれば、連
結して品質が劣化したテキストも認識することができ
る。

【図面の簡単な説明】

【図１】本発明によるテキスト認識過程の例を示す流れ
図である。

【図２】文字Ｘの線隣接グラフおよび圧縮した線隣接グ
ラフを表す図である。

【図３】文字ｅの線隣接グラフおよび圧縮した線隣接グ
ラフを表す図である。

【図４】図１に提示した典型的なワード前処理過程を示
す図である。

【図５】修正中央値フィルタの公称のフィルタ処理にお
いて用いられる３ｘ３画素のウィンドウを示す図であ
る。

【図６】文字ｗの典型的な雑音性の元の画像を示す図で
ある。

【図７】画像におけるＶ字状の形のシャープネスを保持
するために変形中間値フィルタにおいて使用される３ｘ
７の画素のウィンドウを示す図である。

【図８】画像における逆Ｖ字状の形のシャープネスを保
持するために変形中間値フィルタにおいて使用される３
ｘ７の画素のウィンドウを示す図である。

【図９】線隣接グラフ濾過処理によって除去されるべき
２つの雑音状の画素を有する文字ｗを示す図である。

【図１０】図６に提示した文字の画像に対するワード前
処理の結果を示す図である。

【図１１】文字ｅおよび関係付けられてこれを表す運筆
に対する線隣接グラフを示す図である。

【図１２】文字ｘおよび関係付けられてこれを表す運筆
に対する線隣接グラフを示す図である。

【図１３】単語helloに関係する運筆の集合を示す図で
ある。

【図１４】２つの隣接する運筆、およびそのような運筆
を合併するべきかどうかを決定するために用いられそれ
らに関係する量を示す図である。

【図１５】運筆の例および弧の例を示す図である。

【図１６】文字ｋｙに対する線隣接グラフの区画を示す
図である。

【図１７】文字ｋｙに関する前処理されていない区画か
ら抽出した１組の特徴部位を示す図である。

【図１８】文字ｋｙの前処理を行った区画から抽出した
特徴部位を示す図である。

【図１９】文字ｚの線隣接グラフ、およびそれに関係付
けられてそれを表す運筆を示す図である。

【図２０】単語helloに関係する区画から抽出したほん
らいの特徴部位の集合を示す図である。

【図２１】文字ｉに対する線隣接グラフ、圧縮した線隣
接グラフ、および関係する本来の特徴部位の運筆を示す
図である。

【図２２】本発明の実施例によって用いられる３２の特
徴部位の中心を例としてまとめて示す図である。

【図２３】文字ｊｕに対するヒドン・マルコフ・モデル
を示す図である。

【図２４】ビタビ・スコア評価およびレベル形成の技法
を表す格子を示す図である。

【図２５】トレーニング・データ集合の生成に使用する
重複パラメータおよびかすれのパラメータのデータ例を
示す図である。

【符号の説明】

１スキャナ５ページ前処理１０テキスト認識処理１００ワード前処理１２０中間値フィルタ１４０ＬＡＧ処理２００文字の区画化３００特徴部位の抽出４００トレーニング５００認識

───────────────────────────────────────────────────── フロントページの続き (72)発明者チンモイビューサンボーズアメリカ合衆国 08812 ニュージャージーグリーンブルック、スクールストリート９ (72)発明者シュ−ショークオアメリカ合衆国 07922 ニュージャージーバークレーハイツ、ティンバードライヴ 368

Claims

【特許請求の範囲】

【請求項１】走査された画像（以下「走査画像」と称
する）が画素からなり、１つの画素が１つの２進画像値
からなる場合、光学的テキスト認識のために走査された
画像の品質を高める走査画像の品質を高める方法におい
て、（ａ）画像のある画素の２進画像値を補足するべきか
どうかを判断するために、走査画像に対しフィルタ処理
を行うステップと、（ｂ）前記の画像の画素（以下「画像画素」と称す
る）の値を補足することにより画像におけるくさび状の
形のシャープネス（輪郭の明瞭さ）が減少するかどうか
を判断する判断ステップと、（ｃ）前記フィルタ処理により、前記画像画素の２進
値を補足するべきであると判断した場合、補足により画
像におけるくさび状の形のシャープネスを損なわないと
きに、前記画像画素の２進値を補足するステップとを備
えたことを特徴とする走査画像の品質を高める方法。
【請求項２】前記（ａ）ステップが、画素のウィンドウの中心を前記の画像画素に合わせるス
テップと、前記の画像画素に対する２進画像値を前記ウィンドウに
おける画像画素の支配的な２進画像値に基づいて決定す
るステップとを含むことを特徴とする請求項１記載の方
法。
【請求項３】前記（ｂ）ステップが、画素のウィンドウの中心を前記の画像画素に合わせるス
テップと、前記ウィンドウの中心にある前記画像画素を囲み、Ｖ字
状のくさび形を形成する画像画素の大半が、前記の中心
が置かれた画素の２進値と反対の２進値からなるかどう
かを判断するステップと、前記の中心が置かれた画素より下の所定数の画素の各々
が、前記の中心が置かれた画素の２進値に等しい２進値
からなるかどうかを判断するステップとを備えたことを
特徴とする請求項１記載の方法。
【請求項４】前記（ｂ）ステップが、画素のウィンドウの中心を前記の画像画素に合わせるス
テップと、前記ウィンドウの中心にある前記画像画素を囲み、逆Ｖ
字状のくさび形を形成する画像画素の大半が、前記の中
心が置かれた画素の２進値と反対の２進値からなるかど
うかを判断するステップと、前記の中心が置かれた画素より上の所定数の画素の各々
が、前記の中心が置かれた画素の２進値に等しい２進値
からなるかどうかを判断するステップとを備えたことを
特徴とする請求項１記載の方法。
【請求項５】走査画像の最上部または最下部に位置す
る雑音状の画素のランレングスを除去するステップをさ
らに備えたことを特徴とする請求項１記載の方法。
【請求項６】走査された画像が画素からなり、１つの
画素が１つの２進画像値からなる場合、光学的テキスト
認識のために走査された画像の品質を高める走査画像の
品質を高める方法において、ａ．画像画素の集合に基づく線隣接グラフを与えるステ
ップと、ｂ．前記の線隣接グラフにおけるパスが、ｉ．前記の画像画素の集合の最上部または最下部の何れ
かに位置し、それぞれ（１，０）または（０，１）の何
れかの次数を有し、かつ ii．前記の線隣接グラフの接合部に接続されている場
合、線隣接グラフから前記パスを除去するステップとを備え
たことを特徴とする走査画像の品質を高める方法。
【請求項７】前記の線隣接グラフが、圧縮された線隣
接グラフからなることを特徴とする請求項６記載の方
法。
【請求項８】走査されたテキスト画像の文字を認識す
る文字認識方法において、前記の走査されたテキスト画像における基本運筆を決定
する運筆決定ステップと、決定された基本運筆に基づいて、前記の走査されたテキ
スト画像を、部分文字の水準の区画（以下「文字区画」
と称する）に区画化するステップと、文字区画を特徴付ける特徴部位を特定する特徴特定ステ
ップと、特定された部分文字の水準の特徴部位に基づいて、文字
を認識する文字認識ステップとを備えたことを特徴とす
る文字認識方法。
【請求項９】前記の運筆決定ステップが、走査されたテキスト画像を圧縮された線隣接グラフ（以
下「圧縮線隣接グラフ」と称する）によって表し、圧縮
線隣接グラフが圧縮されたパス（以下「圧縮パス」と称
する）を含むステップと、ノードの幅および中心位置の情報に基づいて、圧縮線隣
接グラフの圧縮パスを複数のノード群に分割するステッ
プと、ノード群に対し、運筆特定規則の集合に基づいて運筆を
決定する運筆決定ステップとを備えたことを特徴とする
請求項８記載の方法。
【請求項１０】前記の運筆決定ステップが、運筆合併規則の集合に基づいて、隣接する運筆を合併さ
せるステップを含むことを特徴とする請求項９記載の方
法。
【請求項１１】文字区画を特徴付ける特徴部位が、運
筆からなることを特徴とする請求項８記載の方法。
【請求項１２】文字区画を特徴付ける特徴部位が、弧
からなることを特徴とする請求項８記載の方法。
【請求項１３】文字区画を特徴付ける特徴部位が、５
つの値の組によって表されることを特徴とする請求項８
記載の方法。
【請求項１４】前記の特徴特定ステップが、文字区画を圧縮パスを含む圧縮線隣接グラフによって表
すステップと、特徴部位を決定するために圧縮線隣接グラフを分析する
分析ステップとを備えたことを特徴とする請求項８記載
の方法。
【請求項１５】前記の特徴特定ステップが、文字区画から、隣接する文字区画からの圧縮パスに関係
付けられた画素を除外するステップをさらに備えた、こ
とを特徴とする請求項１４記載の方法。
【請求項１６】前記分析ステップが、水平な文字区画の圧縮パスに対する水平な運筆を特定す
るステップを含むことを特徴とする請求項１４記載の方
法。
【請求項１７】前記分析ステップが、水平でない文字区画に対し、ノード幅の情報に基づいて
ノード群を定義するステップを含むことを特徴とする請
求項１４記載の方法。
【請求項１８】前記分析ステップが、ノード群の平均ノード幅の情報に基づいて、２つの隣接
するノード群を単一のノード群へと合併させるステップ
をさらに備えたことを特徴とする請求項１７記載の方
法。
【請求項１９】前記分析ステップが、群内部の弧の特徴部位を特定する弧状部位特定ステップ
をさらに備えたことを特徴とする請求項１７記載の方
法。
【請求項２０】前記の弧状部位特定ステップが、群における最初と最後のノードの中心を結ぶ線分を定義
するステップと、前記線分から最長距離となる群内部のノード中心を決定
するステップと、前記最長距離を前記線分の長さで割った値がしきい値を
超える場合、前記の最初と最後のノードの中心および前
記の決定されたノード中心によって定義される弧を確認
するステップとを含むことを特徴とする請求項１９記載
の方法。
【請求項２１】前記分析ステップが、群内部の運筆の特徴部位を特定するステップをさらに備
えたことを特徴とする請求項１７記載の方法。
【請求項２２】前記の文字認識ステップが、文字以下の水準の特徴部位を既知の文字の既知の特徴部
位と比較するステップをさらに備えたことを特徴とする
請求項８記載の方法。
【請求項２３】走査されたテキスト画像を文字区画
へと区画化するステップと、走査されたテキスト画像の文字区画を特徴付ける特徴部
位を特定するステップと、前記の特定された特徴部位を既知の文字の確率モデルと
比較し、それぞれの比較に基づいて距離スコアを決定す
る距離スコア決定ステップと、決定された距離スコアに基づいて既知の文字の最適シー
ケンスを決定する最適シーケンス決定ステップとを備え
たことを特徴とする走査テキスト画像の文字を認識する
文字認識方法。
【請求項２４】既知の文字の特定された特徴部位に基
づいて確率モデルを仕込むトレーニング・ステップをさ
らに備えたことを特徴とする請求項２３記載の方法。
【請求項２５】前記トレーニング・ステップが、特徴部位の空間を適応的に分割するために、特徴ベクト
ルのｋ個の平均クラスタ化を行うステップを含むことを
特徴とする請求項２４記載の方法。
【請求項２６】前記トレーニング・ステップが、特徴部位のクラスタ数をＮとして、２進Ｎ次元空間で区
画ベクトルを表すステップをさらに含むことを特徴とす
る請求項２５記載の方法。
【請求項２７】クラスタの確率モデルが、ヒドン・マ
ルコフ・モデルからなることを特徴とする請求項２３記
載の方法。
【請求項２８】ヒドン・マルコフ・モデルをそのモデ
ルの状態に対する確率を決定することによって仕込むト
レーニング・ステップをさらに備えたことを特徴とする
請求項２７記載の方法。
【請求項２９】前記のヒドン・マルコフ・モデルが、
モデル状態の飛び越し（省略）に対する処罰関数を含む
ことを特徴とする請求項２７記載の方法。
【請求項３０】ヒドン・マルコフ・モデルが、１つの
モデル状態に留まることに対する処罰関数を含むことを
特徴とする請求項２７記載の方法。
【請求項３１】前記の距離スコア決定ステップが、ベイズ（Bayes）的距離スコアを決定するステップを含
むことを特徴とする請求項２３記載の方法。
【請求項３２】前記の最適シーケンス決定ステップ
が、さらに前後関係のモデルに基づくことを特徴とする
請求項２３記載の方法。
【請求項３３】前記の前後関係のモデルが、文字のシ
ーケンスに対する確率モデルからなることを特徴とする
請求項３２記載の方法。
【請求項３４】文字のシーケンスに対する確率モデル
が、ｎグラム確率からなることを特徴とする請求項３３
記載の方法。
【請求項３５】前記の前後関係のモデルが、テキスト
文字を並べた単語目録からなることを特徴とする請求項
３２記載の方法。
【請求項３６】前記の最適シーケンス決定ステップ
が、ビタビ・スコア評価を行うステップを含むことを特徴と
する請求項２３記載の方法。
【請求項３７】前記のビタビ・スコア評価を行うステ
ップが、レベル形成処理を行うステップを含むことを特徴とする
請求項３６記載の方法。
【請求項３８】単語の画像の品質を高める品質向上手
段と、前記の品質向上手段に結合されて、文字以下の水準で区
画化を行う区画化手段と、前記区画化手段に結合されて、文字区画に基づいて特徴
部位の抽出を行う特徴抽出手段と、前記特徴抽出手段に結合されて、抽出された特徴部位と
既知の文字の確率モデルとの比較に基づいてテキストの
認識を行うテキスト認識手段と、前記テキスト認識手段に結合されて、テキスト認識の結
果を記憶するメモリ手段とを備えたことを特徴とするテ
キスト認識システム。
【請求項３９】文書の紙のコピーを走査して、その画
素画像を生成するスキャナをさらに備えたことを特徴と
する請求項３８記載のシステム。
【請求項４０】前記スキャナに結合されて、文書の走
査された画素画像に基づいて単語の画素画像を決定する
ページ・プリプロセッサをさらに備えたことを特徴とす
る請求項３９記載のシステム。
【請求項４１】既知の文字の確率モデルを仕込む手段
をさらに備えたことを特徴とする請求項３８記載のシス
テム。