JP2000148911A - 文字認識方法およびテキスト認識システム - Google Patents

文字認識方法およびテキスト認識システム

Info

Publication number
JP2000148911A
JP2000148911A JP2000004785A JP2000004785A JP2000148911A JP 2000148911 A JP2000148911 A JP 2000148911A JP 2000004785 A JP2000004785 A JP 2000004785A JP 2000004785 A JP2000004785 A JP 2000004785A JP 2000148911 A JP2000148911 A JP 2000148911A
Authority
JP
Japan
Prior art keywords
character
feature
determining
node
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000004785A
Other languages
English (en)
Inventor
Chinmoy B Bose
ビューサン ボーズ チンモイ
Shyh-Shiaw Kuo
クオ シュ−ショー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Publication of JP2000148911A publication Critical patent/JP2000148911A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/164Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/84Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
    • G06V10/85Markov-related models; Markov random fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18076Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by analysing connectivity, e.g. edge linking, connected component analysis or slices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19187Graphical models, e.g. Bayesian networks or Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/196Recognition using electronic means using sequential comparisons of the image signals with a plurality of references
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)
  • Image Processing (AREA)

Abstract

(57)【要約】 【目的】 品質が劣化し連結したテキストを品質向上さ
せて認識する。 【構成】 品質向上の過程は、画像の画素の2進画像値
を補足するべきかどうかを判断するための走査画像の濾
過、その画素の値を補足することにより画像におけるく
さび状の図形のシャープネス(輪郭の明瞭さ)が減少す
るかどうかを判断し、これを行うことがシャープネスを
損なわない場合にその画素の2進値を補足するからな
る。認識の過程は、走査画像の本来の筆跡の決定、筆跡
に基づく走査画像の文字の小区画への分割、文字の小区
画を特徴付ける特徴部位(造作)の特定、ならびに特定
された特徴部位の既知の文字の確率的なモデルとの比較
およびビタビ・スコア評価およびレベル形成の手順の使
用による前記比較に基づいた既知の文字の最適な文字列
の決定からなる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、概して光学的文字認識
の分野に関し、詳細には、連続し品質が劣化したテキス
トの認識に関する。
【0002】
【従来の技術】現在のビジネス・オフィス環境におい
て、文書の作成、処理、および配布に関係する速度およ
び効率を向上させるために多くの装置およびシステムが
使用されている。これらには、テキスト処理システム、
ファクシミリ装置および写真複写機が含まれる。
【0003】テキスト処理または通信のために、印刷さ
れた文書の内容を電子的な形に変換する必要がある場合
がときどきある。このような状況は、例えば、1つのテ
キスト処理システム上で作成された文書を電子的な通信
機能がない別のシステムで編集しなければならない時に
発生する。そのようなテキストの変換処理は、光学的な
走査および画像解析の過程からなる。変換過程の目的
は、一般に印刷されたテキストを反映するASCII文
字からなるコンピュータのテキスト・ファイルの生成で
ある。印刷された文書が、良く書式化されたきれいなテ
キストからなる場合、この変換処理はそれほど困難では
ない。
【0004】度重なる複写およびファクシミリ送信に関
係する歪の影響のために、テキスト変換処理を難しいも
のにするぼやけて膨らみ(品質が劣化した)、さらに重
なり合った(連続した)文字が文書中に含まれることが
ある。劣化と連結の程度が激しいほど、印刷されたテキ
ストの文字を正確に見分けて識別することが益々困難と
なる。そのようなテキストを頻繁に含む文書の変換によ
ってできたコンピュータ・ファイルがその文書の単語お
よび文字の表現にエラーを含む。
【0005】
【発明が解決しようとする課題】発明が解決しようとす
る課題は、連結して品質が劣化したテキストを認識する
方法および装置を与えることである。
【0006】
【課題を解決するための手段】前記の課題を達成するた
めに、本発明は、走査されたテキスト画像における紛ら
わしい雑音の量を減少させる画像処理技術を与える。ま
た、画像を文字の一連の小区画へと分割する区分処理を
与える。特徴部位(造作)抽出手順により、文字の小区
画を所定の特徴部位の集合によって表す。区画の特定さ
れた特徴部位をテキスト認識のために既知の文字および
文字シーケンスの確率的モデルと比較する。
【0007】
【実施例】A.序論 図1のテキスト認識処理10は、認識するべき個々の単
語の2進画素イメージを受信するほか、ワード前処理1
00、文字区画化処理200、特徴部位抽出処理30
0、トレーニング処理400、および認識処理500か
らなる。処理10において受信された画像は、(例え
ば、接触したり、重なり合ったりして)連結し品質が低
下した(即ち、雑音が多く)文字を含むことがある。画
像は、テキスト走査システム(ステップ1)およびペー
ジ前処理システム(ステップ5)によって与えられる。
これらのシステムにより、文書の紙のコピーからテキス
トを走査し、走査画像から印刷されたテキストの列を識
別し、1列の中の行を識別し、さらに、1行内の単語の
境界を識別する。当分野において周知のテキスト走査シ
ステムおよびページ前処理システムは、これらの目的に
使用することができる。例えば、H. S. Baird, "Global
-to-local layout analysis", Proc. IAPR Workshop on
Syntactic and Structural Pattern Recog.(1988
年9月)、および、S. N. Srihari and G. W. Zack, "D
ocument Image Analysis", Proc. 8th Int'l Conf. Pat
tern Recognition, p.434-p.436(1986年10月)
を参照されたい。これらのシステムは、走査された単語
の画像を与えるほか、文字のポイント・サイズおよび基
本線の位置の評価も与える。
【0008】ワード前処理100においては、雑音を減
らしワード画像のシャープネス(輪郭の明瞭さ)を保つ
ために、線隣接グラフに基づいて濾過およびその他の処
理を行う。文字区画化200では、前処理されたワード
画像を多数の文字以下の水準の区画(以下「文字区画」
と称する)に分割する。これらの文字区画は、運筆を識
別する線隣接グラフを用いて定義される。区画は、識別
された運筆に基づいて定義される。結果的に、ワード前
処理100から受信された濾過された画素マップが複数
の文字区画マップへと分割される。
【0009】文字の区画化に続いて、特徴部位の抽出3
00を行う。特徴部位抽出300により、識別された各
区画が、種々の運筆または弧である特徴部位によって特
徴付けられる。(認識しようとするワードが連結し合っ
て著しく品質が低下した文字からならないようにした場
合、抽出された特徴部位の既知の文字の特徴部位モデル
との比較に基づいて認識を行うことが可能である。)
【0010】文字区画がその特徴部位によって特徴付け
られると、処理10は、2つの処理、即ちトレーニング
400および認識500のうちの何れを実行してもよ
い。トレーニング処理400では、各テキスト文字を認
識するために、ヒドン・マルコフ・モデル(HMM:Hi
dden Markov Model)を形成する。トレーニング済みの
HMMに関係付けられたデータ(例えば、状態遷移確
率)が、読出し専用記憶装置(ROM)などの半導体メ
モリ(図示せず)に記憶される。認識処理500では、
メモリに記憶されているHMMの状態遷移確率およびこ
れに関係付けられた双グラムの確率に基づいて、未知の
文字区画シーケンスの確率的な距離を得る。この距離
は、その未知の観測された画像部分を生成したと思われ
る最も確からしいテキスト文字シーケンスを決定するた
めに、使用する。最も確からしいテキスト文字シーケン
スは、将来の検索のためにメモリ(図示せず)に記憶す
る。
【0011】本発明の実施例は、市販されている通常の
光学的文字認識システムの能力を増大するために使用す
ることができる。このためには、そのようなシステムに
次の説明する機能を行うソフトウェアを与えればよい。
この場合、通常のシステムは、テキストの走査および前
述のページ前処理の作業を実行することが求められるこ
とになる。
【0012】本発明の実施例は、SUN SPARCstation1の
商標で販売されているコンピュータ上で実行できる。
【0013】説明を明確にするため、本発明の典型的な
テキスト認識処理10を個別の機能ブロックからなるも
のとして示す。これらの機能ブロックは、ソフトウェア
の実行可能なハードウェアを含む共用または専用のハー
ドウェアを用いて実現することができる。典型的な実施
例は、例えば、AT&TのDSP16またはDSP32
Cなどのデジタル信号処理(DSP)ハードウェア、お
よび以下で説明する動作を実行するソフトウェアからな
る。本発明は、超大規模集積回路(VLSI)のハード
ウェアで実現しても、DSPとVLSIの混成ハードウ
ェアで実現してもよい。
【0014】1.線隣接グラフ 典型的な処理10のいくつかの面において線隣接グラフ
(LAG:line adjacency graph)が使用される。処理
10において使用する場合、LAGは、走査されてデジ
タル化された画像における連続した黒い画素(ランレン
グス)の集合を表し、メモリに格納される。走査線上の
各ランレングスをLAGのノードとして表す。ノードの
次数を(a,b)として示される数の順序対として表
す。ここで、数aは、所与のノードに連結され、それよ
り上にあるノードの数に等しく、一方数bは、所与のノ
ードに連結され、それより下にあるノードの数に等し
い。
【0015】aまたはbが2以上であるようなLAGの
ノードを接合部という。また、aおよびbがいずれも1
以下であるノードをパスという。図2および3の左の部
分は、それぞれ文字XおよびeのLAG表示である。こ
れらの図において、パスおよび接合部を実線および点線
によってそれぞれ示す。
【0016】図2および3におけるLAG表示は、圧縮
LAGと称する圧縮形式でも表すことができる。接続さ
れた複数のパスは、圧縮LAGにおいて圧縮パスと称す
る1つの圧縮形式で表すことができる。図2および3の
右側の部分は、文字Xおよびeの圧縮LAG表示をそれ
ぞれ表す。接合部は円で表し、圧縮パスは影付きの円で
表す。
【0017】接合部の次数のうちの1つが1の場合、そ
の接合部がそれに接続された対応する圧縮パスにおける
ノードに比較して外側にないならば、その接合部は、そ
の圧縮パスにも含まれる。接合部幅を圧縮パスの平均幅
で割った値がしきい値、例えば1.4を超える場合、そ
の接合部は、外側にあるものと考えられる。例えば、図
2のXの2つの接合部は、それに対応する圧縮パスに含
まれる。
【0018】B.ワード前処理 トレーニングまたは認識の前に、見かけの雑音を減らす
ために所与のワード画像に対して典型的なワード前処理
100を行う。図4に示したように、ワード前処理10
0は、変形中間値フィルタ120およびLAG処理14
0からなる。変形中間値フィルタ120により、雑音を
減らし、かつシャープネスおよび連結性の性質を保存す
る一方で、LAG処理140により、画像における雑音
状の行程を除去する。
【0019】変形中間値フィルタ120は、ある条件の
下で修正される標準のフィルタ処理からなる。標準のフ
ィルタ処理では、図5に示したような3×3の画素のウ
ィンドウを用いる。この標準の処理において、ウィンド
ウの中心(5番目のウィンドウ要素)を画像における所
与の画素に置き、その画素に、そのウィンドウ内の9画
素中の少なくとも5画素が有する2進値を割り当てる。
【0020】前記の標準のフィルタ処理は、2つの規則
によって修正される。第1の規則は、例えば図6におけ
る画素(i,j)(ただし、iおよびjは画像における
特定の行および列を示す)のような空の画素を標準のフ
ィルタ処理にしたがって埋める(即ち、黒くする)べき
場合の状況に関係するものである。図7に説明のために
示した3×7のウィンドウの中心を画素(i,j)に合
わせる。影付きの画素の14以上が埋まっていて(即
ち、黒であり)、かつ画素(i−1,j)および(i−
2,j)がともに空である場合、画素(i,j)は埋め
るべきではない。この第1の規則により、画像における
くさび状の形のシャープネスが保存され、次の処理段階
における効率を高めることができる。この例の処理にお
いて、くさび状の形がV字型に維持される。
【0021】図8の3×7のウィンドウを用いて同様の
処理を行い、逆V字状のくさび形のシャープネスを維持
する。この処理において、影付きの画素のうちの14以
上が埋まっていて、かつ画素(i+1,j)および(i
+2,j)がともに空である場合、画素(i,j)は埋
めるべきではない。
【0022】標準のフィルタ処理を修正する第2の規則
は、埋められた画素を標準処理によって空にするべきと
きの状況に関するものである。このような画素が少なく
とも5つの連続する埋められた画素の列(即ち、ランレ
ングス)の要素である場合、その画素は空にしてはなら
ない。この第2の規則により、中間値フィルタ120の
標準のフィルタ処理によって切られてしまう可能性のあ
るランレングスの接続性が保たれる。
【0023】画像に関係付けられたLAGの決定および
検査による雑音状のランレングスを除去するために、ワ
ード前処理100には、さらにLAGフィルタ処理14
0も含まれる。それぞれのブロッブ(画素の小集合)の
最上部または最下部に位置し次数がそれぞれ(0,1)
または(1,0)である各パス(i)、および接合部に
接続された各パス(ii)を除去する。例えば、図9にお
けるwの左の最上部にある2つのパス(この場合、ブロ
ッブは複数の画素の任意の集合であり、その集合の各画
素は、1つの画素が隣接する隣の画素に連結され得る8
方向(垂直に上下、水平に左右、さらに斜め方向に右
上、左上、右下、左下)のうちの何れかの方向に、その
集合の他の少なくとも1つの画素に接続されている)
が、除去される。ワード前処理100の動作後に図6か
ら得られた文運筆像wを図10に示す。
【0024】C.文字区画化 文字区画化処理200により、ワード前処理100から
受け取った画像情報を区画へと分割し、区画の特徴によ
ってその画像を特徴付けるために使用できるようにす
る。このような特徴付けは、トレーニング処理400お
よび認識処理500の両方に役立つ。区画化は、画像に
存在する運筆(筆運び、ストローク)を識別することに
よって行う。
【0025】1.運筆の識別 処理200において、画像における主な運筆の方向を最
初に決定することにより運筆の識別を行う。小さい間隔
で所定の角度方向の範囲にある画素の輪郭を走査し、そ
の輪郭における最高の部類の峰を選択することなどによ
り、主な運筆を識別する。主な運筆の方向が垂直でない
場合、画素を想像上の傾斜した線に関して(傾斜角に基
づいて)回転させ、画素が垂直線上に来るようにするこ
とによって、方向を正規化する。
【0026】区画化のために有用な構造上の情報を与え
るために基本運筆を特定する。認識するべき画像の圧縮
LAGを生成・分析することにより、単語の基本運筆を
識別することができる。基本運筆の識別は、2次元の平
面においてx1,y1およびx 2,y2にある端点(xおよ
びyに対する値は、走査されるブロッブ(画素の小集
合)を囲む長方形の左上隅の画素に関係付けられる)に
よって識別される。その長方形は、そのブロッブの高さ
および幅に等しい寸法を有する。
【0027】圧縮LAGの各圧縮パスは、それ自体の特
性およびその近傍情報によって分析される。圧縮パスを
分析する最初の段階は、その圧縮パスを同様の幅および
同一直線上にある中心を有するノードのグループに分割
することである。
【0028】連続するノード(iおよびi+1によって
示される)は、次の検査がすべて満たされる場合、異な
る幅w(i)およびw(i+1)を有すると考えられる。
【数1】 ここでは例えば、α=2.0、β=0.7、γ=0.1
5とする。同様の幅を有するノードからなるグループに
対しては、ノードの中心の共線性は、そのグループの最
初と最後のノードの中心を通る線を定義し、その線から
グループ内のノードの中心までの最大距離を決定するこ
とによって、決定することができる。この最大距離が、
例えば2.6画素単位に満たない場合、そのグループの
ノードは、共線的な中心を有すると言う。
【0029】同様の幅と共線的な中心とを備えたノード
を有する各グループに対応する運筆が、次の規則にした
がって識別される(即ち、返される)。 i.グループの高さのそのグループの平均幅に対する比
(Rh/wと表される)が、しきい値(例えば、1.5
0)より大きい場合、ノードの共線的な中心である垂直
な運筆を返す。 ii.比Rh/wがしきい値(例えば、0.65)より小さ
い場合、そのグループの中間にある水平な運筆を返す。 iii.あるグループが、上下の一方の端において、はる
かに広い接合部または別のグループのパスに隣接する場
合、垂直な運筆を返す(図11参照)。あるグループの
隣接する点の幅を他方のグループの平均幅で割った値が
しきい値、例えば1.7より大きい場合、そのグループ
は、他方より「はるかに広い」と言う。 iv.圧縮パスが1グループしか含まず、そのグループが
2つの圧縮パスに上下両端で接続されている場合、2つ
の交差した運筆を返す(図12参照)。
【0030】それぞれの垂直な運筆は、区画化において
使用される幅によって特徴付けられる。垂直な運筆の幅
は、その運筆を返す元となったグループのノードの平均
幅として定義される。これに対して、水平の運筆は、そ
の幅の情報が区画化処理200で使用されないので、そ
の幅によって特徴付けられることはない。
【0031】区画化処理200における曖昧さを避ける
ために、曖昧な圧縮パス、即ち運筆を返すための規則
(i−iv)の何れをも満たさないような圧縮パスから
は、運筆が返されない。例えば、図13において、「l
o」が接触する画像の部分および「o」の右上部に対し
ては運筆が返されない。
【0032】典型的な区画化処理200において運筆を
識別するための最終段階は、隣接する運筆の合併であ
る。合併の結果として招くことになる偏差が所定の許容
範囲内にあるならば、運筆を合併してもよい。図14に
おいて、E1、E2、E3、E4は2つの隣接する運筆の端
点であるが、この例を考察する。第1の運筆の始点E1
を第2の運筆の終点E4に連結することにより、新たな
合併した運筆を形成する。次に、5つの量、即ち3つの
距離E22、E33、E23、ならびに2つの比E22
/E14およびE33/E14を調べる。これらの距離
および比がすべて所定のしきい値(例えば、距離に対し
てはそれぞれ2.2、2.2、5.1、さらに両方の比
に対しては1/7.4)より小さい場合、その偏差は許
容できるとみなし、2つの基本運筆を新たな合併した運
筆で置き換えてもよい。これらのしきい値は、走査解像
度(単位長さあたりの画素---既知とする)、フォント
の種類および大きさ(ページ・レイアウト・プリプロセ
ッサから利用できるものと仮定する)の関数であり、参
照テーブルによって設定することができる。
【0033】2.区画化規則 文字の区画化は、返された運筆に基づいて1組の規則を
適用することによって達成される。これらの規則を適用
することによって得られる区画の境界により、元の画素
画像が個々の画像区画へと分割される。区画化規則は、
次のとおりである。 i.他の運筆と垂直な重複をしない水平でない運筆によ
り、水平でない区画が識別される。この場合、「垂直な
重複」とは、垂直な方向から見た場合に一部または全体
が他の運筆の上または下にある運筆を指す。その区画の
幅は、その運筆の幅から得る。 ii.2つの水平でない区画の間の空間により、水平な区
画が識別される。 iii.2つの垂直な(または垂直に近い)運筆または2
つの傾斜した運筆の垂直な重複により、個々の運筆の重
複幅によって決まる幅を有する水平でない区画が識別さ
れる。具体的には、水平でない区画の幅とは、垂直に重
複する水平でない運筆によって横切られる横の距離に各
運筆端に加えられる付加的な距離を加えたものを指す。
この付加的な距離は、それらの運筆を形成するすべての
パスの平均パス幅の一部である。この割合は、その運筆
が垂線となす角度に依存する。1区画には複数の運筆が
あり得るので、異なる水平でない運筆によって、1つの
区画の左右の端が決定されることがある。結果的に、各
端を定義するために加えられる平均パス幅は、同じとは
限らない。 iv.垂直な運筆の他の垂直でない運筆との垂直な重複に
より、その垂直な運筆によって指示される区画境界線が
与えられる。 v.傾斜した運筆の水平な運筆との垂直な重複により、
その傾斜した運筆によって指示される区画境界線が与え
られる。 vi.反対符号の傾斜を有する2つの交差する傾斜した運
筆(例えば、xのパタンを形成する2つの運筆)は、交
差点において区画境界線を与える。
【0034】D.特徴部位の抽出 区画化処理200によって画素の画像が区画化される
と、それらの区画において特徴部位を特定することによ
り、個々の区画を特徴付けることができる。このように
特定された特徴部位は、トレーニング400および文字
認識500の両方で使用することができる。
【0035】典型的な特徴部位抽出処理300におい
て、区画内部の2種類の特徴部位---運筆および弧---が
特定される。図15に運筆の例および弧の例を示す。運
筆は線分であり、重心、長さおよび傾きによって一義的
に特定され、5要素の組(x,y,rsin2θ,rcos2
θ,d)によって表すことができる。ただし、(x,
y)はシステム1、5によって与えられる基本線情報に
関して測定された重心であり、rは運筆の長さであり、
θは傾斜角である。(傾斜角が−90°から90°まで
変化するときにパラメータ表現における連続性を維持す
るために傾斜角の2倍を使用する。)運筆の場合、値d
は常に0である。弧も5要素の組(x,y,rsin2θ,
rcos2θ,d)として表すことができる。ただし、最初
の4つのパラメータは、(運筆と同じように)弧の弦を
表し、dは、弧の弦からの最大垂直距離である。
【0036】1.区画前処理 特徴部位の特定に先立ち、雑音状の画素を除去するため
に特徴部位抽出処理300により個々の区画の前処理を
行う。例えば、文字列kyの区画を図16に示す。これ
らの区画に典型的な特徴部位抽出方式を直接適用した場
合、図17においてラベルa〜fによって示したような
雑音状の画素のグループのために、望ましくない特徴部
位が抽出されることになる。
【0037】ラベルeによって特定される雑音状の画素
のグループを考察する。このグループは、通常、文字y
の1つの圧縮パスの小さな部分であるから、(文字kの
一部分に関する)第2の区画から除外することができ
る。雑音状の画素の除外は、隣接する区画における
(i)パスまたは(ii)圧縮パスの一部である画素グル
ープをすべて除去することによって行う。文字列kyの
前処理済みの区画から抽出された特徴部位を図18に示
す。雑音状の画素グループa〜fに関係する運筆は同図
には現れない。
【0038】2.特徴部位の特定 文字の区画化に対して既に説明したものと同様の構造分
析を区画の特徴部位の特定(または抽出)に使用する。
この分析の第1段階では、各画像区画を圧縮LAGによ
って表す必要がある。次に、圧縮LAGの各圧縮パスを
分析して、その特徴部位を特定する。区画が水平である
と分かった場合、その区画の各圧縮パスにより水平の運
筆が返される。水平でない区画の場合、その各圧縮パス
を検査し、可能な場合、ノードのグループへと再分割す
る。
【0039】特徴部位の特定のために圧縮パスを再分割
する処理は、文字の区画化に対して行うものとは異な
る。即ち、圧縮パスの再分割は、2つの隣接するノード
または非共線的なノード中心の間の大きな幅の変化に基
づいて行う。この時、前記のような幅の変化のみを確認
することによってグループを形成する。
【0040】1つの区画で隣接する2つのグループは、
次の2つの条件を満たす場合、単一のグループへと合併
される。
【数2】 ここで、横線を冠したw1およびw2は、2つの隣接する
潜在的なグループの平均幅を示し、αおよびβは、所定
の定数(例えば、それぞれ3.0および0.6)であ
る。
【0041】グループを条件的に合併する目的は、区画
内部の弧の特徴部位を保存するためである。図18に示
すように、(文字の底部における)著しいノード幅の変
化のために文字yの第1の区画において特定される可能
性のある2つの潜在的なグループがある。しかしなが
ら、2つの潜在的な隣接するグループの間の幅の変化が
十分には大きくないので、前記の条件(i)および(i
i)によって決まるように、その圧縮パスには1つのグ
ループのみが含まれる。このようにして、以下に述べる
基準にしたがって、その区画から弧を抽出することがで
きる。これに対して、図19に示す文字zのLAGで
は、文字の最上部で始まる圧縮パスは、条件(i)およ
び(ii)の下では合併し得ない2つのグループに再分割
される。従って、以下のおいて説明する規則により、別
個の対応する運筆が特定される。
【0042】区画内部のノードの各グループにおいて弧
および運筆が順次特定される。弧は、グループ内の最初
と最後のノードの中心を結ぶ線を作ることによって特定
してもよい。次に、その線から最も遠くに位置するグル
ープ内のノードの中心を決定する。その線の長さに対す
るその最長距離の比が、しきい値(例えば、0.1)よ
り大きい場合、弧が、特定されて、そのグループから返
される。例えば、図20において、第4および第10の
区画から三角形によって示される弧が返される。3つの
頂点は、第1および第2のノードの中心、および前記の
線から最長距離に位置するノードの中心である。
【0043】一般に、文字の区画化処理のために運筆の
定義に用いた前述の規則と同様の規則をこの場合も使用
できる。従って、グループの幅に対する高さの割合(R
h/w)に基づいて、運筆が特定できる。しかし、区画化
のための運筆の定義とは異なり、ほとんどのグループか
ら運筆を返すようにするために、より柔軟なしきい値を
用いてもよい(例えば、1.5および0.65の代わり
に1.2および0.85をそれぞれ使用している)。
【0044】不明瞭なグループに対しては、次のような
特別な規則を用いる。 i.例えば図21の文字iの最上部のように孤立した単
独の圧縮パスに対しては、Rh/wが0.9より大きい場
合は、垂直な運筆を返し、そうでない場合は、水平な運
筆を返す。 ii.区画化の最中に特定された垂直な運筆が、ある区画
に入る場合、その区画内部の曖昧な各グループが、特徴
部位として垂直な運筆を返す。 iii.接合部が圧縮LAGにおける最初かまたは最後の
ノードである場合、水平な運筆を返す。例えば、図19
における文字zの底部にある水平な運筆を参照された
い。特定された各特徴部位は、連続的なベクトル空間に
おける5成分のベクトルとして表す。認識よおびトレー
ニングの両モードにおいては、これらのベクトルは、ク
ラスタ化アルゴリズム(トレーニングに関する節を参照
されたい)によって定義される離散的な空間に写像され
る(割り当てられる)。
【0045】E.トレーニング 1.概説 連結して品質が劣化した未知の画像の識別は、前述のよ
うに抽出され観測された特徴部位を既知の文字の既知の
特徴部位に処理10により関係付けることによって達成
される。与えられた既知の文字の確率モデルに対し特徴
部位を綿密に観測するほど、その特定部位を生成した画
像を既知の文字であるとさらに確実に特定することがで
きるようになる。
【0046】画像における文字の出現状況によって、所
与の文字の画像の所与の区画から抽出される特徴部位
が、(識別されるべき文字の2つの標本に対して)常に
同じであるとは限らない。例えば、隣接する文字との接
続性の変化および文字の劣化(かすれ)の変化により、
文字が違って見えることがある。さらに、個々の文字の
始点および終点が曖昧になる。
【0047】連結され劣化した文字の画像を観測し、か
つ特徴部位が対応する文字を決定することは、二重に埋
め込まれた確率過程に依存する。つまり、画像の区画か
ら何れの特徴部位が抽出されるかということに関して根
底をなし観測可能な確率過程、および何れの確率的特徴
部位が抽出された特徴部位に関係付けられるかというこ
とに関して直接観測可能ではないもう1つの確率過程を
有するものである。
【0048】説明のための処理10は、連結し劣化した
テキストの認識に関係付けられた二重に埋め込まれた確
率過程をヒドン・マルコフ・モデル(HMM:Hidden M
aekov Models)の使用によって表す。各モデルの状態が
観測可能な事象に対応する離散的かつ観測可能なマルコ
フ・モデルとは異なり、HMMの状態は、直に観測する
ことができない。むしろ、観測内容が、決定されるべき
状態の確率的な関数である。認識されるべき各文字に対
して、1つのHMMが与えられる。HMMの各状態は、
文字の1区画を表す。従って、1つのモデルにおける状
態の数は、1文字を表すのに必要な区画の数に依存す
る。
【0049】説明のための処理10の各HMM(λ)
は、一般に次のように記述される。 i.各モデルは、状態の集合Ω={ωj:1≦j≦J}か
らなる。ただし、Jはそのモデルにおける状態数であ
る。各状態は、認識されるべき文字の1区画の確率的表
現である。 ii.各モデルには、状態遷移確率の行列A={ajm:1
≦j,m≦J}が関係付けられる。ただし、ajm=P
(i+1においてωm|iにおいてωj)である。これら
の確率は、所与のモデルに対して、1つの状態(即ち、
区画)ωmが時間的に所与の状態(即ち、区画)ωjの後
に来る尤度(可能性)を表す。 iii.モデルの各状態について、観測内容Xiに対する観
測確率のベクトルは、B={bj(Xi)}である。ただ
し、bj(Xi)=P(Xi|iにおけるωj)である。こ
れらの確率は、所与の観測された区画ベクトルXiが所
与の状態ωj(以下の第4節参照)に関係付けられる尤
度を表す。 iv.モデルの各状態に初期状態確率Π={πj}が関係
付けられる。ただし、πi=P(i=1におけるωj)で
ある。これらの確率は、所与のモデル状態が、最初の状
態遷移が行われる初期状態である尤度を表す。 v.後述の認識処理500の一部として、各HMMの各
状態が、観測ベクトル列X^(横線を冠したX)={X
i:1≦i≦I}における各区画ベクトルに対して比較
される。ただし、Iは観測内容の数である。このベクト
ルは、文字列の画像から順次抽出される特徴部位を表す
一連の2進区画ベクトルを表す。
【0050】処理10では、文字の各モデルに関係付け
られた確率(即ち、状態遷移確率a jm、観測確率b
j(Xi)、および初期状態確率πj)の使用に加えて、
画像における文字の連続性に関係付けられた尤度の測度
も使用する。処理10では、認識のために提示された単
語において1つの文字がさらに続く尤度を反映する双グ
ラム確率を利用する。双グラム確率は、文字および単語
の認識処理を支援するための前後関係の情報を与える。
【0051】トレーニング処理400により、連結して
劣化した文字を識別する問題に対する最尤解を決定する
ために観測内容Xiを分析するのに使用できる情報が処
理10のHMMに与えられる。つまり、トレーニング処
理400は、状態遷移確率a jm、観測確率bj(Xi)、
および初期状態確率πjのみならず、前後関係の分析の
ための双グラム確率も与える。観測内容のシーケンスX
^(以下において、「X^」は「横線を冠したX」を表
す)およびトレーニング400によって決定されるモデ
ル・パラメータが与えられると、認識処理500を用い
て、観測内容{ωji:1≦j≦J,1≦i≦I}に関係
付けられた最適状態シーケンスを決定することができ
る。換言すれば、認識処理500により、観測内容が与
えられたと仮定される最も確からしい文字シーケンスが
決定される。
【0052】2.トレーニング・データ集合 HMMパラメータを誘導するために適したトレーニング
・データ集合を得るためには、一般に文字データの集合
が認識のために提示されたすべての単語において予測さ
れる文字を表すことが好ましい。トレーニング用の文字
の集合を得るには、統語論的構造的パタン認識に関する
IAPR研究会会報(Proc. IAPR Workshop on Syntact
ic and Structual Pattern Recog.)(1990年6
月)のH.S.ベアード(Baird)による「文書画像の
欠陥モデル(Document image defectmodels)」におい
て説明された種類の疑似ランダム文字発生器を使用して
もよい。例えば、この文字発生器により、300ドット
/インチで(シミュレートされて)走査されタイムズ・
ローマン・フォント(ポイント数10)で印字される小
文字のローマ字からなるトレーニング集合が与えられ
る。文字発生器は、印字テキスト中に2つの主な雑音源
---重複およびかすれ---を与えなければならない。図2
5において、Sによって指定される点が、単語内の別個
の文字を示し、Tによって指定されるものが、文字が僅
かに接触していることを示す。重複およびかすれは、直
行するパラメータではない、即ち、ある一定量のかすれ
により、重複が生じることがある。しかしながら、かす
れのパラメータによって引き起こされない一定量の重複
についてトレーニングを行う方が好ましいと言える。例
えば、文字発生器により、約550の重複しないトレー
ニング文字の集合をいくつかのかすれ水準で前記の文字
発生器の他のパラメータを一定に保って発生させる。
【0053】3.特徴部位のクラスタ化 文字のトレーニング集合は、区画化し、さらにそれらの
特徴部位を前述のように抽出して、例えば、合計で約2
000の特徴部位からなる1400の区画の集合を生成
しなければならない。これらの特徴部位は、例えばk平
均アルゴリズムを用いてクラスタ化する。k平均アルゴ
リズムは、「データのクラスタ化のためのアルゴリズム
(Algorithms for Clustering Data)」(1988年)
の第3章においてA.K.ジャイン(Jain)およびR.
C.デュブズ(Dubes)により、また「クラスタ化アル
ゴリズム(Clustering algorithms)」(1975年)
の第4章においてJ.A.ハーティガン(Hartigan)に
より説明されている。このアルゴリズムは、(a〜z)
のトレーニング集合のうちの1つの集合から選択した視
覚的に異なる15のクラスタ中心からなる集合から開始
する。「クラスタのコンパクト度」のインデックスは、
次のように定義される。 Cc=他のクラスタ中心への平均加重距離÷クラスタ要
素の標準偏差
【0054】クラスタの現在の番号に対するクラスタ化
アルゴリズムの反復の最後に、すべてのクラスタに対す
るCcの平均を決定する(分子の距離を要素の数によっ
て加重する)。クラスタの数は、平均の「コンパクト
度」が増加する場合、クラスタが所定の数に達しない限
り、増加させるべきである。新たな繰り返しに対し、新
たなクラスタ中心を最悪の(「コンパクト度」の基準の
意味において)クラスタの最も遠い要素として選択して
もよい。例えば、アルゴリズムは、約2000の特徴部
位の集合から32のクラスタ(または特徴部位)中心の
集合を返す。図22は、32の特徴部位の中心の例をま
とめて示したものである(弧は、その弧の弦からの最大
偏差を示す頂点を有する三角形によって表される)。各
特徴部位の中心がある範囲の各ドットは、1画素からな
る隅を表す。「+」は、垂直の中心線および文字の基本
線の交点を表す。10ポイントの走査された文字が与え
られると、特徴部位の中心が与えられる。これらは、シ
ステム1、5から入力される文字ポイント位置情報に基
づいて都合良く尺度調節される。
【0055】4.区画および観測確率のベクトル表現 特徴部位のクラスタ化によって、連続的な特徴空間から
離散的な特徴空間へと分割する方法が与えられる。トレ
ーニング文字区画は、32ビットの2進区画ベクトルに
よって表される。この時設定される各ビットにより、そ
の区画において特定された特徴部位に最も近い離散的特
徴空間における所与の特徴部位の中心が特定される。
【0056】トレーニング処理400を通して、特徴部
位間のクラス条件的統計的独立の仮定の下で、R.O.
デューダ(Duda)およびP.E.ハート(Hart)による
「パタンの分類とシーンの分析(Patern Classificatio
n and Scene Analysis)」(1973年)の第2節に説
明されているような2進特徴部位を用いベイズ的(Baye
sian)歪測度を使用することによって、観測確率を評価
する。それぞれの文字モデルに対するトレーニングは、
各クラスタの標本の区分け、各区画から抽出された特徴
部位の2進区画ベクトルへの割り当て、およびそのベク
トルの各ビット---発生確率(即ち、そのビット位置に
関係付けられた特徴部位が観測される確率)---の抽出
された各特徴部位への関係付けによって、行われる。
【0057】HMMの各区画にラベルを付けるのもよ
い。例えば、文字uに対する区画であれば、u0、u1
およびu2と付けることができる。これらのラベルは、
各文字に対するHMMの対応する状態を表す場合にも使
用することができる。
【0058】文字モデルの各状態は、各ビット位置に関
係付けられた2進確率分布によって特徴付けられる。p
nがビット位置nの確率密度関数の推定値であり、1≦
n≦N(例えば、N=32)であるならば、次式が成り
立つ。
【数3】 ただし、xnは、ベクトルX={xn:1≦n≦N}にお
けるビットnの2進値、ωjkは、モデルkのjである状
態の事象、yjk(n)は、トレーニング中に設定された
モデルkの状態jに対する区画ベクトルのビットnの総
数倍、yjkは、トレーニング中に現れたモデルkの状態
jの総数倍である。
【0059】勿論、密度関数pnは、密度の推定値に過
ぎないが、標本の大きさが大きくなると、実際の密度に
近づく。異なる状態および異なるモデルに対応する特徴
部位の差異のために、文字モデルにおけるビット確率の
多くは、トレーニング実行ののち0となる。この状況か
ら起こり得る計算上の問題を解決するために、すべて0
の確率とする代わりに小さい確率を割り当ててもよい。
【0060】特徴部位の間のクラス条件的確率的独立を
仮定すると、観測内容Xに対する観測確率は、次のよう
になる。
【数4】 この式の対数をとり(これによって、積から和へと簡単
化しても、相対的な距離関係は維持される)、{b
j(X)}を定義し直すと、次のようになる。
【数5】 この観測(対数)確率は、モデルの状態に関する観測ベ
クトルXの歪または距離のベイズ測度として働く。
【0061】5.状態遷移確率 ある文字の特定のHMMにおいて、状態遷移確率が次の
ように定義される。 ajm=P(i+1においてωm|iにおいてωj) ただし、iは観測順序であり、1≦j、m≦Jかつm≧
jである。1つのモデルの内部で状態の物理的順序が与
えられる場合、HMM状態の左側のシーケンスの方が好
ましい。従って、J=3のとき、文字uに対するHMM
は、ω1=u0、ω2=u1、ω3=u2となる。1文字
の範囲の状態遷移確率は、 ajm=zj(m)/zj と推定される。ただし、zj(m)は、状態ωjからωm
への遷移の総数であり、zjは、状態ωjからの遷移の総
数である。連結された文字の観測に基づいて、状態遷移
の最中に多くとも1つの状態を省略する(即ち、m−j
≦2)ことが好ましい。
【0062】大きな「代表的」なトレーニング・データ
集合によって、同一の文字モデルの状態間の意味のある
遷移確率を決定する必要がある。典型的なトレーニング
・データ集合の文字モデルについては、遷移確率は、連
結性(重複)の程度、連結した文字の対、および検査標
本に存在する雑音量に大いに依存する。トレーニング・
データ集合における重複およびかすれの程度は、動作中
のシステムに対して予測されるものを代表するべきであ
り、そうすることにより、遷移確率が、識別されるべき
実際の文字画像における状態(区画)の連続の可能性を
反映するようにする。
【0063】従って、状態の省略または同一の状態への
停留を不利にするために、遷移確率に代えて、累積距離
速度に罰金関数を加える。(i)異なる文字、または(ii)
所与の文字モデルにおける重要な状態に有利になるよう
に調整(または等級付け)した罰金関数を備えることに
よって、性能を高めることができる。状態の省略は、2
つの文字の重複によって誘発される(例えば、図23の
文字列「..ju..」における区画列{j0,j1}
の最後の区画の区画列{u0,u1,u2}における最
初の区画との重複)。また、状態の省略は、文字の変形
による区画の消失によって引き起こされることもある。
同じ状態に停留するという判断は、文字の変形によって
発生された余分な区画によって生じることがある。
【0064】文字のモデルの間の遷移確率---双グラム
確率は、認識のために扱うことが予測されるテキスト材
料の種類を統計学的に研究することによって決定され
る。一般的な英文テキストについては、文字間の遷移確
率に関して行われた以前の研究の統計学的成果を使用し
てもよい。この例としては、A.G.コウンヘイム(Ko
nheim)による「暗号学の入門(Cryptography: A Prime
r)」(1981年)第2.3節があり、英語における
2つの連続した文字の間の一次遷移確率が報告されてい
る。これらの確率は、以下において説明するレベル形成
技法において使用する。説明のための処理10では双グ
ラム確率を使用しているが、計算上の負担が増すという
点では多くを必要とすることなく、nグラム確率(n>
2)を実施例に使用することができる。
【0065】6.初期状態確率 各文字は、left-rightモデルにおける第1および第2の
状態に割り当てられたそれ自体の初期確率を有するHM
Mによって表される。(モデルの最初の状態の省略に向
かうように、第2の状態の初期確率を割り当てる。)初
期状態確率は、文字列の第1文字に対応するモデルに適
用される。レベル形成アルゴリズム(後述)の開始時に
この確率を用いて、予想される文字列の間で区別する。
この場合も、認識のために扱うことが予測されるテキス
ト材料の種類の統計学的研究によって、初期状態確率を
推定する。一般的な英文テキストの場合は、「パタン認
識(Parrern Recognition)」第22巻、第3号(19
89年)のA.クンデュ(Kundu)、Y.ヒー(He)お
よびP.バール(Bahl)による「手書き言葉の認識---
一次および二次のヒドン・マルコフ・モデルに基づく方
法(Recognition of handwritten word: First and sec
ond order Hidden Markov Model based approach)」に
より、有用なデータが提供されている。このデータは、
各文字で始まる英単語の辞書の見出しを基にしている。
【0066】F.認識 1.概説 既に説明した文字を小区画に分離するための区画化技術
を文字列の認識に使用する。トレーニング・モードに対
して既に説明した処理を用いて、各区画に対応する2進
特徴ベクトルを発見する。観測された区画のトレーニン
グ済みの区画に対する確率モデルからの距離を発見する
ためのベイズ的歪測度(定義済み)を用いる。未知の接
続された区画を単一文字のHMMと照合するには、変形
ビタビ・スコア評価を用いる。レベル形成処理により、
文字列に対し区画までの最小距離(最大確率)を与える
パスとの接触を保つ。認識処理500の処理時間を最小
にするためには、並列処理方式が好ましい。
【0067】2.ビタビ・スコア評価 観測Iに対応する状態が、Q={q1,q2,...,
i,...,qI}と定義されるものとする。最良の状態
シーケンス(つまり、X^を入力された観測シーケンス
としたとき、P(Q|X^)を最大とするもの)は、次
に定義するビタビ・スコア評価手順の応用によって与え
られる。 i.初期化 δ1(j)=πjj(X1) ただし、1≦j≦2 Ψ1(j)=0 ただし、δ1(j)は、観測iにおける単一パスにそっ
た最良評価(最高確率)であり、Ψ1(j)は、そのよ
うなスコアを与える最適な状態を追跡する。 ii.再帰
【数6】 iii.終了
【数7】 iv.状態シーケンスの遡上
【数8】
【0068】トレリス構造(ベル・システム・テクニカ
ル・ジャーナル第62巻、第4号(1983年4月)p.
1035-p.1074の「マルコフ過程の確率的関数理論の自動
音声認識への応用入門(An introduction to the appli
cation of the theory of probablistic functions of
a Markov process to automatic speech recognitio
n)」においてS.E.レビンソン(Levinson)、L.
R.ラビナ(Rabiner)およびM.M.サンディ(Sondh
i)による説明がある)によって、ビタビ・スコア評価
(およびレベル形成方式)の実施が説明される。各文字
は、λk(1≦k≦K)として表されるHMMによって
表される。ただし、Kは、モデルの総数であり、識別さ
れるべき文字の数より一般に大きい。このHMMによ
り、同一の状態、次の状態、および(状態を1つ省略し
た)さらに高い次の状態の何れかへの(2つの連続した
観測内容の間の)状態遷移が許される。罰金関数および
状態省略に関して既に説明した制約は、モデルの特性の
一部であり、文字の変形の性質を反映する。文字のモデ
ルは、第1または第2の状態で開始するものと期待され
る。観測iごとに、各モデルの各状態に対するδ
i(m)が計算される。累積的な測度またはスコアに基
づいて、前の観測時の最適な前の状態に関する判断が再
帰的に行われる(図24参照)。単一モデルの場合に対
する終了および遡上の前記表現は、次の節において説明
するレベル形成アルゴリズムにおいては修正されてい
る。扱いを容易にするために、bm(Xi)およびδ
i(m)の計算における確率を負の対数確率で置き換え
てある。(これらも、本明細書では「距離」と称す
る。)
【0069】3.レベルの形成 典型的な処理10および認識処理500において、認識
は、個々の文字モデルに基づき、未知の文字列と(最尤
という意味において)最も良く一致する文字モデルの最
適シーケンスを決定することによって為される。先に導
入したレベル形成技法は、そのような文字モデルの最適
シーケンスの解決に適応される。
【0070】レベル形成アルゴリズムを図24に提示す
る。同図において、iは観測Xiに対応する観測点であ
り、jはλkで示されるHMMの1つの状態であり、l
は積み重ねたモデルの一レベル(即ち、文字列内部の文
字位置に対応するレベル)であり、さらにkはモデルλ
kに対応する文字である。観測の度に、各モデルおよび
各状態に対する累積距離を各レベルに対して更新する。
(この操作は、格子の傾斜およびHMM中の状態の最大
数に基づいて格子のある領域には到達できないことに注
目することにより、かなり削減されることがある。)あ
る観測に対する各レベルlの最後に、それぞれ続くモデ
ルに関してその観測時の最良のモデルを特定するため
に、累積距離の最小化をすべてのkに対して行う。
【0071】観測iに対するレベルlの最後における累
積距離をDl k(i)と定義される場合、次の文字モデル
pに対する観測iにおける最良のモデル(dtr(k,
p)は、モデルkからモデルpへの状態遷移確率であ
る)は、次のとおりである。
【数9】 ただし、Clp B(i)は、次の文字pに対する観測i、
レベルlにおける最良の文字モデルに対応するkの値を
格納する。Plp B(i)は、Clp B(i)に対応する前の
レベルの最良モデルへの逆ポインタを格納する。i
lは、モデルClp B(i)の現在のレベルの長さ(観測の
数)を示す。モデル内部の状態の飛び越し(省略)が許
されているので、Dl k(i)は、モデルλkの最後の状
態および最後から2番目の状態における累積距離のうち
の小さい方を保持する。
【0072】各モデルpに対する新たな各レベルlの初
期最良確率(最短の累積距離)をD lp B(i−1)の格
納されている値から得る。その新たなレベルで始まる文
字モデルを照合することにより、ビタビ・スコアをイン
クリメントする。l=1までポインタPlp B(i)を後
戻りさせることにより、長さlの最良の文字列を観測i
において特定することができる。この処理を最大予測レ
ベルの最後まで再帰的に続ける。min{Dlp B(I):1
≦l≦L}から全体的としての最良の文字列が得られ
る。ただし、Lは、文字列において予測される最大文字
数であり、Iは、最後の観測であり、さらにdtr(k,
p)=0である。
【0073】4.レクシコンによる前後関係 双グラム確率の使用によって与えられる前後関係に加え
て、辞書あるいはレクシコン(単語目録)の使用によっ
て前後関係を与えても良い。ビタビ/レベル形成技法に
よって特定した単語を単語目録と比較して、そのような
単語があるかどうかを調べてもよい。ない場合には、特
定した単語の代わりに単語目録にある最も近い単語を用
いるか、または最も近い単語を将来使用できるようにオ
ペレータが記録しておいてもよい。
【0074】尚、本明細書においては、「X^」により
「横線を冠したX」を示すものとする。
【0075】
【発明の効果】以上述べたように、本発明によれば、連
結して品質が劣化したテキストも認識することができ
る。
【図面の簡単な説明】
【図1】本発明によるテキスト認識過程の例を示す流れ
図である。
【図2】文字Xの線隣接グラフおよび圧縮した線隣接グ
ラフを表す図である。
【図3】文字eの線隣接グラフおよび圧縮した線隣接グ
ラフを表す図である。
【図4】図1に提示した典型的なワード前処理過程を示
す図である。
【図5】修正中央値フィルタの標準のフィルタ処理にお
いて用いられる3x3画素のウィンドウを示す図であ
る。
【図6】文字wの典型的な雑音性の元の画像を示す図で
ある。
【図7】画像におけるV字状の形のシャープネスを保持
するために変形中間値フィルタにおいて使用される3×
7の画素のウィンドウを示す図である。
【図8】画像における逆V字状の形のシャープネスを保
持するために変形中間値フィルタにおいて使用される3
×7の画素のウィンドウを示す図である。
【図9】線隣接グラフ濾過処理によって除去されるべき
2つの雑音状の画素を有する文字wを示す図である。
【図10】図6に提示した文字の画像に対するワード前
処理の結果を示す図である。
【図11】文字eおよび関係付けられてこれを表す運筆
に対する線隣接グラフを示す図である。
【図12】文字xおよび関係付けられてこれを表す運筆
に対する線隣接グラフを示す図である。
【図13】単語helloに関係する運筆の集合を示す図で
ある。
【図14】2つの隣接する運筆、およびそのような運筆
を合併するべきかどうかを決定するために用いられそれ
らに関係する量を示す図である。
【図15】運筆の例および弧の例を示す図である。
【図16】文字kyに対する線隣接グラフの区画を示す
図である。
【図17】文字kyに関する前処理されていない区画か
ら抽出した1組の特徴部位を示す図である。
【図18】文字kyの前処理を行った区画から抽出した
特徴部位を示す図である。
【図19】文字zの線隣接グラフ、およびそれに関係付
けられてそれを表す運筆を示す図である。
【図20】単語helloに関係する区画から抽出したほん
らいの特徴部位の集合を示す図である。
【図21】文字iに対する線隣接グラフ、圧縮した線隣
接グラフ、および関係する本来の特徴部位の運筆を示す
図である。
【図22】本発明の実施例によって用いられる32の特
徴部位の中心を例としてまとめて示す図である。
【図23】文字juに対するヒドン・マルコフ・モデル
を示す図である。
【図24】ビタビ・スコア評価およびレベル形成の技法
を表す格子を示す図である。
【図25】トレーニング・データ集合の生成に使用する
重複パラメータおよびかすれのパラメータのデータ例を
示す図である。
【符号の説明】
1 スキャナ 5 ページ前処理 10 テキスト認識処理 100 ワード前処理 120 中間値フィルタ 140 LAG処理 200 文字の区画化 300 特徴部位の抽出 400 トレーニング 500 認識
───────────────────────────────────────────────────── フロントページの続き (72)発明者 シュ−ショー クオ アメリカ合衆国 07922 ニュージャージ ー バークレー ハイツ、ティンバー ド ライヴ 368

Claims (50)

    【特許請求の範囲】
  1. 【請求項1】 2値画素からなる走査テキスト画像内の
    文字を認識する文字認識方法において、該方法は、 前記走査テキスト画像を分解して前記走査テキスト画像
    の垂直部分をそれぞれ含む1個以上の文字セグメントを
    決定するセグメンテーションステップと、 文字セグメントを特徴づける1個以上の特徴部位を識別
    する特徴部位識別ステップと、 識別した特徴部位に基づいて文字を認識する認識ステッ
    プとを有し、 前記セグメンテーションステップは、 連続する第1の画素値の走査画素の集合からなるノード
    の1個以上の群を決定するステップと、 決定したノード群の特性に基づいて、前記走査テキスト
    画像において、ノード群を特徴づける線分として運筆を
    決定するステップと、 決定した1個以上の運筆に基づいて、前記走査テキスト
    画像を、1個以上の文字セグメントに分解するステップ
    とを有することを特徴とする文字認識方法。
  2. 【請求項2】 前記認識ステップは、特徴部位を、既知
    の文字の既知の特徴部位と比較するステップを有するこ
    とを特徴とする請求項1に記載の方法。
  3. 【請求項3】 前記運筆を決定するステップは、 それぞれ1個以上の圧縮パスからなる1個以上の圧縮線
    隣接グラフとして走査画像を表現するステップと、 ノードの幅および中心位置の情報に基づいて、圧縮線隣
    接グラフの圧縮パスを複数のノード群に分割するステッ
    プと、 運筆識別規則の集合に基づいて、ノード群に対する運筆
    を決定する運筆決定ステップとを有することを特徴とす
    る請求項1に記載の方法。
  4. 【請求項4】 前記運筆決定ステップは、運筆合併規則
    の集合に基づいて隣接する運筆を合併させるステップを
    有することを特徴とする請求項3に記載の方法。
  5. 【請求項5】 文字セグメントを特徴づける特徴部位は
    運筆からなることを特徴とする請求項1に記載の方法。
  6. 【請求項6】 文字セグメントを特徴づける特徴部位は
    弧からなることを特徴とする請求項1に記載の方法。
  7. 【請求項7】 文字セグメントを特徴づける特徴部位は
    5要素の組によって表現されることを特徴とする請求項
    1に記載の方法。
  8. 【請求項8】 前記特徴部位識別ステップは、 それぞれ1個以上の圧縮パスからなる1個以上の圧縮線
    隣接グラフとして文字セグメントを表現するステップ
    と、 圧縮線隣接グラフを分析して1個以上の特徴部位を判定
    する分析ステップとを有することを特徴とする請求項1
    に記載の方法。
  9. 【請求項9】 前記特徴部位識別ステップは、文字セグ
    メントから、該文字セグメントに隣接する文字セグメン
    トからの圧縮パスの1個以上の画素を除外するステップ
    をさらに有することを特徴とする請求項8に記載の方
    法。
  10. 【請求項10】 前記分析ステップは、水平な文字セグ
    メントの圧縮パスに対する水平な運筆を識別するステッ
    プを有することを特徴とする請求項8に記載の方法。
  11. 【請求項11】 前記分析ステップは、水平でない文字
    セグメントに対して、ノード幅の情報に基づいて1個以
    上のノード群を定義するステップを有することを特徴と
    する請求項8に記載の方法。
  12. 【請求項12】 前記分析ステップは、ノード群の平均
    ノード幅の情報に基づいて、2つの隣接するノード群を
    単一のノード群へと合併させるステップをさらに有する
    ことを特徴とする請求項11に記載の方法。
  13. 【請求項13】 前記分析ステップは、ノード群内の弧
    状特徴部位を識別する弧状特徴部位識別ステップをさら
    に有することを特徴とする請求項11に記載の方法。
  14. 【請求項14】 前記弧状特徴部位識別ステップは、 ノード群における最初のノードと最後のノードの中心ど
    うしを結ぶ線分を定義するステップと、 前記ノード群において前記線分から最長距離のノード中
    心を判定するステップと、 前記最長距離を前記線分の長さで割った値がしきい値を
    超える場合、最初のノードおよび最後のノードの中心
    と、前記最長距離のノード中心とで定義される特徴部位
    を弧状特徴部位として識別するステップとを有すること
    を特徴とする請求項13に記載の方法。
  15. 【請求項15】 前記分析ステップは、ノード群内の運
    筆特徴部位を識別するステップをさらに有することを特
    徴とする請求項11に記載の方法。
  16. 【請求項16】 前記認識ステップは、 識別した特徴部位を既知の文字の1個以上の確率モデル
    と比較し、各比較の結果に基づいてスコアを決定するス
    コア決定ステップと、 決定したスコアに基づいて既知の文字からなる最適文字
    列を決定する最適文字列決定ステップとを有することを
    特徴とする請求項1に記載の方法。
  17. 【請求項17】 既知の文字の識別された特徴部位に基
    づいて確率モデルのトレーニングを行うトレーニングス
    テップをさらに有することを特徴とする請求項16に記
    載の方法。
  18. 【請求項18】 前記トレーニングステップは、特徴ベ
    クトルのK平均クラスタリングを実行して特徴空間を適
    応的に分割するステップを有することを特徴とする請求
    項17に記載の方法。
  19. 【請求項19】 前記トレーニングステップは、特徴ク
    ラスタの数をNとして、2値N次元空間内にセグメント
    ベクトルを表現するステップをさらに有することを特徴
    とする請求項18に記載の方法。
  20. 【請求項20】 文字の確率モデルは隠れマルコフモデ
    ルであることを特徴とする請求項16に記載の方法。
  21. 【請求項21】 モデルの状態に対する確率を決定する
    ことによって隠れマルコフモデルのトレーニングを行う
    ステップをさらに有することを特徴とする請求項16に
    記載の方法。
  22. 【請求項22】 前記隠れマルコフモデルは、モデル状
    態の飛び越しに対する罰金関数を含むことを特徴とする
    請求項20に記載の方法。
  23. 【請求項23】 前記隠れマルコフモデルは、1つのモ
    デル状態に留まることに対する罰金関数を含むことを特
    徴とする請求項20に記載の方法。
  24. 【請求項24】 前記スコア決定ステップは、ベイジア
    ン距離スコアを決定するステップを有することを特徴と
    する請求項16に記載の方法。
  25. 【請求項25】 前記最適文字列決定ステップは、さら
    にコンテクストのモデルに基づくことを特徴とする請求
    項16に記載の方法。
  26. 【請求項26】 前記コンテクストのモデルは、文字列
    の確率モデルであることを特徴とする請求項25に記載
    の方法。
  27. 【請求項27】 前記文字列の確率モデルは、nグラム
    確率からなることを特徴とする請求項26に記載の方
    法。
  28. 【請求項28】 前記コンテクストのモデルは、テキス
    ト文字列の辞書からなることを特徴とする請求項25に
    記載の方法。
  29. 【請求項29】 前記最適文字列決定ステップは、ビタ
    ビスコア評価を行うステップを含むことを特徴とする請
    求項16に記載の方法。
  30. 【請求項30】 前記ビタビスコア評価を行うステップ
    は、レベルビルディング処理を行うステップを有するこ
    とを特徴とする請求項29に記載の方法。
  31. 【請求項31】 走査テキスト画像の品質を高める品質
    向上手段と、 前記品質向上手段に接続され、前記走査テキスト画像の
    垂直部分をそれぞれ含む文字セグメントを決定するセグ
    メンテーション手段と、 前記セグメンテーション手段に接続され、文字セグメン
    トに基づいて特徴抽出を行う特徴抽出手段と、 前記特徴抽出手段に接続され、抽出された文字特徴部位
    と、既知の文字の確率モデルとの比較に基づいて、テキ
    ストの認識を行う認識手段とを有するテキスト認識シス
    テムにおいて、 前記セグメンテーション手段は、 連続する第1の画素値の走査画素の集合からなるノード
    の1個以上の群を決定する手段と、 決定したノード群の特性に基づいて、前記走査テキスト
    画像において、ノード群を特徴づける線分として運筆を
    決定する手段と、 決定した1個以上の運筆に基づいて、前記走査テキスト
    画像を、1個以上の文字セグメントに分解する手段とを
    有することを特徴とするテキスト認識システム。
  32. 【請求項32】 紙文書の紙面を走査して走査文書画像
    を生成するスキャナをさらに有することを特徴とする請
    求項31に記載のテキスト認識システム。
  33. 【請求項33】 前記スキャナに接続され、前記走査文
    書画像に基づいて単語の画素画像を決定するページプリ
    プロセッサをさらに有することを特徴とする請求項32
    に記載のテキスト認識システム。
  34. 【請求項34】 既知の文字の確率モデルのトレーニン
    グを行う手段をさらに有することを特徴とする請求項3
    1に記載のテキスト認識システム。
  35. 【請求項35】 テキスト文字を表す画素信号の複数の
    集合を用いて、トレーニング情報信号を格納するメモリ
    を有する光学的テキスト文字認識システムのトレーニン
    グを行う方法において、該方法は、 各画素信号集合を分解して該画素信号集合の垂直部分を
    それぞれ含む1個以上の文字セグメントを決定するセグ
    メンテーションステップと、 与えられた画素信号集合の文字セグメントを特徴づける
    1個以上の特徴信号を生成する特徴信号生成ステップ
    と、 画素信号集合において個々の文字セグメントに対応する
    特徴信号の出現頻度を反映するような、該文字セグメン
    トの確率的表現を反映する信号を生成するステップと、 個々の文字セグメントの前記確率的表現を反映する信号
    を前記メモリに格納するステップとを有し、 前記セグメンテーションステップは、 連続する第1の画素値の走査画素の集合からなるノード
    の1個以上の群を決定するステップと、 決定したノード群の特性に基づいて、前記画素信号集合
    において、ノード群を特徴づける線分として運筆を決定
    するステップと、 決定した1個以上の運筆に基づいて、前記画素信号集合
    を、1個以上の文字セグメントに分解するステップとを
    有することを特徴とする、光学的テキスト文字認識シス
    テムのトレーニングを行う方法。
  36. 【請求項36】 前記運筆を決定するステップは、 それぞれ1個以上の圧縮パスからなる1個以上の圧縮線
    隣接グラフとして画素信号集合を表現するステップと、 ノードの幅および中心位置の情報に基づいて、圧縮線隣
    接グラフの圧縮パスを複数のノード群に分割するステッ
    プと、 運筆識別規則の集合に基づいて、ノード群に対する運筆
    を決定する運筆決定ステップとを有することを特徴とす
    る請求項35に記載の方法。
  37. 【請求項37】 前記運筆決定ステップは、運筆合併規
    則の集合に基づいて隣接する運筆を合併させるステップ
    を有することを特徴とする請求項36に記載の方法。
  38. 【請求項38】 文字セグメントを特徴づける特徴信号
    は運筆からなることを特徴とする請求項35に記載の方
    法。
  39. 【請求項39】 文字セグメントを特徴づける特徴信号
    は弧からなることを特徴とする請求項35に記載の方
    法。
  40. 【請求項40】 文字セグメントを特徴づける特徴信号
    は5要素の組によって表現されることを特徴とする請求
    項35に記載の方法。
  41. 【請求項41】 前記特徴信号生成ステップは、それぞ
    れ1個以上の圧縮パスからなる1個以上の圧縮線隣接グ
    ラフとして文字セグメントを表現するステップと、 圧縮線隣接グラフを分析して1個以上の特徴部位を判定
    する分析ステップとを有することを特徴とする請求項3
    5に記載の方法。
  42. 【請求項42】 前記特徴信号生成ステップは、文字セ
    グメントから、該文字セグメントに隣接する文字セグメ
    ントからの圧縮パスの1個以上の画素を除外するステッ
    プをさらに有することを特徴とする請求項41に記載の
    方法。
  43. 【請求項43】 前記分析ステップは、水平な文字セグ
    メントの圧縮パスに対する水平な運筆を識別するステッ
    プを有することを特徴とする請求項41に記載の方法。
  44. 【請求項44】 前記分析ステップは、水平でない文字
    セグメントに対して、ノード幅の情報に基づいて1個以
    上のノード群を定義するステップを有することを特徴と
    する請求項41に記載の方法。
  45. 【請求項45】 前記分析ステップは、ノード群の平均
    ノード幅の情報に基づいて、2つの隣接するノード群を
    単一のノード群へと合併させるステップをさらに有する
    ことを特徴とする請求項44に記載の方法。
  46. 【請求項46】 前記分析ステップは、ノード群内の弧
    状特徴部位を識別する弧状特徴部位識別ステップをさら
    に有することを特徴とする請求項44に記載の方法。
  47. 【請求項47】 前記弧状特徴部位識別ステップは、 ノード群における最初のノードと最後のノードの中心ど
    うしを結ぶ線分を定義するステップと、 前記ノード群において前記線分から最長距離のノード中
    心を判定するステップと、 前記最長距離を前記線分の長さで割った値がしきい値を
    超える場合、最初のノードおよび最後のノードの中心
    と、前記最長距離のノード中心とで定義される特徴部位
    を弧状特徴部位として識別するステップとを有すること
    を特徴とする請求項46に記載の方法。
  48. 【請求項48】 前記分析ステップは、ノード群内の運
    筆特徴部位を識別するステップをさらに有することを特
    徴とする請求項47に記載の方法。
  49. 【請求項49】 前記特徴信号生成ステップは、ベクト
    ル量子化された特徴空間信号の集合を用いて実行される
    ことを特徴とする請求項35に記載の方法。
  50. 【請求項50】 文字セグメントを分析して、該文字セ
    グメントに対応する文字部分の表現を生成するステップ
    と、 前記表現のクラスタリングにより特徴空間を適応的に分
    割するステップとをさらに有することを特徴とする請求
    項35に記載の方法。
JP2000004785A 1991-12-23 2000-01-13 文字認識方法およびテキスト認識システム Pending JP2000148911A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US81322591A 1991-12-23 1991-12-23
US813225 1991-12-23

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP4357269A Division JP3056905B2 (ja) 1991-12-23 1992-12-24 文字認識方法およびテキスト認識システム

Publications (1)

Publication Number Publication Date
JP2000148911A true JP2000148911A (ja) 2000-05-30

Family

ID=25211815

Family Applications (2)

Application Number Title Priority Date Filing Date
JP4357269A Expired - Fee Related JP3056905B2 (ja) 1991-12-23 1992-12-24 文字認識方法およびテキスト認識システム
JP2000004785A Pending JP2000148911A (ja) 1991-12-23 2000-01-13 文字認識方法およびテキスト認識システム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP4357269A Expired - Fee Related JP3056905B2 (ja) 1991-12-23 1992-12-24 文字認識方法およびテキスト認識システム

Country Status (5)

Country Link
US (2) US5559902A (ja)
EP (2) EP0551738B1 (ja)
JP (2) JP3056905B2 (ja)
CA (1) CA2081406C (ja)
DE (2) DE69222141T2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006301696A (ja) * 2005-04-15 2006-11-02 Ricoh Co Ltd 画像評価装置および画像評価方法並びに記録媒体
US8296679B2 (en) 2006-06-30 2012-10-23 Research In Motion Limited Method of learning character segments from received text, and associated handheld electronic device
US9171234B2 (en) 2006-06-30 2015-10-27 Blackberry Limited Method of learning a context of a segment of text, and associated handheld electronic device
US9286288B2 (en) 2006-06-30 2016-03-15 Blackberry Limited Method of learning character segments during text input, and associated handheld electronic device

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5475768A (en) * 1993-04-29 1995-12-12 Canon Inc. High accuracy optical character recognition using neural networks with centroid dithering
JPH0773190A (ja) * 1993-04-29 1995-03-17 Matsushita Electric Ind Co Ltd ペンベースコンピューターシステム用絵文字ネーミング
JP3335009B2 (ja) * 1994-09-08 2002-10-15 キヤノン株式会社 画像処理方法及び画像処理装置
JP3400151B2 (ja) * 1994-12-08 2003-04-28 株式会社東芝 文字列領域抽出装置および方法
JPH08235310A (ja) * 1995-02-24 1996-09-13 Nec Corp 接触文字切り出し装置
US5894525A (en) * 1995-12-06 1999-04-13 Ncr Corporation Method and system for simultaneously recognizing contextually related input fields for a mutually consistent interpretation
US6275611B1 (en) * 1996-10-17 2001-08-14 Motorola, Inc. Handwriting recognition device, method and alphabet, with strokes grouped into stroke sub-structures
US6125192A (en) * 1997-04-21 2000-09-26 Digital Persona, Inc. Fingerprint recognition system
US20050114705A1 (en) * 1997-12-11 2005-05-26 Eran Reshef Method and system for discriminating a human action from a computerized action
JP3769129B2 (ja) * 1998-09-03 2006-04-19 富士通株式会社 波長分散補償機能を備えた光増幅器及び光通信システム
US6304337B1 (en) 1998-12-21 2001-10-16 Lexmark International, Inc. Stochastic method of enlarging a visual image
US6115031A (en) * 1999-04-23 2000-09-05 Lexmark International, Inc. Method of converting color values
US7016536B1 (en) * 1999-11-24 2006-03-21 Gtx Corporation Method and apparatus for automatic cleaning and enhancing of scanned documents
US6763137B1 (en) 2000-09-14 2004-07-13 Canon Kabushiki Kaisha Recognition and clustering of connected components in bi-level images
US6807309B1 (en) 2000-12-27 2004-10-19 Canon Kabushiki Kaisha Linear list compression
JP3965983B2 (ja) * 2001-11-30 2007-08-29 松下電工株式会社 画像処理方法およびその装置
KR100449486B1 (ko) * 2001-12-29 2004-09-22 한국전자통신연구원 수직선 인접 그래프를 이용한 문서 인식 시스템 및 방법
US7227993B2 (en) * 2003-01-27 2007-06-05 Microsoft Corporation Learning-based system and process for synthesizing cursive handwriting
US7283669B2 (en) * 2003-01-29 2007-10-16 Lockheed Martin Corporation Fine segmentation refinement for an optical character recognition system
US7620244B1 (en) 2004-01-06 2009-11-17 Motion Computing, Inc. Methods and systems for slant compensation in handwriting and signature recognition
US7561738B2 (en) * 2004-09-22 2009-07-14 Microsoft Corporation Symbol grouping and recognition in expression recognition
TW200733720A (en) * 2006-02-24 2007-09-01 Pixart Imaging Inc Digital image processing method and the device thereof
US7899251B2 (en) * 2006-06-05 2011-03-01 Microsoft Corporation Balancing out-of-dictionary and in-dictionary recognition scores
EP2191397B1 (en) * 2007-08-20 2019-01-23 Qualcomm Incorporated Enhanced rejection of out-of-vocabulary words
US9261979B2 (en) 2007-08-20 2016-02-16 Qualcomm Incorporated Gesture-based mobile interaction
US8306327B2 (en) * 2008-12-30 2012-11-06 International Business Machines Corporation Adaptive partial character recognition
FI20086260A (fi) 2008-12-31 2010-09-02 Teknillinen Korkeakoulu Menetelmä hahmon löytämiseksi ja tunnistamiseksi
US9118669B2 (en) 2010-09-30 2015-08-25 Alcatel Lucent Method and apparatus for voice signature authentication
JP5767913B2 (ja) * 2011-09-05 2015-08-26 株式会社東芝 単語認識装置、単語認識方法、及び単語認識装置を備える紙葉類処理装置
RU2520407C1 (ru) * 2012-11-16 2014-06-27 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ и система улучшения текста при цифровом копировании печатных документов
US9256780B1 (en) * 2014-09-22 2016-02-09 Intel Corporation Facilitating dynamic computations for performing intelligent body segmentations for enhanced gesture recognition on computing devices
US9575952B2 (en) 2014-10-21 2017-02-21 At&T Intellectual Property I, L.P. Unsupervised topic modeling for short texts
US10521697B2 (en) 2017-09-29 2019-12-31 Konica Minolta Laboratory U.S.A., Inc. Local connectivity feature transform of binary images containing text characters for optical character/word recognition
US10748031B1 (en) 2019-05-22 2020-08-18 Read-Ink Corporation Handwriting recognition systems and methods
US11188745B2 (en) * 2019-09-13 2021-11-30 At&T Intellectual Property I, L.P. Enhancing electronic documents for character recognition
CN112580495A (zh) * 2020-12-16 2021-03-30 上海眼控科技股份有限公司 文本识别方法、装置、计算机设备和存储介质
US11847806B2 (en) 2021-01-20 2023-12-19 Dell Products, L.P. Information extraction from images using neural network techniques and anchor words
US11615634B2 (en) * 2021-07-01 2023-03-28 International Business Machines Corporation Character recognition of license plate under complex background
AU2022338463A1 (en) 2021-09-03 2024-03-21 Toray Industries, Inc. Pharmaceutical composition for cancer treatment and/or prevention
CN114331926B (zh) * 2021-12-29 2022-06-10 杭州电子科技大学 基于换元思想的两通道图滤波器组系数设计优化方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3737855A (en) * 1971-09-30 1973-06-05 Ibm Character video enhancement system
DD118738A1 (ja) * 1975-03-20 1976-03-12
US4783753A (en) * 1986-05-07 1988-11-08 Environmental Research Inst. Of Michigan System for reducing speckle noise
US5170442A (en) * 1987-09-08 1992-12-08 Seiko Epson Corporation Character pattern transforming system
US4783840A (en) * 1987-12-04 1988-11-08 Polaroid Corporation Method for enhancing image data by noise reduction or sharpening
US4791679A (en) * 1987-12-26 1988-12-13 Eastman Kodak Company Image character enhancement using a stroke strengthening kernal
US5067165A (en) * 1989-04-19 1991-11-19 Ricoh Company, Ltd. Character recognition method
US5142589A (en) * 1990-12-21 1992-08-25 Environmental Research Institute Of Michigan Method for repairing images for optical character recognition performing different repair operations based on measured image characteristics
US5148500A (en) * 1991-01-24 1992-09-15 Aoi Systems, Inc. Morphological processing system
US5263097A (en) * 1991-07-24 1993-11-16 Texas Instruments Incorporated Parameter normalized features for classification procedures, systems and methods

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006301696A (ja) * 2005-04-15 2006-11-02 Ricoh Co Ltd 画像評価装置および画像評価方法並びに記録媒体
US8296679B2 (en) 2006-06-30 2012-10-23 Research In Motion Limited Method of learning character segments from received text, and associated handheld electronic device
US9171234B2 (en) 2006-06-30 2015-10-27 Blackberry Limited Method of learning a context of a segment of text, and associated handheld electronic device
US9286288B2 (en) 2006-06-30 2016-03-15 Blackberry Limited Method of learning character segments during text input, and associated handheld electronic device

Also Published As

Publication number Publication date
EP0551738A3 (en) 1994-10-19
EP0551739A3 (en) 1994-07-20
EP0551739A2 (en) 1993-07-21
JPH0684008A (ja) 1994-03-25
EP0551738B1 (en) 1998-04-15
DE69225128D1 (de) 1998-05-20
CA2081406A1 (en) 1993-06-24
EP0551738A2 (en) 1993-07-21
DE69222141T2 (de) 1998-01-15
US5559902A (en) 1996-09-24
DE69225128T2 (de) 1998-08-06
US5644648A (en) 1997-07-01
DE69222141D1 (de) 1997-10-16
JP3056905B2 (ja) 2000-06-26
CA2081406C (en) 1997-09-16
EP0551739B1 (en) 1997-09-10

Similar Documents

Publication Publication Date Title
JP3056905B2 (ja) 文字認識方法およびテキスト認識システム
Bose et al. Connected and degraded text recognition using hidden Markov model
US5050222A (en) Polygon-based technique for the automatic classification of text and graphics components from digitized paper-based forms
US5335290A (en) Segmentation of text, picture and lines of a document image
EP1831823B1 (en) Segmenting digital image and producing compact representation
JP3308032B2 (ja) スキュー補正方法およびスキュー角検出方法およびスキュー補正装置およびスキュー角検出装置
JP3822277B2 (ja) 文字テンプレートセット学習マシン動作方法
EP0572335A2 (en) Feature classification using supervised statistical pattern recognition
US9047655B2 (en) Computer vision-based methods for enhanced JBIG2 and generic bitonal compression
WO2001054054A1 (en) Word recognition using silhouette bar codes
US20030012438A1 (en) Multiple size reductions for image segmentation
US6266445B1 (en) Classification-driven thresholding of a normalized grayscale image
Favata Off-line general handwritten word recognition using an approximate beam matching algorithm
Nishida et al. A model-based split-and-merge method for character string recognition
Normand et al. A background based adaptive page segmentation algorithm
JP2000322514A (ja) パターン抽出装置及び文字切り出し装置
Andargachew IMPROVING THE COMPRESSION ALGORITHMS PERFORMANCE FOR SCANNED AMHARIC PDF FILES
Arias Efficient techniques for line drawing interpretation and their application to telephone company drawings
Bai et al. Extracting curved text lines using the chain composition and the expanded grouping method
Ahmadi et al. Off-line persian handwritten recognition using hidden Markov models
Xingyuan et al. Skeletonizing by compressed line adjacency graph in two directions
Hu et al. A new framework for generating skeletons and centerlines based on distance transform: theory and practice
Bai et al. Extracting curved text lines using the chain composition and the expanded grouping method
Antonacopoulos Page Segmentation and Classification Using the Description of the Background
Fischer Digital image preprocessing: skewing & thresholding