JP2002056357A - 文字認識装置、その方法および記録媒体 - Google Patents

文字認識装置、その方法および記録媒体

Info

Publication number
JP2002056357A
JP2002056357A JP2000243384A JP2000243384A JP2002056357A JP 2002056357 A JP2002056357 A JP 2002056357A JP 2000243384 A JP2000243384 A JP 2000243384A JP 2000243384 A JP2000243384 A JP 2000243384A JP 2002056357 A JP2002056357 A JP 2002056357A
Authority
JP
Japan
Prior art keywords
character
line
recognition
unit
decoration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000243384A
Other languages
English (en)
Inventor
Yoshihisa Oguro
慶久 大黒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2000243384A priority Critical patent/JP2002056357A/ja
Publication of JP2002056357A publication Critical patent/JP2002056357A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 (修正有) 【課題】 文字認識装置において、文字認識結果を言語
解析して認識結果の修正及び認識精度の向上を図る。 【解決手段】 入力画像の文字領域から文字行を切出す
行切出し部20により切出された文字を切り出す文字切
出し部30、文字切出し部からの文字特徴を認識辞書4
5とから認識候補を得る文字認識部40と、その文字候
補を修正する言語解析部50を設ける。その他、行切出
し部で切出された行を、本文行、文字修飾行(ルビ、下
線、傍点、網掛け等)に分類する行タイプ分類部60、
行タイプ分類部による分類タイプが文字装飾であると
き、これを抽出する文字飾飾抽出部70と、この文字装
飾に対応する隣接行の文字列を抽出する対応文字抽出部
80を設け、言語解析部50は文字認識部からの出力の
候補の組み合せに対し単語辞書55を用い形態解析を行
い、文字修飾行の情報から形態素の範囲を限定し、文章
として可能性なき組合せを排除し照合精度向上を図る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字認識装置、そ
の方法および記録媒体に関し、特に、文字認識結果を言
語解析することによって認識結果を修正する技術に関す
る。
【0002】
【従来の技術】文字認識において、文字画像からの1文
字単位の認識では誤認識を完全に排除することはきわめ
て困難である。このため後処理として、文字認識された
結果の文字列に対して、単語照合や形態素解析等により
自動的に修正することが行われることが多い。このよう
に単語照合を用いて誤認識を解消する方法として、特開
平5−46806号公報や特開平10−247218号
公報では、ふりかなつきの漢字(姓名等)の場合、ふり
かなに対する認識結果とこの漢字に対する認識結果とを
比較し、矛盾なく説明できる認識結果を採用するように
している。また、このようなふりかなを識別する方法と
しては、特開平8−101886号公報や特開平9−6
906号公報にあるように、画像の中から行を切り出
し、このうちのある行に注目したとき、この行と隣接し
た行との行間隔や行の幅等を考慮してルビ行を検出して
いる。
【0003】
【発明が解決しようとする課題】しかしながら、従来の
技術の方法では、帳票のように、氏名欄とふりかな欄な
ど、記入内容が指定されており、ふりかなと本文(主に
住所・氏名)との対応が、予め、ある程度、決められて
いる場合に限られている。このようなふりかなと本文と
が帳票のような一定の書式に書かれるものではなく、一
般的なルビつきの文章において、ルビの行と本文の行と
を判別し、ルビを文字認識し、本文中の漢字を認識する
ときにこの漢字に対応するルビの文字認識結果を利用し
て、漢字の誤認識を減少させる方法として、特開平5−
189614号公報がある。しかし、この方法では1文
字の漢字にルビを対応させるという方法であって、ルビ
が複数の漢字にまたがって振られているような場合には
利用することができないし、また、漢字にルビに対応す
るふりかなが漢字辞書に登録されていない場合にも利用
できないという問題がある。本発明は、上述の問題を解
決するためのものであり、本文とふりかなや下線、傍
点、網掛け等の文字飾りの位置関係を利用して、両者を
対応づけて、形態素の範囲を決定し、形態素解析の精度
向上、更には文字認識の精度向上をはかる文字認識装
置、その方法および記録媒体を提供することを目的とす
る。
【0004】
【課題を解決するための手段】上記の問題を解決するた
めに、請求項1の発明は、入力された画像の文字画像領
域から切り出された文字画像に対して文字認識した結果
に言語処理を行って認識結果を得る文字認識装置におい
て、入力された画像の文字画像領域から文字列の行を切
り出す行切出し部と、前記行切出し部から切り出された
行から文字を切り出す文字切出し部と、前記文字切出し
部で切り出された文字を認識する文字認識部と、前記文
字認識部で認識された文字候補を組み合わせて生成され
る文字列を言語解析して前記文字認識部の認識文字候補
を修正する言語解析部とを備え、前記行切出し部で切り
出された行のタイプを分類する行タイプ分類部と、前記
行タイプ分類部で分類された行のタイプが文字装飾であ
るとき、その文字装飾を抽出する文字装飾抽出部と、こ
の文字装飾を含んだ行に隣接した行のこの文字装飾に対
応する文字列を抽出する対応文字列抽出部とを設け、前
記言語解析部は、言語解析するときに前記対応文字列抽
出部で抽出された文字列を1つの単語として解釈して認
識候補を修正するようにしたことを特徴とする。また、
請求項2の発明は、請求項1記載の文字認識装置におい
て、前記言語解析部は、前記行タイプ分類部で分類され
たタイプがルビ行の場合、このルビを前記対応文字列抽
出部で抽出された文字列の読みとし、この読みに対応す
る単語をこの文字列の認識結果として修正するようにし
たことを特徴とする。また、請求項3の発明は、請求項
1記載の文字認識装置において、前記文字タイプ分類部
におけるタイプが傍点、傍線、下線等の文字装飾である
ことを特徴とする。また、請求項4記載の発明は、入力
された画像の文字画像領域から切り出された文字画像に
対して文字認識した結果に言語処理を行って認識結果を
得る文字認識装置において、入力された画像の文字画像
領域から文字列の行を切り出す行切出し部と、前記行切
出し部から切り出された行から文字を切り出す文字切出
し部と、前記文字切出し部で切り出された文字を認識す
る文字認識部と、前記文字認識部で認識された文字候補
を組み合わせて生成される文字列を言語解析して前記文
字認識部の認識文字候補を修正する言語解析部とを備
え、前記行切出し部で切り出された行のタイプを分類す
る行タイプ分類部と、前記行タイプ分類部で分類された
行のタイプが文字装飾であるとき、この文字装飾に対応
する文字列を抽出する対応文字列抽出部とを設け、前記
言語解析部は、言語解析するときに前記対応文字列抽出
部で抽出された文字列を1つの単語として解釈して認識
候補を修正するようにしたことを特徴とする。
【0005】また、請求項5の発明は、入力された画像
の文字画像領域から切り出された文字画像に対して文字
認識した結果に言語処理を行って認識結果を得る文字認
識方法において、入力された画像の文字画像領域から文
字列の行を切り出す行切出し工程と、前記行切出し工程
から切り出された行から文字を切り出す文字切出し工程
と、前記文字切出し工程で切り出された文字を認識する
文字認識工程と、前記文字認識工程で認識された文字候
補を組み合わせて生成される文字列を言語解析して前記
文字認識工程の認識文字候補を修正する言語解析工程と
を備え、前記行切出し工程で切り出された行のタイプを
分類する行タイプ分類工程と、前記行タイプ分類工程で
分類された行のタイプが文字装飾であるとき、その文字
装飾を抽出する文字装飾抽出工程と、この文字装飾を含
んだ行に隣接した行のこの文字装飾に対応する文字列を
抽出する対応文字列抽出工程とを設け、前記言語解析工
程は、言語解析するときに前記対応文字列抽出工程で抽
出された文字列を1つの単語として解釈して認識候補を
修正するようにしたことを特徴とする。また、請求項6
の発明は、請求項5記載の文字認識方法において、前記
言語解析部は、前記行タイプ分類部で分類されたタイプ
がルビ行の場合、このルビを前記対応文字列抽出部で抽
出された文字列の読みとし、この読みに対応する単語を
この文字列の認識結果として修正するようにしたことを
特徴とする。また、請求項7の発明は、請求項5記載の
文字認識方法において、前記文字タイプ分類工程におけ
るタイプが傍点、傍線、下線等の文字装飾であることを
特徴とする。
【0006】また、請求項8の発明は、入力された画像
の文字画像領域から切り出された文字画像に対して文字
認識した結果に言語処理を行って認識結果を得る文字認
識方法において、入力された画像の文字画像領域から文
字列の行を切り出す行切出し工程と、前記行切出し工程
から切り出された行から文字を切り出す文字切出し工程
と、前記文字切出し工程で切り出された文字を認識する
文字認識工程と、前記文字認識工程で認識された文字候
補を組み合わせて生成される文字列を言語解析して前記
文字認識工程の認識文字候補を修正する言語解析工程と
を備え、前記行切出し工程で切り出された行のタイプを
分類する行タイプ分類工程と、前記行タイプ分類工程で
分類された行のタイプが文字装飾であるとき、この文字
装飾に対応する文字列を抽出する対応文字列抽出工程と
を設け、前記言語解析工程は、言語解析するときに前記
対応文字列抽出工程で抽出された文字列を1つの単語と
して解釈して認識候補を修正するようにしたことを特徴
とする。また、請求項9の発明は、コンピュータを、入
力された画像の文字画像領域から切り出された文字画像
に対して文字認識した結果に言語処理を行って認識結果
を得る文字認識装置として機能させるためのプログラム
を記録したコンピュータ読み取り可能な記録媒体であっ
て、請求項5〜8のいずれかに記載の文字認識方法をコ
ンピュータを用いて実施するためのプログラムを記録し
たことを特徴とする。
【0007】
【発明の実施の形態】以下に、図面を用いて本発明の実
施の形態の構成および動作を詳細に述べる。 <実施の形態> (1)実施の形態の構成 図1は、本発明に係る文字認識装置の実施の形態の構成
例を示すブロック図である。この実施の形態の文字認識
装置は、制御部10、行切出し部20、文字切出し部3
0、文字認識部40、言語解析部50、行タイプ分類部
60、文字装飾抽出部70、対応文字抽出部80、認識
辞書45、単語辞書55とから構成されている。制御部
10は、スキャナやファイルからの画像を読取り、画像
情報を2値化し、その情報から文字認識し、最終結果で
ある認識結果を出力するまでの全体を制御する。行切出
し部20は、入力された画像情報から文字画像領域を判
別し、その文字領域から行を切り出す。文字切出し部3
0は、この行切出し部20で切り出された行から文字を
切り出し、その文字部分を囲む矩形の対角座標値を抽出
し、その文字部分の大きさの正規化やノイズ(汚れ等)
除去を行って、一時的に記憶しておく。文字認識部40
は、文字切出し部30で切り出された文字に対して特徴
量を計算し、その特徴量と標準パターンの認識辞書45
とからパターンマッチングを行い、認識候補を生成す
る。認識辞書45は、文字ごとに文字コード、その文字
の標準パターンの特徴量等の情報を保持する。
【0008】文字認識部40は、入力した画像情報の特
徴量とこの認識辞書の標準パターンの特徴量とを比較
し、類似度の高いものを認識結果の候補として、所定の
数(例えば、類似度の高い方から10個程度)を選び文
字コードを出力する。言語解析部50は、文字認識部4
0で出力された候補の並びを考えた場合、その候補の組
み合わせに対して単語辞書55を用いて形態素解析を行
い、単語や単語の接続性を見ることにより、文章として
可能性のない組み合わせを識別して、認識候補を削除す
る。このようにして文字認識の誤認識少なくすることが
できる。単語辞書55は、図2に示したような単語の表
記、よみ、品詞等の情報を保持する単語辞書である。行
タイプ分類部60は、行切出し部20で切り出された各
行を、本文行、ルビ行および、下線、傍点、傍線、網掛
け等の文字飾りの付いた行とに分類し、行とタイプとを
対応させて一時的に記憶しておく。(尚、以下の説明で
は、ルビ行と文字飾りの付いた行とを合わせて、文字装
飾行と呼ぶことにする。)また、文字飾り行のタイプ
は、細分化して分類しておく。以下の説明では、横書き
を用いて説明するが、縦書きについても同様に考えるこ
とができる。また、同じ行にルビや文字飾りが混在して
いた場合には、左端(横書きの場合)または上端(縦書
きの場合)にあるものによって代表させるが、実際の処
理では個々のまとまりごとに判断し、処理する。
【0009】ルビ行を識別するには、例えば図3を参照
すると、注目行の前後行の行の高さ(図中aおよびb)がほ
ぼ等しく、かつ、注目行の行の高さ(図中c)が前後行の
行の高さ(図中aおよびb)より小さく、かつ、注目行の長
さ(図中 z)が前後行の長さ(図中xおよびy)以下で、か
つ、注目行に、文字矩形のまとまりが一つ以上存在し、
かつ、注目行の認識結果の字種がひらがな、カタカナあ
るいは英数字からなり、かつ、注目行の前後行の認識結
果は複数種の文字から構成されるならば、注目行はルビ
行であると考える。文字矩形のまとまりを求めるには、
閾値以内の距離にある矩形は、同じまとまりに属すると
判断すればよい。また、傍点からなる行を識別するに
は、例えば図4を参照すると、注目行の前後行の行の高
さ(図中aおよびb)がほぼ等しく、かつ、注目行の行の高
さ(図中 c)が前後行の行の高さ(図中aおよびb)より小さ
く、かつ、注目行の長さ(図中 z)が前後行の長さ(図中x
およびy)以下で、かつ、注目行に、文字矩形のまとまり
が一つ以上存在し、かつ、注目行の認識結果の字種が記
号(罫線文字含む)であって、かつ、注目行の認識結果が
同字種の文字から構成されるならば、注目行は文字飾り
行であると考える。また、下線からなる行を識別するに
は、例えば図5を参照すると、注目行の前後行の行高さ
(図中a および b)がほぼ等しく、かつ、注目行の行高さ
(図中c)が前後行の行高さ(図中aおよびb)より小さく、
かつ、注目行の長さ(図中 z)が前後行の長さ(図中xおよ
びy)以下で、かつ、注目行に、矩形のまとまりが一つ以
上存在し、かつ、注目行は、行の高さに比べて行の長さ
が長い(行高:行長の比が一定以上)ならば、注目行は下
線からなる行であると考える。また、上記のいずれにも
該当しなかった行は、本文行であると考える。このよう
にして得た行のタイプ分類は、認識処理時にそのタイプ
に応じた認識辞書を用いることによって、字種を限定し
た辞書となることから、すべての文字を対象にした辞書
を用いる場合よりも精度よく、しかも処理時間が少なく
認識できるようになる。文字装飾抽出部70は、行タイ
プ分類部60で分類されたタイプ(本文行、ルビ行、文
字飾り行)のうちルビ行の場合は、ルビの文字とその文
字の座標位置を抽出する。例えば、図3では、ルビとし
て「おうゆう」とそれが存在する座標位置(そのルビと
してひとまとまりの文字列を囲む矩形の対角の座標値)
を抽出する。
【0010】また、図4や図5のような文字飾りの行
は、それが存在する座標位置(その文字飾りとしてひと
まとまりを囲む矩形の対角の座標値)とそのタイプを抽
出する。これらの抽出は、その行に同種のタイプが複数
あっても、また、複数の別のタイプがあっても、それら
はすべて抽出し、タイプと座標位置を一時的に記憶して
おく。対応文字抽出部80は、文字装飾抽出部70で抽
出された文字装飾(ルビまたは文字飾り)の座標位置を
参照してそれに対応する隣接行にある本文の文字列を抽
出する。取り出された文字列は、文字装飾と対応付けて
一時的に記憶しておく。この対応付けは、このルビや文
字飾りを取り囲む矩形(座標値から求められる)を考
え、この矩形を含むような本文中の文字列を取り出すよ
うにする。例えば、図6を参照すると、ルビ「おうゆ
う」を左上の座標: (XB,YB) 、右下の座標: (XE,Y
E)で囲む矩形と、「区、鳥、友」のそれぞれの文字の左
上の座標: (xb,yb) 、右下の座標: (xe,ye)で囲ま
れた矩形を求める。次に、ルビの矩形のX方向の幅(縦
書きの場合はY方向の幅)が、本文の文字のどの文字か
らどの文字までから作られる矩形のX方向の幅に含まれ
るかを探し、その結果の先頭の文字から最後の文字まで
の文字列が求めるものである。ここではルビ「おうゆ
う」に対する漢字の列「区、鳥、友」がその文字列であ
る。上記では、本文行とは離れた行と判断できるルビ行
と文字飾り(下線、傍点等)について説明したが、本文
中に表れる網掛け部分についても同様に考えることがで
きる。網掛け範囲を特定するには、黒画素を包括する矩
形を求めた後、予め設定した基準値によって、網掛けの
ドット模様と推測される小さな矩形を求める。
【0011】行範囲を求めた後、予め設定した適当な範
囲において、先に求めた小さな矩形の数を数え上げ、そ
の数が一定数以上であれば、ドット密度が高いわけであ
るから、ドット模様を形成していると判断し、当該範囲
は網掛け範囲と認定する。ドット密度検出範囲を少しず
つ移動させながら同様にドット密度を求め、一定数以
上、ドット密度が高ければ、網掛け範囲と認定する。行
画像がなくなるまでドット密度検出範囲を移動させれ
ば、当該行画像の網掛け範囲がもとまる。このようにし
て特定された範囲を形態素としてのまとまりとして扱
う。このような構成において、制御部10は、スキャナ
やファイルからの画像を読取り、画像情報を2値化し
て、行切出し部20を呼び出す。行切出し部20は、そ
の2値化された画像情報から文字画像領域を判別し、行
を切り出す。次に、制御部10は、行タイプ分類部60
を呼び出し、各行に対してタイプを識別し、そのタイプ
を、本文行、ルビ行、文字飾り行の3種類に分類する。
これらのタイプは各行に対応させて一時的に記憶してお
く。ここで1行中に複数のルビや文字飾りのタイプがあ
った場合には、その先頭のもの(横書きでは左端、縦書
きでは上端)に対してのタイプで代表する。次に、制御
部10は、文字切出し部30を呼び出す。文字切出し部
30は、切り出された行から文字を切り出し、その文字
部分を囲む矩形の対角座標値を抽出し、その文字部分の
大きさの正規化やノイズ(汚れ等)除去を行って、一時
的に記憶しておく。次に、制御部10は、文字装飾抽出
部70を呼び出す。文字装飾抽出部70は、行タイプ分
類部60で分類されたタイプ(本文行、文字装飾行)が
ルビ行の場合は、ルビの文字と、その文字の座標位置
(その文字を囲む矩形の対角の座標値)を抽出する。ま
た、文字飾り行は、文字飾りが存在する座標位置(その
文字を囲む矩形の対角の座標値)を抽出する。このよう
にして抽出された文字のうち同種のタイプで連続して隣
り合った文字をひとまとまりとし、このひとまとまりと
された文字列を囲む矩形の対角の座標値を求める。この
抽出は、その行に同種のタイプのまとまりが複数あって
も、また、複数の別のタイプがあっても、それらはすべ
て抽出する。これら抽出されたまとまりのタイプ(ル
ビ、文字飾り)、ひとまとまりの文字列(ルビの場
合)、座標位置(まとまりとしての矩形の対角座標値)
を一時的に記憶しておく。
【0012】次に、制御部10は文字認識部40を呼び
出す。文字認識部40は、文字切出し部30で切り出さ
れた文字に対して特徴量を計算し、その特徴量と認識辞
書45の標準パターンとからパターンマッチングを行
い、類似度の高いものを所定の数だけ選び、認識候補と
して出力する。このとき文字装飾の行に対しては、文字
装飾抽出部70で識別されたまとまりに対してそのタイ
プに応じた最適な認識辞書45を使うように構成でき
る。次に、制御部10は、対応文字抽出部80を呼び出
す。対応文字抽出部80は、文字装飾抽出部70で抽出
されたルビまたは文字飾りの各まとまりに対する座標位
置を参照してそれに対応する隣接行にある本文の文字列
を抽出する。抽出された本文中の文字列は、文字装飾に
対応させて一時的に記憶する。この対応付けは、このル
ビや文字飾りからなるまとまりを囲む矩形(記憶されて
いる対角の座標を用いる)のX方向の幅(縦書きの場合
はY方向の幅)が、本文の文字のどの文字からどの文字
までで作られる矩形のX方向の幅(縦書きの場合はY方
向の幅)に含まれるかを探し、その結果の先頭の文字か
ら最後の文字までの文字列が求めるものである。次に、
制御部10は、言語解析部50を呼び出す。言語解析部
50は、文字認識部40で出力された候補の並びを考え
た場合、その候補の組み合わせに対して単語辞書55を
用いて形態素解析を行い、単語や単語の接続性を見るこ
とにより、文章として可能性のない組み合わせを識別し
て、認識候補からそれを削除する。この形態素解析を行
うとき、対応文字抽出部80で抽出した文字装飾のある
範囲の対応文字列に対しては、一つの形態素(単語)と
して扱い、単語辞書55を検索するようにすれば、登録
されていない認識候補からなる組み合わせは排除される
ことになる。例えば、入力された文章が日本語で書かれ
ているとすると、本文行にはひらかな、漢字、英数字、
記号等が混在しており、また、漢字であっても偏(へん)
と旁(つくり)などから構成され、その上、偏と旁が各々
単独でも一字として成立することがあるため、文字切り
出しにあいまいさがあり、一意に決定することができ
ず、全体的な文字認識精度の低下につながっている。
【0013】図7を参照して説明する。認識候補文字か
らなる組み合わせに対して、単語辞書55(図2のよう
な単語が登録されているとする。)を適用して形態素解
析を行い、その結果、次のような形態素列が得られる可
能性がある。 区/鳥/友/女/子/高 区/鳥/友/好/高 区/鳥/友好/高 鴎/友/女/子/高 鴎/友/女子/高 鴎/友/好/高 鴎/友好/高 鴎友/女/子/高 鴎友/女子/高 鴎友/好/高 実際には、各文字矩形の対して複数の候補文字が存在す
るので、形態素の可能性を列挙するには、上記の組み合
わせの他にも、認識候補文字すべての組み合わせを辞書
検索しなければならない。単語区切りのあいまいさが解
消されない限り、すべての区切りの可能性を考慮する必
要があるので、文字列が長くなるにつれ、組み合わせ数
は指数関数的に増大する。これらの組み合わせの中か
ら、認識スコアや「文節数最小」のヒューリスティック
などの観点から最良の組み合わせを選択し、認識結果に
反映する。しかし、図6のように、固有名詞「鴎友」に
ルビ「おうゆう」がある場合、ふりかなの範囲を一つの
形態素と推定すると、単語区切りは以下の組み合わせに
絞られる。 鴎友/女/子/高 鴎友/女子/高 鴎友/好/高 このように「鴎友」で区切られることがわかるので、組
み合わせ数が著しく減少し、単語辞書55への検索回数
も減少するので、処理時間の増加を避けることができ
る。
【0014】それに加えて、これらの可能性の中から、
最良のものを選択するために、認識スコアや「文節数最
小」のヒューリスティックなどの観点から評価する際
に、不正な組み合わせを予め排除することができるの
で、誤って不正解を選択する恐れを減じることができ、
認識精度の向上も期待できる。このようにして制御部1
0は、認識候補文字から不要なものを削除し、認識結果
として表示装置等へ出力する。従って、本文の部分をひ
とまとまりとみなせる文字装飾(ルビ、下線、傍点、網
掛け等)を利用することによって、形態素の区切りのあ
いまい性を解消し、形態素解析において、不必要な認識
文字候補の組み合わせを考慮することがなくなるので、
形態素解析の処理が軽減され、形態素解析の精度が向上
し、それにともなって文字切り出しの精度も高まり、最
終的な認識精度も向上する。よって、高精度かつ高速な
文字認識装置を実現することができる。
【0015】(2)処理の流れ 図8は、この実施の形態における文字認識に関する処理
の流れを説明するためのフローチャートである。ここで
は図9に示した日本語で書かれた文章をもとに説明す
る。スキャナやファイルからの画像を読取り、その2値
化された画像情報から文字画像領域を判別し、行を切り
出す(図10参照)(ステップS100)。各行に対し
てタイプを識別し、そのタイプを3種類(本文行、ルビ
行、文字飾り行)に分類する(ステップS110)。図
10を参照すると、2行目の「りょうさいけんぼ」およ
び7行目の「おうゆう」がルビ行であり、その他はすべ
て本文行である。また、図4および図5には、文字飾り
(傍点、下線)行の例がある。これらのタイプは各行に
対応させて一時的に記憶しておく。ここで1行中に複数
のルビや文字飾りのタイプがあった場合には、その先頭
のもの(横書きでは左端、縦書きでは上端)に対しての
タイプで代表する。切り出された行から文字を切り出
し、その文字部分を囲む矩形の対角座標値を抽出し、そ
の文字部分の大きさの正規化やノイズ(汚れ等)除去を
行って、一時的に記憶しておく(ステップS120)。
行のタイプが文字装飾行である場合、ルビや文字飾りの
文字とその文字の座標位置(その文字を囲む矩形の対角
の座標値)を抽出する。そのタイプがルビ行の場合は、
ルビの文字とその文字の座標位置を抽出し、タイプが文
字飾り行の場合は、それが存在する座標位置を抽出す
る。このようにして抽出された文字のうち同種のタイプ
で連続して隣り合った文字をひとまとまりとして、その
ひとまとまりとされた文字列を囲む矩形の対角の座標値
を求める。この抽出は、その行に同種のタイプのまとま
りが複数あっても、また、複数の別のタイプがあって
も、それらはすべて抽出する。これら抽出されたタイプ
(ルビ、文字飾り)、文字列、座標位置を一時的に記憶
しておく(ステップS130)。切り出された文字に対
して特徴量を計算し、その特徴量と認識辞書45の標準
パターンとからパターンマッチングを行い、類似度の高
いものを所定の数選び、認識候補として出力する(ステ
ップS140)。このとき文字装飾の行に対しては、ま
とまりに対してそのタイプに応じた最適な認識辞書45
を使うようにする。
【0016】抽出されたルビまたは文字飾りの各まとま
りに対する座標位置を参照してそれに対応する隣接行に
ある本文の文字列を抽出する。抽出された本文中の文字
列は、文字装飾に対応させて一時的に記憶する(ステッ
プS150)。この対応付けは、このルビや文字飾りか
らなるまとまりを囲む矩形(記憶されている対角の座標
を用いる)のX方向の幅(縦書きの場合はY方向の幅)
が、本文の文字のどの文字からどの文字までで作られる
矩形のX方向の幅(縦書きの場合はY方向の幅)に含ま
れるかを探し、その結果の先頭の文字から最後の文字ま
での文字列が求めるものである(ルビの場合、図6参
照)。また、文字飾りの場合、図11および図12を参
照すると、文字飾り「下線」、「傍点」に対応する文字
列「一つだけ」が抽出される。また、網掛けの場合は、
その網掛けのされている文字列が取り出される。文字認
識された候補の並びを考えた場合、その候補の組み合わ
せに対して単語辞書55を用いて形態素解析を行い、単
語や単語の接続性を見ることにより、文章として可能性
のない組み合わせを識別して、認識候補を削除する(ス
テップS160)。この形態素解析を行うとき、文字装
飾のある範囲の対応文字列に対しては、一つの形態素
(単語)として扱い、単語辞書55を検索するようにす
れば、登録されていない認識候補からなる組み合わせは
排除されることになる。このようにして、認識候補文字
から不要なものを削除し、認識結果を表示装置等へ出力
する(ステップS170)。従って、本文に隣接する文字
装飾が文字飾り(下線、傍点、網掛け等)の場合、同一
の文字または記号から成り立っているので、その文字飾
りの範囲が特定しやすいので形態素としての区切りを見
つけることが早くなるので、形態素解析並びに全体的な
文字認識の処理速度が向上する。更に、本文に隣接する
文字装飾がルビの場合、そのルビに対応する本文の対応
文字列の認識文字候補をルビのふりかなに対応する漢字
に限定することができるので、形態素の区切りの限定と
併せて更に精度のよい形態素を特定できる。よって、文
字切り出し精度が向上し、最終的な認識精度も向上す
る。
【0017】<コンピュータによる実施の形態>さら
に、本発明は上記の実施形態のみに限定されたものでは
ない。例えば、図1の文字認識装置は、図13に示した
ようなコンピュータ装置100の構成によっても実現が
可能である。即ち、入力装置1はキーボード、マウス、
タッチパネル、スキャナ等により構成され、情報の入力
に使用される。表示装置2は、種々の出力情報や入力装
置1からの入力された情報などを表示出力させる。CP
U(Central Processing Unit;中央処理ユニット)3
は、種々のプログラムを動作させる。メモリ4は、プロ
グラム自身を保持し、またそのプログラムがCPU3に
よって実行されるときに一時的に作成される情報等を保
持する。記憶装置5は、本発明の文字認識装置で扱う認
識辞書45、単語辞書55、およびプログラムやプログ
ラム実行時の一時的な情報等を保持する。媒体駆動装置
6は、プログラムやデータ等を記憶した記録媒体を装着
してそれらを読み込み、メモリ4または記憶装置5へ格
納するのに用いられる。また、直接データの入出力やプ
ログラム実行するのに使ってもよい。バス8は、上記各
部を接続する。図1に示した文字認識装置を構成する各
機能をそれぞれプログラム化し、予めCD−ROM等の
記録媒体に書き込んでおき、このCD−ROMを各サイ
トのCD−ROMドライブのような媒体駆動装置6を搭
載したコンピュータに装着して、これらのプログラムを
それぞれのコンピュータのメモリ4あるいは記憶装置5
に格納し、それを実行することによって、上記の実施の
形態と同様な機能を実現することができる。尚、記録媒
体としては半導体媒体(例えば、ROM、ICメモリカ
ード等)、光媒体(例えば、DVD、MO、MD、CD
−R等)、磁気媒体(例えば、磁気テープ、フレキシブ
ルディスク等)のいずれであってもよい。また、本発明
の機能を実現するプログラムは、媒体の形で頒布するこ
とができる。また、本発明の機能を実現するプログラム
を磁気ディスク等の記憶装置に格納しておき、有線また
は無線の通信ネットワークによりダウンロード等の形式
で頒布することも可能である。さらに、本発明の機能を
実現するプログラムを放送波によって配布することで提
供するようにしても良い。
【0018】<本発明のネットワーク環境での運用>図
14は、本発明をネットワーク接続して運用する形態の
構成を示している。例えば、利用者が画像を入力し、結
果を出力する端末(コンピュータ)と、文字認識装置の
プログラムを保持するサーバーとを用意する。この場
合、利用者とサーバーのコンピュータ構成は、図13に
示した汎用のコンピュータであって、ネットワーク9に
接続するためのネットワークインターフェース7を備え
るようにする。また、このネットワーク9は、これらの
利用者の端末とサーバーとを結合するための伝送路であ
って、一般には、ケーブルで実現され、通信プロトコル
にはTCP/IPが使われる。但し、伝送路としてはケ
ーブルだけではなく、それらの間の通信プロトコルが一
致するものであれば無線LANや放送波を使ったもので
あっても良い。さらに、利用者ごとに入力する原稿の種
類が異なる場合が多いので、利用者側に認識辞書および
単語辞書を用意し、画像を入力し、サーバーから文字認
識処理用のプログラムを受信して、実行させ、その実行
結果である認識結果を出力するように構成する。このよ
うにすることで、文字認識処理用のプログラムが常に最
新のものを使えるという利点がある。また、サーバー側
に文字認識処理用のプログラムと認識辞書および単語辞
書を用意し、利用者は文字認識処理を行うために、サー
バーへ入力した画像を送信し、その認識結果を戻し、出
力するように構成しても良い。
【0019】
【発明の効果】以上説明したように、本発明によれば、
形態素の区切りのあいまい性が解消されるため、形態素
解析における不必要な認識候補の組み合わせを考慮する
ことがなくなるので、形態素解析の処理が軽減され、文
字認識の精度が向上する。また、それにともなって文字
切り出し精度も高まり、最終的な認識精度も向上する。
【図面の簡単な説明】
【図1】本発明に係る文字認識装置の実施の形態を例示
するブロック図である。
【図2】単語辞書のデータ構造を説明するための図であ
る。
【図3】ルビ行を識別するときの説明図である。
【図4】傍点つきの行を識別するときの説明図である。
【図5】下線付きの行を識別するときの説明図である。
【図6】対応文字抽出部の処理を説明するための図であ
る。
【図7】文字区切りのあいまいさを説明するための図で
ある。
【図8】本発明の文字認識装置の処理を説明するための
フローチャートである。
【図9】本発明の説明に使う例題の文章を示す図であ
る。
【図10】例題の文章の行切り出しを行ったときの図で
ある。
【図11】本発明を下線付きの文章に適用したときの図
である。
【図12】本発明を傍点付きの文章に適用したときの図
である。
【図13】文字認識装置をコンピュータで実現するとき
のハードウェアの構成を示す図である。
【図14】本発明をネットワークで運用する形態の構成
を示す図である。
【符号の説明】
10 制御部、20 行切出し部、30 文字切出し
部、40 文字認識部、45 認識辞書、50 言語解
析部、55 単語辞書、60 行タイプ分類部、70
文字装飾抽出部、80 対応文字抽出部、100 コン
ピュータ装置、1入力装置、2 表示装置、3 CP
U、4 メモリ、5 記憶装置、6 媒体駆動装置、7
ネットワークインタフェース、8 バス、9 ネット
ワーク

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 入力された画像の文字画像領域から切り
    出された文字画像に対して文字認識した結果に言語処理
    を行って認識結果を得る文字認識装置において、入力さ
    れた画像の文字画像領域から文字列の行を切り出す行切
    出し部と、前記行切出し部から切り出された行から文字
    を切り出す文字切出し部と、前記文字切出し部で切り出
    された文字を認識する文字認識部と、前記文字認識部で
    認識された文字候補を組み合わせて生成される文字列を
    言語解析して前記文字認識部の認識文字候補を修正する
    言語解析部とを備え、前記行切出し部で切り出された行
    のタイプを分類する行タイプ分類部と、前記行タイプ分
    類部で分類された行のタイプが文字装飾であるとき、そ
    の文字装飾を抽出する文字装飾抽出部と、この文字装飾
    を含んだ行に隣接した行のこの文字装飾に対応する文字
    列を抽出する対応文字列抽出部とを設け、前記言語解析
    部は、言語解析するときに前記対応文字列抽出部で抽出
    された文字列を1つの単語として解釈して認識候補を修
    正するようにしたことを特徴とする文字認識装置。
  2. 【請求項2】 請求項1記載の文字認識装置において、
    前記言語解析部は、前記行タイプ分類部で分類されたタ
    イプがルビ行の場合、このルビを前記対応文字列抽出部
    で抽出された文字列の読みとし、この読みに対応する単
    語をこの文字列の認識結果として修正するようにしたこ
    とを特徴とする文字認識装置。
  3. 【請求項3】 請求項1記載の文字認識装置において、
    前記文字タイプ分類部におけるタイプが傍点、傍線、下
    線等の文字装飾であることを特徴とする文字認識装置。
  4. 【請求項4】 入力された画像の文字画像領域から切り
    出された文字画像に対して文字認識した結果に言語処理
    を行って認識結果を得る文字認識装置において、入力さ
    れた画像の文字画像領域から文字列の行を切り出す行切
    出し部と、前記行切出し部から切り出された行から文字
    を切り出す文字切出し部と、前記文字切出し部で切り出
    された文字を認識する文字認識部と、前記文字認識部で
    認識された文字候補を組み合わせて生成される文字列を
    言語解析して前記文字認識部の認識文字候補を修正する
    言語解析部とを備え、前記行切出し部で切り出された行
    のタイプを分類する行タイプ分類部と、前記行タイプ分
    類部で分類された行のタイプが文字装飾であるとき、こ
    の文字装飾に対応する文字列を抽出する対応文字列抽出
    部とを設け、前記言語解析部は、言語解析するときに前
    記対応文字列抽出部で抽出された文字列を1つの単語と
    して解釈して認識候補を修正するようにしたことを特徴
    とする文字認識装置。
  5. 【請求項5】 入力された画像の文字画像領域から切り
    出された文字画像に対して文字認識した結果に言語処理
    を行って認識結果を得る文字認識方法において、入力さ
    れた画像の文字画像領域から文字列の行を切り出す行切
    出し工程と、前記行切出し工程から切り出された行から
    文字を切り出す文字切出し工程と、前記文字切出し工程
    で切り出された文字を認識する文字認識工程と、前記文
    字認識工程で認識された文字候補を組み合わせて生成さ
    れる文字列を言語解析して前記文字認識工程の認識文字
    候補を修正する言語解析工程とを備え、前記行切り出し
    工程で切り出された行のタイプを分類する行タイプ分類
    工程と、前記行タイプ分類工程で分類された行のタイプ
    が文字装飾であるとき、その文字装飾を抽出する文字装
    飾抽出工程と、この文字装飾を含んだ行に隣接した行の
    この文字装飾に対応する文字列を抽出する対応文字列抽
    出工程とを設け、前記言語解析工程は、言語解析すると
    きに前記対応文字列抽出工程で抽出された文字列を1つ
    の単語として解釈して認識候補を修正するようにしたこ
    とを特徴とする文字認識方法。
  6. 【請求項6】 請求項5記載の文字認識方法において、
    前記言語解析部は、前記行タイプ分類部で分類されたタ
    イプがルビ行の場合、このルビを前記対応文字列抽出部
    で抽出された文字列の読みとし、この読みに対応する単
    語をこの文字列の認識結果として修正するようにしたこ
    とを特徴とする文字認識方法。
  7. 【請求項7】 請求項5記載の文字認識方法において、
    前記文字タイプ分類工程におけるタイプが傍点、傍線、
    下線等の文字装飾であることを特徴とする文字認識方
    法。
  8. 【請求項8】 入力された画像の文字画像領域から切り
    出された文字画像に対して文字認識した結果に言語処理
    を行って認識結果を得る文字認識方法において、入力さ
    れた画像の文字画像領域から文字列の行を切り出す行切
    出し工程と、前記行切出し工程から切り出された行から
    文字を切り出す文字切出し工程と、前記文字切出し工程
    で切り出された文字を認識する文字認識工程と、前記文
    字認識工程で認識された文字候補を組み合わせて生成さ
    れる文字列を言語解析して前記文字認識工程の認識文字
    候補を修正する言語解析工程とを備え、前記行切出し工
    程で切り出された行のタイプを分類する行タイプ分類工
    程と、前記行タイプ分類工程で分類された行のタイプが
    文字装飾であるとき、この文字装飾に対応する文字列を
    抽出する対応文字列抽出工程とを設け、前記言語解析工
    程は、言語解析するときに前記対応文字列抽出工程で抽
    出された文字列を1つの単語として解釈して認識候補を
    修正するようにしたことを特徴とする文字認識方法。
  9. 【請求項9】 請求項5〜8のいずれかに記載の文字認
    識方法をコンピュータを用いて実施するためのプログラ
    ムを記録したことを特徴とする機械読み取り可能な記録
    媒体。
JP2000243384A 2000-08-10 2000-08-10 文字認識装置、その方法および記録媒体 Pending JP2002056357A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000243384A JP2002056357A (ja) 2000-08-10 2000-08-10 文字認識装置、その方法および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000243384A JP2002056357A (ja) 2000-08-10 2000-08-10 文字認識装置、その方法および記録媒体

Publications (1)

Publication Number Publication Date
JP2002056357A true JP2002056357A (ja) 2002-02-20

Family

ID=18734247

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000243384A Pending JP2002056357A (ja) 2000-08-10 2000-08-10 文字認識装置、その方法および記録媒体

Country Status (1)

Country Link
JP (1) JP2002056357A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1316418C (zh) * 2004-04-16 2007-05-16 中国科学院自动化研究所 门牌号自动识别系统及方法
CN100357957C (zh) * 2004-08-10 2007-12-26 富士通株式会社 用于识别图像中的字符的字符识别装置和字符识别方法
JP2012212293A (ja) * 2011-03-31 2012-11-01 Dainippon Printing Co Ltd 文書認識装置、文書認識方法、プログラム及び記憶媒体
EP2933708A1 (en) 2014-04-17 2015-10-21 Fujitsu Limited Read determining device and method

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1316418C (zh) * 2004-04-16 2007-05-16 中国科学院自动化研究所 门牌号自动识别系统及方法
CN100357957C (zh) * 2004-08-10 2007-12-26 富士通株式会社 用于识别图像中的字符的字符识别装置和字符识别方法
JP2012212293A (ja) * 2011-03-31 2012-11-01 Dainippon Printing Co Ltd 文書認識装置、文書認識方法、プログラム及び記憶媒体
EP2933708A1 (en) 2014-04-17 2015-10-21 Fujitsu Limited Read determining device and method
US9740930B2 (en) 2014-04-17 2017-08-22 Fujitsu Limited Read determining device and method

Similar Documents

Publication Publication Date Title
JP2973944B2 (ja) 文書処理装置および文書処理方法
JP3232143B2 (ja) 復号していない文書画像の修正版を自動的に作成するための装置
JP3345224B2 (ja) パターン抽出装置、パターン再認識用テーブル作成装置及びパターン認識装置
JP3919617B2 (ja) 文字認識装置および文字認識方法、プログラムおよび記憶媒体
US20010041006A1 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
US7046847B2 (en) Document processing method, system and medium
JP2003022269A (ja) 漫画翻訳装置及びそのシステム並びに漫画翻訳方法
JP2002056357A (ja) 文字認識装置、その方法および記録媒体
JP2002063548A (ja) 手書き文字認識方法
JP3546553B2 (ja) 文書画像解析装置
CN115410207B (zh) 一种针对竖排文本的检测方法及装置
JPH0728935A (ja) 文書画像処理装置
JPH0452783A (ja) 図面読取装置
JP4141217B2 (ja) 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置
JP2985813B2 (ja) 文字列認識装置および知識データベース学習方法
JP2746345B2 (ja) 文字認識の後処理方法
JP2003256769A (ja) 数式認識装置および数式認識方法
JP2002279344A (ja) 文字認識装置、文字認識方法および記録媒体
JP2891368B2 (ja) 文字認識結果の後処理方法
JP4584507B2 (ja) 住所認識装置、記録媒体及びプログラム
JPH05174185A (ja) 日本語文字認識装置
JPH0436885A (ja) 光学式文字読取装置
JP2002014981A (ja) 文書ファイリング装置
JP2000207491A (ja) 文字列読取方法及び装置
JP2931485B2 (ja) 文字切出し装置及び方法