JP2000357207A - 文字認識方法及び該認識方法を使用した文字認識装置 - Google Patents

文字認識方法及び該認識方法を使用した文字認識装置

Info

Publication number
JP2000357207A
JP2000357207A JP11168573A JP16857399A JP2000357207A JP 2000357207 A JP2000357207 A JP 2000357207A JP 11168573 A JP11168573 A JP 11168573A JP 16857399 A JP16857399 A JP 16857399A JP 2000357207 A JP2000357207 A JP 2000357207A
Authority
JP
Japan
Prior art keywords
character
pattern
continuous
recognition
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11168573A
Other languages
English (en)
Other versions
JP2000357207A5 (ja
Inventor
Masako Usui
雅子 碓井
Takeyuki Sugimoto
建行 杉本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP11168573A priority Critical patent/JP2000357207A/ja
Publication of JP2000357207A publication Critical patent/JP2000357207A/ja
Publication of JP2000357207A5 publication Critical patent/JP2000357207A5/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 接続文字辞書の登録には接続している文字数
により認識を行う辞書が異なっているため、同様のパタ
ーンでも文字数が異なると読取りできない。 【解決手段】 帳票上に記載された文字が他の文字と接
触した部分を含む連続文字群の光学的スキャン画像から
連続文字パターンを入力する画像入力部101と、この
連続文字パターンを1文字単位に分割した接触部分を含
む接触文字パターンを抽出し、この接触文字パターンの
組み合わせにより新たな連続文字パターンを学習する接
続パターン学習部108と、この学習部108により学
習した連続文字パターンを記憶する認識辞書105とを
設け、基本となる組み合わせの接続文字パターンと、そ
の接続情報を辞書に登録することで自動学習を行うも
の。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、2文字以上が連続
して書かれた続き文字を認識する文字認識方法及び該認
識方法を使用した文字認識装置に係り、特に前記続き文
字の自動学習を行うことができる文字認識方法及び該認
識方法を使用した文字認識装置に関する。
【0002】
【従来の技術】一般に文字認識装置は、予め1文字毎の
基準文字パターンを認識辞書に登録しておき、帳票等に
記載された文字を光学的にスキャンした読み取り文字パ
ターンと前記認識辞書に登録した基準文字パターンとを
比較することにより、文字の認識を行っている。
【0003】前記文字認識装置においては、文字を1文
字毎に切り出して基準文字パターンと比較するため、例
えば金額の下三桁として数字「0」が連続して書かれた
続き文字の場合、前記1文字毎の認識が困難である。
【0004】このため従来技術による文字認識装置は、
前記続き文字を認識するため、2文字以上続けて記入さ
れた続け文字を1つの接続文字パターンとして、接触し
ている文字群毎に認識辞書に登録し、記入された文字の
長さにより続け文字数を判定することにより認識処理を
行っていた。尚、前述の続き文字の認識を行う技術に関
連する文献としては、例えば特開平10−162104
号公報が挙げられる。
【0005】
【発明が解決しようとする課題】前記続き文字の認識を
行う従来技術は、接触した文字の数により認識を行う接
触文字パターンが異なるため、ユーザが多種の接触文字
パターンを辞書に登録しなければならないと言う不具合
があった。例えば、続けて書かれた「500」を登録し
た場合、同様のパターンでも「5000」や「5000
0」は別の文字パターンとして辞書に登録しなければな
らなかった。
【0006】本発明の目的は、前記従来技術による不具
合を除去することであり、多種の連続文字パターンを人
手により辞書に登録することなく続き文字の認識を行う
ことができる文字認識方法及び該認識方法を使用した文
字認識装置を提供することである。
【0007】
【課題を解決するための手段】前記目的を達成するため
本発明は、文字を認識するための認識辞書と光学的にス
キャンした文字パターンとを比較することにより文字を
認識する文字認識方法において、帳票上に記載された文
字が他の文字と接触した部分を含む連続文字群を光学的
にスキャンした画像から連続文字パターンを入力し、該
連続文字パターンを1文字単位に分割した接触部分を含
む接触文字パターンを抽出し、該接触文字パターンの組
み合わせにより新たな連続文字パターンを学習して認識
辞書に登録し、該認識辞書に登録した連続文字パターン
を用いて文字の認識を行うことを第1の特徴とする。
【0008】また本発明は、前記特徴の文字認識装置お
いて、前記連続文字パターンを入力する際、前記接続文
字群の個々の文字の正解カテゴリと、該カテゴリ対応の
接続文字群の文字間の前後の接続有無と接続位置とを含
む接続情報とを入力することを第2の特徴とする。
【0009】更に本発明は、文字を認識するための認識
辞書と光学的にスキャンした文字パターンとを比較する
ことにより文字を認識する文字認識装置において、帳票
上に記載された文字が他の文字と接触した部分を含む連
続文字群を光学的にスキャンした画像から連続文字パタ
ーンを入力する画像入力部と、該画像入力部から入力し
た連続文字パターンを1文字単位に分割した接触部分を
含む接触文字パターンを抽出し、該接触文字パターンの
組み合わせにより新たな連続文字パターンを学習する接
続パターン学習部と、該学習部により学習した連続文字
パターンを記憶する認識辞書とを備えることを第3の特
徴とする。
【0010】
【発明の実施の形態】以下、本発明の一実施形態を図面
を参照して詳細に説明する。図1は、本発明の一実施形
態による文字認識方法を採用した文字認識装置のシステ
ム構成を示す図、図2は、本発明の対象となる帳票上の
接触した接触文字群の例を示す図である。尚、本明細書
で述べる「接触文字群」とは例えば図2の符号203で
示した帳票上に書かれたものを示し、「連続文字パター
ン」とは例えば図5の符号501や502で示した前記
接触文字群をイメージ認識したものを示し、「接触文字
パターン」とは例えば図5の符号503〜507で示し
た前記連続文字パターンを文字毎に分割した接触部分を
含むものを示し、単に「文字パターン」と述べた場合は
接触部分を含まない1文字単位の文字パターンを示すも
のとして以下説明する。
【0011】本実施形態による文字認識装置は、図1に
示す如く、図示しないイメージスキャナや通信回線を介
して画像を入力する画像入力部101と、該画像入力部
101により入力した画像から文字部分の切り出しやノ
イズ除去を行う前処理部102と、前記切り出した文字
パターンから文字の特徴を抽出する特徴抽出部103
と、前記入力した文字パターンと後述する認識辞書10
5に登録した文字パターンとを比較する整合部104
と、該整合部104によって選択された文字を認識結果
として出力する結果出力部106と、文字を認識するた
めに標準となる複数の1文字毎の標準文字パターン及び
前後の文字と接続する連続部分を含む接続文字パターン
他を記憶した認識辞書105と、ユーザーによる書き癖
のある文字パターンや本実施形態の特徴である続き文字
等を入力するためのユーザーインターフェイス部107
と、該インターフェイス部107から入力された接続文
字群の連続文字パターンを元に学習を行う接続パターン
学習部108とを備える。
【0012】ここで本実施形態の対象となる続き文字と
は、図2に示す如く、帳票201上の記入文字枠202
に金額「1500」が記入され、前記金額「1500」
の内、「5」の上部と連続する「0」の上部とが続いた
文字群「500」が続き文字として書き込まれたもので
ある。
【0013】前記認識辞書105は、認識の基準となる
文字(辞書パターン)について予め当該文字の特徴を取
り出し、その特徴を記憶していると共に、図2に示した
続き文字「500」の部分203を辞書105に含まれ
る接続文字辞書部(図示せず)へ登録している。
【0014】この接続文字辞書部への登録処理及び学習
方法を入力パターン及び接続情報を示す図3及び処理フ
ローを示す図4を参照して次に説明する。接続パターン
学習部108は、図2に示した部分203の連続文字パ
ターンの登録を行う際(ステップ401)、選択した範
囲の任意のn個の文字画像302(図3)を辞書登録ユ
ーザーインターフェイス301に表示した状態で、この
文字画像302(接続文字群)の画像を入力すると共
に、この接続文字群に対応した接続文字情報303をユ
ーザにより入力する(ステップ403)。
【0015】この接続文字情報303は、図3の如く、
文字の桁数に応じた文字毎の正解カテゴリ(文字毎の文
字そのもの、具体的には「5」「0」「0」)と、各文
字が前の文字と接続するか否かの前接続情報(具体的に
は、「5」が前文字と非接続のため「×」、続く2つの
「0」が前文字と接続するため「○」)と、各文字が後
の文字と接続するか否かの後接続情報(具体的には、
「5」が後文字と接続するため「○」、次の「0」も同
様に後文字と接続するため「○」、最後の「0」が後文
字と非接続のため「×」)と、文字間の接続位置(具体
的には、各文字が上方で接続しているため各文字共に
「上」)と、記入者氏名、出現頻度(例えば「0」の連
続では頻度が大きいため「大」)、連続性(例えば
「0」の場合は連続する可能性が大きいため「大」)、
その他の情報(例えば記入枠が数字枠か住所枠等の種類
や、数字/漢字等の文字種)から構成している。
【0016】前記記入者名を入力する理由は、各入力者
による手書きの癖を判別するためである。また出現頻度
は、例えば数字「0」は価格等の場合に3桁が「00
0」と連続する頻度が大きいため「大」、数字「1」が
連続する頻度が比較的小さいため「小」の様に、「大」
「中」「小」レベルで入力され、連続性も同様に入力さ
れる。また枠の種類を入力する理由は、例えば価格を記
入する枠なら数字が連続する可能性が大きく、住所枠な
ら数字、例えば番地が連続する等の可能性が低いことを
認識時に認識ファクターとして使用するためである。
【0017】次に接続パターン学習部108は、前記入
力した文字画像302(連続文字パターン)の文字枠毎
の分割を行う(ステップ404)。この分割された接触
文字パターンは、「500」の場合、「5」が上位置の
棒部分が右の枠と接するものとして分割され、中央の
「0」が前後の枠と接する横棒を含むものとして分割さ
れ、最後の「0」が前方の枠と接する横棒を含むものと
して分割される。
【0018】次に接続パターン学習部108は、前記入
力した文字パターンを元に他の文字パターンの類推を行
う(ステップ405)。この類推とは、例えば前記「5
00」を各文字枠毎に分割した文字パターンを元に「5
000」や「50000」の連続文字パターンを類推す
る。
【0019】この類推は具体的に説明すると、図5に示
す如く、接続文字辞書500に接触文字群の連続文字パ
ターン、例えば符号501〜502で示す数字「50
0」及び「80」他が登録されているとした場合、これ
らの連続文字パターンを接続部分を含む接触文字バター
ン503〜507に分割し、例えば符号503〜505
の組み合わせにより符号508〜509で示す「500
0」や「50000」を類推し、符号506,507,
504の組み合わせにより符号510〜511で示す
「800」や「8000」を類推するものである。この
類推に使用される数字の例としては、文字枠の右側に流
れ易い数字、例えば「2」「3」「4」「5」が考えら
れる。また本発明による類推する文字パターンは数字に
限られるものではなく、漢字/ひらがな/カタカナ/英
字であっても良い。
【0020】尚、この類推は、際限がないため前記接続
情報として入力した記入枠の種類等に応じて制限を付け
ることが好ましい。例えば、住所の番地入力枠なら番地
が4桁以上続くことが少ないために4桁以内、宅急便用
帳票金額の入力欄なら最大でも5桁以内等の制限を付け
ることが望ましい。
【0021】次に接続パターン学習部108は、前記類
推が行われた連続文字パターンを認識辞書105に登録
して学習の処理を終了する(ステップ407)。
【0022】尚、本実施形態による接続パターン学習部
108は、前記登録時の学習とは別に、読取り業務にて
蓄積されたデータを元に登録されたマスクの使用頻度及
び記入者毎の接続文字出現頻度等の学習も業務単位毎に
自動で行う。
【0023】さて、この様に学習を行った文字認識装置
は、帳票に記載された文字認識を次のように行う。本装
置は、帳票上に書かれた文字を光電変換により電気信号
に変換した文字パターンを含む帳票の画像イメージを画
像入力部101より入力し、この画像イメージを多値の
パターンとして前処理部102に供給する。次に前処理
部102は、多値パターンとして供給された帳票イメー
ジを2値化し、1文字毎に文字パターンを切り出す。こ
の際、前処理部102は、切り出した文字パターンの大
きさや傾きの正規化並びにノイズを除去するための平滑
化等の処理を行う。
【0024】次に前処理部102により必要な前処理を
施された文字パターンは、特徴抽出部103に送られ、
該特徴抽出部103は、送られた文字パターンから文字
の形状を表す特徴を抽出する。
【0025】次に本装置は、認識辞書105を用いて1
文字単位の文字認識を行い、1文字単位の文字認識が不
明な場合、前記接続文字辞書に格納した連続文字パター
ンを用いて連続文字の文字パターンの文字認識を行う。
【0026】この様に本発明による文字認識方法及び認
識装置は、基本となる組み合わせの接続文字パターン
と、その接続情報を辞書に登録することで、文字認識装
置が学習を行い、任意のn文字が接続した文字の認識精
度を向上することができる。
【0027】また、本発明は以下に述べる実施形態とし
ても表すこともできる。 <実施形態1> 1文字の認識を行うための認識辞書
と、この辞書を用いて認識を行う認識手段を有する文字
認識装置において、2文字以上の文字を接続して書いて
ある文字の認識を行うため、接続された文字全体のパタ
ーン及び特徴、またそれから類推されるパターン及び特
徴から成る認識辞書を1文字認識辞書とは別に有し、こ
れによって接続した文字の認識を精度良く行うことを特
徴とする文字認識装置。 <実施形態2> 実施形態1記載のパターン認識システ
ムにおいて、ユーザーが指定した入力文字パターンと形
状特徴、正解カテゴリなどの情報を辞書として登録し、
またこの情報から別の字形パターンとその形状特徴を類
推する自動辞書学習を特徴とするユーザー辞書学習シス
テム。 <実施形態3> 実施形態2記載のユーザー辞書学習シ
ステムにおいて、入力されたパターンをもとに学習パタ
ーンを生成する際、前後文字パターンと滑らかに接続さ
れたパターンにするため、1文字パターンの拡大・縮小
及び各パターンの接続部分を生成することを特徴とする
文字パターン整形システムを有するユーザー辞書学習シ
ステム。 <実施形態4> 実施形態1記載のパターン認識システ
ムにおいて、記入者及び実際の読取りにおいて、記入
者、接続文字辞書の登録マスクの使用頻度等のデータを
蓄積することで、記入者別の記入の癖、及び字形特徴を
学習することを特徴とするユーザー辞書学習システム。
【0028】<実施形態5> 上記実施形態1、又は実
施形態2、又は実施形態3、又は実施形態4のいずれか
の項記載の文字認識装置又はユーザー辞書学習システム
により構成したパターン認識システム。
【0029】
【発明の効果】以上説明した様に、本発明によれば、接
続した複数文字の辞書登録により、接続したパターンを
1文字ずつ切り出すことなく読み取ることができ、また
入力した情報を基に接続文字辞書パターンを自動生成・
学習することで、効率的に接続文字の認識精度を向上さ
せることができる。
【図面の簡単な説明】
【図1】本発明の文字認識方法を採用した文字認識装置
の一実施形態を説明するための図。
【図2】本発明の対象となる帳票に書かれた連続文字を
説明するための図。
【図3】本実施形態による入力パターンと接続情報とを
説明するための図。
【図4】本実施形態による接続文字辞書のパターン学習
処理の流れを示す図。
【図5】接続文字辞書の接続パターンの類推を説明する
ための図。
【符号の説明】
101:画像入力部、102:前処理部、103:特徴
抽出部、104:入力パターンと辞書パターンを比較す
る整合部、105:認識辞書部、106:結果出力部、
107:ユーザーインターフェイス部、108:接続パ
ターン学習部108、201:帳票シート、202:記
入文字枠、203:ユーザー選択パターン、301:辞
書登録ユーザーインターフェイス、302:選択した範
囲の任意のn個の文字画像辞書、303:接続文字情
報、401〜407:ステップ、501:接続文字辞
書、502:複数文字の接続パターン群、504:登録
された接続パターン、505:既に登録されている1文
字パターン群、506:別パターン。

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 文字を認識するための認識辞書と光学的
    にスキャンした文字パターンとを比較することにより文
    字を認識する文字認識方法であって、帳票上に記載され
    た文字が他の文字と接触した部分を含む連続文字群を光
    学的にスキャンした画像から連続文字パターンを入力
    し、該連続文字パターンを1文字単位に分割した接触部
    分を含む接触文字パターンを抽出し、該接触文字パター
    ンの組み合わせにより新たな連続文字パターンを学習し
    て認識辞書に登録し、該認識辞書に登録した連続文字パ
    ターンを用いて文字の認識を行うことを特徴とする文字
    認識方法。
  2. 【請求項2】 前記連続文字パターンを入力する際、前
    記接続文字群の個々の文字の正解カテゴリと、該カテゴ
    リ対応の接続文字群の文字間の前後の接続有無と接続位
    置とを含む接続情報とを入力することを特徴とする請求
    項1記載の文字認識方法。
  3. 【請求項3】 文字を認識するための認識辞書と光学的
    にスキャンした文字パターンとを比較することにより文
    字を認識する文字認識装置において、帳票上に記載され
    た文字が他の文字と接触した部分を含む連続文字群を光
    学的にスキャンした画像から連続文字パターンを入力す
    る画像入力部と、該画像入力部から入力した連続文字パ
    ターンを1文字単位に分割した接触部分を含む接触文字
    パターンを抽出し、該接触文字パターンの組み合わせに
    より新たな連続文字パターンを学習する接続パターン学
    習部と、該学習部により学習した連続文字パターンを記
    憶する認識辞書とを備えることを特徴とする文字認識装
    置。
JP11168573A 1999-06-15 1999-06-15 文字認識方法及び該認識方法を使用した文字認識装置 Pending JP2000357207A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11168573A JP2000357207A (ja) 1999-06-15 1999-06-15 文字認識方法及び該認識方法を使用した文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11168573A JP2000357207A (ja) 1999-06-15 1999-06-15 文字認識方法及び該認識方法を使用した文字認識装置

Publications (2)

Publication Number Publication Date
JP2000357207A true JP2000357207A (ja) 2000-12-26
JP2000357207A5 JP2000357207A5 (ja) 2005-07-21

Family

ID=15870560

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11168573A Pending JP2000357207A (ja) 1999-06-15 1999-06-15 文字認識方法及び該認識方法を使用した文字認識装置

Country Status (1)

Country Link
JP (1) JP2000357207A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150108114A (ko) * 2014-03-17 2015-09-25 삼성전자주식회사 문서의 미 회수를 통지하는 방법 및 장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150108114A (ko) * 2014-03-17 2015-09-25 삼성전자주식회사 문서의 미 회수를 통지하는 방법 및 장치
KR102169992B1 (ko) * 2014-03-17 2020-10-26 삼성전자주식회사 문서의 미 회수를 통지하는 방법 및 장치

Similar Documents

Publication Publication Date Title
Plamondon et al. Online and off-line handwriting recognition: a comprehensive survey
Jain et al. Document representation and its application to page decomposition
US5664027A (en) Methods and apparatus for inferring orientation of lines of text
JP3345224B2 (ja) パターン抽出装置、パターン再認識用テーブル作成装置及びパターン認識装置
Yadav et al. Optical character recognition for Hindi language using a neural-network approach
US4516262A (en) Character data processing apparatus
US6351559B1 (en) User-enclosed region extraction from scanned document images
US20060285748A1 (en) Document processing device
JPH08235341A (ja) ドキュメントファイリング装置および方法
Al-Salman et al. An arabic optical braille recognition system
JP2000357207A (ja) 文字認識方法及び該認識方法を使用した文字認識装置
JP3276555B2 (ja) フォーマット認識装置及び文字読取り装置
Ye et al. Document image matching and annotation lifting
US5894525A (en) Method and system for simultaneously recognizing contextually related input fields for a mutually consistent interpretation
JPH0991385A (ja) 文字認識辞書追加方法及びこれを用いた端末ocr装置
KR102673900B1 (ko) 표 데이터 추출 시스템 및 그 방법
JPH0916713A (ja) 画像領域分割方法
JP2978801B2 (ja) 手書き文字認識の文字入力方式
JP2000331117A (ja) 文書読取システム
JP3199033B2 (ja) 光学式文字読取方法、及び光学式文字読取装置
JPS6222186A (ja) 図面読取り装置
Said Automatic processing of documents and bank cheques
JPH08297718A (ja) 文字切り出し装置及び文字認識装置
JP2972443B2 (ja) 文字認識装置
JP3276554B2 (ja) フォーマット認識装置及び文字読取り装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041202

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041202

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20041202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071009

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080513