JPH06111077A - 文書認識装置の評価装置 - Google Patents

文書認識装置の評価装置

Info

Publication number
JPH06111077A
JPH06111077A JP4257802A JP25780292A JPH06111077A JP H06111077 A JPH06111077 A JP H06111077A JP 4257802 A JP4257802 A JP 4257802A JP 25780292 A JP25780292 A JP 25780292A JP H06111077 A JPH06111077 A JP H06111077A
Authority
JP
Japan
Prior art keywords
candidate
character
character recognition
candidate character
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4257802A
Other languages
English (en)
Inventor
Kazuhiro Kayashima
一弘 萱嶋
Toshio Niwa
寿男 丹羽
Hidetsugu Maekawa
英嗣 前川
泰治 〆木
Taiji Shimeki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP4257802A priority Critical patent/JPH06111077A/ja
Publication of JPH06111077A publication Critical patent/JPH06111077A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 文書画像から文章を認識する文書認識装置の
評価装置に関するもので、1文字を認識する候補文字認
識手段の誤り方をシミュレーションすることにより、文
書認識装置の評価及び設計を容易にする。 【構成】 候補文字認識手段4から出力される候補文字
集合5と文書2の正解文章を比較し、これの誤りモデル
を作成する。この誤りモデルを用いて、候補文字認識手
段4と同等性能を有する、任意の認識率を有するモデル
候補文字集合12を出力する。この文字集合から文章処
理手段6により修正された修正文章14と正解文書2を
比較し文章処理手段6の評価を行う。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書画像から正しい文
章を読みとるための文書認識装置の評価装置に関するも
のである。
【0002】
【従来の技術】近年、データベースの発展に伴い、認識
率の高い文書認識装置に対する要求が高まっている。従
来の文書認識装置としては、電子情報通信学会誌D−2
Vol.J72-D-2No.7 pp.993-1000 に示されている方法が
ある。図9は従来の文書認識装置を示すものである。候
補文字認識手段4は、文字画像読み込み手段手段1から
文書画像3を受け取り、まず、1文字を認識し1文字に
つきn個の候補文字集合5を得、次に類似文字テーブル
を用いて類似文字集合に付加し、更に候補文字集合5の
絞り込みを行う。文章処理手段6では、その候補文字集
合5の中から単語辞書7と文法辞書8を使い、最も正し
いと思われる文節を選択する。ここで、文章処理手段の
性能評価は、いくつかの文書画像を準備し、候補文字集
合の中の第1位の候補と、文章処理手段から修正された
文章とを比較し、文章処理手段での改善割合を導出する
事により行う。
【0003】また、候補文字認識手段4と文章処理手段
6のシステム性能を上げて行くには、最終の文書認識率
のみを用いて、前記候補文字認識手段4と前記文章処理
手段6がもつパラメータを人手によりチューニングを行
っていた。
【0004】
【発明が解決しようとする課題】文書認識装置の文章処
理手段の能力は、候補文字集合を出力する候補文字認識
の性能に強く依存する。例えば、正解文字が候補文字集
合に入っていたら、文章処理手段において文章の修正は
可能であるし、入っていなければ難しい。当然、正解文
字が候補文字集合の中で高い順位にあればあるほど文章
の修正は易しくなる。候補文書認識装置の能力は、文書
画像の品質に強く依存する。例えば、コピー等により文
字のつぶれやかすれが生じた低品質の文書画像は、候補
文字認識性能をいちじるしく低下させるからである。
【0005】そのため、文章処理手段を評価するには、
いろいろな品質の文書画像を作成しこれを候補文書認識
装置により認識させる必要があるが、これらの一連の作
業はとても手間がかかるために、従来は、いくつかの文
書画像を用いて評価するのが現状であった。例えば、手
間のかかる作業として、多数回コピーや縮小コピーやノ
イズの付加による低品質な文書画像の作成がある。
【0006】その上、候補文字認識が任意の認識率をも
つ文字画像を作成する事は、従来の文字画像の低品質化
方法では不可能である。
【0007】また、候補文字認識方法は、特徴量抽出や
識別に多くの方式があり、それぞれには一長一短があ
り、例えば、同じ文書画像を対象にしても、文字の誤り
かたに違いがある。そのため、文章処理手段を評価する
には、多くの種類の候補文字認識方式を用いなければい
けなく、とても手間がかかる作業となる。そのため、い
くつかの文書画像を準備して、一つの候補文字認識方式
のみで文章処理手段の評価を行っているのが現状であ
る。
【0008】また、文書認識装置のシステム性能を上げ
るためには各手段のパラーメータチューニングが必要で
あるが、最終結果である文書認識率の評価を待たなけれ
ばチューニングができず、計算時間が膨大となる。ま
た、総合結果のみで、各パラメータを再設定しなければ
いけないために、適切なチューニングができないという
問題があった。
【0009】
【課題を解決するための手段】本発明は上記目的を達成
するために、使用する候補文字認識手段から出力される
候補文字集合と正解文字を比較し正解文字が第何位ある
いは候補外にあるかを識別する候補文字認識手段の分析
を行い、誤りモデルを作成する。更に、この誤りモデル
を用いて、対象の候補文字認識手段と同等性能を有す
る、任意の認識率を有するモデル候補文字集合を出力す
る。この文字集合から文章処理手段により語彙的及び文
法的に正しい文章に修正された文章と、正解文字あるい
は前記モデル候補文字集合の第一候補とを比較し前記文
章処理手段の評価を行う。
【0010】また、認識対象の誤り方をあらわす候補外
誤りパラメータを発生し、このパラメータをもつモデル
候補文字集合を出力し、これを語彙的にまたは文法的に
正しい文章に修正された修正文章を作成する。この文章
とモデル候補文字集合の文章とを比較し候補外誤りパラ
メータと文章処理手段との相性の評価を行う。
【0011】
【作用】本発明は上記した構成により、候補文字認識手
段の誤り方をシミュレーションできるので、いろいろな
品質のモデル候補文字集合を作成可能となる。更に、任
意の候補文字認識手段や任意の認識率のモデル候補文字
集合を用いて、文章処理手段の評価が可能となる。
【0012】また、候補文字認識手段を代表する候補外
パラーメータを用いて、候補文字認識手段と文章処理手
段の相性を評価可能とする。これによって、各手段の設
計が個々に可能となる。
【0013】
【実施例】以下、本発明の第1の実施例について説明す
る。図1にこの実施例の文書認識装置の評価装置の構成
を示す。
【0014】文字画像読みとり手段1は、認識対象の文
書2を光学的に読み込み、文書画像3として出力する。
候補文字認識手段4は、文書画像から1文字分の画像を
切り出し、1文字分の特徴量を求め、これらの特徴量か
らパターン識別方式により、1文字につき第1候補文字
から第n候補文字までのn個の候補文字を持つ候補文字
集合5を出力する。ここで、正解文字がこの候補文字集
合内に入っていないとき、正解文字が候補外にあると呼
ぶ。文章処理手段6は、単語辞書7及び文法辞書8や更
に例えば文章内容を示すキーワード等を用いた処理によ
り前記候補文字集合から語彙的及び文法的に正しい文章
を出力する。
【0015】文字認識誤りモデル分析手段9は、正解文
字と前記候補文字認識手段から出力される候補文字集合
を比較し、正解文字が候補文字集合の中で第何位あるい
は候補外にあるかを識別し文字の誤り方の分析を行う。
図2に、正解文字がN候補外にある出現確率QN と、候
補文字認識手段の文字認識率P1 (候補文字集合の第1
位の文字の正解率)との関係を示す。
【0016】尚、実験に用いた文書画像は、ノイズ付加
・回転・縮小コピー等の処理を行ったいろいろな低品質
文書画像を用いた。また、対象とした候補文字認識手段
は、市街地距離による最小距離識別法(第一の候補文字
認識手段)とファジィクラスタリングを用いたニューラ
ルネット認識法(第二の候補文字認識手段)とハードク
ラスタリングを用いたニューラルネット認識法(第三の
候補文字認識手段)の3つである。
【0017】図2に示すように、同じ文書画像を使って
いても、候補外になる誤り方は候補文字認識手段に強く
依存するが、候補外の出現確率QN と候補文字認識手段
の第一候補の文字認識率P1 は指数関数の関係(数1)
であることがわかった。この式を候補外のモデルと呼ぶ
ことにする。
【0018】
【数1】
【0019】ここで、パラメータaを候補外パラメータ
aと呼ぶ。すなわち、候補外パラメータaのみを用いる
事によって、任意の候補文字認識手段の候補外の出現確
率QN と文字認識率P1 の関係を表すことができる。
【0020】図3及び図4は、第一の候補文字認識手段
及び第二の候補文字認識手段による、正解文字が候補文
字集合に含まれる場合に、各候補順位iに正解文字が出
現する正解存在確率Pi を示したものである。実線はい
ろいろな低品質画像に対して文字認識を行った実測結果
である。
【0021】これを分析すると、候補文字認識手段に依
存せずに、候補順位iとこの順位iに正解文字が出現す
る正解存在確率Pi には、以下の数2、数3の関係(誤
りの候補内モデル)があることがわかった。
【0022】
【数2】
【0023】
【数3】
【0024】但し、P1 は第一候補文字認識率、Nは候
補文字集合の数、パラメータbは、式3により求まるも
のである。
【0025】第一候補文字認識率発生手段10は、文書
画像を低品質化した場合の任意のモデル第一候補文字認
識率を発生する。
【0026】文字認識誤りシミュレーション手段11
は、文字認識誤りモデル分析手段9で得られた誤りの候
補外モデルと誤りの候補内モデルにより、分析を行った
候補文字集合から前記モデル第一候補文字認識率を有す
るモデル候補文字集合12の作成を行う。
【0027】文章比較手段13は、前記モデル候補文字
集合を文章処理手段6で修正を行った修正文章14と、
認識対象の文書2の正解文章を比較し、その正解率を出
力する。
【0028】上記の構成の文書認識装置の評価装置の動
作について図1と図5と図6を用いて説明を行う。評価
の対象となる文章処理手段として、最適文節選択法によ
る第一の文章処理手段と探索木による第二の文章処理手
段を用いた。特に、第一の文章処理手段は、候補文字集
合内に正解文字がない場合でも文字の修正による悪化を
生じる事がないように処理を施したものである。
【0029】文字画像読みとり手段1により、認識対象
の文書2を読み込み、文書画像3として出力する。候補
文字認識手段4により、文書画像の認識を行い、候補文
字集合5を出力する。
【0030】文字認識誤りモデル分析手段9により、正
解文字が候補文字集合の中で第何位あるいは候補外にあ
るかを識別し、候補外パラメータaを求める。
【0031】例えば、候補文字認識手段1での実験例を
挙げる。既存の文書画像(2036文字)を測定し、候
補外になる出現確率0.44%(個数9個)、文字認識
率95.8%が得られた。この値を数1に代入すると、
候補外パラメータaは1.7となる。
【0032】この候補外パラメータaは、候補外になる
出現確率QN と文字認識率P1 を一度だけ測定して求め
れば良い。すなわち、数1と数2を用いれば、任意の文
字認識率をもつ候補外出現確率QN と各候補順位iの正
解存在確率Pi の推定が可能となる。
【0033】次に、第一候補文字認識率発生手段10に
より、文書画像を低品質化した場合の5%から95%ま
でのモデル候補文字認識率P1 を発生する。
【0034】次に、文字認識誤りシミュレーション手段
10により、文字認識誤りモデル分析手段9で得られた
候補外パラメータaを用いて、前記モデル候補文字認識
率P 1 に対するモデル候補文字集合12を作成する。
【0035】図5は、モデル候補文字集合12の作成方
法を説明するものである。まず、分析を行った文章に対
して、候補外の出現確率QN と正解存在確率Pi に従っ
て、正解文字がどの候補位置あるいは候補外位置にある
かを乱数を用いて決める。次に、分析を行った候補文字
集合5において、正解文字を決定された候補位置に配置
し、他の候補文字を図のように順にシフトして、任意の
認識率を有するモデル候補文字集合12の作成を行う。
【0036】次に、文章処理手段6により、得られたモ
デル候補文字集合12から語彙的にまた文法的に正しい
修正文章14を作成する。ここでは、第一の文章処理手
段により修正された修正文章を第一の修正文章とし、第
二の文章処理手段により修正された修正文章を第二の修
正文章とする。
【0037】次に、文章比較手段13により、第一の修
正文章あるいは第二の修正文章と正解文書2の比較を行
う。
【0038】図6は、文字認識率に対する修正文章14
の修復率の関係を示すものである。ここで、修復率と
は、モデル候補文字集合12の第10候補内の認識率を基
準として、どのくらい訂正ができているかどうかを見る
指標となる。
【0039】
【数4】
【0040】図からわかるように、第一候補文字認識率
が高認識率であるならば、第一の文章処理手段と第二の
文章処理手段による修復率はあまり違わない。しかし、
第一候補文字認識率が低いときは、第一の文章処理手段
の方が修復率は高い。すなわち、候補外文字の対策を行
った第一の文章処理手段の方が第二の文章処理手段より
も高い性能を有することが判断できる。このように、候
補文字認識手段に対して、たった一度の測定で、これと
同じ誤り方をするモデル候補文字集合12を作成できる
ので、文字画像に劣化を加えるような作業が必要なく、
文章処理手段6を精密に評価できる。
【0041】尚、本実施例では、文章の比較手段とし
て、修復率を用いて比較を行ったが、修正文章の正解率
を用いて比較を行っても同様に文章処理手段6の評価が
可能である。
【0042】以下、本発明の第2の実施例について説明
する。図7にこの実施例の文書認識装置の評価装置の構
成を示す。
【0043】本構成は、一般の候補文字認識手段の特徴
をあらわす誤りパラメータaを発生する誤りパラメータ
発生部15を除いて、第一の実施例と同じである。
【0044】候補文字認識手段4には、いろいろな方式
がある。例えば、特徴量として、背景密度、輪郭方向密
度、メッシュ特徴等を用いたり、識別方式として、ニュ
ーラルネットワーク推論、複合類似度法、ベーズ識別法
等がある。更に、これらの組み合わせ分だけの識別方式
があり、その数はとても多い。そのため、同じ文書画像
を使ってもいろいろな誤り方がある。本実施例の図2、
図3、図4に示すように、誤りパラメータaを用いる事
で、全ての候補文字識別方式の誤り動作を真似る事がで
きる。
【0045】上記の構成の文書認識装置の評価装置の動
作を用いて説明する。文字画像読みとり手段1により、
認識対象の文書2を読み込み、文書画像3として出力す
る。候補文字認識手段4により、文書画像の認識を行
い、候補文字集合5を出力する。次に、文字認識誤りシ
ミュレーション手段11により、候補外パラメータaを
用いて、90%と95%の文字認識率P1 を有するモデ
ル候補文字集合12を作成する。次に、誤りパラメータ
発生部14により、候補文字認識手段の特徴をあらわす
誤りパラメータaを1から3まで発生する。次に、第一
と第2の文章処理手段により得られた第一と第2のモデ
ル候補文字集合12から語彙的にまた文法的に正しい修
正文章を作成する。次に、文章比較手段12により、第
一の修正文章あるいは第二の修正文章と正解文書の比較
を行う。
【0046】図8は、上述したように、第一と第二の文
章処理手段に対して、文字認識率P 1 を一定にして、誤
りパラメータを変化させたときの修復率を示すものであ
る。
【0047】文字認識率P1 が95%の時には、誤りパ
ラメータaが2.0以上の候補文字認識手段に対して良
い性能を示し、文字認識率P1 が90%の時には、誤り
パラメータaが1.6以上の候補文字認識手段に対して
良い性能を示す。
【0048】よって、文字認識率が95%程度での使用
を考えるならば、誤りパラメータaが1.6以上の候補
文字認識手段を用いれば良い。すなわち、候補文字認識
手段単独での方式検討が可能となるので、文書認識装置
の設計が容易となる。
【0049】
【発明の効果】以上の実施例から明らかなように、本発
明の構成の文書認識装置を使用することにより、たった
一度の測定で候補文字認識手段の誤り方をシミュレーシ
ョンすることができる。
【0050】そのため、文書画像を人手で低品質化する
ような作業が必要なく、いろいろな品質のモデル候補文
字集合を作成することができ、文章処理手段の評価が容
易となる。
【0051】更に、従来不可能であった任意の文字認識
率を有するモデル候補文字集合を作成することができ
る。
【0052】候補文字認識手段の代わりに、これの誤り
方を代表する誤りパラメータを用いることによって文書
認識装置の評価ができるので、候補文字認識手段単独で
の方式検討が可能となる。そのため、候補文字認識手段
に対しての適切なチューニングが可能となり、設計時間
を大幅に短縮できる。
【図面の簡単な説明】
【図1】本発明の第一の実施例の文書認識装置の評価装
置の構成図
【図2】候補文字認識手段による候補外の誤り方を示す
実験結果とその誤りモデルの出力図
【図3】第一の候補文字認識手段による候補内の誤り方
を示す実験結果とその誤りモデルの出力図
【図4】第二の候補文字認識手段による候補内の誤り方
を示す実験結果とその誤りモデルの出力図
【図5】モデル候補文字集合の作成方法を示す図
【図6】文章処理手段による修正文章の修復率を示す図
【図7】本発明の第二の実施例の文書認識装置の評価装
置の構成図
【図8】誤りパラメータに対する修復率を示す図
【図9】従来例の文書認識装置の評価装置の構成図
【符号の説明】
1 文字画像読みとり手段 2 文書 3 文書画像 4 候補文字認識手段 5 候補文字集合 6 文章処理手段 7 単語辞書 8 文法辞書 9 文字認識誤りモデル分析手段 10 第一候補文字認識率発生手段 11 文字認識誤りシミュレーション手段 12 モデル候補文字集合 13 文章比較手段 14 修正文章 15 誤りパラメータ発生部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 〆木 泰治 大阪府門真市大字門真1006番地 松下電器 産業株式会社内

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】認識対象の文字を読み取って候補文字集合
    を得る候補文字認識手段と、前記認識対象の文字と前記
    候補文字集合を比較し認識対象の文字が第何位あるいは
    候補外にあるかを識別し文字の誤り方を分析する文字認
    識誤りモデル分析部と、前記候補文字認識手段における
    任意の第一候補文字認識率を発生する文字認識率発生手
    段と、前記文字認識誤りモデルを用いて前記任意の文字
    認識率を有するモデル候補文字集合を出力する文字認識
    誤りシミュレーション手段と、単語辞書及び文法辞書を
    用いて前記モデル候補文字集合から語彙的及び文法的に
    正しい文章を出力する文章処理手段と、この文章と前記
    認識対象の文書とを比較し前記文章処理手段の評価を行
    う文章比較手段と、からなる文書認識装置の評価装置。
  2. 【請求項2】認識対象の文字を読み取って候補文字集合
    を得る候補文字認識手段と、前記認識対象の文字と前記
    候補文字集合を比較し認識対象の文字が第何位あるいは
    候補外にあるかを識別し文字の誤り方を分析する文字認
    識誤りモデル分析部と、認識対象の誤り方をあらわす候
    補外誤りパラメータを発生する候補外誤りパラメータ発
    生部と、前記候補文字集合から前記候補外誤りパラメー
    タをもつモデル候補文字集合を出力する文字認識誤りシ
    ミュレーション手段と、単語辞書及び文法辞書を用いて
    前記モデル候補文字集合から語彙的及び文法的に正しい
    文章を出力する文章処理手段と、この文章と前記認識対
    象の文書とを比較し前記文章処理手段の評価を行う文章
    比較手段と、からなる文書認識装置の評価装置。
JP4257802A 1992-09-28 1992-09-28 文書認識装置の評価装置 Pending JPH06111077A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4257802A JPH06111077A (ja) 1992-09-28 1992-09-28 文書認識装置の評価装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4257802A JPH06111077A (ja) 1992-09-28 1992-09-28 文書認識装置の評価装置

Publications (1)

Publication Number Publication Date
JPH06111077A true JPH06111077A (ja) 1994-04-22

Family

ID=17311315

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4257802A Pending JPH06111077A (ja) 1992-09-28 1992-09-28 文書認識装置の評価装置

Country Status (1)

Country Link
JP (1) JPH06111077A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011194287A (ja) * 2010-03-17 2011-10-06 Toshiba Corp 集中情報処理装置及び集中情報処理システム
CN111325017A (zh) * 2019-11-25 2020-06-23 国网福建省电力有限公司晋江市供电公司 一种配电网设备名称台账筛选方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011194287A (ja) * 2010-03-17 2011-10-06 Toshiba Corp 集中情報処理装置及び集中情報処理システム
CN111325017A (zh) * 2019-11-25 2020-06-23 国网福建省电力有限公司晋江市供电公司 一种配电网设备名称台账筛选方法及装置
CN111325017B (zh) * 2019-11-25 2023-03-28 国网福建省电力有限公司晋江市供电公司 一种配电网设备名称台账筛选方法及装置

Similar Documents

Publication Publication Date Title
CN109933656B (zh) 舆情极性预测方法、装置、计算机设备及存储介质
US6178396B1 (en) Word/phrase classification processing method and apparatus
CN107229627B (zh) 一种文本处理方法、装置及计算设备
CN112257437B (zh) 语音识别纠错方法、装置、电子设备和存储介质
JPH1125127A (ja) 文書分類方法及び文書分類装置
CN112613293B (zh) 摘要生成方法、装置、电子设备及存储介质
CN111274785A (zh) 一种文本纠错方法、装置、设备及介质
CN112151014A (zh) 语音识别结果的测评方法、装置、设备及存储介质
US20110229036A1 (en) Method and apparatus for text and error profiling of historical documents
CN114943674A (zh) 瑕疵检测方法、电子装置及存储介质
CN111400495A (zh) 一种基于模板特征的视频弹幕消费意图识别方法
CN110287487B (zh) 主谓语识别方法、装置、设备及计算机可读存储介质
CN115204143B (zh) 一种基于prompt的文本相似度计算方法及系统
JP2000089786A (ja) 音声認識結果の修正方法および装置
CN115909381A (zh) 一种文本图像识别方法、系统及相关装置
JPH06111077A (ja) 文書認識装置の評価装置
CN111159360B (zh) 获得讯询问话题分类模型、讯询问话题分类的方法和装置
CN112784568A (zh) 一种文本评分方法、电子设备和计算机可读存储介质
JP2003280903A (ja) ソースプログラム比較情報生成システム
JP4592556B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
CN111681670A (zh) 信息识别方法、装置、电子设备及存储介质
CN113780418B (zh) 一种数据的筛选方法、系统、设备和存储介质
CN113378543B (zh) 数据分析方法、训练数据分析模型的方法及电子设备
EP0553745A2 (en) Character recognition apparatus
CN112287668B (zh) 基于机器学习的两阶段合同必备条款缺失风险预警方法