JPH05108891A - Ocr入力された日本語文の後処理方法 - Google Patents
Ocr入力された日本語文の後処理方法Info
- Publication number
- JPH05108891A JPH05108891A JP3257194A JP25719491A JPH05108891A JP H05108891 A JPH05108891 A JP H05108891A JP 3257194 A JP3257194 A JP 3257194A JP 25719491 A JP25719491 A JP 25719491A JP H05108891 A JPH05108891 A JP H05108891A
- Authority
- JP
- Japan
- Prior art keywords
- candidate
- post
- character
- cost
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Discrimination (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
度および速度で実行する。 【構成】本後処理法では、認識結果と日本語の制約とに
基づいて、文法的に成立するパスを探索した後、可能な
パスの各々に付随するコストを計算し、その値が良好で
ある複数個の候補パスを選択する。そして、各カラムの
文字候補について、自分自身(連)を通る候補パスに付随
するコストg(1)と他の文字候補(運)を通る候補パスに付
随するコストg(2)とから、当該候補(連)の確信度Cf(連)
を計算する。その値により、当該候補の入れ替えや、オ
ペレーターに対する警告を行う。
Description
文の後処理に関する。
OCRはきわめて有力である。しかしながら認識誤りを完
全に避けることはほとんど不可能であり、入力後の確認
・修正が不可欠である。したがって、入力文書が帳票で
はなく1ページ当たり2000字程度は普通であるような一
般雑誌等になると、OCRの認識速度よりもこの確認・修
正作業の時間で全体の入力効率が左右されることになる
(宮原: 文書情報の蓄積検索システムに関する検討,情
報処理学会ヒューマンインタフェース研究会, 29-3, p
p.1-10, 1990参照)。そこでオペレータによるこの作業
を補助および(半)自動化する試みが行なわれてきた。そ
の中で比較的基本的なものは認識結果の確信度を識別時
の距離等から算出し、結果が唯一に決められない場合は
リジェクトとしてオペレータに警告すると同時に、その
前後および周辺の文字から得られる制約をもとに候補文
字の中から正解を推定するものである。利用する制約と
しては文字単位での連接情報(杉村, 斉藤: 文字連接情
報を用いた読み取り不能文字の判定処理 -文字認識への
応用-,電子通信学会論文誌, Vol. J68-D, No. 1, pp.64
-71, 1985)や単語としての成立可能性、さらに単語間
の接続規則(新谷, 梅田:文字認識における複合後処理
法の能力評価,電子通信学会論文誌, Vol. J68-D,No. 5,
pp.1118-1124, 1985)などが報告されている。ところ
が入力文書の品質がよほどよい場合を除けば、きわめて
多くのリジェクトが出力されてしまい、これらの手法が
適用し難い場合も多い。そこで認識率が比較的低い場合
にも適用可能な方法として、各候補文字を組合せてでき
るパスを日本語辞書と単語(言い換えれば品詞)間の接続
規則を利用して探索する手法が提案された。この手法を
適用するにあたって考慮しなければならない点として
は、つぎのようなことが考えられる。
象となる文書を極端に絞ることは実用的ではないため、
なるべく広い範囲の日本語文を受理できることが望まし
い。ところが文字認識結果に対する制約として利用する
場合には'ゆるい'文法であるほど、その効果が低下する
と考えられる(池田, 大田, 上野: 手書き原稿における
語彙および構文の検定, 情報処理学会論文誌, Vol. 26,
No. 5, pp.862-869, 1985参照)。
00文字/秒程度であり、多くの場合そのエラー修正はパ
ーソナルコンピューター上で行なわれるであろう。した
がってパーソナルコンピューターで上記の速度に大きく
遅れない程度の処理を認識と同期して行うことが要求さ
れる(高尾, 西野: 日本語文書リーダ後処理の実現と評
価,情報処理学会論文誌, Vol. 30, No. 11, pp.1394-14
01, 1989参照)。
せから得られる(少なくとも文法的には正しい)パスは多
くの場合複数存在する。そこで何らかの評価値(以下で
はコストと呼ぶ)によって'より良い'パスを選択し、オ
ペレータに提示する必要がある。さらに、上記高尾らの
論文で将来の課題として述べられているように後処理に
よって如何に認識率が向上するとしても100%になること
はあり得ないのでオペレータによる確認は欠かせない。
したがって後処理自身がその結果を評価し誤りらしい個
所を指摘することができることが全体としての入力速度
向上のために必要である。
効率的にデータベース化するための文書理解システムの
ために必要な機能の1つとして、これらの要求を考慮す
るとともに文書理解システムの目的に適した後処理を含
む文字認識機能を実現することを目的とする。
れた文字中から日本語文の制約を利用して誤りを検出
し、より確からしい候補に置き換える後処理に関する。
本後処理は日本語辞書と品詞間接続テーブルを参照し
て文法的に成立する文字列の候補を生成した後、各単語
の品詞、出現頻度、遷移確率、および認識の確からしさ
に基づいてコストを計算しその値が最良のものから一定
値以内の候補パスを選び出す。そして各カラムの文字候
補について、自分自身を通る候補パスに付随するコスト
と他の候補を通るそれから確信度を計算し、その値によ
り当該候補の入れ替えや、オペレーターに対する警告を
行う。実験によれば後処理なしで95%程度の認識率であ
ったデータで認識率が約99%に向上し、検出されなかっ
た(言い換えれば入れ替え、警告のいずれも行なわれな
かった)誤認識文字は0.2%程度にとどまった。候補パス
を見出す探索にはダイクストラ法とビームサーチを用い
ることで、商品名80386のCPU(25MHz)を搭載したパー
ソナルコンピュータ上で約27文字/秒の実行速度が得ら
れた。
ィアなどのデータベースに効率よく入力・運用するため
の文書理解システムの概略を述べ、そのつぎに後処理の
実現している機能および手法について説明する。さらに
後処理の効果および速度についての実験結果を提示し、
最後にまとめを行う。
需要が大きいと思われる科学技術文献)をハイパーメデ
ィアなどのデータベースに効率よく入力することであり
以下のような機能をもっている(天野他: マルチメディ
ア文書入力のための文書画像認識システム : DRS,
情報処理学会マルチメディア通信と分散処理研究会, 48
-6,pp.41-48,1991参照)。
造を与えられた文書モデルに基づいて解析し、書誌情報
の抽出・読み順の決定を自動的に行う。これには図を自
動的に検出しイメージとして取り出す機能も含まれる。 2. 文字認識機能 3. 認識誤りの検出・自動修正を行う後処理機能 4. キーワード候補の抽出: 文字認識すると同時に、文
書検索に欠かすことのできないキーワードの候補を抽出
する。 5. 後処理と同時並列的に実行可能なエラー修正のため
のユーザインターフェース
(マイクロプロセッサ68020(商品名)、3Mbyteのメモリー
および専用ハードウェアからなる)上で実行され、その
他はすべてパーソナルコンピュータ(80386(商標), 25MH
z)上でOS/2(商標)のもとに実現されている。文字認識単
独の速度は約30文字/秒である。
の検定, 情報処理学会論文誌, Vol. 26, No. 5, pp.862
-869, 1985では、OCRの後処理という立場から形態素レ
ベルでの日本語文法を考察し、カテゴリー数86にのぼる
品詞分類とその接続規則を提案している。しかしなが
ら、従来技術の欄で述べたように、より多くの文を受理
することとより強い制約となることは相反する要求であ
る。この事実と3番目の要求を考慮すれば、すべての接
続規則を対等に扱うのではなく、文法自身に確率を付与
することによってパス選択のときに利用するコストの1
つとして取り入れることが必要である。機械翻訳の前処
理としての形態素解析では、解が多くなり過ぎて次段で
ある係り受け・構文解析に負担がかかり過ぎるのを防ぐ
ため、単語間の接続に対して出現頻度や共起確率に基づ
いたコストを導入し、それぞれの解に付随するコストで
解を序列化しようというコスト付き形態素解析の試みが
報告されている(たとえば久光, 新田: 接続コスト最小
法による形態素解析の提案と計算量の評価について, 電
子情報通信学会言語理解とコミュニケーション研究会,N
LC90-8, 1990)。
は大きな問題となる。つまり分類がより細かい方が制約
としてはより効果的であるが、信頼できる共起確率を求
めるためにはBigramの場合でもカテゴリー数の二乗に比
例して学習データ量を増やさなければならない。実用的
な立場から言えばごく簡単な分類のBigramでも十分な制
約になり得る場合もあれば、Trigramさらには複数文節
間の関係を評価(言い換えれば構文解析)しなければ妥当
なコストを付けられない場合も存在するわけで、最も困
難な場合にすべてを合わせることは実際的ではない。
た品詞分類(大河内:仮名漢字変換のための形態素接続
規則,IBM リサーチレポート N:G318-1560, 1981)を用
い、誤認識されやすくかつその分類で同じカテゴリーに
属している単語については必要に応じより詳細な分類お
よび接続コスト(必要ならばTrigramや複数文節間にまた
がる評価も含む)を記述できる枠組みを用意することに
した。すなわち詳細分類のための辞書を別に用意しそこ
に記述されていなければ各品詞間の接続ごとに定義され
ているデフォールトのコストを用いることになる。それ
以外の辞書は次のとおりである。
語を格納
はその語数の多さの割には分類項目が少ない上、より詳
細な分類が困難である。そこで共起確率は品詞ごとに計
算するが出現頻度は各単語ごとに計算しその対数値に基
づいたコストを、辞書の各エントリーに記述することに
した。学習に用いたのはJICST科学技術データベースの
電気工学編(Vol. 26)である。各辞書はTRIE構造を採用
しており、辞書引きを行う位置から前方の文字ラティス
の要素のいずれかと適合するすべての長さの単語が高速
に抽出できる。
現し、次にその拡張としての後処理手法を示した後、最
も重要なあいまい性の評価について述べる。
語(W)、文(S)はそれぞれW = p(1)p(2),...,p(l) S = q
(1)q(2),...,q(m) (p(i), q(j)∈Cset)と表現できるの
で、コスト付き形態素解析とはSを単語列として S = W(1)W(2),..., W(n) のように分解し、合わせてその単語列から決まるコスト
関数g(W(1),...,W(n))を算出し、その値が最小コストか
ら一定値以内であるか上位N位までに属するものを求め
る作業である。 ここでq(j)を文字ではなく順序付けら
れた文字集合Q(j)= [q(j1),q(j2),..., q(jK)]([] は順
序付けられていることを示すために用いる)に置き換え
れば、文は文字列から文字ラティスとなる。通常の形態
素解析では各文字位置(j)ごとにその先の部分文字列q
(j)q(j+1),...,q(m)について辞書引きが行なわれるわけ
であるが、その替わりに部分ラティスQ(j)Q(j+1),...,Q
(m)から得られる文字の組合せについて辞書引きを行な
い候補単語を生成する手続きがあればその分場合の数は
増加するが上記作業は容易に文字ラティスからコストの
低い順にパスを求めるOCRの後処理手法に拡張できる。
高尾, 西野: 日本語文書リーダ後処理の実現と評価,情
報処理学会論文誌, Vol. 30, No. 11, pp.1394-1401, 1
989で述べられている後処理はこの探索にA*アルゴリズ
ムを用いた最良のパス1個を見出すコスト付き形態素解
析と考えることができる。
するため各候補文字のあいまい性について考える。図1
の(a)の文字ラティスを見れば(誰でも直感的に)'文書に
ついて'が正しい元の文ではないかと考えるであろう。
しかしながら'文害'という言葉も'文(名詞)'+'害'(名
詞)と考えれば文法規則を満たしている。さらに図1の
(b)ではより広い範囲の情報がなければ人の目にもいず
れが正しいかさだかではない。言い換えれば各候補文字
におけるあいまい性の程度とはその候補文字を通るパス
(複数の場合もある)と、当該カラムにおいて他の候補文
字を通るパスとの生起確率の比で表現するのが妥当であ
ると考えられる。そこで各文字ごとのあいまい性の評価
が可能な後処理として、次のような手法を採用した(図
2)。
て上記の拡張コスト付き形態素解析を行い、最適なパス
のコストg(opt)から一定値α以内のパスを求める。探索
手法としてはDijkstraのアルゴリズムとビームサーチを
併用している。 2. 求まったパスをP(i) = q(i1)q(i2),...,q(im)(i =
1,...,N)、さらに各文字位置(j)について最適パスがそ
の位置で採用したQ(j)の要素をq(opt)、最適パス同様そ
の位置(j)においてq(opt)を選択したパスをP(i')(1 ≦
i' ≦ N)とするとき、位置jでの確信度(Cf)をつぎの式
で定義する。
はP(i')に対応するコストの総和を求めることを意味す
る。
確信度が高いことになる。われわれのシステムでは各パ
スのコストg(i)は各単語の頻度、遷移確率、認識時の距
離から得られる各文字の正解確率などの対数和で表現し
ているのでCfは文節単位の文脈を考慮したときの、当該
文字の生起確率を近似していると考えることができる。
たとえば図2の例では、可能なパスとして'三次元構造、
連動情報に基づく'と'三次元構造、運動情報に基づく'
の2つが残り、2つのパスで文字が異なる7文字目で'連'
と'運'に対する確信度が計算される。ここで複数パスが
存在することと、あるカラムで複数の可能性があること
は必ずしも一致しない。つまり'北大西洋'という複合語
を例にとると('北大'という単語が辞書に存在する場
合)'北大+西洋'および'北+大西洋'という2つのパスが出
力されることになるが、文字列としては同一であり、認
識結果という立場からみればあいまい性は存在しないか
らである。
するか否かによりつぎのように候補の入れ換えや当該文
字をMarking(候補入れ換え、警告)することによるオペ
レータへの通知を行う。 ・q(opt)が1位の認識結果と一致し、かつCf > δならば
何も行わない。 ・q(opt)が1位の認識結果と一致せず、かつCf > δなら
ば1位候補をq(opt)に入れ替える。この場合もオペレー
タに対して(入れ替えたことを)通知する。 ・q(opt)が1位の認識結果と一致し、かつCf <= δなら
ば警告を行う。 ・q(opt)が1位の認識結果と一致せず、かつCf <= δな
らば1位候補をq(opt)に入れ替えた上で警告を行う。
の拡張となっているので、後処理を行った時点で副産物
として単語の切れ目、および品詞が分かることになる。
そこで(複合語を含め)名詞を検出すればキーワードの候
補が得られるがこれを表示する機能を付けている。これ
はデータベースへの文書入力を目的とする場合に必要な
機能であるばかりでなく、最終的にオペレータが誤りを
見付けるための補助手段としても重要である。
たテストデータはA.電子情報通信学会論文誌(D分冊)の
論文フロントページ(コピー:計9455文字)、B.コンピュ
ータに関する顧客研修用資料(ワープロ出力をオフセッ
ト印刷したもの:計4129文字)、およびC.電気工学分野の
特許公報(計2393文字)である。前2者は通常使用される
程度の印字品質の代表として、Cは低印字品質の代表と
して比較的つぶれ、かすれが多く見られるものを選ん
だ。これらの文書にはコンピュータ関連用語が頻出する
が、その多くはわれわれの自立語辞書に含まれていない
ため、ユーザ辞書に約300語登録した。後処理前の認識
率と処理後の認識率および誤認識に対する検出率との関
係をページ単位で図3に示す。ただし検出とは当該文字
に対して誤りの可能性があると識別し、候補の入れ替
え、警告のいずれかが行なわれた(言い換えればマーキ
ングされた)ことの意味で用いている。さらに対象文書
ごとの平均値をとったものが表1である。本手法の効率
を評価するため後処理後認識率の他以下に示す2つの尺
度を用いる。
の数(図3の未検出に相当)/全文字数 ・総検出率:検出されたすべての文字数 (過剰検出を含
む)/全文字数
存することが明らかであるが、後処理なしで95%程度の
認識率が確保できればそれを99%程度まで引き上げ、か
つ誤認識の見逃し(未検出率)を0.2%程度に押えることが
できることがわかる。これはワープロ検定試験の1級が
正解率98.9%であることと比較すればほぼ十分な精度で
あると言える。さらにその場合総検出率が5-6%にとどま
っていることから、過剰検出も文節単位での処理として
は十分少ないと考えられる。
約27文字/秒であった(ただし平均候補数は2.3個、最大
候補数は5個の場合)。実際には本後処理がOS/2(商標)上
のマルチスレッドで実現されていること、および認識が
カード上で実行されることから、オペレータは後処理の
ための待ち時間をほとんど意識することなく確認・修正
が行える(上記天野らの論文参照)。
について述べた。通常の使用環境においてはほぼ十分な
精度、および速度で実行できる後処理機能が実現でき
た。特に後処理自身がその結果に対してあいまい性を評
価し警告できることが(オペレータによる確認・修正を
含めた)トータルな処理速度に貢献すると考えられる。
ただし何らかのマーキング(候補の入れ替え、または警
告)が行なわれる率が約5%(20個に1個程度)というのはま
だ多過ぎるという評価もできる。これについては過剰検
出をさらに減らすと同時に、候補の入れ替えを行った場
合でも十分な確信度ならばマーキングしないことが良い
と考えられるが未検出(見逃し)とのトレード・オフであ
りより多くの実験が必要と考えている。また候補パスの
選び方も現在は最良値から一定以内のコストをもつもの
という基準で選んでいるが、上位一定個数をとるという
ことも考えられる。これについては探索手法と関連付け
て検討が必要であろう。今後は上記の課題他文書の対象
分野を広げると同時に、後処理の有無によりオペレータ
の作業時間と最終的な入力精度がどのように変化するか
を実験的に明らかにして行きたい。
度で実行できる後処理機能が実現できる。
図である。
認識文字の検出率を示す図である。
Claims (1)
- 【請求項1】OCR入力された日本語文の後処理方法で
あって、 (a)認識結果と日本語の制約とに基づいて、文法的に成
立するパスを探索し、 (b)可能なパスの各々に付随するコストを計算し、 (c)コストに基づいて、複数個の候補パスを選択し、 (d)各カラムの文字候補について、自分自身を通る候補
パスに付随するコストと他の文字候補を通る候補パスに
付随するコストとから、当該候補の確信度を計算する ステップを含む方法。 【0001】
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3257194A JPH05108891A (ja) | 1991-09-10 | 1991-09-10 | Ocr入力された日本語文の後処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3257194A JPH05108891A (ja) | 1991-09-10 | 1991-09-10 | Ocr入力された日本語文の後処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH05108891A true JPH05108891A (ja) | 1993-04-30 |
Family
ID=17302988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3257194A Pending JPH05108891A (ja) | 1991-09-10 | 1991-09-10 | Ocr入力された日本語文の後処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH05108891A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH086945A (ja) * | 1994-06-16 | 1996-01-12 | Ibm Japan Ltd | 文書の論理構造の解析方法及びシステム |
-
1991
- 1991-09-10 JP JP3257194A patent/JPH05108891A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH086945A (ja) * | 1994-06-16 | 1996-01-12 | Ibm Japan Ltd | 文書の論理構造の解析方法及びシステム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kukich | Techniques for automatically correcting words in text | |
EP0844583B1 (en) | Method and apparatus for character recognition | |
KR100630886B1 (ko) | 문자 스트링 식별 | |
US9135249B2 (en) | Number sequences detection systems and methods | |
US7668814B2 (en) | Document management system | |
JP4865526B2 (ja) | データマイニングシステム、データマイニング方法及びデータ検索システム | |
Zhang et al. | Automatic detecting/correcting errors in Chinese text by an approximate word-matching algorithm | |
JP2007122403A (ja) | 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム | |
Ha et al. | Information extraction from scanned invoice images using text analysis and layout features | |
Uthayamoorthy et al. | Ddspell-a data driven spell checker and suggestion generator for the tamil language | |
Kompalli et al. | Devanagari OCR using a recognition driven segmentation framework and stochastic language models | |
Tufiş et al. | DIAC+: A professional diacritics recovering system | |
Vinitha et al. | Error detection in indic ocrs | |
Lehal et al. | A post-processor for Gurmukhi OCR | |
Garain et al. | Identification of embedded mathematical expressions in scanned documents | |
Mohapatra et al. | Spell checker for OCR | |
Zhu et al. | A novel OCR approach based on document layout analysis and text block classification | |
JPH05108891A (ja) | Ocr入力された日本語文の後処理方法 | |
Puri et al. | Sentence detection and extraction in machine printed imaged document using matching technique | |
Sari et al. | MOrpho-LEXical analysis for correcting OCR-generated Arabic words (MOLEX) | |
KR20000035325A (ko) | 문서 인식 장치 및 우편 구분기 | |
Dershowitz et al. | Relating articles textually and visually | |
Vinitha | Error detection and correction in Indic OCRs | |
Balasooriya | Improving and Measuring OCR Accuracy for Sinhala with Tesseract OCR Engine | |
Jiang et al. | A suffix tree based handwritten Chinese address recognition system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040302 |
|
A521 | Written amendment |
Effective date: 20040420 Free format text: JAPANESE INTERMEDIATE CODE: A523 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040601 |
|
A521 | Written amendment |
Effective date: 20040730 Free format text: JAPANESE INTERMEDIATE CODE: A523 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Effective date: 20040907 Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040920 |
|
R150 | Certificate of patent (=grant) or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Year of fee payment: 4 Free format text: PAYMENT UNTIL: 20081008 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Year of fee payment: 4 Free format text: PAYMENT UNTIL: 20081008 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091008 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Year of fee payment: 5 Free format text: PAYMENT UNTIL: 20091008 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101008 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Year of fee payment: 7 Free format text: PAYMENT UNTIL: 20111008 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121008 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Year of fee payment: 8 Free format text: PAYMENT UNTIL: 20121008 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Year of fee payment: 8 Free format text: PAYMENT UNTIL: 20121008 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121008 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131008 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |