JPH05108891A

JPH05108891A - Ｏｃｒ入力された日本語文の後処理方法

Info

Publication number: JPH05108891A
Application number: JP3257194A
Authority: JP
Inventors: Nobuyasu Ito; 伸泰伊東; Hiroshi Maruyama; 宏丸山
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1991-09-10
Filing date: 1991-09-10
Publication date: 1993-04-30

Abstract

(57)【要約】【目的】OCR入力された日本語文の後処理を、十分な精
度および速度で実行する。【構成】本後処理法では、認識結果と日本語の制約とに
基づいて、文法的に成立するパスを探索した後、可能な
パスの各々に付随するコストを計算し、その値が良好で
ある複数個の候補パスを選択する。そして、各カラムの
文字候補について、自分自身(連)を通る候補パスに付随
するコストg(1)と他の文字候補(運)を通る候補パスに付
随するコストg(2)とから、当該候補(連)の確信度Cf(連)
を計算する。その値により、当該候補の入れ替えや、オ
ペレーターに対する警告を行う。

Description

【発明の詳細な説明】

【産業上の利用分野】本発明は、OCR入力された日本語
文の後処理に関する。

【０００２】

【従来の技術】日本語入力の手間を削減する方法として
OCRはきわめて有力である。しかしながら認識誤りを完
全に避けることはほとんど不可能であり、入力後の確認
・修正が不可欠である。したがって、入力文書が帳票で
はなく1ページ当たり2000字程度は普通であるような一
般雑誌等になると、OCRの認識速度よりもこの確認・修
正作業の時間で全体の入力効率が左右されることになる
（宮原: 文書情報の蓄積検索システムに関する検討,情
報処理学会ヒューマンインタフェース研究会, 29-3, p
p.1-10, 1990参照）。そこでオペレータによるこの作業
を補助および(半)自動化する試みが行なわれてきた。そ
の中で比較的基本的なものは認識結果の確信度を識別時
の距離等から算出し、結果が唯一に決められない場合は
リジェクトとしてオペレータに警告すると同時に、その
前後および周辺の文字から得られる制約をもとに候補文
字の中から正解を推定するものである。利用する制約と
しては文字単位での連接情報（杉村, 斉藤: 文字連接情
報を用いた読み取り不能文字の判定処理 -文字認識への
応用-,電子通信学会論文誌, Vol. J68-D, No. 1, pp.64
-71, 1985）や単語としての成立可能性、さらに単語間
の接続規則（新谷, 梅田:文字認識における複合後処理
法の能力評価,電子通信学会論文誌, Vol. J68-D,No. 5,
pp.1118-1124, 1985）などが報告されている。ところ
が入力文書の品質がよほどよい場合を除けば、きわめて
多くのリジェクトが出力されてしまい、これらの手法が
適用し難い場合も多い。そこで認識率が比較的低い場合
にも適用可能な方法として、各候補文字を組合せてでき
るパスを日本語辞書と単語(言い換えれば品詞)間の接続
規則を利用して探索する手法が提案された。この手法を
適用するにあたって考慮しなければならない点として
は、つぎのようなことが考えられる。

【０００３】1. 適用する日本語文法: 文字認識では対
象となる文書を極端に絞ることは実用的ではないため、
なるべく広い範囲の日本語文を受理できることが望まし
い。ところが文字認識結果に対する制約として利用する
場合には'ゆるい'文法であるほど、その効果が低下する
と考えられる（池田, 大田, 上野: 手書き原稿における
語彙および構文の検定, 情報処理学会論文誌, Vol. 26,
No. 5, pp.862-869, 1985参照）。

【０００４】2. 処理速度: 現在のOCRの認識速度は10-1
00文字/秒程度であり、多くの場合そのエラー修正はパ
ーソナルコンピューター上で行なわれるであろう。した
がってパーソナルコンピューターで上記の速度に大きく
遅れない程度の処理を認識と同期して行うことが要求さ
れる（高尾, 西野: 日本語文書リーダ後処理の実現と評
価,情報処理学会論文誌, Vol. 30, No. 11, pp.1394-14
01, 1989参照）。

【０００５】3. 得られたパスの評価: 候補文字の組合
せから得られる(少なくとも文法的には正しい)パスは多
くの場合複数存在する。そこで何らかの評価値(以下で
はコストと呼ぶ)によって'より良い'パスを選択し、オ
ペレータに提示する必要がある。さらに、上記高尾らの
論文で将来の課題として述べられているように後処理に
よって如何に認識率が向上するとしても100%になること
はあり得ないのでオペレータによる確認は欠かせない。
したがって後処理自身がその結果を評価し誤りらしい個
所を指摘することができることが全体としての入力速度
向上のために必要である。

【０００６】

【発明が解決しようとする課題】本発明は、印刷文書を
効率的にデータベース化するための文書理解システムの
ために必要な機能の1つとして、これらの要求を考慮す
るとともに文書理解システムの目的に適した後処理を含
む文字認識機能を実現することを目的とする。

【０００７】

【課題を解決するための手段】本発明は、OCRで認識さ
れた文字中から日本語文の制約を利用して誤りを検出
し、より確からしい候補に置き換える後処理に関する。
本後処理は日本語辞書と品詞間接続テーブルを参照し
て文法的に成立する文字列の候補を生成した後、各単語
の品詞、出現頻度、遷移確率、および認識の確からしさ
に基づいてコストを計算しその値が最良のものから一定
値以内の候補パスを選び出す。そして各カラムの文字候
補について、自分自身を通る候補パスに付随するコスト
と他の候補を通るそれから確信度を計算し、その値によ
り当該候補の入れ替えや、オペレーターに対する警告を
行う。実験によれば後処理なしで95%程度の認識率であ
ったデータで認識率が約99%に向上し、検出されなかっ
た(言い換えれば入れ替え、警告のいずれも行なわれな
かった)誤認識文字は0.2%程度にとどまった。候補パス
を見出す探索にはダイクストラ法とビームサーチを用い
ることで、商品名80386のＣＰＵ(25MHz)を搭載したパー
ソナルコンピュータ上で約27文字/秒の実行速度が得ら
れた。

【０００８】

【実施例】最初に既存の日本語印刷文書をハイパーメデ
ィアなどのデータベースに効率よく入力・運用するため
の文書理解システムの概略を述べ、そのつぎに後処理の
実現している機能および手法について説明する。さらに
後処理の効果および速度についての実験結果を提示し、
最後にまとめを行う。

【０００９】［１］文書理解システムの概要前述のように文書理解システムの目的は印刷文書(特に
需要が大きいと思われる科学技術文献)をハイパーメデ
ィアなどのデータベースに効率よく入力することであり
以下のような機能をもっている（天野他: マルチメディ
ア文書入力のための文書画像認識システム : ＤＲＳ,
情報処理学会マルチメディア通信と分散処理研究会, 48
-6,pp.41-48,1991参照）。

【００１０】1. レイアウト理解: 文書のレイアウト構
造を与えられた文書モデルに基づいて解析し、書誌情報
の抽出・読み順の決定を自動的に行う。これには図を自
動的に検出しイメージとして取り出す機能も含まれる。 2. 文字認識機能 3. 認識誤りの検出・自動修正を行う後処理機能 4. キーワード候補の抽出: 文字認識すると同時に、文
書検索に欠かすことのできないキーワードの候補を抽出
する。 5. 後処理と同時並列的に実行可能なエラー修正のため
のユーザインターフェース

【００１１】この中で2のみが漢字OCRアダプターカード
(マイクロプロセッサ68020(商品名)、3Mbyteのメモリー
および専用ハードウェアからなる)上で実行され、その
他はすべてパーソナルコンピュータ(80386(商標), 25MH
z)上でOS/2(商標)のもとに実現されている。文字認識単
独の速度は約30文字/秒である。

【００１２】［２］後処理方式 2.1 日本語文法池田, 大田, 上野: 手書き原稿における語彙および構文
の検定, 情報処理学会論文誌, Vol. 26, No. 5, pp.862
-869, 1985では、OCRの後処理という立場から形態素レ
ベルでの日本語文法を考察し、カテゴリー数86にのぼる
品詞分類とその接続規則を提案している。しかしなが
ら、従来技術の欄で述べたように、より多くの文を受理
することとより強い制約となることは相反する要求であ
る。この事実と3番目の要求を考慮すれば、すべての接
続規則を対等に扱うのではなく、文法自身に確率を付与
することによってパス選択のときに利用するコストの1
つとして取り入れることが必要である。機械翻訳の前処
理としての形態素解析では、解が多くなり過ぎて次段で
ある係り受け・構文解析に負担がかかり過ぎるのを防ぐ
ため、単語間の接続に対して出現頻度や共起確率に基づ
いたコストを導入し、それぞれの解に付随するコストで
解を序列化しようというコスト付き形態素解析の試みが
報告されている(たとえば久光, 新田: 接続コスト最小
法による形態素解析の提案と計算量の評価について, 電
子情報通信学会言語理解とコミュニケーション研究会,N
LC90-8, 1990)。

【００１３】この場合でも単語をどのように分類するか
は大きな問題となる。つまり分類がより細かい方が制約
としてはより効果的であるが、信頼できる共起確率を求
めるためにはBigramの場合でもカテゴリー数の二乗に比
例して学習データ量を増やさなければならない。実用的
な立場から言えばごく簡単な分類のBigramでも十分な制
約になり得る場合もあれば、Trigramさらには複数文節
間の関係を評価(言い換えれば構文解析)しなければ妥当
なコストを付けられない場合も存在するわけで、最も困
難な場合にすべてを合わせることは実際的ではない。

【００１４】そこで原則は仮名漢字変換向けに開発され
た品詞分類（大河内:仮名漢字変換のための形態素接続
規則,IBM リサーチレポート N:G318-1560, 1981）を用
い、誤認識されやすくかつその分類で同じカテゴリーに
属している単語については必要に応じより詳細な分類お
よび接続コスト(必要ならばTrigramや複数文節間にまた
がる評価も含む)を記述できる枠組みを用意することに
した。すなわち詳細分類のための辞書を別に用意しそこ
に記述されていなければ各品詞間の接続ごとに定義され
ているデフォールトのコストを用いることになる。それ
以外の辞書は次のとおりである。

【００１５】・自立語辞書: 約115000語、自立語を39に分類・付属語辞書: 約900語、付属語を70に分類・ユーザ辞書: 現在は主としてコンピュータ関係の用
語を格納

【００１６】よく知られているように自立語(特に名詞)
はその語数の多さの割には分類項目が少ない上、より詳
細な分類が困難である。そこで共起確率は品詞ごとに計
算するが出現頻度は各単語ごとに計算しその対数値に基
づいたコストを、辞書の各エントリーに記述することに
した。学習に用いたのはJICST科学技術データベースの
電気工学編(Vol. 26)である。各辞書はTRIE構造を採用
しており、辞書引きを行う位置から前方の文字ラティス
の要素のいずれかと適合するすべての長さの単語が高速
に抽出できる。

【００１７】2.2 パスの探索戦略とあいまい度の評価最初にコスト付き形態素解析を記号を用いて形式的に表
現し、次にその拡張としての後処理手法を示した後、最
も重要なあいまい性の評価について述べる。

【００１８】用いられる文字集合をCsetで表現すると単
語(W)、文(S)はそれぞれW = p(1)p(2),...,p(l) S = q
(1)q(2),...,q(m) (p(i), q(j)∈Cset)と表現できるの
で、コスト付き形態素解析とはSを単語列として S = W(1)W(2),..., W(n) のように分解し、合わせてその単語列から決まるコスト
関数g(W(1),...,W(n))を算出し、その値が最小コストか
ら一定値以内であるか上位N位までに属するものを求め
る作業である。ここでq(j)を文字ではなく順序付けら
れた文字集合Q(j)= [q(j1),q(j2),..., q(jK)]([] は順
序付けられていることを示すために用いる)に置き換え
れば、文は文字列から文字ラティスとなる。通常の形態
素解析では各文字位置(j)ごとにその先の部分文字列q
(j)q(j+1),...,q(m)について辞書引きが行なわれるわけ
であるが、その替わりに部分ラティスQ(j)Q(j+1),...,Q
(m)から得られる文字の組合せについて辞書引きを行な
い候補単語を生成する手続きがあればその分場合の数は
増加するが上記作業は容易に文字ラティスからコストの
低い順にパスを求めるOCRの後処理手法に拡張できる。
高尾, 西野: 日本語文書リーダ後処理の実現と評価,情
報処理学会論文誌, Vol. 30, No. 11, pp.1394-1401, 1
989で述べられている後処理はこの探索にA*アルゴリズ
ムを用いた最良のパス1個を見出すコスト付き形態素解
析と考えることができる。

【００１９】次に誤りらしい個所を指摘する機能を実現
するため各候補文字のあいまい性について考える。図1
の(a)の文字ラティスを見れば(誰でも直感的に)'文書に
ついて'が正しい元の文ではないかと考えるであろう。
しかしながら'文害'という言葉も'文(名詞)'+'害'(名
詞)と考えれば文法規則を満たしている。さらに図1の
(b)ではより広い範囲の情報がなければ人の目にもいず
れが正しいかさだかではない。言い換えれば各候補文字
におけるあいまい性の程度とはその候補文字を通るパス
(複数の場合もある)と、当該カラムにおいて他の候補文
字を通るパスとの生起確率の比で表現するのが妥当であ
ると考えられる。そこで各文字ごとのあいまい性の評価
が可能な後処理として、次のような手法を採用した(図
2)。

【００２０】1. 候補文字(S = Q(1),..., Q(m))につい
て上記の拡張コスト付き形態素解析を行い、最適なパス
のコストg(opt)から一定値α以内のパスを求める。探索
手法としてはDijkstraのアルゴリズムとビームサーチを
併用している。 2. 求まったパスをP(i) = q(i1)q(i2),...,q(im)(i =
1,...,N)、さらに各文字位置(j)について最適パスがそ
の位置で採用したQ(j)の要素をq(opt)、最適パス同様そ
の位置(j)においてq(opt)を選択したパスをP(i')(1 ≦
i' ≦ N)とするとき、位置jでの確信度(Cf)をつぎの式
で定義する。

【００２１】ただしg(i) (i=1,...,N)はパスP(i)のコスト、左側のΣ
はP(i')に対応するコストの総和を求めることを意味す
る。

【００２２】したがってCfは(0,1]の変数で1に近いほど
確信度が高いことになる。われわれのシステムでは各パ
スのコストg(i)は各単語の頻度、遷移確率、認識時の距
離から得られる各文字の正解確率などの対数和で表現し
ているのでCfは文節単位の文脈を考慮したときの、当該
文字の生起確率を近似していると考えることができる。
たとえば図2の例では、可能なパスとして'三次元構造、
連動情報に基づく'と'三次元構造、運動情報に基づく'
の2つが残り、2つのパスで文字が異なる7文字目で'連'
と'運'に対する確信度が計算される。ここで複数パスが
存在することと、あるカラムで複数の可能性があること
は必ずしも一致しない。つまり'北大西洋'という複合語
を例にとると('北大'という単語が辞書に存在する場
合)'北大+西洋'および'北+大西洋'という2つのパスが出
力されることになるが、文字列としては同一であり、認
識結果という立場からみればあいまい性は存在しないか
らである。

【００２３】3. Cfの値とq(opt)が1位の認識結果と一致
するか否かによりつぎのように候補の入れ換えや当該文
字をMarking(候補入れ換え、警告)することによるオペ
レータへの通知を行う。・q(opt)が1位の認識結果と一致し、かつCf > δならば
何も行わない。・q(opt)が1位の認識結果と一致せず、かつCf > δなら
ば1位候補をq(opt)に入れ替える。この場合もオペレー
タに対して(入れ替えたことを)通知する。・q(opt)が1位の認識結果と一致し、かつCf <= δなら
ば警告を行う。・q(opt)が1位の認識結果と一致せず、かつCf <= δな
らば1位候補をq(opt)に入れ替えた上で警告を行う。

【００２４】2.3 キーワード抽出前節で述べたように、本後処理はコスト付き形態素解析
の拡張となっているので、後処理を行った時点で副産物
として単語の切れ目、および品詞が分かることになる。
そこで(複合語を含め)名詞を検出すればキーワードの候
補が得られるがこれを表示する機能を付けている。これ
はデータベースへの文書入力を目的とする場合に必要な
機能であるばかりでなく、最終的にオペレータが誤りを
見付けるための補助手段としても重要である。

【００２５】［３］認識実験本手法の効果を確かめるため認識実験を行った。用意し
たテストデータはA.電子情報通信学会論文誌(D分冊)の
論文フロントページ(コピー:計9455文字)、B.コンピュ
ータに関する顧客研修用資料(ワープロ出力をオフセッ
ト印刷したもの:計4129文字)、およびC.電気工学分野の
特許公報(計2393文字)である。前2者は通常使用される
程度の印字品質の代表として、Cは低印字品質の代表と
して比較的つぶれ、かすれが多く見られるものを選ん
だ。これらの文書にはコンピュータ関連用語が頻出する
が、その多くはわれわれの自立語辞書に含まれていない
ため、ユーザ辞書に約300語登録した。後処理前の認識
率と処理後の認識率および誤認識に対する検出率との関
係をページ単位で図3に示す。ただし検出とは当該文字
に対して誤りの可能性があると識別し、候補の入れ替
え、警告のいずれかが行なわれた(言い換えればマーキ
ングされた)ことの意味で用いている。さらに対象文書
ごとの平均値をとったものが表1である。本手法の効率
を評価するため後処理後認識率の他以下に示す2つの尺
度を用いる。

【００２６】・未検出率:検出されなかった誤認識文字
の数(図3の未検出に相当)／全文字数・総検出率:検出されたすべての文字数 (過剰検出を含
む)／全文字数

【表１】これらの図表から、後処理の効率は元の認識率に強く依
存することが明らかであるが、後処理なしで95%程度の
認識率が確保できればそれを99%程度まで引き上げ、か
つ誤認識の見逃し(未検出率)を0.2%程度に押えることが
できることがわかる。これはワープロ検定試験の1級が
正解率98.9%であることと比較すればほぼ十分な精度で
あると言える。さらにその場合総検出率が5-6%にとどま
っていることから、過剰検出も文節単位での処理として
は十分少ないと考えられる。

【００２７】処理速度は第1節で述べた環境で実行して
約27文字/秒であった(ただし平均候補数は2.3個、最大
候補数は5個の場合)。実際には本後処理がOS/2(商標)上
のマルチスレッドで実現されていること、および認識が
カード上で実行されることから、オペレータは後処理の
ための待ち時間をほとんど意識することなく確認・修正
が行える(上記天野らの論文参照)。

【００２８】［４］まとめ以上文書理解システムの文脈後処理機能とその実験結果
について述べた。通常の使用環境においてはほぼ十分な
精度、および速度で実行できる後処理機能が実現でき
た。特に後処理自身がその結果に対してあいまい性を評
価し警告できることが(オペレータによる確認・修正を
含めた)トータルな処理速度に貢献すると考えられる。
ただし何らかのマーキング(候補の入れ替え、または警
告)が行なわれる率が約5%(20個に1個程度)というのはま
だ多過ぎるという評価もできる。これについては過剰検
出をさらに減らすと同時に、候補の入れ替えを行った場
合でも十分な確信度ならばマーキングしないことが良い
と考えられるが未検出(見逃し)とのトレード・オフであ
りより多くの実験が必要と考えている。また候補パスの
選び方も現在は最良値から一定以内のコストをもつもの
という基準で選んでいるが、上位一定個数をとるという
ことも考えられる。これについては探索手法と関連付け
て検討が必要であろう。今後は上記の課題他文書の対象
分野を広げると同時に、後処理の有無によりオペレータ
の作業時間と最終的な入力精度がどのように変化するか
を実験的に明らかにして行きたい。

【００２９】

【発明の効果】本発明によれば、十分な精度、および速
度で実行できる後処理機能が実現できる。

【図面の簡単な説明】

【図１】認識結果のあいまい性を説明する図である。

【図２】複数パスの探索とあいまい性の評価を説明する
図である。

【図３】後処理前の認識率と後処理後の認識率および誤
認識文字の検出率を示す図である。

Claims

【特許請求の範囲】

【請求項１】ＯＣＲ入力された日本語文の後処理方法で
あって、 (ａ)認識結果と日本語の制約とに基づいて、文法的に成
立するパスを探索し、 (ｂ)可能なパスの各々に付随するコストを計算し、 (ｃ)コストに基づいて、複数個の候補パスを選択し、 (ｄ)各カラムの文字候補について、自分自身を通る候補
パスに付随するコストと他の文字候補を通る候補パスに
付随するコストとから、当該候補の確信度を計算するステップを含む方法。【０００１】