JP2008225695A

JP2008225695A - 文字認識誤り修正装置およびプログラム

Info

Publication number: JP2008225695A
Application number: JP2007060912A
Authority: JP
Inventors: Kazunari Hashimoto; 一成橋本
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2007-03-09
Filing date: 2007-03-09
Publication date: 2008-09-25

Abstract

【課題】光学文字認識後の文書データに対して高精度の誤り修正を施すことによって、後の手作業による修正を不要または著しく軽減する。
【解決手段】本発明に係るＯＣＲ誤り修正は、光学文字認識された文書データを解析して用語を抽出し、この抽出された用語から前記文書データの属するカテゴリを推定し、この推定されたカテゴリに係る辞書を優先的に用いて、文書データ中の誤り用語を修正する。このようにして、誤り修正をその文書のカテゴリに応じた辞書を用いて行うことによって、誤り修正の精度が格段に高まる。
【選択図】図２

Description

本発明は、文字認識装置に関し、特に光学式文字認識（ＯＣＲ）における読み取りの誤りを修正する文字認識誤り修正装置およびプログラムに関するものである。

紙面上に印字された文書を、スキャナなどの光学読み取り装置によってコンピュータ上に画像データとして読み取り、これを更に画像解析して文字コードに変換して電子化する光学文字認識の技術が普及している。この光学文字認識の技術は、近年、スキャナの読み取り解像度の向上や画像解析技術の発達によって、比較的読み取りが難しい日本語の解析においても高い認識精度を得られるまでになっている。

一方で、その精度は元の文書の品質如何であり、元の文書がファクシミリ送信文書であったり、多様なフォントを用いていたり、紙面の汚れや印字の擦れがある場合には、著しく認識精度が落ちるので、変換後の文字列について、更に形態素解析技術などを用いた自動修正や手作業による修正が必要になっている。形態素解析の技術レベルの発達によって、自動修正による修正精度は向上しているものの、依然として誤りは多く、後の手作業による修正に多大な労力を要するというのが現状である。

特許文献１には、このような形態素解析後の修正を効率的にするための一技術が開示されている。本文献に示された技術は、形態素解析によって解析ができなかった文字に対し、その位置を特定し、その前後の単語との関係から文法的あるいは意味的に推測される訂正単語の候補を辞書より抽出し、これらを解析できなかった文字と共に画面上に表示するものである。

また特許文献２には、形態素解析によって正しく認識されなかった文字を手作業で修正する場合の作業効率を改善するための技術が開示されている。本文献に示された技術は、誤認識文字の修正画面において、すべての文書を表示するのではなく、単語マッチングなどの論理チェックを通過できなかった文字列およびその文書中の位置、並びに修正候補のみを表示するようにして、修正作業の効率化を図ろうとするものである。

特開平５−２３３６１９号公報特開平７−２９６１０２号公報

しかしながら、特許文献１に記載の方法によれば、解析不能な文字を推測するのに、その前後との文法的あるいは意味的な繋がりを基礎としているため、前後の単語との間にこれらの繋がりを持たない用語を推測することができないという問題がある。特に、ＯＣＲによる認識の誤り頻度が高い例として、漢字を多用した文書やアルファベットやカタカナが混在するような文書が多く、このような文書では前後の単語との文法的あるいは意味的な繋がりから解析不能文字を推測できる場合は必ずしも多くないことが予想される。従って、このような方法による誤り修正では、認識誤りの修正効率を改善することは困難である。

また、特許文献２に記載の方法によれば、確かに作業者の視覚上の負担は減るけれども、画面上に表示される修正候補は、単に単語マッチングなどの論理チェックのみを基準として選択されており、この方法によって的確な修正候補を抽出するように構成することは困難であると思われる。

本発明は前記問題点に鑑みてなされたものであり、光学文字認識後の文書データに対して高精度の誤り修正を施すことによって、後の手作業による修正を不要または著しく軽減することを目的としている。

本発明に係る文字認識誤り修正装置は、文字認識された文書データを解析して用語を抽出する文書解析手段と、前記抽出された用語から前記文書データの属するカテゴリを推定するカテゴリ分類手段と、前記推定されたカテゴリに係る辞書を優先的に用いて、文書データ中の誤り用語を修正する用語修正手段とを備える。文字認識は、好ましくは光学式文字認識装置、例えばＯＣＲにより行われる。

好ましくは、前記カテゴリ分類手段は、前記抽出された用語から該文書データの各カテゴリに対する特徴ベクトルを抽出し、該特徴ベクトルに基づいて１または複数の優先されるカテゴリを決定する。

好ましくは、前記カテゴリ分類手段が、各カテゴリに対応する複数のカテゴリ分類器であって、該各カテゴリ分類器が、そのカテゴリに属する用語から前記文書データのカテゴリに対する特徴ベクトルをそれぞれ抽出するものを備え、前記カテゴリ分類手段は、前記各カテゴリ分類器で抽出された特徴ベクトルの中から特徴ベクトルの指向性が高い１または複数のカテゴリを、優先されるカテゴリとして決定する。

好ましくは、前記カテゴリ分類手段が、文書データの前記特徴ベクトルの統計を蓄積してなる文書ベクトルデータを備え、該文書ベクトルデータに基づいて、文字認識された文書データから各カテゴリ毎の特徴ベクトルを抽出する。

好ましくは、前記用語修正手段は、各カテゴリ毎に、文字認識における読み取りの誤り類例を蓄積した変換辞書を備え、該変換辞書に基づいて文書データ中の誤り用語を修正する。

好ましくは、前記変換辞書は、各カテゴリ毎に、そのカテゴリに属するテキスト文字列からなる用語と、該用語を画像変形し文字認識することによって得られる結果との不一致から作成される、用語ノイズ辞書を備える。

好ましくは、前記変換辞書は、前記用語ノイズ辞書に登録された用語にその前後に出現する頻度が高い用語を加えた文字列と、該文字列を画像変形し文字認識することによって得られる結果との不一致から作成される、用語誤り辞書を備える。

本発明に係る文字認識誤り修正プログラムは、文字認識された文書データを解析して用語を抽出するステップと、前記抽出された用語から前記文書データの属するカテゴリを推定するステップと、前記推定されたカテゴリに係る辞書を優先的に用いて、文書データ中の誤り用語を修正するステップと、を備える。

本発明に係る文字認識装置は、画像読み取りされた文書データを文字認識する文字認識手段と、前記文字認識された文書データを解析して用語を抽出する文書解析手段と、前記抽出された用語から前記文書データの属するカテゴリを推定するカテゴリ分類手段と、前記推定されたカテゴリに係る辞書を優先的に用いて、文書データ中の誤り用語を修正する用語修正手段とを備える。

本発明に係る文字認識プログラムは、画像読み取りされた文書データを光学文字認識するステップと、前記文字認識された文書データを解析して用語を抽出するステップと、前記抽出された用語から前記文書データの属するカテゴリを推定するステップと、前記推定されたカテゴリに係る辞書を優先的に用いて、文書中の誤り用語を修正するステップとを備える。

本発明に係る文字認識誤り修正において、文字認識された文書データは、その誤り修正に先立って該文書の属するカテゴリが推定される。次いで、その推定されたカテゴリに係る辞書を優先的に用いて、文書中の誤り用語の修正が行われることとなる。このようにして、誤り修正をその文書のカテゴリに応じた辞書を用いて行うことによって、誤り修正の精度が格段に高まる。

また、好適な実施形態においてこの誤り修正は、各カテゴリ毎に、光学文字認識における読み取りの誤り類例を蓄積した変換辞書に基づいて行われるため、修正対象となっている文書における誤りの再現性が高く、従って、その修正精度は高いものとなる。

以下、本発明を実施するための最良の形態について図面を参照して説明する。ここでは、光学式文字認識装置（ＯＣＲ）を例に用いる。

本実施形態に係るＯＣＲ誤り修正装置は、パーソナルコンピュータなどの情報処理装置およびこの上で実行されるソフトウェアプログラムによって実現される。すなわち本実施形態に関連して情報処理装置は、図１に示すように、ハードウェアおよびソフトウェアプログラムにより実現されるスキャナ装置１０、並びにソフトウェアプログラムによって実現されるＯＣＲ装置１２およびＯＣＲ誤り修正装置１４を備えており、これらを統合することによって、情報処理装置上に光学文字認識システムが実現される。スキャナ装置１０は、紙面上に任意の文書を印字した紙文書Ｄ１を光学的に読み取って、その紙面を構成する画像データＤ２を形成する。ＯＣＲ装置１２は、この画像データＤ２に対して画像解析を施して文字コードを得、これに基づいてＯＣＲ文書データＤ３を出力する。ＯＣＲ文書データＤ３は、本実施形態に係るＯＣＲ誤り修正装置１４に入力され、後述するように形態素および専門用語解析、カテゴリ推定、および誤り修正を施されて、修正文書データＤ４として出力される。この修正文書データＤ４には、必要に応じて手作業による修正が加えられ、最終的な文書データが完成される。

なお、本書において用いられる「文書」の語は、書類または書類データ上の全文書を指す他、その一部の「文」を含む意味で用いられる。従って、本発明における誤り修正の対象は、それが書類上の全文書であるのか、あるいは一部であるのかを問わない。

図２は、本実施形態に係るＯＣＲ誤り修正装置の機能ブロック図である。ＯＣＲ誤り修正装置は、前述のように、ＯＣＲ文書データに対して誤り修正処理を施して、その変換精度を改善するためのものであり、本図に示すように、その構成機能として、形態素解析器２０、カテゴリ分類器２２および用語修正器２４を備えている。形態素解析器２０は、ノイズ、すなわち文字コードの誤りを含む可能性のあるＯＣＲ文書データを入力データとして、これに対して形態素解析および専門用語解析を施して、入力文書データを形態素ないしは専門用語の単位（本書ではこれらを総称して「用語」と呼ぶ）に分断する。なお、専門用語解析は、形態素解析による用語抽出の精度を上げるものであり、複合名詞として構成されることが多い専門用語を的確に抽出できるようにする。すなわち、形態素解析においては、複合名詞で構成される専門用語が単名詞に分断されることがあり、このような例を検出してこれらを結合し、１つの専門用語として出力する。本発明の実施に際して、この形態素解析および専門用語解析の解析エンジンとして各種既存の解析エンジン（たとえば、Rosette形態素解析システムや形態素解析ツールChaSenなど）を利用することができる。

カテゴリ分類器２２は、前記形態素解析器２０によって解析された用語群から、誤り修正の対象となっているＯＣＲ文書データの属するカテゴリを推定するものである。一般的に文書データにはその属するカテゴリが存在しており、カテゴリ分類器２２は、文書ベクトルデータ２６として蓄積されたカテゴリ情報に基づいて、対象文書のカテゴリを推定する。ここでカテゴリとは、その文書の属する分野や分類のことであり、図書分類に準ずるものであってよいが、本発明の実現に際しては、必ずしも厳密な意味での分類分けが必要とはされない。後述するカテゴリ分類器２２の作成に際して作成者の恣意的な分類に基づいて、そのカテゴリを生成し、これに従って文書データをカテゴリ分けするようにしてもよい。

カテゴリ分類器２２は、文書の特定のカテゴリに対する特徴ベクトルに基づいて、その適する１または複数のカテゴリを推定する。実施形態において、カテゴリ分類器２２は、複数のカテゴリ毎の分類器を備えており、各カテゴリ分類器によって算出される対象文書の特徴ベクトルの指向性の高さから、そのカテゴリを決定する。カテゴリ分類器２２および文書ベクトルデータ２６は、多数のサンプル文書データを解析して作成されるもので、その具体的な構成およびその作成方法については後に詳述する。

用語修正器２４は、複数のカテゴリ毎に用意された変換辞書２８を用いて、文書データ中の誤り用語を修正するものである。この場合に、用語修正器２４は、前記カテゴリ分類器２２によって推定された１または複数のカテゴリに係る辞書を優先的に用いる。すなわち、用語修正器２４は、カテゴリ分類器２２による特徴ベクトルの指向性の最も高いものに係る変換辞書で、最初に用語修正を行い、次いで順次指向性の低い辞書での変換を行い、最後に一般辞書、すなわち特定のカテゴリに属さない用語を集めた辞書、を用いて修正を行う。変換辞書２８は、後述する用語ノイズ辞書と誤りパターン辞書とを統合してなるものである。用語修正器２４で使用されるこれらの辞書の詳細およびその作成方法については後述する。

図３は、本発明に係るＯＣＲ誤り修正装置を含む、光学文字認識システムを実現するための情報処理装置のハードウェア構成例を示す図である。本実施形態に係る情報処理装置は、キーボードやマウスなどの操作により情報を入力する入力部３０、ディスプレイに文字、図形などの情報を表示する表示部３２、文書や画像などの原稿を読み取る読取部３４、電子文書などを紙などの媒体に印刷する印刷部３６、スキャナ４０などの外部機器やネットワークとの接続を可能にするインタフェース３８、ROMまたはRAMを含みアプリケーションプログラムその他の起動プログラムを記憶する主記憶部４２、ハードディスクなどの大容量記憶装置を含み、文書データなどのファイル、本実施形態に係る各種辞書や各種プログラムを蓄積する記憶部４４、主記憶部４２に記憶されたプログラムに従い各部を制御する中央演算処理装置(CPU)４６、およびこれらを接続するためのバス４８を含んでいる。記憶部４４には、予め本実施形態に係る画像読み取り、ＯＣＲおよび誤り修正のための各種ソフトウェア並びにドライバプログラムがインストールされており、これらは使用者の起動命令を受けて主記憶部４２上に読み出され、それらの機能が利用可能になる。

次に、カテゴリ分類器２２の作成方法について説明する。図4は、カテゴリ分類器の作成手順を示すフローチャートである。カテゴリ分類器２２は、カテゴリラベル付き電子文書、すなわちあらかじめカテゴリの分かっている多数の電子文書をサンプルデータとして利用し、これらから各カテゴリに対する特徴ベクトルを抽出した文書ベクトルデータに基づいて作成される。カテゴリ分類器２２の作成は、情報処理装置上で実行されるソフトウェアプログラムによって行われ、その結果としての文書ベクトルデータ並びにカテゴリ分類器２２は、情報処理装置における前記記憶部４４に格納される。

図4に示すフローチャートに従ってカテゴリ分類器２２の作成手順を説明すると、まず、あらかじめ記憶部４４内に用意された多数のカテゴリラベル付き電子文書が、この作成プログラムの起動によって主記憶部４２内に読み込まれる（ステップＳ４００）。次いで、各電子文書についてその形態素解析および専門用語抽出が行われる（ステップＳ４０２。すなわち、対象の文書に対して、形態素単位での文字分割が行われ、次いで専門用語抽出によって、その分割された単語およびそれを結合した複合名詞を対象として、専門用語の候補語が抽出される。必要に応じてこの候補語の専門用語としての重要度を算出し、これらに順位付けをすることもできる。形態素解析および専門用語抽出によって得られた単名詞および複合名詞は、カテゴリラベルで特定されるカテゴリに属する用語として用語統計リスト５０に登録され、蓄積される（ステップＳ４０４）。

図５は、用語統計リスト５０を概念的に示した図である。図では、「政治」、「経済」、「社会」、「スポーツ」などのカテゴリラベルの付いた多数の電子文書に対して用語解析を行った結果が示されている。この例では、「政治」のカテゴリラベルを備えた電子文書のうち、「今年」の用語を持つものが８０件、「Ｗ杯」の用語を持つものが４０件、「経済普及」の用語を持つものが１００件あり、「経済」のカテゴリラベルを備えた電子文書では、それらの用語がそれぞれ、７９件、２０件、１５０件、あったことが示されている。用語統計リスト５０は、後に説明するカテゴリ毎の用語辞書を作成するためにも用いられるが、この場合、基本的には、用語の特定のカテゴリに対する出現頻度が高いものを、そのカテゴリの専門用語として認識し、対象のカテゴリの用語辞典にその用語を登録する。

次に、図４に戻り、この作成した用語統計リスト５０を参照して、対象の電子文書の特徴ベクトルデータを作成する（ステップＳ４０６）。文書の特徴ベクトルの抽出は、そのカテゴリにおける各用語の重み評価であり、その一方法として、TF-IDF法による用語の重み評価を採用することができる。すなわち、N次元特徴ベクトルを抽出する場合、（１）用語統計リスト５０に登録された用語のうち出現頻度の高いものN個（基本辞書に登録しているものを除く）を用語のTF(Term Frequency)値により算出し、また（２）各カテゴリにおける出現頻度の高い用語についての重みを、それらのTF・IDF(Inverse Document Frequency)値により算出し、これを対象文書の特徴ベクトルのデータとして用いることができる。ここでTFは、リストｄにおける単語ｔの頻度tf(t、d)で表記され、IDFは、リスト内の各カテゴリにおける文書の数Nと、単語ｔが現れる文書数df(t)によって式１のように定義される。

前記TFおよびIDFを組み合わせることによって、単語ｔの文書ｄにおける重みw(t、d)が求められる。

このようにして、多数のカテゴリラベル付き電子文書についての特徴ベクトルの抽出がなされ、これらは文書ベクトルデータ５２として登録され、記憶部４４内に保持される（ステップＳ４０８）。

次に、このようにして作成された文書ベクトルデータ５２は、各種カテゴリに分けられ、これに基づいてカテゴリ分類器２２を構成する個別カテゴリ分類器２２ａが生成され（ステップＳ４１０）、これらの個別カテゴリ分類器２２ａを統合することによって最終的なカテゴリ分類器２２が作成される（ステップＳ４１２）。図６は、文書ベクトルデータ５２、個別カテゴリ分類器２２ａおよびカテゴリ分類器２２の関係を概念的に示した図である。図に示されるように、カテゴリ分類器２２は、各種のカテゴリを基準に構成される個別カテゴリ分類器２２ａによって構成されている。各個別カテゴリ分類器２２ａは、文書ベクトルデータ５２のベクトルデータを、各カテゴリ分けして抽出したものであり、各個別カテゴリ分類器２２ａ内には、それぞれ、その正例として対象のカテゴリ（政治カテゴリ分類器における「政治」）のベクトルデータと、負例としてその他のカテゴリ（政治カテゴリ分類器における「経済」、「スポーツ」その他）のベクトルデータが抽出されている。カテゴリ分類器２２による文書データのカテゴリ分けについては、後述するが、概略的には、対象文書データに対して、各個別カテゴリ分類器２２ａによる特徴ベクトルの抽出を行い、それらのベクトル値を比較して、その数値が高い１または複数のカテゴリを優先カテゴリとして決定する。これらのカテゴリ分類器の作成に際しては、サポートベクターマシン（Support Vector Machine:SVM）やニューラルネットワーク（Neural Network）によるシミュレーションモデルによって、これを実現することができる。

次に、用語修正器２４による誤り修正の際に参照される変換辞書２８の作成方法について説明する。本実施形態において変換辞書２８は、用語ノイズ辞書に対して誤りパターンを追加してなる誤りパターン辞書によって実現される。以下では、用語ノイズ辞書の作成、および誤りパターン辞書の作成を、順を追って説明する。

図７は、用語辞書の作成手順を示すフローチャートである。用語辞書７０は、カテゴリラベル付き電子文書に基づいて作成された用語統計リスト５０から作成される、各種カテゴリ毎の用語を登録した辞書であり、用語ノイズ辞書の作成のための用語リストを提供する。多数のサンプル電子文書を処理して用語統計リスト５０に必要十分な量のサンプルが取得されると、本用語辞書の作成のためのプログラムが起動され、該用語統計リスト５０が主記憶上に読み出される（ステップＳ７００）。リスト中の各用語につき、カテゴリ毎のその出現文書数がカウントされる（ステップＳ７０２）。そして、所定の登録条件式に基づいて、リスト中の各用語は、何れかのカテゴリに振り分けられ（ステップＳ７０４）、その対象カテゴリの用語辞書７０上に登録される（ステップＳ７０６）。ここで、所定の登録条件式は、その用語の属するカテゴリにおける専門用語あるいはそのカテゴリで頻繁に用いられる特徴的な用語を、対象のカテゴリの用語辞書に登録するようにする。この登録条件式としては、例えば、（１）対象用語の全カテゴリでの平均的出現頻度に対する、登録対象となっているカテゴリでの出現頻度の比が、所定の閾値を超え、かつ（２）対象カテゴリにおける出現頻度の高い用語上位N個、といった値を設定することができる。

次に、前記用語辞書に登録された用語から、カテゴリ毎の用語ノイズ辞書を作成する手順について説明する。図８は、用語ノイズ辞書の作成手順を示すフローチャートである。用語ノイズ辞書の作成手順は、各カテゴリ毎に、その用語辞書７０から順次用語を読み出すことによって開始される（ステップＳ８００）。次に、読み出された用語に対して、多数の文字フォントによる画像データが形成される（ステップＳ８０２）。好適には、使用している情報処理装置が備える利用可能な全ての文字フォントにつき、その種類の数だけ画像データを形成する。そして、この全ての画像データに対して、各種の画像変形処理を施す（ステップＳ８０４）。例えば、この画像変形処理としては、文字を太らせ（または細らせ）、膨張・収縮、傾き、濃厚、背景の重畳（グラフィック合成などによる）、拡大・縮小（縦横の独立変倍または連動変倍による）、およびこれらの組み合わせによる処理を施す。この場合に、これらの処理を文字の全体だけでなく、部分に施したものを含んでも良いし、更に回転や斜体文字に変形する処理を加えても良い。すなわち、人間が元の文字を認識できる程度で、これらに変形を加える各種の方法がここでは利用できる。

このようにして各用語に対して形成された多数の変形画像データを、次に、ＯＣＲ処理に掛け、対応の文字コードを得る(ステップＳ８０６）。そして、これらのＯＣＲ結果による文字コードと、元の用語の文字コードを比較する（ステップＳ８０８）。ここで、比較の結果、元の用語と一致しないＯＣＲ結果は、その文字の変形によりＯＣＲが読み取りミスを犯したものである。従って、これらを元の用語との対応付けを取りながら、ノイズとして用語ノイズ辞書８０に登録する（ステップＳ８１０）。前記一連の処理を、用語辞書７０内の全ての用語に対して行うことにより、相当数の用語ノイズが辞書内に蓄積されることとなる。

図９は、前記手続きにおける誤変換の一例を示している。用語辞書７０から抽出されたテキスト文字列からなる「Ｗ杯」の文字９０は、ここでは「ＨＧＰ創英角ポップ体」文字フォント９２で画像化され、画像変形処理としての拡大処理９４を施され、次いで、ＯＣＲ処理によって「ＶＶネネ」の文字９６の文字コードとして認識される。この結果、用語ノイズ辞書８０には、「Ｗ杯」の文字に対応して、そのノイズ例として「ＶＶネネ」が登録されることとなる。

次に、誤りパターン辞書を作成する手順について説明する。誤りパターン辞書は、前記用語ノイズ辞書８０上の用語に対して誤りパターンを追加してなるものである。図１０は、誤りパターン辞書の作成手順を示すフローチャートである。処理の最初で、先に作成された用語ノイズ辞書８０から、順次誤りパターンを作成する用語およびそのノイズ（誤り語）が抽出される（ステップＳ１０００）。次いで、カテゴリラベル付き電子文書から、この対象用語が、その前後の用語を含んだかたちで検索され、そのうちの出現頻度の高いものが結合用語として抽出される（ステップＳ１００２）。

次に、この結合用語に対して、図８の用語ノイズ辞書の作成手順と同じ手順を経て、用語ノイズが作成され、元の結合用語と対比され、それらの不一致に基づく誤り用語が抽出される（ステップＳ１００４）。この誤り用語は、次のステップで、用語ノイズ辞書の元の用語および用語ノイズと比較され、そこから一定の誤りパターンが抽出される（ステップＳ１００６）。このようにして抽出された誤りパターンは、用語ノイズ辞書８０の該当用語と関連づけて新たに保存され、これによって誤りパターン辞書１００が生成される（ステップＳ１００８）。これらの手順を用語ノイズ辞書８０中の各用語に対して施行することによって、誤りパターン辞書１００が完成する。

図１１は、前記手続きにおける誤りパターンの抽出例を示している。用語ノイズ辞書８０上の用語「Ｗ杯」の文字１１０に対して、出現頻度の高いその結合用語として、カテゴリラベル付き電子文書から「Ｗ杯出場」の文字列１１２が抽出される。用語ノイズ辞書の作成と同様の処理により、この文字列に対して変形処理を施し、これをＯＣＲ処理し、更に元の文字列１１２との一致判定を行うことで、「Ｗ木柮場」の誤り文字列１１４を得る。この誤り文字列１１４は、次に、用語ノイズ辞書８０中の元の用語およびその用語ノイズと対比され、そこから「Ｗ木柮 =>Ｗ杯＋"出"」という一定の誤りパターン１１６が得られる。この誤りパターン１１６は、元の用語およびその用語ノイズと関連づけられ、誤りパターン辞書１００内に登録される。

次に、以上のようにして構成される本実施形態に係るＯＣＲ誤り修正装置の具体的な動作について説明する。説明に際して、図２および図１２を参照する。図１２は、ＯＣＲ誤り修正装置１４の動作手順を示すフローチャートである。これら図において、ＯＣＲ誤り装置１４に、ＯＣＲによる変換の誤りを含む文書データが入力されると、まず、形態素解析器２０によって、その文書の形態素解析および専門用語抽出がなされる（ステップＳ１２００）。次いで、図２におけるカテゴリ分類器２２に、形態素解析および専門用語抽出によって抽出された文書中の用語が渡され、これらに基づいて、その文書の特徴ベクトルが抽出される（ステップＳ１２０２）。対象文書の特徴ベクトルは、カテゴリ分類器２２内に形成された各個別カテゴリ分類器２２ａにおいて計算される。次に、各個別カテゴリ分類器２２ａにおいて算出された特徴ベクトルに従って、１または複数の優先カテゴリが選定される（ステップＳ１２０４）。

処理は、次に図２の用語修正器２４に渡され、ここでは、まず優先カテゴリの用語辞書７０および誤りパターン辞書１００を用いて、文書内の用語の誤り修正が行われる。すなわち、優先カテゴリの用語辞書７０から、文書中で使用され先の解析で抽出された用語群が検索される（ステップＳ１２０６）。この検索にヒットする用語は、この用語辞書７０に登録された専門用語として、正しくＯＣＲ変換されている用語と判断され、それらは修正の対象外の用語として確定される。次に、優先カテゴリの誤りパターン辞書１００内の誤り用語並びに誤りパターンが検索され、文書データ中に対応用語が存在する場合、これを本来の正しい用語に修正する（ステップＳ１２０８）。

次に、カテゴリ分類器２２で選定された他のカテゴリがあるかが判断され（ステップＳ１２１０）、他のカテゴリが選定されている場合には、このカテゴリについての用語辞書７０および誤りパターン辞書１００が読み出され、このカテゴリにつきステップＳ１２０６〜Ｓ１２０８を実施する。全ての優先カテゴリについての修正処理が完了すると、処理はステップＳ１２１２に進み、ここで、基本用語についての用語辞書７０および誤りパターン辞書１００による修正が施される。以上の処理を経て、対象のＯＣＲ文書データ上の誤りは修正される。本発明に係る誤り修正装置においては、誤り修正に先立って、その文書のカテゴリを決定することにより、その文書に適した誤り辞書が優先的に使用される。このことは、誤り修正の精度を改善し、修正処理後における手作業を大幅に軽減するのに極めて有効である。

次に、図１３および図１４に従って、前記カテゴリ分類器によるカテゴリの選定、および用語修正器による誤り修正の一例を具体的に説明する。図１３は、カテゴリ分類器における動作を説明するための概念図である。図１３には、ＯＣＲ処理した文書データの一例が、ＯＣＲノイズ文書１３０として示されている。ＯＣＲノイズ文書１３０は、ここに示しているように、「スポーツ」あるいは「医療」カテゴリに属する文書で、その一部にはＯＣＲ処理における変換ミスが見られる。符号１３２は、この文書に対する特徴ベクトルを概念的に示している。この特徴ベクトルをカテゴリ分類器２２に掛けることによって、各個別カテゴリ分類器２２ａ毎の属性値を表す数値群１３４が得られる。このうち属性値の高い２つのカテゴリを抽出することによって、「スポーツ」および「医療」のカテゴリが優先カテゴリと選定される。

図１４には、用語修正器２４における誤り修正の変遷が示されている。文書１４０は、ＯＣＲ処理後の文書データであり、ここにはいくつかの変換上の誤りが含まれて状態が見て取れる。文書１４２では、第１優先カテゴリである「スポーツ」についての用語辞書での用語検索が行われ、これにヒットした用語（図中の下線部分）がその専門用語として確定されている状態が示されている。文書１４４では、「スポーツ」カテゴリについての誤りパターン辞書が検索され、これにヒットした用語が、正しい専門用語（図中の下線部分）に修正されている様子が示されている。文書１４６では、第２優先カテゴリである「医療」についての用語辞書での用語検索が行われ、これにヒットした用語（図中の下線部分）がその専門用語として確定されている。文書１４８では、「医療」カテゴリについての誤りパターン辞書が検索され、これにヒットした用語が、正しい専門用語（図中の下線部分）に修正されている。文書１５０では、基本辞書による誤り修正処理を施した後の状態が示されており（この例では基本辞書での修正はない）、これが最終的な修正後の出力文書となる。

以上、本発明をその一実施例に従って詳細に説明したが、前記実施例は例示的なものであり、これによって本発明の範囲が限定的に解釈されるべきものではなく、本発明の構成要件を満足する範囲内で他の方法によっても実現可能であることは言うまでもない。本発明におけるカテゴリ分類器や用語修正器の具体的な構成について、他の特徴抽出手段やカテゴリ分類方法、あるいは各修正辞書の形式やその修正手順を、当業者であれば容易に想定できるであろう。

本発明は、ＯＣＲ処理後における変換の誤り修正を自動的に行う誤り修正装置において利用される。

本発明の一実施形態に係るＯＣＲ誤り修正装置を含む光学文字認識システムの構成図である。本実施形態に係るＯＣＲ誤り修正装置の機能ブロック図である。本発明に係るＯＣＲ誤り修正装置を含む、光学文字認識システムを実現するための情報処理装置のハードウェア構成例を示す図である。カテゴリ分類器の作成手順を示すフローチャートである。用語統計リストを概念的に示した図である。文書ベクトルデータ、個別カテゴリ分類器およびカテゴリ分類器の関係を概念的に示した図である。用語辞書の作成手順を示すフローチャートである。用語ノイズ辞書の作成手順を示すフローチャートである。用語ノイズ辞書の作成手続きにおける誤変換の一例を示す図である。誤りパターン辞書の作成手順を示すフローチャートである。誤りパターン辞書の作成手続きにおける誤りパターンの抽出例を示す図である。ＯＣＲ誤り修正装置の動作手順を示すフローチャートである。カテゴリ分類器における動作を説明するための概念図である。用語修正器における誤り修正の変遷を示す図である。

符号の説明

１０：スキャナ装置
１２：ＯＣＲ装置
１４：誤り修正装置
２０：形態素解析器
２２：カテゴリ分類器
２４：用語修正器
２６：文書ベクトルデータ
２８：変換辞書
３０：入力部
３２：表示部
３４：読取部
３６：印刷部
３８：インタフェース
４０：スキャナ
４２：主記憶部
４４：記憶部
４８：バス
５０：用語統計リスト
５２：文書ベクトルデータ
７０：用語辞書
８０：用語ノイズ辞書
１００：誤りパターン辞書

Claims

文字認識された文書データを解析して用語を抽出する文書解析手段と、
前記抽出された用語から前記文書データの属するカテゴリを推定するカテゴリ分類手段と、
前記推定されたカテゴリに係る辞書を優先的に用いて、文書データ中の誤り用語を修正する用語修正手段と、
を備えた文字認識誤り修正装置。
前記カテゴリ分類手段は、前記抽出された用語から該文書データの各カテゴリに対する特徴ベクトルを抽出し、該特徴ベクトルに基づいて１または複数の優先されるカテゴリを決定する、請求項１に記載の文字認識誤り修正装置。
前記カテゴリ分類手段が、各カテゴリに対応する複数のカテゴリ分類器であって、該各カテゴリ分類器が、そのカテゴリに属する用語から前記文書データのカテゴリに対する特徴ベクトルをそれぞれ抽出するものを備え、
前記カテゴリ分類手段は、前記各カテゴリ分類器で抽出された特徴ベクトルの中から特徴ベクトルの指向性が高い１または複数のカテゴリを、優先されるカテゴリとして決定する、請求項２に記載の文字認識誤り修正装置。
前記カテゴリ分類手段が、文書データの前記特徴ベクトルの統計を蓄積してなる文書ベクトルデータを備え、該文書ベクトルデータに基づいて、文字認識された文書データから各カテゴリ毎の特徴ベクトルを抽出する、請求項３に記載の文字認識誤り修正装置。
前記用語修正手段は、各カテゴリ毎に、文字認識における読み取りの誤り類例を蓄積した変換辞書を備え、該変換辞書に基づいて文書データ中の誤り用語を修正する、請求項１に記載の文字認識誤り修正装置。
前記変換辞書は、各カテゴリ毎に、そのカテゴリに属するテキスト文字列からなる用語と、該用語を画像変形し光学文字認識することによって得られる結果との不一致から作成される、用語ノイズ辞書を備えた、請求項１に記載の文字認識誤り修正装置。
前記変換辞書は、前記用語ノイズ辞書に登録された用語にその前後に出現する頻度が高い用語を加えた文字列と、該文字列を画像変形し光学文字認識することによって得られる結果との不一致から作成される、用語誤り辞書を備えた、請求項６に記載の文字認識誤り修正装置。
文字認識された文書データを解析して用語を抽出するステップと、
前記抽出された用語から前記文書データの属するカテゴリを推定するステップと、
前記推定されたカテゴリに係る辞書を優先的に用いて、文書データ中の誤り用語を修正するステップと、
を備えた文字認識誤り修正プログラム。
画像読み取りされた文書データを文字認識する文字認識手段と、
前記文字認識された文書データを解析して用語を抽出する文書解析手段と、
前記抽出された用語から前記文書データの属するカテゴリを推定するカテゴリ分類手段と、
前記推定されたカテゴリに係る辞書を優先的に用いて、文書データ中の誤り用語を修正する用語修正手段と、
を備えた文字認識装置。
画像読み取りされた文書データを文字認識するステップと、
前記光学文字認識された文書データを解析して用語を抽出するステップと、
前記抽出された用語から前記文書データの属するカテゴリを推定するステップと、
前記推定されたカテゴリに係る辞書を優先的に用いて、文書中の誤り用語を修正するステップと、
を備えた文字認識プログラム。