JP2008225695A - 文字認識誤り修正装置およびプログラム - Google Patents

文字認識誤り修正装置およびプログラム Download PDF

Info

Publication number
JP2008225695A
JP2008225695A JP2007060912A JP2007060912A JP2008225695A JP 2008225695 A JP2008225695 A JP 2008225695A JP 2007060912 A JP2007060912 A JP 2007060912A JP 2007060912 A JP2007060912 A JP 2007060912A JP 2008225695 A JP2008225695 A JP 2008225695A
Authority
JP
Japan
Prior art keywords
category
term
document data
document
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007060912A
Other languages
English (en)
Inventor
Kazunari Hashimoto
一成 橋本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2007060912A priority Critical patent/JP2008225695A/ja
Publication of JP2008225695A publication Critical patent/JP2008225695A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

【課題】 光学文字認識後の文書データに対して高精度の誤り修正を施すことによって、後の手作業による修正を不要または著しく軽減する。
【解決手段】 本発明に係るOCR誤り修正は、光学文字認識された文書データを解析して用語を抽出し、この抽出された用語から前記文書データの属するカテゴリを推定し、この推定されたカテゴリに係る辞書を優先的に用いて、文書データ中の誤り用語を修正する。このようにして、誤り修正をその文書のカテゴリに応じた辞書を用いて行うことによって、誤り修正の精度が格段に高まる。
【選択図】 図2

Description

本発明は、文字認識装置に関し、特に光学式文字認識(OCR)における読み取りの誤りを修正する文字認識誤り修正装置およびプログラムに関するものである。
紙面上に印字された文書を、スキャナなどの光学読み取り装置によってコンピュータ上に画像データとして読み取り、これを更に画像解析して文字コードに変換して電子化する光学文字認識の技術が普及している。この光学文字認識の技術は、近年、スキャナの読み取り解像度の向上や画像解析技術の発達によって、比較的読み取りが難しい日本語の解析においても高い認識精度を得られるまでになっている。
一方で、その精度は元の文書の品質如何であり、元の文書がファクシミリ送信文書であったり、多様なフォントを用いていたり、紙面の汚れや印字の擦れがある場合には、著しく認識精度が落ちるので、変換後の文字列について、更に形態素解析技術などを用いた自動修正や手作業による修正が必要になっている。形態素解析の技術レベルの発達によって、自動修正による修正精度は向上しているものの、依然として誤りは多く、後の手作業による修正に多大な労力を要するというのが現状である。
特許文献1には、このような形態素解析後の修正を効率的にするための一技術が開示されている。本文献に示された技術は、形態素解析によって解析ができなかった文字に対し、その位置を特定し、その前後の単語との関係から文法的あるいは意味的に推測される訂正単語の候補を辞書より抽出し、これらを解析できなかった文字と共に画面上に表示するものである。
また特許文献2には、形態素解析によって正しく認識されなかった文字を手作業で修正する場合の作業効率を改善するための技術が開示されている。本文献に示された技術は、誤認識文字の修正画面において、すべての文書を表示するのではなく、単語マッチングなどの論理チェックを通過できなかった文字列およびその文書中の位置、並びに修正候補のみを表示するようにして、修正作業の効率化を図ろうとするものである。
特開平5−233619号公報 特開平7−296102号公報
しかしながら、特許文献1に記載の方法によれば、解析不能な文字を推測するのに、その前後との文法的あるいは意味的な繋がりを基礎としているため、前後の単語との間にこれらの繋がりを持たない用語を推測することができないという問題がある。特に、OCRによる認識の誤り頻度が高い例として、漢字を多用した文書やアルファベットやカタカナが混在するような文書が多く、このような文書では前後の単語との文法的あるいは意味的な繋がりから解析不能文字を推測できる場合は必ずしも多くないことが予想される。従って、このような方法による誤り修正では、認識誤りの修正効率を改善することは困難である。
また、特許文献2に記載の方法によれば、確かに作業者の視覚上の負担は減るけれども、画面上に表示される修正候補は、単に単語マッチングなどの論理チェックのみを基準として選択されており、この方法によって的確な修正候補を抽出するように構成することは困難であると思われる。
本発明は前記問題点に鑑みてなされたものであり、光学文字認識後の文書データに対して高精度の誤り修正を施すことによって、後の手作業による修正を不要または著しく軽減することを目的としている。
本発明に係る文字認識誤り修正装置は、文字認識された文書データを解析して用語を抽出する文書解析手段と、前記抽出された用語から前記文書データの属するカテゴリを推定するカテゴリ分類手段と、前記推定されたカテゴリに係る辞書を優先的に用いて、文書データ中の誤り用語を修正する用語修正手段とを備える。文字認識は、好ましくは光学式文字認識装置、例えばOCRにより行われる。
好ましくは、前記カテゴリ分類手段は、前記抽出された用語から該文書データの各カテゴリに対する特徴ベクトルを抽出し、該特徴ベクトルに基づいて1または複数の優先されるカテゴリを決定する。
好ましくは、前記カテゴリ分類手段が、各カテゴリに対応する複数のカテゴリ分類器であって、該各カテゴリ分類器が、そのカテゴリに属する用語から前記文書データのカテゴリに対する特徴ベクトルをそれぞれ抽出するものを備え、前記カテゴリ分類手段は、前記各カテゴリ分類器で抽出された特徴ベクトルの中から特徴ベクトルの指向性が高い1または複数のカテゴリを、優先されるカテゴリとして決定する。
好ましくは、前記カテゴリ分類手段が、文書データの前記特徴ベクトルの統計を蓄積してなる文書ベクトルデータを備え、該文書ベクトルデータに基づいて、文字認識された文書データから各カテゴリ毎の特徴ベクトルを抽出する。
好ましくは、前記用語修正手段は、各カテゴリ毎に、文字認識における読み取りの誤り類例を蓄積した変換辞書を備え、該変換辞書に基づいて文書データ中の誤り用語を修正する。
好ましくは、前記変換辞書は、各カテゴリ毎に、そのカテゴリに属するテキスト文字列からなる用語と、該用語を画像変形し文字認識することによって得られる結果との不一致から作成される、用語ノイズ辞書を備える。
好ましくは、前記変換辞書は、前記用語ノイズ辞書に登録された用語にその前後に出現する頻度が高い用語を加えた文字列と、該文字列を画像変形し文字認識することによって得られる結果との不一致から作成される、用語誤り辞書を備える。
本発明に係る文字認識誤り修正プログラムは、文字認識された文書データを解析して用語を抽出するステップと、前記抽出された用語から前記文書データの属するカテゴリを推定するステップと、前記推定されたカテゴリに係る辞書を優先的に用いて、文書データ中の誤り用語を修正するステップと、を備える。
本発明に係る文字認識装置は、画像読み取りされた文書データを文字認識する文字認識手段と、前記文字認識された文書データを解析して用語を抽出する文書解析手段と、前記抽出された用語から前記文書データの属するカテゴリを推定するカテゴリ分類手段と、前記推定されたカテゴリに係る辞書を優先的に用いて、文書データ中の誤り用語を修正する用語修正手段とを備える。
本発明に係る文字認識プログラムは、画像読み取りされた文書データを光学文字認識するステップと、前記文字認識された文書データを解析して用語を抽出するステップと、前記抽出された用語から前記文書データの属するカテゴリを推定するステップと、前記推定されたカテゴリに係る辞書を優先的に用いて、文書中の誤り用語を修正するステップとを備える。
本発明に係る文字認識誤り修正において、文字認識された文書データは、その誤り修正に先立って該文書の属するカテゴリが推定される。次いで、その推定されたカテゴリに係る辞書を優先的に用いて、文書中の誤り用語の修正が行われることとなる。このようにして、誤り修正をその文書のカテゴリに応じた辞書を用いて行うことによって、誤り修正の精度が格段に高まる。
また、好適な実施形態においてこの誤り修正は、各カテゴリ毎に、光学文字認識における読み取りの誤り類例を蓄積した変換辞書に基づいて行われるため、修正対象となっている文書における誤りの再現性が高く、従って、その修正精度は高いものとなる。
以下、本発明を実施するための最良の形態について図面を参照して説明する。ここでは、光学式文字認識装置(OCR)を例に用いる。
本実施形態に係るOCR誤り修正装置は、パーソナルコンピュータなどの情報処理装置およびこの上で実行されるソフトウェアプログラムによって実現される。すなわち本実施形態に関連して情報処理装置は、図1に示すように、ハードウェアおよびソフトウェアプログラムにより実現されるスキャナ装置10、並びにソフトウェアプログラムによって実現されるOCR装置12およびOCR誤り修正装置14を備えており、これらを統合することによって、情報処理装置上に光学文字認識システムが実現される。スキャナ装置10は、紙面上に任意の文書を印字した紙文書D1を光学的に読み取って、その紙面を構成する画像データD2を形成する。OCR装置12は、この画像データD2に対して画像解析を施して文字コードを得、これに基づいてOCR文書データD3を出力する。OCR文書データD3は、本実施形態に係るOCR誤り修正装置14に入力され、後述するように形態素および専門用語解析、カテゴリ推定、および誤り修正を施されて、修正文書データD4として出力される。この修正文書データD4には、必要に応じて手作業による修正が加えられ、最終的な文書データが完成される。
なお、本書において用いられる「文書」の語は、書類または書類データ上の全文書を指す他、その一部の「文」を含む意味で用いられる。従って、本発明における誤り修正の対象は、それが書類上の全文書であるのか、あるいは一部であるのかを問わない。
図2は、本実施形態に係るOCR誤り修正装置の機能ブロック図である。OCR誤り修正装置は、前述のように、OCR文書データに対して誤り修正処理を施して、その変換精度を改善するためのものであり、本図に示すように、その構成機能として、形態素解析器20、カテゴリ分類器22および用語修正器24を備えている。形態素解析器20は、ノイズ、すなわち文字コードの誤りを含む可能性のあるOCR文書データを入力データとして、これに対して形態素解析および専門用語解析を施して、入力文書データを形態素ないしは専門用語の単位(本書ではこれらを総称して「用語」と呼ぶ)に分断する。なお、専門用語解析は、形態素解析による用語抽出の精度を上げるものであり、複合名詞として構成されることが多い専門用語を的確に抽出できるようにする。すなわち、形態素解析においては、複合名詞で構成される専門用語が単名詞に分断されることがあり、このような例を検出してこれらを結合し、1つの専門用語として出力する。本発明の実施に際して、この形態素解析および専門用語解析の解析エンジンとして各種既存の解析エンジン(たとえば、Rosette形態素解析システムや形態素解析ツールChaSenなど)を利用することができる。
カテゴリ分類器22は、前記形態素解析器20によって解析された用語群から、誤り修正の対象となっているOCR文書データの属するカテゴリを推定するものである。一般的に文書データにはその属するカテゴリが存在しており、カテゴリ分類器22は、文書ベクトルデータ26として蓄積されたカテゴリ情報に基づいて、対象文書のカテゴリを推定する。ここでカテゴリとは、その文書の属する分野や分類のことであり、図書分類に準ずるものであってよいが、本発明の実現に際しては、必ずしも厳密な意味での分類分けが必要とはされない。後述するカテゴリ分類器22の作成に際して作成者の恣意的な分類に基づいて、そのカテゴリを生成し、これに従って文書データをカテゴリ分けするようにしてもよい。
カテゴリ分類器22は、文書の特定のカテゴリに対する特徴ベクトルに基づいて、その適する1または複数のカテゴリを推定する。実施形態において、カテゴリ分類器22は、複数のカテゴリ毎の分類器を備えており、各カテゴリ分類器によって算出される対象文書の特徴ベクトルの指向性の高さから、そのカテゴリを決定する。カテゴリ分類器22および文書ベクトルデータ26は、多数のサンプル文書データを解析して作成されるもので、その具体的な構成およびその作成方法については後に詳述する。
用語修正器24は、複数のカテゴリ毎に用意された変換辞書28を用いて、文書データ中の誤り用語を修正するものである。この場合に、用語修正器24は、前記カテゴリ分類器22によって推定された1または複数のカテゴリに係る辞書を優先的に用いる。すなわち、用語修正器24は、カテゴリ分類器22による特徴ベクトルの指向性の最も高いものに係る変換辞書で、最初に用語修正を行い、次いで順次指向性の低い辞書での変換を行い、最後に一般辞書、すなわち特定のカテゴリに属さない用語を集めた辞書、を用いて修正を行う。変換辞書28は、後述する用語ノイズ辞書と誤りパターン辞書とを統合してなるものである。用語修正器24で使用されるこれらの辞書の詳細およびその作成方法については後述する。
図3は、本発明に係るOCR誤り修正装置を含む、光学文字認識システムを実現するための情報処理装置のハードウェア構成例を示す図である。本実施形態に係る情報処理装置は、キーボードやマウスなどの操作により情報を入力する入力部30、ディスプレイに文字、図形などの情報を表示する表示部32、文書や画像などの原稿を読み取る読取部34、電子文書などを紙などの媒体に印刷する印刷部36、スキャナ40などの外部機器やネットワークとの接続を可能にするインタフェース38、ROMまたはRAMを含みアプリケーションプログラムその他の起動プログラムを記憶する主記憶部42、ハードディスクなどの大容量記憶装置を含み、文書データなどのファイル、本実施形態に係る各種辞書や各種プログラムを蓄積する記憶部44、主記憶部42に記憶されたプログラムに従い各部を制御する中央演算処理装置(CPU)46、およびこれらを接続するためのバス48を含んでいる。記憶部44には、予め本実施形態に係る画像読み取り、OCRおよび誤り修正のための各種ソフトウェア並びにドライバプログラムがインストールされており、これらは使用者の起動命令を受けて主記憶部42上に読み出され、それらの機能が利用可能になる。
次に、カテゴリ分類器22の作成方法について説明する。図4は、カテゴリ分類器の作成手順を示すフローチャートである。カテゴリ分類器22は、カテゴリラベル付き電子文書、すなわちあらかじめカテゴリの分かっている多数の電子文書をサンプルデータとして利用し、これらから各カテゴリに対する特徴ベクトルを抽出した文書ベクトルデータに基づいて作成される。カテゴリ分類器22の作成は、情報処理装置上で実行されるソフトウェアプログラムによって行われ、その結果としての文書ベクトルデータ並びにカテゴリ分類器22は、情報処理装置における前記記憶部44に格納される。
図4に示すフローチャートに従ってカテゴリ分類器22の作成手順を説明すると、まず、あらかじめ記憶部44内に用意された多数のカテゴリラベル付き電子文書が、この作成プログラムの起動によって主記憶部42内に読み込まれる(ステップS400)。次いで、各電子文書についてその形態素解析および専門用語抽出が行われる(ステップS402。すなわち、対象の文書に対して、形態素単位での文字分割が行われ、次いで専門用語抽出によって、その分割された単語およびそれを結合した複合名詞を対象として、専門用語の候補語が抽出される。必要に応じてこの候補語の専門用語としての重要度を算出し、これらに順位付けをすることもできる。形態素解析および専門用語抽出によって得られた単名詞および複合名詞は、カテゴリラベルで特定されるカテゴリに属する用語として用語統計リスト50に登録され、蓄積される(ステップS404)。
図5は、用語統計リスト50を概念的に示した図である。図では、「政治」、「経済」、「社会」、「スポーツ」などのカテゴリラベルの付いた多数の電子文書に対して用語解析を行った結果が示されている。この例では、「政治」のカテゴリラベルを備えた電子文書のうち、「今年」の用語を持つものが80件、「W杯」の用語を持つものが40件、「経済普及」の用語を持つものが100件あり、「経済」のカテゴリラベルを備えた電子文書では、それらの用語がそれぞれ、79件、20件、150件、あったことが示されている。用語統計リスト50は、後に説明するカテゴリ毎の用語辞書を作成するためにも用いられるが、この場合、基本的には、用語の特定のカテゴリに対する出現頻度が高いものを、そのカテゴリの専門用語として認識し、対象のカテゴリの用語辞典にその用語を登録する。
次に、図4に戻り、この作成した用語統計リスト50を参照して、対象の電子文書の特徴ベクトルデータを作成する(ステップS406)。文書の特徴ベクトルの抽出は、そのカテゴリにおける各用語の重み評価であり、その一方法として、TF-IDF法による用語の重み評価を採用することができる。すなわち、N次元特徴ベクトルを抽出する場合、(1)用語統計リスト50に登録された用語のうち出現頻度の高いものN個(基本辞書に登録しているものを除く)を用語のTF(Term Frequency)値により算出し、また(2)各カテゴリにおける出現頻度の高い用語についての重みを、それらのTF・IDF(Inverse Document Frequency)値により算出し、これを対象文書の特徴ベクトルのデータとして用いることができる。ここでTFは、リストdにおける単語tの頻度tf(t、d)で表記され、IDFは、リスト内の各カテゴリにおける文書の数Nと、単語tが現れる文書数df(t)によって式1のように定義される。
Figure 2008225695
前記TFおよびIDFを組み合わせることによって、単語tの文書dにおける重みw(t、d)が求められる。
Figure 2008225695
このようにして、多数のカテゴリラベル付き電子文書についての特徴ベクトルの抽出がなされ、これらは文書ベクトルデータ52として登録され、記憶部44内に保持される(ステップS408)。
次に、このようにして作成された文書ベクトルデータ52は、各種カテゴリに分けられ、これに基づいてカテゴリ分類器22を構成する個別カテゴリ分類器22aが生成され(ステップS410)、これらの個別カテゴリ分類器22aを統合することによって最終的なカテゴリ分類器22が作成される(ステップS412)。図6は、文書ベクトルデータ52、個別カテゴリ分類器22aおよびカテゴリ分類器22の関係を概念的に示した図である。図に示されるように、カテゴリ分類器22は、各種のカテゴリを基準に構成される個別カテゴリ分類器22aによって構成されている。各個別カテゴリ分類器22aは、文書ベクトルデータ52のベクトルデータを、各カテゴリ分けして抽出したものであり、各個別カテゴリ分類器22a内には、それぞれ、その正例として対象のカテゴリ(政治カテゴリ分類器における「政治」)のベクトルデータと、負例としてその他のカテゴリ(政治カテゴリ分類器における「経済」、「スポーツ」その他)のベクトルデータが抽出されている。カテゴリ分類器22による文書データのカテゴリ分けについては、後述するが、概略的には、対象文書データに対して、各個別カテゴリ分類器22aによる特徴ベクトルの抽出を行い、それらのベクトル値を比較して、その数値が高い1または複数のカテゴリを優先カテゴリとして決定する。これらのカテゴリ分類器の作成に際しては、サポートベクターマシン(Support Vector Machine:SVM)やニューラルネットワーク(Neural Network)によるシミュレーションモデルによって、これを実現することができる。
次に、用語修正器24による誤り修正の際に参照される変換辞書28の作成方法について説明する。本実施形態において変換辞書28は、用語ノイズ辞書に対して誤りパターンを追加してなる誤りパターン辞書によって実現される。以下では、用語ノイズ辞書の作成、および誤りパターン辞書の作成を、順を追って説明する。
図7は、用語辞書の作成手順を示すフローチャートである。用語辞書70は、カテゴリラベル付き電子文書に基づいて作成された用語統計リスト50から作成される、各種カテゴリ毎の用語を登録した辞書であり、用語ノイズ辞書の作成のための用語リストを提供する。多数のサンプル電子文書を処理して用語統計リスト50に必要十分な量のサンプルが取得されると、本用語辞書の作成のためのプログラムが起動され、該用語統計リスト50が主記憶上に読み出される(ステップS700)。リスト中の各用語につき、カテゴリ毎のその出現文書数がカウントされる(ステップS702)。そして、所定の登録条件式に基づいて、リスト中の各用語は、何れかのカテゴリに振り分けられ(ステップS704)、その対象カテゴリの用語辞書70上に登録される(ステップS706)。ここで、所定の登録条件式は、その用語の属するカテゴリにおける専門用語あるいはそのカテゴリで頻繁に用いられる特徴的な用語を、対象のカテゴリの用語辞書に登録するようにする。この登録条件式としては、例えば、(1)対象用語の全カテゴリでの平均的出現頻度に対する、登録対象となっているカテゴリでの出現頻度の比が、所定の閾値を超え、かつ(2)対象カテゴリにおける出現頻度の高い用語上位N個、といった値を設定することができる。
次に、前記用語辞書に登録された用語から、カテゴリ毎の用語ノイズ辞書を作成する手順について説明する。図8は、用語ノイズ辞書の作成手順を示すフローチャートである。用語ノイズ辞書の作成手順は、各カテゴリ毎に、その用語辞書70から順次用語を読み出すことによって開始される(ステップS800)。次に、読み出された用語に対して、多数の文字フォントによる画像データが形成される(ステップS802)。好適には、使用している情報処理装置が備える利用可能な全ての文字フォントにつき、その種類の数だけ画像データを形成する。そして、この全ての画像データに対して、各種の画像変形処理を施す(ステップS804)。例えば、この画像変形処理としては、文字を太らせ(または細らせ)、膨張・収縮、傾き、濃厚、背景の重畳(グラフィック合成などによる)、拡大・縮小(縦横の独立変倍または連動変倍による)、およびこれらの組み合わせによる処理を施す。この場合に、これらの処理を文字の全体だけでなく、部分に施したものを含んでも良いし、更に回転や斜体文字に変形する処理を加えても良い。すなわち、人間が元の文字を認識できる程度で、これらに変形を加える各種の方法がここでは利用できる。
このようにして各用語に対して形成された多数の変形画像データを、次に、OCR処理に掛け、対応の文字コードを得る(ステップS806)。そして、これらのOCR結果による文字コードと、元の用語の文字コードを比較する(ステップS808)。ここで、比較の結果、元の用語と一致しないOCR結果は、その文字の変形によりOCRが読み取りミスを犯したものである。従って、これらを元の用語との対応付けを取りながら、ノイズとして用語ノイズ辞書80に登録する(ステップS810)。前記一連の処理を、用語辞書70内の全ての用語に対して行うことにより、相当数の用語ノイズが辞書内に蓄積されることとなる。
図9は、前記手続きにおける誤変換の一例を示している。用語辞書70から抽出されたテキスト文字列からなる「W杯」の文字90は、ここでは「HGP創英角ポップ体」文字フォント92で画像化され、画像変形処理としての拡大処理94を施され、次いで、OCR処理によって「VVネネ」の文字96の文字コードとして認識される。この結果、用語ノイズ辞書80には、「W杯」の文字に対応して、そのノイズ例として「VVネネ」が登録されることとなる。
次に、誤りパターン辞書を作成する手順について説明する。誤りパターン辞書は、前記用語ノイズ辞書80上の用語に対して誤りパターンを追加してなるものである。図10は、誤りパターン辞書の作成手順を示すフローチャートである。処理の最初で、先に作成された用語ノイズ辞書80から、順次誤りパターンを作成する用語およびそのノイズ(誤り語)が抽出される(ステップS1000)。次いで、カテゴリラベル付き電子文書から、この対象用語が、その前後の用語を含んだかたちで検索され、そのうちの出現頻度の高いものが結合用語として抽出される(ステップS1002)。
次に、この結合用語に対して、図8の用語ノイズ辞書の作成手順と同じ手順を経て、用語ノイズが作成され、元の結合用語と対比され、それらの不一致に基づく誤り用語が抽出される(ステップS1004)。この誤り用語は、次のステップで、用語ノイズ辞書の元の用語および用語ノイズと比較され、そこから一定の誤りパターンが抽出される(ステップS1006)。このようにして抽出された誤りパターンは、用語ノイズ辞書80の該当用語と関連づけて新たに保存され、これによって誤りパターン辞書100が生成される(ステップS1008)。これらの手順を用語ノイズ辞書80中の各用語に対して施行することによって、誤りパターン辞書100が完成する。
図11は、前記手続きにおける誤りパターンの抽出例を示している。用語ノイズ辞書80上の用語「W杯」の文字110に対して、出現頻度の高いその結合用語として、カテゴリラベル付き電子文書から「W杯出場」の文字列112が抽出される。用語ノイズ辞書の作成と同様の処理により、この文字列に対して変形処理を施し、これをOCR処理し、更に元の文字列112との一致判定を行うことで、「W木柮場」の誤り文字列114を得る。この誤り文字列114は、次に、用語ノイズ辞書80中の元の用語およびその用語ノイズと対比され、そこから「W木柮 =>W杯+"出"」という一定の誤りパターン116が得られる。この誤りパターン116は、元の用語およびその用語ノイズと関連づけられ、誤りパターン辞書100内に登録される。
次に、以上のようにして構成される本実施形態に係るOCR誤り修正装置の具体的な動作について説明する。説明に際して、図2および図12を参照する。図12は、OCR誤り修正装置14の動作手順を示すフローチャートである。これら図において、OCR誤り装置14に、OCRによる変換の誤りを含む文書データが入力されると、まず、形態素解析器20によって、その文書の形態素解析および専門用語抽出がなされる(ステップS1200)。次いで、図2におけるカテゴリ分類器22に、形態素解析および専門用語抽出によって抽出された文書中の用語が渡され、これらに基づいて、その文書の特徴ベクトルが抽出される(ステップS1202)。対象文書の特徴ベクトルは、カテゴリ分類器22内に形成された各個別カテゴリ分類器22aにおいて計算される。次に、各個別カテゴリ分類器22aにおいて算出された特徴ベクトルに従って、1または複数の優先カテゴリが選定される(ステップS1204)。
処理は、次に図2の用語修正器24に渡され、ここでは、まず優先カテゴリの用語辞書70および誤りパターン辞書100を用いて、文書内の用語の誤り修正が行われる。すなわち、優先カテゴリの用語辞書70から、文書中で使用され先の解析で抽出された用語群が検索される(ステップS1206)。この検索にヒットする用語は、この用語辞書70に登録された専門用語として、正しくOCR変換されている用語と判断され、それらは修正の対象外の用語として確定される。次に、優先カテゴリの誤りパターン辞書100内の誤り用語並びに誤りパターンが検索され、文書データ中に対応用語が存在する場合、これを本来の正しい用語に修正する(ステップS1208)。
次に、カテゴリ分類器22で選定された他のカテゴリがあるかが判断され(ステップS1210)、他のカテゴリが選定されている場合には、このカテゴリについての用語辞書70および誤りパターン辞書100が読み出され、このカテゴリにつきステップS1206〜S1208を実施する。全ての優先カテゴリについての修正処理が完了すると、処理はステップS1212に進み、ここで、基本用語についての用語辞書70および誤りパターン辞書100による修正が施される。以上の処理を経て、対象のOCR文書データ上の誤りは修正される。本発明に係る誤り修正装置においては、誤り修正に先立って、その文書のカテゴリを決定することにより、その文書に適した誤り辞書が優先的に使用される。このことは、誤り修正の精度を改善し、修正処理後における手作業を大幅に軽減するのに極めて有効である。
次に、図13および図14に従って、前記カテゴリ分類器によるカテゴリの選定、および用語修正器による誤り修正の一例を具体的に説明する。図13は、カテゴリ分類器における動作を説明するための概念図である。図13には、OCR処理した文書データの一例が、OCRノイズ文書130として示されている。OCRノイズ文書130は、ここに示しているように、「スポーツ」あるいは「医療」カテゴリに属する文書で、その一部にはOCR処理における変換ミスが見られる。符号132は、この文書に対する特徴ベクトルを概念的に示している。この特徴ベクトルをカテゴリ分類器22に掛けることによって、各個別カテゴリ分類器22a毎の属性値を表す数値群134が得られる。このうち属性値の高い2つのカテゴリを抽出することによって、「スポーツ」および「医療」のカテゴリが優先カテゴリと選定される。
図14には、用語修正器24における誤り修正の変遷が示されている。文書140は、OCR処理後の文書データであり、ここにはいくつかの変換上の誤りが含まれて状態が見て取れる。文書142では、第1優先カテゴリである「スポーツ」についての用語辞書での用語検索が行われ、これにヒットした用語(図中の下線部分)がその専門用語として確定されている状態が示されている。文書144では、「スポーツ」カテゴリについての誤りパターン辞書が検索され、これにヒットした用語が、正しい専門用語(図中の下線部分)に修正されている様子が示されている。文書146では、第2優先カテゴリである「医療」についての用語辞書での用語検索が行われ、これにヒットした用語(図中の下線部分)がその専門用語として確定されている。文書148では、「医療」カテゴリについての誤りパターン辞書が検索され、これにヒットした用語が、正しい専門用語(図中の下線部分)に修正されている。文書150では、基本辞書による誤り修正処理を施した後の状態が示されており(この例では基本辞書での修正はない)、これが最終的な修正後の出力文書となる。
以上、本発明をその一実施例に従って詳細に説明したが、前記実施例は例示的なものであり、これによって本発明の範囲が限定的に解釈されるべきものではなく、本発明の構成要件を満足する範囲内で他の方法によっても実現可能であることは言うまでもない。本発明におけるカテゴリ分類器や用語修正器の具体的な構成について、他の特徴抽出手段やカテゴリ分類方法、あるいは各修正辞書の形式やその修正手順を、当業者であれば容易に想定できるであろう。
本発明は、OCR処理後における変換の誤り修正を自動的に行う誤り修正装置において利用される。
本発明の一実施形態に係るOCR誤り修正装置を含む光学文字認識システムの構成図である。 本実施形態に係るOCR誤り修正装置の機能ブロック図である。 本発明に係るOCR誤り修正装置を含む、光学文字認識システムを実現するための情報処理装置のハードウェア構成例を示す図である。 カテゴリ分類器の作成手順を示すフローチャートである。 用語統計リストを概念的に示した図である。 文書ベクトルデータ、個別カテゴリ分類器およびカテゴリ分類器の関係を概念的に示した図である。 用語辞書の作成手順を示すフローチャートである。 用語ノイズ辞書の作成手順を示すフローチャートである。 用語ノイズ辞書の作成手続きにおける誤変換の一例を示す図である。 誤りパターン辞書の作成手順を示すフローチャートである。 誤りパターン辞書の作成手続きにおける誤りパターンの抽出例を示す図である。 OCR誤り修正装置の動作手順を示すフローチャートである。 カテゴリ分類器における動作を説明するための概念図である。 用語修正器における誤り修正の変遷を示す図である。
符号の説明
10:スキャナ装置
12:OCR装置
14:誤り修正装置
20:形態素解析器
22:カテゴリ分類器
24:用語修正器
26:文書ベクトルデータ
28:変換辞書
30:入力部
32:表示部
34:読取部
36:印刷部
38:インタフェース
40:スキャナ
42:主記憶部
44:記憶部
48:バス
50:用語統計リスト
52:文書ベクトルデータ
70:用語辞書
80:用語ノイズ辞書
100:誤りパターン辞書

Claims (10)

  1. 文字認識された文書データを解析して用語を抽出する文書解析手段と、
    前記抽出された用語から前記文書データの属するカテゴリを推定するカテゴリ分類手段と、
    前記推定されたカテゴリに係る辞書を優先的に用いて、文書データ中の誤り用語を修正する用語修正手段と、
    を備えた文字認識誤り修正装置。
  2. 前記カテゴリ分類手段は、前記抽出された用語から該文書データの各カテゴリに対する特徴ベクトルを抽出し、該特徴ベクトルに基づいて1または複数の優先されるカテゴリを決定する、請求項1に記載の文字認識誤り修正装置。
  3. 前記カテゴリ分類手段が、各カテゴリに対応する複数のカテゴリ分類器であって、該各カテゴリ分類器が、そのカテゴリに属する用語から前記文書データのカテゴリに対する特徴ベクトルをそれぞれ抽出するものを備え、
    前記カテゴリ分類手段は、前記各カテゴリ分類器で抽出された特徴ベクトルの中から特徴ベクトルの指向性が高い1または複数のカテゴリを、優先されるカテゴリとして決定する、請求項2に記載の文字認識誤り修正装置。
  4. 前記カテゴリ分類手段が、文書データの前記特徴ベクトルの統計を蓄積してなる文書ベクトルデータを備え、該文書ベクトルデータに基づいて、文字認識された文書データから各カテゴリ毎の特徴ベクトルを抽出する、請求項3に記載の文字認識誤り修正装置。
  5. 前記用語修正手段は、各カテゴリ毎に、文字認識における読み取りの誤り類例を蓄積した変換辞書を備え、該変換辞書に基づいて文書データ中の誤り用語を修正する、請求項1に記載の文字認識誤り修正装置。
  6. 前記変換辞書は、各カテゴリ毎に、そのカテゴリに属するテキスト文字列からなる用語と、該用語を画像変形し光学文字認識することによって得られる結果との不一致から作成される、用語ノイズ辞書を備えた、請求項1に記載の文字認識誤り修正装置。
  7. 前記変換辞書は、前記用語ノイズ辞書に登録された用語にその前後に出現する頻度が高い用語を加えた文字列と、該文字列を画像変形し光学文字認識することによって得られる結果との不一致から作成される、用語誤り辞書を備えた、請求項6に記載の文字認識誤り修正装置。
  8. 文字認識された文書データを解析して用語を抽出するステップと、
    前記抽出された用語から前記文書データの属するカテゴリを推定するステップと、
    前記推定されたカテゴリに係る辞書を優先的に用いて、文書データ中の誤り用語を修正するステップと、
    を備えた文字認識誤り修正プログラム。
  9. 画像読み取りされた文書データを文字認識する文字認識手段と、
    前記文字認識された文書データを解析して用語を抽出する文書解析手段と、
    前記抽出された用語から前記文書データの属するカテゴリを推定するカテゴリ分類手段と、
    前記推定されたカテゴリに係る辞書を優先的に用いて、文書データ中の誤り用語を修正する用語修正手段と、
    を備えた文字認識装置。
  10. 画像読み取りされた文書データを文字認識するステップと、
    前記光学文字認識された文書データを解析して用語を抽出するステップと、
    前記抽出された用語から前記文書データの属するカテゴリを推定するステップと、
    前記推定されたカテゴリに係る辞書を優先的に用いて、文書中の誤り用語を修正するステップと、
    を備えた文字認識プログラム。
JP2007060912A 2007-03-09 2007-03-09 文字認識誤り修正装置およびプログラム Pending JP2008225695A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007060912A JP2008225695A (ja) 2007-03-09 2007-03-09 文字認識誤り修正装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007060912A JP2008225695A (ja) 2007-03-09 2007-03-09 文字認識誤り修正装置およびプログラム

Publications (1)

Publication Number Publication Date
JP2008225695A true JP2008225695A (ja) 2008-09-25

Family

ID=39844262

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007060912A Pending JP2008225695A (ja) 2007-03-09 2007-03-09 文字認識誤り修正装置およびプログラム

Country Status (1)

Country Link
JP (1) JP2008225695A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011107966A (ja) * 2009-11-17 2011-06-02 Hitachi Solutions Ltd 文書処理装置
CN102262614A (zh) * 2010-05-31 2011-11-30 汉王科技股份有限公司 纵向校对方法和装置
CN110222193A (zh) * 2019-05-21 2019-09-10 深圳壹账通智能科技有限公司 扫描文字修正方法、装置、计算机设备和存储介质
JP2020027598A (ja) * 2018-12-27 2020-02-20 株式会社シグマクシス 文字認識装置、文字認識方法及び文字認識プログラム
JP2020102166A (ja) * 2018-12-25 2020-07-02 キヤノン株式会社 画像処理システム、画像処理方法、プログラム、画像処理装置、情報処理装置
CN113837118A (zh) * 2021-09-28 2021-12-24 支付宝(杭州)信息技术有限公司 文本变异关系的获取方法和装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011107966A (ja) * 2009-11-17 2011-06-02 Hitachi Solutions Ltd 文書処理装置
CN102262614A (zh) * 2010-05-31 2011-11-30 汉王科技股份有限公司 纵向校对方法和装置
JP2020102166A (ja) * 2018-12-25 2020-07-02 キヤノン株式会社 画像処理システム、画像処理方法、プログラム、画像処理装置、情報処理装置
JP7277128B2 (ja) 2018-12-25 2023-05-18 キヤノン株式会社 画像処理システム、画像処理方法、プログラム、画像処理装置、情報処理装置
JP2020027598A (ja) * 2018-12-27 2020-02-20 株式会社シグマクシス 文字認識装置、文字認識方法及び文字認識プログラム
CN110222193A (zh) * 2019-05-21 2019-09-10 深圳壹账通智能科技有限公司 扫描文字修正方法、装置、计算机设备和存储介质
CN113837118A (zh) * 2021-09-28 2021-12-24 支付宝(杭州)信息技术有限公司 文本变异关系的获取方法和装置
CN113837118B (zh) * 2021-09-28 2024-04-26 支付宝(杭州)信息技术有限公司 文本变异关系的获取方法和装置

Similar Documents

Publication Publication Date Title
JP5647919B2 (ja) 文字認識装置、文字認識方法、文字認識システム、および文字認識プログラム
JP4504702B2 (ja) 文書処理装置、文書処理方法、および文書処理プログラム
EP0844583B1 (en) Method and apparatus for character recognition
US8731300B2 (en) Handwritten word spotter system using synthesized typed queries
KR100412317B1 (ko) 문자인식/수정방법및장치
US20050102139A1 (en) Information processing method and apparatus
RU2757713C1 (ru) Распознавание рукописного текста посредством нейронных сетей
US20020041713A1 (en) Document search and retrieval apparatus, recording medium and program
JP2007122403A (ja) 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム
JP2008225695A (ja) 文字認識誤り修正装置およびプログラム
Ul-Hasan Generic text recognition using long short-term memory networks
JP4983526B2 (ja) データ処理装置及びデータ処理プログラム
Ball et al. Writer verification of historical documents among cohort writers
Khosrobeigi et al. A rule-based post-processing approach to improve Persian OCR performance
US6320985B1 (en) Apparatus and method for augmenting data in handwriting recognition system
US11270153B2 (en) System and method for whole word conversion of text in image
Chowdhury et al. Implementation of an optical character reader (ocr) for bengali language
Sotoodeh et al. A music symbols recognition method using pattern matching along with integrated projection and morphological operation techniques
JP7322468B2 (ja) 情報処理装置、情報処理方法及びプログラム
EP3757825A1 (en) Methods and systems for automatic text segmentation
Kaur et al. Adverse conditions and techniques for cross-lingual text recognition
JP2020047031A (ja) 文書検索装置、文書検索システム及びプログラム
Puri et al. Sentence detection and extraction in machine printed imaged document using matching technique
JP4334068B2 (ja) イメージ文書のキーワード抽出方法及び装置
JP7410532B2 (ja) 文字判定装置及び文字判定プログラム