JP4720309B2

JP4720309B2 - 文書読取システム

Info

Publication number: JP4720309B2
Application number: JP2005175614A
Authority: JP
Inventors: 宏樹吉村; 博増市; 勝彦糸乘
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2005-06-15
Filing date: 2005-06-15
Publication date: 2011-07-13
Anticipated expiration: 2025-06-15
Also published as: JP2006350663A

Description

本発明は、原稿から読み取った文書にＯＣＲ処理を施して解析を行う文書読取システムに関する。

以前より、スキャナによって読み取った原稿の文書に対して、ＯＣＲ（Optical Character Reader）処理を施し、文書の画像データをテキストデータに変換する技術が知られており、また、このＯＣＲ処理によって読み取った文書の文字列の一部を修正し、読取精度を高めることが行われている（例えば、特許文献１参照）。

特開２００３−２２３６０８号公報

しかしながら、上記のシステムでは、画像情報として読み取った文字が修正対象文字と類似する文字であると、この類似する文字も一括して修正されてしまい、正しく認識された文字まで誤って変更されることがあった。このため、さらに正確な文字認識が可能な読取システムが要求されているのが現状である。

本発明は、上記事情に鑑みてなされたもので、読み取った文書を極めて高精度に解析して正確な文字認識を行うことが可能な文書読取システムを提供することを目的としている。

上記目的を達成するために、本発明の文書読取システムは、読み取った画像データからなる文書をテキストデータに変換するＯＣＲ処理部と、このＯＣＲ処理部にて変換されたテキストデータに対して構文意味解析処理を施し、少なくともテキストデータの格構造を示す構文意味解析情報を抽出する構文意味解析処理部と、動詞と名詞との対応関係を定義して動詞に対応する名詞群を定めた格フレーム辞書を参照し、前記構文意味解析処理部にて動詞として分類された文字に対応した名詞群の中に、当該動詞に対応するテキストデータ中の名詞が含まれていない場合に、当該テキストデータ中の名詞を画像処理により対比することにより、当該名詞群の中から一致度の高い名詞を選択し、当該テキストデータ中の名詞を前記選択した名詞に置き換える変換処理部とを備えたことを特徴とする。

このように、構文意味解析処理部によって抽出されたテキストデータの格構造を参照してテキストデータのエラー部分を修正するので、画像データからなる文書を高精度な文字認識にてテキストデータとして読み取ることができる。

また、動詞として分類された文字に対応した名詞を適切に認識することができる。

さらに、前記構文意味解析情報は、さらに、時制情報を示し、前記変換処理部は、前記構文意味解析情報を参照し、前記構文意味解析処理部にて動詞と分類された文字の時制を認識し、その時制における前記動詞の形態を導き出してテキストデータ中における対応文字と比較し、不一致である場合は、テキストデータ中の動詞を導き出した形態の動詞に置き換えることが望ましい。
これにより、動詞と分類された文字を時制に基づく適切な形態とすることができる。

本発明の文書読取システムによれば、構文意味解析処理部によって抽出されたテキストデータの格構造及び時制情報を参照してテキストデータのエラー部分を修正するので、画像データからなる文書を高精度な文字認識にてテキストデータとして読み取ることができる。

以下、本発明の実施形態について、図面を参照して説明する。
図１は、本発明の実施形態に係る文書読取システム１００を示したブロック図である。
図に示すように、本実施形態の文書読取システム１００は、文書入力部１と、ＯＣＲ処理部２と、構文意味解析処理部３と、変換処理部４と、テキストデータ出力部５とを備えている。
文書入力部１は、図示せぬ読取面に載置された原稿の画像をスキャンし、画像データとしてＯＣＲ処理部２へ送信する。
ＯＣＲ処理部２は、文書入力部１によって読み取った原稿の画像データに対して、ＯＣＲ（Optical Character Reader）処理を施し、画像データをテキストデータに変換する。そして、このＯＣＲ処理部２は、変換したテキストデータを構文意味解析処理部３へ送信する。

構文意味解析処理部３は、ＯＣＲ処理部２からのテキストデータに対して構文意味解析処理を施し、このテキストデータにおける格構造、時制・様相（テンス・アスペクト）情報を抽出し、テキストデータとともに、このテキストデータの格構造、時制・様相情報からなる構文意味解析情報を変換処理部４へ送信する。
変換処理部４は、構文意味解析処理部３からの構文意味解析情報に基づいて、テキストデータに修正処理を施して出力する。
テキストデータ出力部５は、例えば、ディスプレイなどの表示部からなるもので、変換処理部４にて修正処理が施されたテキストデータに基づく文字を表示する。
そして、上記文書読取システム１００は、文書入力部１を備えた多機能装置とパーソナルコンピュータとの組合せによって構成されるが、多機能装置だけに組み込まれることもある。

次に、上記構成の文書読取システム１００の動作例を、図２に示すフローチャートに沿って説明する。
文書入力部１の読み取り面（不図示）に原稿を配置し、読み取りを開始させる。このようにすると、文書入力部１が、読み取り面に配置された原稿の文書を画像データとして読み取る（ステップＳ０１）。
なお、ここでは、読み取らせる原稿に「私は彼が書いた本を読んだ」と記載されている場合を例にとって説明する。
したがって、文書入力部１では、「私は彼が書いた本を読んだ」の文書が画像データとして読み取られる。
そして、この文書入力部１は、読み取った画像データをＯＣＲ処理部２へ送信する（ステップＳ０２）。

次に、ＯＣＲ処理部２は、文書入力部１からの画像データに対して、ＯＣＲ処理を施し、画像データ「私は彼が書いた本を読んだ」をテキストデータに変換する（ステップＳ０３）。
そして、ＯＣＲ処理部２は、変換したテキストデータを構文意味解析処理部３へ送信する（ステップＳ０４）。
ここで、ＯＣＲ処理では、原稿の汚れや原稿の文書の記載状態（例えば、印刷時におけるインクのかすれやつぶれなど）が起因して、画像データからテキストデータへの変換時にエラーが生じることがある。
ここでは、ＯＣＲ処理部２にて、画像データ「私は彼が書いた本を読んだ」が、テキストデータ「私は彼が書いた木を読んた」と変換された場合について説明する。

構文意味解析処理部３は、ＯＣＲ処理部２からのテキストデータに対して構文意味解析処理を施し、構文意味解析情報を抽出する（ステップＳ０５）。
図３に示すものは、構文意味解析処理部３による構文意味解析の結果である。
図に示すように、構文意味解析処理部３は、テキストデータを構成する各文字の品詞を、述語（ＰＲＥＤ）、主語（ＳＵＢＪ）、目的語（ＯＢＪ）、修飾語（ＡＤＪＵＮＣＴ）などからなる格構造に分類する。
また、構文意味解析処理部３は、分類したテキストデータの時制（ＴＥＮＳＥ）を判定し、時制が過去である場合には、「ＰＡＳＴ」とした時制情報を抽出する。

ここでは、述語「読む」、主語「私」、目的語「木」に分類され、さらに目的語「木」にかかる修飾語「書く、彼」に分類される。また、主語「私」、目的語「木」には、「ＰＲＥＤ」が付され、述語（ＰＲＥＤ）「読む」と属性があることが示され、さらに、述語「読む」の時制（ＴＥＮＳＥ）が過去（ＰＡＳＴ）であることが示される。
同様に、修飾語自体も、述語「書く」、主語「彼」に分類され、主語「彼」には「ＰＲＥＤ」が付され、述語（ＰＲＥＤ）「書く」と属性があることが示され、さらに、述語「書く」の時制（ＴＥＮＳＥ）が過去（ＰＡＳＴ）であることが示される。
そして、この構文意味解析処理部３は、テキストデータとともに上記のように抽出した格構造及び時制情報からなる構文意味解析情報を変換処理部４へ送信する（ステップＳ０６）。

変換処理部４は、構文意味解析処理部３からの構文意味解析情報を参照し、テキストデータにおけるエラーを検出し（ステップＳ０７）、エラーを検出した際には、この検出したエラーを修正する（ステップＳ０８）。
ここで、テキストデータには、「本」が「木」となっているエラー１と、「読んだ」が「読んた」となっているエラー２が含まれている。

（エラー１について）
変換処理部４は、予め用意されている格フレーム辞書を用い、「本」が「木」となっていることを検出する。この格フレーム辞書は、動詞と名詞との対応関係を定義して動詞に対応する名詞群を定めた辞書であり、図示しない記憶部に記憶されている。
そして、変換処理部４は、まず、格フレーム辞書を記憶部から呼び出し、動詞である「読む」に対応した名詞群中の名詞と「木」とを比較し、「読む」の動詞に対応した名詞群に「木」の有無を検出する。
この場合、変換処理部４は、動詞「読む」に対応した名詞群に「木」が含まれていないことより、エラーであると判定する。

さらに、変換処理部４は、動詞「読む」に対応した名詞群の中に、「木」と一致度の高い名詞を選択する。なお、この一致度の判定は、例えば、画像処理により対比することにより行う。
この場合、変換処理部４は、動詞「読む」に対応した名詞群の中から「木」と一致度の最も高い「本」を選択する。
そして、変換処理部４は、エラー１である「木」を、選択した「本」に修正する。

（エラー２について）
変換処理部４は、構文意味解析情報を参照し、動詞「読む」の時制がＰＡＳＴであると認識し、この動詞「読む」の過去形「読んだ」を導き出す。
さらに、変換処理部４は、時制によって導き出した「読んだ」とテキストデータ中の「読んた」とを比較し、「読んた」と「読んだ」とが不一致であることより、「読んた」がエラーであると判定し、この「読んた」を「読んだ」に修正する。

変換処理部４は、上記のようにしてテキストデータのエラーの修正が完了したら（ステップＳ０９）、この修正したテキストデータをテキストデータ出力部５へ出力する（ステップＳ１０）。
テキストデータ出力部５は、変換処理部４から送信された修正されたテキストデータに基づいて、表示部に文書を表示する（ステップＳ１１）。
なお、上記実施形態では、テキストデータの格構造及び時制情報からなる構文意味解析情報に基づいてテキストデータのエラーの修正を行ったが、構文意味解析情報として、さらに、格構造にて分類された助動詞の解析情報である様相（アスペクト）情報を含めても良い。

このように、上記実施形態によれば、構文意味解析処理部３によって抽出されたテキストデータの格構造及び時制・様相情報からなる構文意味解析情報を参照してテキストデータのエラー部分を修正するので、画像データからなる文書を高精度な文字認識にてテキストデータとして読み取ることができる。

特に、変換処理部４が、動詞と名詞との対応関係を定義した格フレーム辞書を用い、構文意味解析部３にて動詞として分類された文字に対応した名詞群と、動詞に対応するテキストデータ中の名詞とを比較し、この名詞が名詞群に含まれていない場合に名詞群の中の一致度の高い名詞を選択し、テキストデータ中の名詞を選択した名詞に置き換えるので、動詞として分類された文字に対応した名詞を適切に認識することができる。

しかも、変換処理部４は、構文意味解析情報を参照し、文書意味解析部３にて動詞と分類された文字の時制を認識し、その時制における動詞の形態を導き出してテキストデータ中における対応文字と比較し、不一致である場合は、テキストデータ中の動詞を導き出した形態の動詞に置き換えるので、動詞と分類された文字を時制に基づく適切な形態とすることができる。

本発明の実施形態に係る文書読取システムの構成を説明するブロック図である。文書読取システムにおける処理を説明するフローチャートである。構文意味解析情報を説明する図である。

符号の説明

２ＯＣＲ処理部
３文書意味解析処理部
４変換処理部
１００文書読取システム

Claims

読み取った画像データからなる文書をテキストデータに変換するＯＣＲ処理部と、
このＯＣＲ処理部にて変換されたテキストデータに対して構文意味解析処理を施し、少なくともテキストデータの格構造を示す構文意味解析情報を抽出する構文意味解析処理部と、
動詞と名詞との対応関係を定義して動詞に対応する名詞群を定めた格フレーム辞書を参照し、前記構文意味解析処理部にて動詞として分類された文字に対応した名詞群の中に、当該動詞に対応するテキストデータ中の名詞が含まれていない場合に、当該テキストデータ中の名詞を画像処理により対比することにより、当該名詞群の中から一致度の高い名詞を選択し、当該テキストデータ中の名詞を前記選択した名詞に置き換える変換処理部と
を備えたことを特徴とする文書読取システム。
前記構文意味解析情報は、さらに、時制情報を示し、
前記変換処理部は、前記構文意味解析情報を参照し、前記構文意味解析処理部にて動詞と分類された文字の時制を認識し、その時制における前記動詞の形態を導き出してテキストデータ中における対応文字と比較し、不一致である場合は、テキストデータ中の動詞を導き出した形態の動詞に置き換える
ことを特徴とする請求項１に記載の文書読取システム。