JP4720309B2 - 文書読取システム - Google Patents

文書読取システム Download PDF

Info

Publication number
JP4720309B2
JP4720309B2 JP2005175614A JP2005175614A JP4720309B2 JP 4720309 B2 JP4720309 B2 JP 4720309B2 JP 2005175614 A JP2005175614 A JP 2005175614A JP 2005175614 A JP2005175614 A JP 2005175614A JP 4720309 B2 JP4720309 B2 JP 4720309B2
Authority
JP
Japan
Prior art keywords
text data
processing unit
semantic analysis
verb
syntactic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005175614A
Other languages
English (en)
Other versions
JP2006350663A (ja
Inventor
宏樹 吉村
博 増市
勝彦 糸乘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2005175614A priority Critical patent/JP4720309B2/ja
Publication of JP2006350663A publication Critical patent/JP2006350663A/ja
Application granted granted Critical
Publication of JP4720309B2 publication Critical patent/JP4720309B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Character Discrimination (AREA)

Description

本発明は、原稿から読み取った文書にOCR処理を施して解析を行う文書読取システムに関する。
以前より、スキャナによって読み取った原稿の文書に対して、OCR(Optical Character Reader)処理を施し、文書の画像データをテキストデータに変換する技術が知られており、また、このOCR処理によって読み取った文書の文字列の一部を修正し、読取精度を高めることが行われている(例えば、特許文献1参照)。
特開2003−223608号公報
しかしながら、上記のシステムでは、画像情報として読み取った文字が修正対象文字と類似する文字であると、この類似する文字も一括して修正されてしまい、正しく認識された文字まで誤って変更されることがあった。このため、さらに正確な文字認識が可能な読取システムが要求されているのが現状である。
本発明は、上記事情に鑑みてなされたもので、読み取った文書を極めて高精度に解析して正確な文字認識を行うことが可能な文書読取システムを提供することを目的としている。
上記目的を達成するために、本発明の文書読取システムは、読み取った画像データからなる文書をテキストデータに変換するOCR処理部と、このOCR処理部にて変換されたテキストデータに対して構文意味解析処理を施し、少なくともテキストデータの格構造を示す構文意味解析情報を抽出する構文意味解析処理部と、動詞と名詞との対応関係を定義して動詞に対応する名詞群を定めた格フレーム辞書を参照し、前記構文意味解析処理部にて動詞として分類された文字に対応した名詞群の中に、当該動詞に対応するテキストデータ中の名詞が含まれていない場合に、当該テキストデータ中の名詞を画像処理により対比することにより、当該名詞群の中から一致度の高い名詞を選択し、当該テキストデータ中の名詞を前記選択した名詞に置き換える変換処理部とを備えたことを特徴とする。
このように、構文意味解析処理部によって抽出されたテキストデータの格構造を参照してテキストデータのエラー部分を修正するので、画像データからなる文書を高精度な文字認識にてテキストデータとして読み取ることができる。
また、動詞として分類された文字に対応した名詞を適切に認識することができる。
さらに、前記構文意味解析情報は、さらに、時制情報を示し、前記変換処理部は、前記構文意味解析情報を参照し、前記構文意味解析処理部にて動詞と分類された文字の時制を認識し、その時制における前記動詞の形態を導き出してテキストデータ中における対応文字と比較し、不一致である場合は、テキストデータ中の動詞を導き出した形態の動詞に置き換えることが望ましい。
これにより、動詞と分類された文字を時制に基づく適切な形態とすることができる。
本発明の文書読取システムによれば、構文意味解析処理部によって抽出されたテキストデータの格構造及び時制情報を参照してテキストデータのエラー部分を修正するので、画像データからなる文書を高精度な文字認識にてテキストデータとして読み取ることができる。
以下、本発明の実施形態について、図面を参照して説明する。
図1は、本発明の実施形態に係る文書読取システム100を示したブロック図である。
図に示すように、本実施形態の文書読取システム100は、文書入力部1と、OCR処理部2と、構文意味解析処理部3と、変換処理部4と、テキストデータ出力部5とを備えている。
文書入力部1は、図示せぬ読取面に載置された原稿の画像をスキャンし、画像データとしてOCR処理部2へ送信する。
OCR処理部2は、文書入力部1によって読み取った原稿の画像データに対して、OCR(Optical Character Reader)処理を施し、画像データをテキストデータに変換する。そして、このOCR処理部2は、変換したテキストデータを構文意味解析処理部3へ送信する。
構文意味解析処理部3は、OCR処理部2からのテキストデータに対して構文意味解析処理を施し、このテキストデータにおける格構造、時制・様相(テンス・アスペクト)情報を抽出し、テキストデータとともに、このテキストデータの格構造、時制・様相情報からなる構文意味解析情報を変換処理部4へ送信する。
変換処理部4は、構文意味解析処理部3からの構文意味解析情報に基づいて、テキストデータに修正処理を施して出力する。
テキストデータ出力部5は、例えば、ディスプレイなどの表示部からなるもので、変換処理部4にて修正処理が施されたテキストデータに基づく文字を表示する。
そして、上記文書読取システム100は、文書入力部1を備えた多機能装置とパーソナルコンピュータとの組合せによって構成されるが、多機能装置だけに組み込まれることもある。
次に、上記構成の文書読取システム100の動作例を、図2に示すフローチャートに沿って説明する。
文書入力部1の読み取り面(不図示)に原稿を配置し、読み取りを開始させる。このようにすると、文書入力部1が、読み取り面に配置された原稿の文書を画像データとして読み取る(ステップS01)。
なお、ここでは、読み取らせる原稿に「私は彼が書いた本を読んだ」と記載されている場合を例にとって説明する。
したがって、文書入力部1では、「私は彼が書いた本を読んだ」の文書が画像データとして読み取られる。
そして、この文書入力部1は、読み取った画像データをOCR処理部2へ送信する(ステップS02)。
次に、OCR処理部2は、文書入力部1からの画像データに対して、OCR処理を施し、画像データ「私は彼が書いた本を読んだ」をテキストデータに変換する(ステップS03)。
そして、OCR処理部2は、変換したテキストデータを構文意味解析処理部3へ送信する(ステップS04)。
ここで、OCR処理では、原稿の汚れや原稿の文書の記載状態(例えば、印刷時におけるインクのかすれやつぶれなど)が起因して、画像データからテキストデータへの変換時にエラーが生じることがある。
ここでは、OCR処理部2にて、画像データ「私は彼が書いた本を読んだ」が、テキストデータ「私は彼が書いた木を読んた」と変換された場合について説明する。
構文意味解析処理部3は、OCR処理部2からのテキストデータに対して構文意味解析処理を施し、構文意味解析情報を抽出する(ステップS05)。
図3に示すものは、構文意味解析処理部3による構文意味解析の結果である。
図に示すように、構文意味解析処理部3は、テキストデータを構成する各文字の品詞を、述語(PRED)、主語(SUBJ)、目的語(OBJ)、修飾語(ADJUNCT)などからなる格構造に分類する。
また、構文意味解析処理部3は、分類したテキストデータの時制(TENSE)を判定し、時制が過去である場合には、「PAST」とした時制情報を抽出する。
ここでは、述語「読む」、主語「私」、目的語「木」に分類され、さらに目的語「木」にかかる修飾語「書く、彼」に分類される。また、主語「私」、目的語「木」には、「PRED」が付され、述語(PRED)「読む」と属性があることが示され、さらに、述語「読む」の時制(TENSE)が過去(PAST)であることが示される。
同様に、修飾語自体も、述語「書く」、主語「彼」に分類され、主語「彼」には「PRED」が付され、述語(PRED)「書く」と属性があることが示され、さらに、述語「書く」の時制(TENSE)が過去(PAST)であることが示される。
そして、この構文意味解析処理部3は、テキストデータとともに上記のように抽出した格構造及び時制情報からなる構文意味解析情報を変換処理部4へ送信する(ステップS06)。
変換処理部4は、構文意味解析処理部3からの構文意味解析情報を参照し、テキストデータにおけるエラーを検出し(ステップS07)、エラーを検出した際には、この検出したエラーを修正する(ステップS08)。
ここで、テキストデータには、「本」が「木」となっているエラー1と、「読んだ」が「読んた」となっているエラー2が含まれている。
(エラー1について)
変換処理部4は、予め用意されている格フレーム辞書を用い、「本」が「木」となっていることを検出する。この格フレーム辞書は、動詞と名詞との対応関係を定義して動詞に対応する名詞群を定めた辞書であり、図示しない記憶部に記憶されている。
そして、変換処理部4は、まず、格フレーム辞書を記憶部から呼び出し、動詞である「読む」に対応した名詞群中の名詞と「木」とを比較し、「読む」の動詞に対応した名詞群に「木」の有無を検出する。
この場合、変換処理部4は、動詞「読む」に対応した名詞群に「木」が含まれていないことより、エラーであると判定する。
さらに、変換処理部4は、動詞「読む」に対応した名詞群の中に、「木」と一致度の高い名詞を選択する。なお、この一致度の判定は、例えば、画像処理により対比することにより行う。
この場合、変換処理部4は、動詞「読む」に対応した名詞群の中から「木」と一致度の最も高い「本」を選択する。
そして、変換処理部4は、エラー1である「木」を、選択した「本」に修正する。
(エラー2について)
変換処理部4は、構文意味解析情報を参照し、動詞「読む」の時制がPASTであると認識し、この動詞「読む」の過去形「読んだ」を導き出す。
さらに、変換処理部4は、時制によって導き出した「読んだ」とテキストデータ中の「読んた」とを比較し、「読んた」と「読んだ」とが不一致であることより、「読んた」がエラーであると判定し、この「読んた」を「読んだ」に修正する。
変換処理部4は、上記のようにしてテキストデータのエラーの修正が完了したら(ステップS09)、この修正したテキストデータをテキストデータ出力部5へ出力する(ステップS10)。
テキストデータ出力部5は、変換処理部4から送信された修正されたテキストデータに基づいて、表示部に文書を表示する(ステップS11)。
なお、上記実施形態では、テキストデータの格構造及び時制情報からなる構文意味解析情報に基づいてテキストデータのエラーの修正を行ったが、構文意味解析情報として、さらに、格構造にて分類された助動詞の解析情報である様相(アスペクト)情報を含めても良い。
このように、上記実施形態によれば、構文意味解析処理部3によって抽出されたテキストデータの格構造及び時制・様相情報からなる構文意味解析情報を参照してテキストデータのエラー部分を修正するので、画像データからなる文書を高精度な文字認識にてテキストデータとして読み取ることができる。
特に、変換処理部4が、動詞と名詞との対応関係を定義した格フレーム辞書を用い、構文意味解析部3にて動詞として分類された文字に対応した名詞群と、動詞に対応するテキストデータ中の名詞とを比較し、この名詞が名詞群に含まれていない場合に名詞群の中の一致度の高い名詞を選択し、テキストデータ中の名詞を選択した名詞に置き換えるので、動詞として分類された文字に対応した名詞を適切に認識することができる。
しかも、変換処理部4は、構文意味解析情報を参照し、文書意味解析部3にて動詞と分類された文字の時制を認識し、その時制における動詞の形態を導き出してテキストデータ中における対応文字と比較し、不一致である場合は、テキストデータ中の動詞を導き出した形態の動詞に置き換えるので、動詞と分類された文字を時制に基づく適切な形態とすることができる。
本発明の実施形態に係る文書読取システムの構成を説明するブロック図である。 文書読取システムにおける処理を説明するフローチャートである。 構文意味解析情報を説明する図である。
符号の説明
2 OCR処理部
3 文書意味解析処理部
4 変換処理部
100 文書読取システム

Claims (2)

  1. 読み取った画像データからなる文書をテキストデータに変換するOCR処理部と、
    このOCR処理部にて変換されたテキストデータに対して構文意味解析処理を施し、少なくともテキストデータの格構造を示す構文意味解析情報を抽出する構文意味解析処理部と、
    動詞と名詞との対応関係を定義して動詞に対応する名詞群を定めた格フレーム辞書を参照し前記構文意味解析処理部にて動詞として分類された文字に対応した名詞群の中に、当該動詞に対応するテキストデータ中の名詞含まれていない場合に、当該テキストデータ中の名詞を画像処理により対比することにより、当該名詞群の中から一致度の高い名詞を選択し、当該テキストデータ中の名詞を前記選択した名詞に置き換える変換処理部と
    を備えたことを特徴とする文書読取システム。
  2. 前記構文意味解析情報は、さらに、時制情報を示し、
    前記変換処理部は、前記構文意味解析情報を参照し、前記構文意味解析処理部にて動詞と分類された文字の時制を認識し、その時制における前記動詞の形態を導き出してテキストデータ中における対応文字と比較し、不一致である場合は、テキストデータ中の動詞を導き出した形態の動詞に置き換える
    ことを特徴とする請求項1に記載の文書読取システム。
JP2005175614A 2005-06-15 2005-06-15 文書読取システム Active JP4720309B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005175614A JP4720309B2 (ja) 2005-06-15 2005-06-15 文書読取システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005175614A JP4720309B2 (ja) 2005-06-15 2005-06-15 文書読取システム

Publications (2)

Publication Number Publication Date
JP2006350663A JP2006350663A (ja) 2006-12-28
JP4720309B2 true JP4720309B2 (ja) 2011-07-13

Family

ID=37646435

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005175614A Active JP4720309B2 (ja) 2005-06-15 2005-06-15 文書読取システム

Country Status (1)

Country Link
JP (1) JP4720309B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190043254A (ko) * 2017-10-18 2019-04-26 한국전자통신연구원 대화형 상담 장치 및 방법

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013025699A (ja) * 2011-07-25 2013-02-04 Nec Corp 構文解析情報作成装置、翻訳装置、翻訳システム、構文解析情報作成方法およびコンピュータプログラム
CN110609909A (zh) * 2019-09-18 2019-12-24 苏州派维斯信息科技有限公司 用于电子文档判别勘误的智能方法
CN110597760A (zh) * 2019-09-18 2019-12-20 苏州派维斯信息科技有限公司 用于电子文档合规性判别的智能方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05120331A (ja) * 1991-03-27 1993-05-18 M C Waade Center:Kk 同音異義語認識装置
JPH08249428A (ja) * 1995-03-08 1996-09-27 Fujitsu Ltd 文書認識装置
JP2001337945A (ja) * 2000-05-26 2001-12-07 Sharp Corp 自動編集装置及び方法並びにこれに利用される記憶媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05120331A (ja) * 1991-03-27 1993-05-18 M C Waade Center:Kk 同音異義語認識装置
JPH08249428A (ja) * 1995-03-08 1996-09-27 Fujitsu Ltd 文書認識装置
JP2001337945A (ja) * 2000-05-26 2001-12-07 Sharp Corp 自動編集装置及び方法並びにこれに利用される記憶媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190043254A (ko) * 2017-10-18 2019-04-26 한국전자통신연구원 대화형 상담 장치 및 방법
KR102113815B1 (ko) * 2017-10-18 2020-06-02 한국전자통신연구원 대화형 상담 장치 및 방법

Also Published As

Publication number Publication date
JP2006350663A (ja) 2006-12-28

Similar Documents

Publication Publication Date Title
US20060285748A1 (en) Document processing device
GB2422709A (en) Correcting errors in OCR of electronic document using common prefixes or suffixes
US8208726B2 (en) Method and system for optical character recognition using image clustering
JP4720309B2 (ja) 文書読取システム
US10410080B2 (en) NC-program conversion device
US9529792B2 (en) Glossary management device, glossary management system, and recording medium for glossary generation
US8773733B2 (en) Image capture device for extracting textual information
US8908970B2 (en) Textual information extraction method using multiple images
US8768058B2 (en) System for extracting text from a plurality of captured images of a document
US10638001B2 (en) Information processing apparatus for performing optical character recognition (OCR) processing on image data and converting image data to document data
JP5090983B2 (ja) 情報処理装置、情報処理方法、情報処理プログラム、及びこのプログラムを記録したコンピュータ読取可能な記録媒体
JP2008257543A (ja) 画像処理システム及びプログラム
JP2009205209A (ja) 文書画像処理装置、及び文書画像処理プログラム
US8972239B2 (en) Syntax analysis information generation apparatus, translation apparatus, translation system, syntax analysis information generating method and computer program
JP2005339039A (ja) 文書処理装置および文書処理方法
JP4083723B2 (ja) 画像処理装置
JP2004199483A (ja) 画像出力装置
JP4992820B2 (ja) データ処理装置、そのコンピュータプログラムおよびデータ処理方法
JP2001022773A (ja) イメージ文書のキーワード抽出方法
JP2939945B2 (ja) ローマ字住所認識装置
JP2010282272A (ja) 文字認識方法、文字認識プログラム及び文字認識装置
JPH11250179A (ja) 文字認識装置および文字認識方法
JP2001127974A (ja) 画像読取装置及びシステム
JP4645065B2 (ja) 文書処理装置およびプログラム
Piotrowski Acquiring Historical Texts

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080317

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100720

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100914

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110321

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140415

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150