JP4720309B2 - 文書読取システム - Google Patents
文書読取システム Download PDFInfo
- Publication number
- JP4720309B2 JP4720309B2 JP2005175614A JP2005175614A JP4720309B2 JP 4720309 B2 JP4720309 B2 JP 4720309B2 JP 2005175614 A JP2005175614 A JP 2005175614A JP 2005175614 A JP2005175614 A JP 2005175614A JP 4720309 B2 JP4720309 B2 JP 4720309B2
- Authority
- JP
- Japan
- Prior art keywords
- text data
- processing unit
- semantic analysis
- verb
- syntactic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Character Discrimination (AREA)
Description
これにより、動詞と分類された文字を時制に基づく適切な形態とすることができる。
図1は、本発明の実施形態に係る文書読取システム100を示したブロック図である。
図に示すように、本実施形態の文書読取システム100は、文書入力部1と、OCR処理部2と、構文意味解析処理部3と、変換処理部4と、テキストデータ出力部5とを備えている。
文書入力部1は、図示せぬ読取面に載置された原稿の画像をスキャンし、画像データとしてOCR処理部2へ送信する。
OCR処理部2は、文書入力部1によって読み取った原稿の画像データに対して、OCR(Optical Character Reader)処理を施し、画像データをテキストデータに変換する。そして、このOCR処理部2は、変換したテキストデータを構文意味解析処理部3へ送信する。
変換処理部4は、構文意味解析処理部3からの構文意味解析情報に基づいて、テキストデータに修正処理を施して出力する。
テキストデータ出力部5は、例えば、ディスプレイなどの表示部からなるもので、変換処理部4にて修正処理が施されたテキストデータに基づく文字を表示する。
そして、上記文書読取システム100は、文書入力部1を備えた多機能装置とパーソナルコンピュータとの組合せによって構成されるが、多機能装置だけに組み込まれることもある。
文書入力部1の読み取り面(不図示)に原稿を配置し、読み取りを開始させる。このようにすると、文書入力部1が、読み取り面に配置された原稿の文書を画像データとして読み取る(ステップS01)。
なお、ここでは、読み取らせる原稿に「私は彼が書いた本を読んだ」と記載されている場合を例にとって説明する。
したがって、文書入力部1では、「私は彼が書いた本を読んだ」の文書が画像データとして読み取られる。
そして、この文書入力部1は、読み取った画像データをOCR処理部2へ送信する(ステップS02)。
そして、OCR処理部2は、変換したテキストデータを構文意味解析処理部3へ送信する(ステップS04)。
ここで、OCR処理では、原稿の汚れや原稿の文書の記載状態(例えば、印刷時におけるインクのかすれやつぶれなど)が起因して、画像データからテキストデータへの変換時にエラーが生じることがある。
ここでは、OCR処理部2にて、画像データ「私は彼が書いた本を読んだ」が、テキストデータ「私は彼が書いた木を読んた」と変換された場合について説明する。
図3に示すものは、構文意味解析処理部3による構文意味解析の結果である。
図に示すように、構文意味解析処理部3は、テキストデータを構成する各文字の品詞を、述語(PRED)、主語(SUBJ)、目的語(OBJ)、修飾語(ADJUNCT)などからなる格構造に分類する。
また、構文意味解析処理部3は、分類したテキストデータの時制(TENSE)を判定し、時制が過去である場合には、「PAST」とした時制情報を抽出する。
同様に、修飾語自体も、述語「書く」、主語「彼」に分類され、主語「彼」には「PRED」が付され、述語(PRED)「書く」と属性があることが示され、さらに、述語「書く」の時制(TENSE)が過去(PAST)であることが示される。
そして、この構文意味解析処理部3は、テキストデータとともに上記のように抽出した格構造及び時制情報からなる構文意味解析情報を変換処理部4へ送信する(ステップS06)。
ここで、テキストデータには、「本」が「木」となっているエラー1と、「読んだ」が「読んた」となっているエラー2が含まれている。
変換処理部4は、予め用意されている格フレーム辞書を用い、「本」が「木」となっていることを検出する。この格フレーム辞書は、動詞と名詞との対応関係を定義して動詞に対応する名詞群を定めた辞書であり、図示しない記憶部に記憶されている。
そして、変換処理部4は、まず、格フレーム辞書を記憶部から呼び出し、動詞である「読む」に対応した名詞群中の名詞と「木」とを比較し、「読む」の動詞に対応した名詞群に「木」の有無を検出する。
この場合、変換処理部4は、動詞「読む」に対応した名詞群に「木」が含まれていないことより、エラーであると判定する。
この場合、変換処理部4は、動詞「読む」に対応した名詞群の中から「木」と一致度の最も高い「本」を選択する。
そして、変換処理部4は、エラー1である「木」を、選択した「本」に修正する。
変換処理部4は、構文意味解析情報を参照し、動詞「読む」の時制がPASTであると認識し、この動詞「読む」の過去形「読んだ」を導き出す。
さらに、変換処理部4は、時制によって導き出した「読んだ」とテキストデータ中の「読んた」とを比較し、「読んた」と「読んだ」とが不一致であることより、「読んた」がエラーであると判定し、この「読んた」を「読んだ」に修正する。
テキストデータ出力部5は、変換処理部4から送信された修正されたテキストデータに基づいて、表示部に文書を表示する(ステップS11)。
なお、上記実施形態では、テキストデータの格構造及び時制情報からなる構文意味解析情報に基づいてテキストデータのエラーの修正を行ったが、構文意味解析情報として、さらに、格構造にて分類された助動詞の解析情報である様相(アスペクト)情報を含めても良い。
3 文書意味解析処理部
4 変換処理部
100 文書読取システム
Claims (2)
- 読み取った画像データからなる文書をテキストデータに変換するOCR処理部と、
このOCR処理部にて変換されたテキストデータに対して構文意味解析処理を施し、少なくともテキストデータの格構造を示す構文意味解析情報を抽出する構文意味解析処理部と、
動詞と名詞との対応関係を定義して動詞に対応する名詞群を定めた格フレーム辞書を参照し、前記構文意味解析処理部にて動詞として分類された文字に対応した名詞群の中に、当該動詞に対応するテキストデータ中の名詞が含まれていない場合に、当該テキストデータ中の名詞を画像処理により対比することにより、当該名詞群の中から一致度の高い名詞を選択し、当該テキストデータ中の名詞を前記選択した名詞に置き換える変換処理部と
を備えたことを特徴とする文書読取システム。 - 前記構文意味解析情報は、さらに、時制情報を示し、
前記変換処理部は、前記構文意味解析情報を参照し、前記構文意味解析処理部にて動詞と分類された文字の時制を認識し、その時制における前記動詞の形態を導き出してテキストデータ中における対応文字と比較し、不一致である場合は、テキストデータ中の動詞を導き出した形態の動詞に置き換える
ことを特徴とする請求項1に記載の文書読取システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005175614A JP4720309B2 (ja) | 2005-06-15 | 2005-06-15 | 文書読取システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005175614A JP4720309B2 (ja) | 2005-06-15 | 2005-06-15 | 文書読取システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006350663A JP2006350663A (ja) | 2006-12-28 |
JP4720309B2 true JP4720309B2 (ja) | 2011-07-13 |
Family
ID=37646435
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005175614A Active JP4720309B2 (ja) | 2005-06-15 | 2005-06-15 | 文書読取システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4720309B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190043254A (ko) * | 2017-10-18 | 2019-04-26 | 한국전자통신연구원 | 대화형 상담 장치 및 방법 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013025699A (ja) * | 2011-07-25 | 2013-02-04 | Nec Corp | 構文解析情報作成装置、翻訳装置、翻訳システム、構文解析情報作成方法およびコンピュータプログラム |
CN110609909A (zh) * | 2019-09-18 | 2019-12-24 | 苏州派维斯信息科技有限公司 | 用于电子文档判别勘误的智能方法 |
CN110597760A (zh) * | 2019-09-18 | 2019-12-20 | 苏州派维斯信息科技有限公司 | 用于电子文档合规性判别的智能方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05120331A (ja) * | 1991-03-27 | 1993-05-18 | M C Waade Center:Kk | 同音異義語認識装置 |
JPH08249428A (ja) * | 1995-03-08 | 1996-09-27 | Fujitsu Ltd | 文書認識装置 |
JP2001337945A (ja) * | 2000-05-26 | 2001-12-07 | Sharp Corp | 自動編集装置及び方法並びにこれに利用される記憶媒体 |
-
2005
- 2005-06-15 JP JP2005175614A patent/JP4720309B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05120331A (ja) * | 1991-03-27 | 1993-05-18 | M C Waade Center:Kk | 同音異義語認識装置 |
JPH08249428A (ja) * | 1995-03-08 | 1996-09-27 | Fujitsu Ltd | 文書認識装置 |
JP2001337945A (ja) * | 2000-05-26 | 2001-12-07 | Sharp Corp | 自動編集装置及び方法並びにこれに利用される記憶媒体 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190043254A (ko) * | 2017-10-18 | 2019-04-26 | 한국전자통신연구원 | 대화형 상담 장치 및 방법 |
KR102113815B1 (ko) * | 2017-10-18 | 2020-06-02 | 한국전자통신연구원 | 대화형 상담 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
JP2006350663A (ja) | 2006-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20060285748A1 (en) | Document processing device | |
GB2422709A (en) | Correcting errors in OCR of electronic document using common prefixes or suffixes | |
US8208726B2 (en) | Method and system for optical character recognition using image clustering | |
JP4720309B2 (ja) | 文書読取システム | |
US10410080B2 (en) | NC-program conversion device | |
US9529792B2 (en) | Glossary management device, glossary management system, and recording medium for glossary generation | |
US8773733B2 (en) | Image capture device for extracting textual information | |
US8908970B2 (en) | Textual information extraction method using multiple images | |
US8768058B2 (en) | System for extracting text from a plurality of captured images of a document | |
US10638001B2 (en) | Information processing apparatus for performing optical character recognition (OCR) processing on image data and converting image data to document data | |
JP5090983B2 (ja) | 情報処理装置、情報処理方法、情報処理プログラム、及びこのプログラムを記録したコンピュータ読取可能な記録媒体 | |
JP2008257543A (ja) | 画像処理システム及びプログラム | |
JP2009205209A (ja) | 文書画像処理装置、及び文書画像処理プログラム | |
US8972239B2 (en) | Syntax analysis information generation apparatus, translation apparatus, translation system, syntax analysis information generating method and computer program | |
JP2005339039A (ja) | 文書処理装置および文書処理方法 | |
JP4083723B2 (ja) | 画像処理装置 | |
JP2004199483A (ja) | 画像出力装置 | |
JP4992820B2 (ja) | データ処理装置、そのコンピュータプログラムおよびデータ処理方法 | |
JP2001022773A (ja) | イメージ文書のキーワード抽出方法 | |
JP2939945B2 (ja) | ローマ字住所認識装置 | |
JP2010282272A (ja) | 文字認識方法、文字認識プログラム及び文字認識装置 | |
JPH11250179A (ja) | 文字認識装置および文字認識方法 | |
JP2001127974A (ja) | 画像読取装置及びシステム | |
JP4645065B2 (ja) | 文書処理装置およびプログラム | |
Piotrowski | Acquiring Historical Texts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080317 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100720 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100914 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110308 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110321 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140415 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |