JP2006350663A - Document reading system - Google Patents

Document reading system Download PDF

Info

Publication number
JP2006350663A
JP2006350663A JP2005175614A JP2005175614A JP2006350663A JP 2006350663 A JP2006350663 A JP 2006350663A JP 2005175614 A JP2005175614 A JP 2005175614A JP 2005175614 A JP2005175614 A JP 2005175614A JP 2006350663 A JP2006350663 A JP 2006350663A
Authority
JP
Japan
Prior art keywords
text data
semantic analysis
processing unit
noun
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005175614A
Other languages
Japanese (ja)
Other versions
JP4720309B2 (en
Inventor
Hiroki Yoshimura
宏樹 吉村
Hiroshi Masuichi
博 増市
Katsuhiko Itonori
勝彦 糸乘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2005175614A priority Critical patent/JP4720309B2/en
Publication of JP2006350663A publication Critical patent/JP2006350663A/en
Application granted granted Critical
Publication of JP4720309B2 publication Critical patent/JP4720309B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To perform precise character recognition by analyzing a read document with high accuracy. <P>SOLUTION: The system comprises: an OCR processing part 2 converting a document consisting of read image data to text data; a document semantic analysis processing part 3 performing syntactic and semantic analysis to the test data converted by the OCR processing part 2 to extract syntactic and semantic analysis information including at least a case structure and a tense information of the text data; and a conversion processing part 4 detecting an error of the text data in reference to the syntactic and semantic analysis information and correcting the error. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は、原稿から読み取った文書にOCR処理を施して解析を行う文書読取システムに関する。   The present invention relates to a document reading system that performs analysis by performing OCR processing on a document read from a document.

以前より、スキャナによって読み取った原稿の文書に対して、OCR(Optical Character Reader)処理を施し、文書の画像データをテキストデータに変換する技術が知られており、また、このOCR処理によって読み取った文書の文字列の一部を修正し、読取精度を高めることが行われている(例えば、特許文献1参照)。   A technique for performing OCR (Optical Character Reader) processing on an original document read by a scanner and converting the image data of the document into text data has been known for some time. Also, a document read by this OCR processing is known. A part of the character string is corrected to improve reading accuracy (see, for example, Patent Document 1).

特開2003−223608号公報JP 2003-223608 A

しかしながら、上記のシステムでは、画像情報として読み取った文字が修正対象文字と類似する文字であると、この類似する文字も一括して修正されてしまい、正しく認識された文字まで誤って変更されることがあった。このため、さらに正確な文字認識が可能な読取システムが要求されているのが現状である。   However, in the above system, if the character read as the image information is similar to the correction target character, the similar character is also corrected in a lump, and the correctly recognized character is erroneously changed. was there. For this reason, the present situation is that a reading system capable of more accurate character recognition is required.

本発明は、上記事情に鑑みてなされたもので、読み取った文書を極めて高精度に解析して正確な文字認識を行うことが可能な文書読取システムを提供することを目的としている。   The present invention has been made in view of the above circumstances, and an object thereof is to provide a document reading system capable of analyzing a read document with extremely high accuracy and performing accurate character recognition.

上記目的を達成するために、本発明の文書読取システムは、読み取った画像データからなる文書をテキストデータに変換するOCR処理部と、このOCR処理部にて変換されたテキストデータに対して、構文意味解析処理を施し、少なくともテキストデータの格構造及び時制情報からなる構文意味解析情報を抽出する文書意味解析処理部と、前記構文意味解析情報を参照して前記テキストデータのエラーを検出し、このエラーを修正する変換処理部とを備えたことを特徴とする。   In order to achieve the above object, a document reading system of the present invention includes an OCR processing unit that converts a document composed of read image data into text data, and syntax for text data converted by the OCR processing unit. A document semantic analysis processing unit that performs semantic analysis processing and extracts syntactic semantic analysis information including at least the case structure and tense information of text data, and detects errors in the text data with reference to the syntax semantic analysis information. And a conversion processing unit for correcting an error.

このように、構文意味解析処理部によって抽出されたテキストデータの格構造及び時制情報を参照してテキストデータのエラー部分を修正するので、画像データからなる文書を高精度な文字認識にてテキストデータとして読み取ることができる。   In this way, since the error part of the text data is corrected by referring to the case structure and tense information of the text data extracted by the syntax and semantic analysis processing unit, the text data is converted to text data with high accuracy character recognition. Can be read as

また、前記変換処理部は、動詞と名詞との対応関係を定義した格フレーム辞書を用い、構文意味解析部にて動詞として分類された文字に対応した名詞群と、前記動詞に対応するテキストデータ中の名詞とを比較し、この名詞が名詞群に含まれていない場合に名詞群の中の一致度の高い名詞を選択し、テキストデータ中の名詞を選択した名詞に置き換えることが好ましい。
これにより、動詞として分類された文字に対応した名詞を適切に認識することができる。
Further, the conversion processing unit uses a case frame dictionary that defines a correspondence relationship between a verb and a noun, uses a noun group corresponding to a character classified as a verb in the syntax and semantic analysis unit, and text data corresponding to the verb It is preferable to compare the noun in the text data, select a noun having a high degree of coincidence in the noun group when the noun is not included in the noun group, and replace the noun in the text data with the selected noun.
Thereby, the noun corresponding to the character classified as a verb can be recognized appropriately.

さらに、前記変換処理部は、構文意味解析情報を参照し、前記文書意味解析部にて動詞と分類された文字の時制を認識し、その時制における前記動詞の形態を導き出してテキストデータ中における対応文字と比較し、不一致である場合は、テキストデータ中の動詞を導き出した形態の動詞に置き換えることが望ましい。
これにより、動詞と分類された文字を時制に基づく適切な形態とすることができる。
Further, the conversion processing unit refers to the syntactic and semantic analysis information, recognizes the tense of the character classified as a verb in the document semantic analysis unit, derives the form of the verb in the tense, and corresponds to the text data If there is a discrepancy compared to the character, it is desirable to replace the verb in the text data with the derived verb.
Thereby, the character classified as a verb can be made into the appropriate form based on tense.

本発明の文書読取システムによれば、構文意味解析処理部によって抽出されたテキストデータの格構造及び時制情報を参照してテキストデータのエラー部分を修正するので、画像データからなる文書を高精度な文字認識にてテキストデータとして読み取ることができる。   According to the document reading system of the present invention, the error part of the text data is corrected with reference to the case structure and tense information of the text data extracted by the syntax and semantic analysis processing unit, so that the document composed of image data can be processed with high accuracy. It can be read as text data by character recognition.

以下、本発明の実施形態について、図面を参照して説明する。
図1は、本発明の実施形態に係る文書読取システム100を示したブロック図である。
図に示すように、本実施形態の文書読取システム100は、文書入力部1と、OCR処理部2と、構文意味解析処理部3と、変換処理部4と、テキストデータ出力部5とを備えている。
文書入力部1は、図示せぬ読取面に載置された原稿の画像をスキャンし、画像データとしてOCR処理部2へ送信する。
OCR処理部2は、文書入力部1によって読み取った原稿の画像データに対して、OCR(Optical Character Reader)処理を施し、画像データをテキストデータに変換する。そして、このOCR処理部2は、変換したテキストデータを構文意味解析処理部3へ送信する。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing a document reading system 100 according to an embodiment of the present invention.
As shown in the figure, the document reading system 100 of this embodiment includes a document input unit 1, an OCR processing unit 2, a syntax and semantic analysis processing unit 3, a conversion processing unit 4, and a text data output unit 5. ing.
The document input unit 1 scans an image of a document placed on a reading surface (not shown) and transmits it as image data to the OCR processing unit 2.
The OCR processing unit 2 performs OCR (Optical Character Reader) processing on the image data of the original read by the document input unit 1 to convert the image data into text data. Then, the OCR processing unit 2 transmits the converted text data to the syntax and semantic analysis processing unit 3.

構文意味解析処理部3は、OCR処理部2からのテキストデータに対して構文意味解析処理を施し、このテキストデータにおける格構造、時制・様相(テンス・アスペクト)情報を抽出し、テキストデータとともに、このテキストデータの格構造、時制・様相情報からなる構文意味解析情報を変換処理部4へ送信する。
変換処理部4は、構文意味解析処理部3からの構文意味解析情報に基づいて、テキストデータに修正処理を施して出力する。
テキストデータ出力部5は、例えば、ディスプレイなどの表示部からなるもので、変換処理部4にて修正処理が施されたテキストデータに基づく文字を表示する。
そして、上記文書読取システム100は、文書入力部1を備えた多機能装置とパーソナルコンピュータとの組合せによって構成されるが、多機能装置だけに組み込まれることもある。
The syntactic and semantic analysis processing unit 3 performs syntactic and semantic analysis processing on the text data from the OCR processing unit 2, extracts case structure, tense and aspect information in the text data, and together with the text data, Syntactic and semantic analysis information including the case structure and tense / modal information of the text data is transmitted to the conversion processing unit 4.
The conversion processing unit 4 performs correction processing on the text data based on the syntax / semantic analysis information from the syntax / semantic analysis processing unit 3 and outputs the text data.
The text data output unit 5 includes a display unit such as a display, for example, and displays characters based on the text data subjected to the correction processing by the conversion processing unit 4.
The document reading system 100 is configured by a combination of a multi-function device including the document input unit 1 and a personal computer, but may be incorporated only in the multi-function device.

次に、上記構成の文書読取システム100の動作例を、図2に示すフローチャートに沿って説明する。
文書入力部1の読み取り面(不図示)に原稿を配置し、読み取りを開始させる。このようにすると、文書入力部1が、読み取り面に配置された原稿の文書を画像データとして読み取る(ステップS01)。
なお、ここでは、読み取らせる原稿に「私は彼が書いた本を読んだ」と記載されている場合を例にとって説明する。
したがって、文書入力部1では、「私は彼が書いた本を読んだ」の文書が画像データとして読み取られる。
そして、この文書入力部1は、読み取った画像データをOCR処理部2へ送信する(ステップS02)。
Next, an operation example of the document reading system 100 having the above configuration will be described with reference to a flowchart shown in FIG.
An original is placed on the reading surface (not shown) of the document input unit 1 and reading is started. In this way, the document input unit 1 reads the original document placed on the reading surface as image data (step S01).
Here, a case where “I read a book he wrote” is described as an example in the manuscript to be read.
Therefore, in the document input unit 1, a document “I read a book he wrote” is read as image data.
The document input unit 1 transmits the read image data to the OCR processing unit 2 (step S02).

次に、OCR処理部2は、文書入力部1からの画像データに対して、OCR処理を施し、画像データ「私は彼が書いた本を読んだ」をテキストデータに変換する(ステップS03)。
そして、OCR処理部2は、変換したテキストデータを構文意味解析処理部3へ送信する(ステップS04)。
ここで、OCR処理では、原稿の汚れや原稿の文書の記載状態(例えば、印刷時におけるインクのかすれやつぶれなど)が起因して、画像データからテキストデータへの変換時にエラーが生じることがある。
ここでは、OCR処理部2にて、画像データ「私は彼が書いた本を読んだ」が、テキストデータ「私は彼が書いた木を読んた」と変換された場合について説明する。
Next, the OCR processing unit 2 performs OCR processing on the image data from the document input unit 1 to convert the image data “I read a book he wrote” into text data (step S03). .
Then, the OCR processing unit 2 transmits the converted text data to the syntax and semantic analysis processing unit 3 (step S04).
Here, in the OCR process, an error may occur during conversion from image data to text data due to document smearing or document document description (for example, ink fading or crushing during printing). .
Here, a case will be described in which the OCR processing unit 2 converts the image data “I read a book he wrote” into text data “I read a tree he wrote”.

構文意味解析処理部3は、OCR処理部2からのテキストデータに対して構文意味解析処理を施し、構文意味解析情報を抽出する(ステップS05)。
図3に示すものは、構文意味解析処理部3による構文意味解析の結果である。
図に示すように、構文意味解析処理部3は、テキストデータを構成する各文字の品詞を、述語(PRED)、主語(SUBJ)、目的語(OBJ)、修飾語(ADJUNCT)などからなる格構造に分類する。
また、構文意味解析処理部3は、分類したテキストデータの時制(TENSE)を判定し、時制が過去である場合には、「PAST」とした時制情報を抽出する。
The syntax and semantic analysis processing unit 3 performs syntax and semantic analysis processing on the text data from the OCR processing unit 2 to extract syntax and semantic analysis information (step S05).
FIG. 3 shows the result of the syntax and semantic analysis by the syntax and semantic analysis processing unit 3.
As shown in the figure, the syntactic and semantic analysis processing unit 3 determines the part of speech of each character constituting the text data from a predicate (PRED), a subject (SUBJ), an object (OBJ), a modifier (ADJUNCT), and the like. Classify into structure.
The syntactic and semantic analysis processing unit 3 determines the tense (TENSE) of the classified text data, and extracts the tense information with “PAST” if the tense is in the past.

ここでは、述語「読む」、主語「私」、目的語「木」に分類され、さらに目的語「木」にかかる修飾語「書く、彼」に分類される。また、主語「私」、目的語「木」には、「PRED」が付され、述語(PRED)「読む」と属性があることが示され、さらに、述語「読む」の時制(TENSE)が過去(PAST)であることが示される。
同様に、修飾語自体も、述語「書く」、主語「彼」に分類され、主語「彼」には「PRED」が付され、述語(PRED)「書く」と属性があることが示され、さらに、述語「書く」の時制(TENSE)が過去(PAST)であることが示される。
そして、この構文意味解析処理部3は、テキストデータとともに上記のように抽出した格構造及び時制情報からなる構文意味解析情報を変換処理部4へ送信する(ステップS06)。
Here, it is classified into the predicate “read”, the subject “I”, and the object “tree”, and further, the modifier “write, he” related to the object “tree”. In addition, the subject “I” and the object “tree” are assigned “PRED” to indicate that the predicate (PRED) “read” has an attribute, and the predicate “read” tense (TENSE) is It is shown to be in the past (PAST).
Similarly, the modifier itself is classified into the predicate “write” and the subject “he”, the subject “he” is given “PRED”, and the predicate (PRED) “write” is shown to have an attribute, Further, it is shown that the tense of the predicate “write” (TENSE) is the past (PAST).
Then, the syntax and semantic analysis processing unit 3 transmits the syntax and semantic analysis information including the case structure and tense information extracted as described above together with the text data to the conversion processing unit 4 (step S06).

変換処理部4は、構文意味解析処理部3からの構文意味解析情報を参照し、テキストデータにおけるエラーを検出し(ステップS07)、エラーを検出した際には、この検出したエラーを修正する(ステップS08)。
ここで、テキストデータには、「本」が「木」となっているエラー1と、「読んだ」が「読んた」となっているエラー2が含まれている。
The conversion processing unit 4 refers to the syntax and semantic analysis information from the syntax and semantic analysis processing unit 3, detects an error in the text data (step S07), and corrects the detected error when an error is detected (step S07). Step S08).
Here, the text data includes an error 1 in which “book” is “tree” and an error 2 in which “read” is “read”.

(エラー1について)
変換処理部4は、予め用意されている格フレーム辞書を用い、「本」が「木」となっていることを検出する。この格フレーム辞書は、動詞と名詞との対応関係を定義して動詞に対応する名詞群を定めた辞書であり、図示しない記憶部に記憶されている。
そして、変換処理部4は、まず、格フレーム辞書を記憶部から呼び出し、動詞である「読む」に対応した名詞群中の名詞と「木」とを比較し、「読む」の動詞に対応した名詞群に「木」の有無を検出する。
この場合、変換処理部4は、動詞「読む」に対応した名詞群に「木」が含まれていないことより、エラーであると判定する。
(About error 1)
The conversion processing unit 4 uses a case frame dictionary prepared in advance to detect that “book” is “tree”. This case frame dictionary is a dictionary in which a noun group corresponding to a verb is defined by defining a correspondence relationship between a verb and a noun, and is stored in a storage unit (not shown).
The conversion processing unit 4 first calls the case frame dictionary from the storage unit, compares the nouns in the noun group corresponding to the verb “read” and “tree”, and corresponds to the verb “read”. The presence of “tree” in the noun group is detected.
In this case, the conversion processing unit 4 determines that there is an error because “tree” is not included in the noun group corresponding to the verb “read”.

さらに、変換処理部4は、動詞「読む」に対応した名詞群の中に、「木」と一致度の高い名詞を選択する。なお、この一致度の判定は、例えば、画像処理により対比することにより行う。
この場合、変換処理部4は、動詞「読む」に対応した名詞群の中から「木」と一致度の最も高い「本」を選択する。
そして、変換処理部4は、エラー1である「木」を、選択した「本」に修正する。
Further, the conversion processing unit 4 selects a noun having a high degree of coincidence with “tree” from the noun group corresponding to the verb “read”. Note that the degree of coincidence is determined, for example, by comparison using image processing.
In this case, the conversion processing unit 4 selects “book” having the highest degree of coincidence with “tree” from the noun group corresponding to the verb “read”.
Then, the conversion processing unit 4 corrects “tree”, which is error 1, to the selected “book”.

(エラー2について)
変換処理部4は、構文意味解析情報を参照し、動詞「読む」の時制がPASTであると認識し、この動詞「読む」の過去形「読んだ」を導き出す。
さらに、変換処理部4は、時制によって導き出した「読んだ」とテキストデータ中の「読んた」とを比較し、「読んた」と「読んだ」とが不一致であることより、「読んた」がエラーであると判定し、この「読んた」を「読んだ」に修正する。
(About error 2)
The conversion processing unit 4 refers to the syntactic and semantic analysis information, recognizes that the tense of the verb “read” is PAST, and derives the past tense “read” of the verb “read”.
Furthermore, the conversion processing unit 4 compares the “read” derived by the tense with the “read” in the text data, and the “read” and the “read” are inconsistent. ”Is determined to be an error, and this“ read ”is corrected to“ read ”.

変換処理部4は、上記のようにしてテキストデータのエラーの修正が完了したら(ステップS09)、この修正したテキストデータをテキストデータ出力部5へ出力する(ステップS10)。
テキストデータ出力部5は、変換処理部4から送信された修正されたテキストデータに基づいて、表示部に文書を表示する(ステップS11)。
なお、上記実施形態では、テキストデータの格構造及び時制情報からなる構文意味解析情報に基づいてテキストデータのエラーの修正を行ったが、構文意味解析情報として、さらに、格構造にて分類された助動詞の解析情報である様相(アスペクト)情報を含めても良い。
When the correction of the text data error is completed as described above (step S09), the conversion processing unit 4 outputs the corrected text data to the text data output unit 5 (step S10).
The text data output unit 5 displays the document on the display unit based on the corrected text data transmitted from the conversion processing unit 4 (step S11).
In the above embodiment, text data errors are corrected based on the syntactic and semantic analysis information including the case structure and tense information of the text data. However, the syntax and semantic analysis information is further classified by the case structure. Aspect information that is analysis information of auxiliary verbs may be included.

このように、上記実施形態によれば、構文意味解析処理部3によって抽出されたテキストデータの格構造及び時制・様相情報からなる構文意味解析情報を参照してテキストデータのエラー部分を修正するので、画像データからなる文書を高精度な文字認識にてテキストデータとして読み取ることができる。   As described above, according to the above embodiment, the error part of the text data is corrected by referring to the syntactic and semantic analysis information including the case structure and tense / modal information of the text data extracted by the syntactic and semantic analysis processing unit 3. A document composed of image data can be read as text data by high-precision character recognition.

特に、変換処理部4が、動詞と名詞との対応関係を定義した格フレーム辞書を用い、構文意味解析部3にて動詞として分類された文字に対応した名詞群と、動詞に対応するテキストデータ中の名詞とを比較し、この名詞が名詞群に含まれていない場合に名詞群の中の一致度の高い名詞を選択し、テキストデータ中の名詞を選択した名詞に置き換えるので、動詞として分類された文字に対応した名詞を適切に認識することができる。   In particular, the conversion processing unit 4 uses a case frame dictionary that defines the correspondence between verbs and nouns, uses a noun group corresponding to characters classified as verbs in the syntax and semantic analysis unit 3, and text data corresponding to the verbs. If the noun is not included in the noun group, a noun with a high degree of matching is selected from the noun group, and the noun in the text data is replaced with the selected noun. The noun corresponding to the written character can be recognized appropriately.

しかも、変換処理部4は、構文意味解析情報を参照し、文書意味解析部3にて動詞と分類された文字の時制を認識し、その時制における動詞の形態を導き出してテキストデータ中における対応文字と比較し、不一致である場合は、テキストデータ中の動詞を導き出した形態の動詞に置き換えるので、動詞と分類された文字を時制に基づく適切な形態とすることができる。   Moreover, the conversion processing unit 4 refers to the syntax semantic analysis information, recognizes the tense of the character classified as a verb in the document semantic analysis unit 3, derives the form of the verb in the tense, and corresponds to the character in the text data. In the case of a mismatch, the verb in the text data is replaced with the derived verb, so that the character classified as a verb can be in an appropriate form based on tense.

本発明の実施形態に係る文書読取システムの構成を説明するブロック図である。It is a block diagram explaining the structure of the document reading system which concerns on embodiment of this invention. 文書読取システムにおける処理を説明するフローチャートである。It is a flowchart explaining the process in a document reading system. 構文意味解析情報を説明する図である。It is a figure explaining syntax semantic analysis information.

符号の説明Explanation of symbols

2 OCR処理部
3 文書意味解析処理部
4 変換処理部
100 文書読取システム
2 OCR processing unit 3 Document semantic analysis processing unit 4 Conversion processing unit 100 Document reading system

Claims (3)

読み取った画像データからなる文書をテキストデータに変換するOCR処理部と、
このOCR処理部にて変換されたテキストデータに対して構文意味解析処理を施し、少なくともテキストデータの格構造及び時制情報からなる構文意味解析情報を抽出する文書意味解析処理部と、
前記構文意味解析情報を参照して前記テキストデータのエラーを検出し、このエラーを修正する変換処理部と
を備えたことを特徴とする文書読取システム。
An OCR processing unit for converting a document composed of read image data into text data;
A document semantic analysis processing unit that performs syntax semantic analysis processing on the text data converted by the OCR processing unit and extracts syntax semantic analysis information including at least the case structure and tense information of the text data;
A document reading system, comprising: a conversion processing unit that detects an error in the text data with reference to the syntactic and semantic analysis information and corrects the error.
前記変換処理部は、動詞と名詞との対応関係を定義した格フレーム辞書を用い、構文意味解析部にて動詞として分類された文字に対応した名詞群と、前記動詞に対応するテキストデータ中の名詞とを比較し、この名詞が名詞群に含まれていない場合に名詞群の中の一致度の高い名詞を選択し、テキストデータ中の名詞を選択した名詞に置き換えることを特徴とする請求項1に記載の文書読取システム。   The conversion processing unit uses a case frame dictionary that defines a correspondence relationship between a verb and a noun, uses a noun group corresponding to characters classified as a verb in the syntactic and semantic analysis unit, and text data corresponding to the verb A comparison with a noun, and when the noun is not included in the noun group, a noun having a high degree of coincidence in the noun group is selected, and the noun in the text data is replaced with the selected noun. 2. The document reading system according to 1. 前記変換処理部は、構文意味解析情報を参照し、前記文書意味解析部にて動詞と分類された文字の時制を認識し、その時制における前記動詞の形態を導き出してテキストデータ中における対応文字と比較し、不一致である場合は、テキストデータ中の動詞を導き出した形態の動詞に置き換えることを特徴とする請求項1または請求項2に記載の文書読取システム。   The conversion processing unit refers to the syntactic and semantic analysis information, recognizes the tense of the character classified as a verb in the document semantic analysis unit, derives the form of the verb in the tense, and the corresponding character in the text data 3. The document reading system according to claim 1, wherein, if they do not match, the verb in the text data is replaced with a derived form of the verb. 4.
JP2005175614A 2005-06-15 2005-06-15 Document reading system Active JP4720309B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005175614A JP4720309B2 (en) 2005-06-15 2005-06-15 Document reading system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005175614A JP4720309B2 (en) 2005-06-15 2005-06-15 Document reading system

Publications (2)

Publication Number Publication Date
JP2006350663A true JP2006350663A (en) 2006-12-28
JP4720309B2 JP4720309B2 (en) 2011-07-13

Family

ID=37646435

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005175614A Active JP4720309B2 (en) 2005-06-15 2005-06-15 Document reading system

Country Status (1)

Country Link
JP (1) JP4720309B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013025699A (en) * 2011-07-25 2013-02-04 Nec Corp Syntactic analysis information creation device, translation device, translation system, syntactic analysis information creation method, and computer program
CN110597760A (en) * 2019-09-18 2019-12-20 苏州派维斯信息科技有限公司 Intelligent method for judging compliance of electronic document
CN110609909A (en) * 2019-09-18 2019-12-24 苏州派维斯信息科技有限公司 Intelligent method for discriminating and surveying mistakes of electronic documents

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102113815B1 (en) * 2017-10-18 2020-06-02 한국전자통신연구원 Interactive Counseling Device and Method

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05120331A (en) * 1991-03-27 1993-05-18 M C Waade Center:Kk Homonym recognizing device
JPH08249428A (en) * 1995-03-08 1996-09-27 Fujitsu Ltd Document recognition device
JP2001337945A (en) * 2000-05-26 2001-12-07 Sharp Corp Automatic editing device, its method, and storage medium used for it

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05120331A (en) * 1991-03-27 1993-05-18 M C Waade Center:Kk Homonym recognizing device
JPH08249428A (en) * 1995-03-08 1996-09-27 Fujitsu Ltd Document recognition device
JP2001337945A (en) * 2000-05-26 2001-12-07 Sharp Corp Automatic editing device, its method, and storage medium used for it

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013025699A (en) * 2011-07-25 2013-02-04 Nec Corp Syntactic analysis information creation device, translation device, translation system, syntactic analysis information creation method, and computer program
US8972239B2 (en) 2011-07-25 2015-03-03 Nec Corporation Syntax analysis information generation apparatus, translation apparatus, translation system, syntax analysis information generating method and computer program
CN110597760A (en) * 2019-09-18 2019-12-20 苏州派维斯信息科技有限公司 Intelligent method for judging compliance of electronic document
CN110609909A (en) * 2019-09-18 2019-12-24 苏州派维斯信息科技有限公司 Intelligent method for discriminating and surveying mistakes of electronic documents

Also Published As

Publication number Publication date
JP4720309B2 (en) 2011-07-13

Similar Documents

Publication Publication Date Title
JP4311365B2 (en) Document processing apparatus and program
GB2422709A (en) Correcting errors in OCR of electronic document using common prefixes or suffixes
US8208726B2 (en) Method and system for optical character recognition using image clustering
US9529792B2 (en) Glossary management device, glossary management system, and recording medium for glossary generation
JP4720309B2 (en) Document reading system
US8773733B2 (en) Image capture device for extracting textual information
US8768058B2 (en) System for extracting text from a plurality of captured images of a document
US20130315485A1 (en) Textual information extraction method using multiple images
US10638001B2 (en) Information processing apparatus for performing optical character recognition (OCR) processing on image data and converting image data to document data
Chowdhury et al. Implementation of an optical character reader (ocr) for bengali language
JP2008257543A (en) Image processing system and program
JP4872285B2 (en) Document management apparatus, document management system, and document management method
JP2006252164A (en) Chinese document processing device
JP2009205209A (en) Document image processor and document image processing program
JP2005339039A (en) Document processor and document processing method
US8972239B2 (en) Syntax analysis information generation apparatus, translation apparatus, translation system, syntax analysis information generating method and computer program
JP2001022773A (en) Key word extracting method for image document
JP4083723B2 (en) Image processing device
JP2004199483A (en) Image output apparatus
JP4992820B2 (en) Data processing apparatus, computer program thereof, and data processing method
JP2010146143A (en) Document processing apparatus and program
US10659654B2 (en) Information processing apparatus for generating an image surrounded by a marking on a document, and non-transitory computer readable recording medium that records an information processing program for generating an image surrounded by a marking on a document
US20090304305A1 (en) Copying system and method
JP2939945B2 (en) Roman character address recognition device
JP2019212209A (en) Character recognition device, method for character recognition, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080317

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100720

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100914

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110321

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140415

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150