JP2002236876A - Analyzing method and analyzer - Google Patents

Analyzing method and analyzer

Info

Publication number
JP2002236876A
JP2002236876A JP2001034056A JP2001034056A JP2002236876A JP 2002236876 A JP2002236876 A JP 2002236876A JP 2001034056 A JP2001034056 A JP 2001034056A JP 2001034056 A JP2001034056 A JP 2001034056A JP 2002236876 A JP2002236876 A JP 2002236876A
Authority
JP
Japan
Prior art keywords
character
character string
analyzing
analysis
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001034056A
Other languages
Japanese (ja)
Inventor
Hironori Fukuda
浩紀 福田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2001034056A priority Critical patent/JP2002236876A/en
Publication of JP2002236876A publication Critical patent/JP2002236876A/en
Withdrawn legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To execute proper correction processing of a recognition error in character recognition. SOLUTION: An analyzing method analyzes a character string obtained by recognizing characters of a character image read by an image reading means. This method has a dividing process (S707) of dividing the characters at dividable time by discriminating whether or not the respective characters obtained as a result of recognizing the characters can be divided by using character information, a joining process (S708) of making candidates for the character string by respectively using the characters before joining and after joining at joinable time by discriminating whether or not the respective characters after the dividing process can be joined with adjacent characters by using the character information, an analyzing process (S709 and S710) of analyzing the respective candidates for the character string made in the joining process by using word information, and an extracting process (S711) of extracting a proper character string as a result of an analysis in the analyzing process.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、文字認識の結果に
対して、文字認識誤りを補正する解析方法、解析装置、
及び処理を実行させるためのプログラム及びプログラム
を記録したコンピュータ読み取り可能な記録媒体に関す
るものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an analysis method and an analysis apparatus for correcting a character recognition error on a character recognition result.
And a computer-readable recording medium on which the program for executing the processing is recorded.

【0002】[0002]

【従来の技術】従来、計算機などへデータを入力する手
段として光学式文字読取装置(OCR)や(OLCR)
が知られている。これら読取装置は入力された画像デー
タを文字として認識する。そして、認識後の文字列に言
語処理的な解析処理を行い、文字の認識誤りを補正する
処理が一般的に行われている。ここで、文字認識結果で
ある文字列に対して行われる言語処理的な解析処理は、
基本的に単語辞書との先頭一致による照合を行い、一致
した辞書上の候補、または形態素解析等の言語解析の結
果、適正と評価された候補を正解候補として、文字認識
結果の文字列を修正するといった手法が一般的である。
2. Description of the Related Art Conventionally, an optical character reader (OCR) or (OLCR) has been used as a means for inputting data to a computer or the like.
It has been known. These reading devices recognize the input image data as characters. In general, a process of performing a linguistic analysis process on the recognized character string to correct a character recognition error is generally performed. Here, the linguistic analysis processing performed on the character string as the character recognition result is as follows.
Basically, matching is performed based on the head match with the word dictionary, and the candidate in the matched dictionary or the result of language analysis such as morphological analysis is used as the correct candidate, and the character string of the character recognition result is corrected. A common practice is to do so.

【0003】一方、手書き入力された文字列の画像を文
字認識する場合は、文字の切り出しに失敗する場合が少
なくない。文字を入力する領域の桝目が指定されている
場合はともかく、フリーフォーマットである入力領域に
べた書きされた文字列は文字ピッチが不規則となる場合
が多く、文字の切り出しに失敗する可能性は高くなる。
このような文字の切り出しに失敗した文字認識後の文字
列は、文字列を構成する単語が、照合する単語辞書に格
納された単語と文字数が不一致となる場合が多い。その
ため、文字切り誤りを起こした単語以降の文字列の照合
は、照合の開始位置がずれるため、単語辞書との先頭一
致による照合に失敗する場合が極めて多くなる。その結
果、文字切り誤りを起こした文字列に対しては、文字認
識後の言語処理的な解析処理が十分に機能せず、補正が
適切に行われないといった問題がある。
On the other hand, when recognizing an image of a character string input by handwriting, it often occurs that character extraction fails. Regardless of the case where a cell in the area where characters are input is specified, character strings written in the free format input area often have irregular character pitches, and the possibility of character extraction failure is high. Get higher.
In such a character string after character recognition in which character extraction has failed, in many cases, the number of characters of a word constituting the character string does not match the number of characters stored in a word dictionary to be compared. For this reason, in the collation of the character string after the word in which the character segmentation error has occurred, the collation start position is shifted, so that the collation due to the head match with the word dictionary often fails. As a result, for a character string in which a character segmentation error has occurred, there is a problem in that linguistic analysis processing after character recognition does not function sufficiently and correction is not properly performed.

【0004】[0004]

【発明が解決しようとする課題】本発明は上記問題点を
鑑みてなされたものであり、文字認識の後処理として解
析処理を行うことにより適切な認識誤りの補正処理を実
現することを目的とし、特に、文字切り誤りを起こした
文字認識結果に対して、適切な文字認識誤りの補正を可
能とすることを目的とする。
SUMMARY OF THE INVENTION The present invention has been made in consideration of the above problems, and has as its object to realize an appropriate recognition error correction process by performing an analysis process as a post-process of character recognition. In particular, an object of the present invention is to make it possible to appropriately correct a character recognition error with respect to a character recognition result in which a character segmentation error has occurred.

【0005】[0005]

【課題を解決するための手段】上記目的を達成するため
に、画像読み取り手段により読み取った文字画像を文字
認識して得られる文字列を解析する本発明の解析方法
は、文字認識した結果、得られた各文字が分割可能であ
るかどうかを文字情報を用いて判別し、分割可能である
場合にその文字を分割する分割工程と、分割工程後の各
文字が、隣り合う文字と結合可能であるかどうかを前記
文字情報を用いて判別し、結合可能である場合に、結合
前及び結合後の文字をそれぞれ用いた文字列候補を作成
する結合工程と、前記結合工程で作成された文字列候補
それぞれについて、単語情報を用いて解析を行う解析工
程と、前記解析工程における解析の結果、適正な文字列
を抽出する抽出工程とを有する。
In order to achieve the above-mentioned object, an analysis method of the present invention for analyzing a character string obtained by character recognition of a character image read by an image reading means is provided. The character information is used to determine whether or not each of the divided characters can be divided.If the character can be divided, a dividing step of dividing the character, and each character after the dividing step can be combined with an adjacent character. Determining whether or not there is a character string using the character information, and when combining is possible, a combining step of creating a character string candidate using the characters before and after combining, respectively, a character string created in the combining step It has an analysis step of analyzing each candidate using word information, and an extraction step of extracting a proper character string as a result of the analysis in the analysis step.

【0006】また、別の構成によれば、画像読み取り手
段により読み取った文字画像を文字認識して得られる文
字列を解析する本発明の解析方法は、文字認識した結
果、得られた各文字が分割可能であるかどうかを文字情
報を用いて判別し、分割可能である場合にその文字を分
割し、分割前及び分割後の文字をそれぞれ用いた文字列
候補を作成する分割工程と、前記分割工程で作成された
文字列候補それぞれについて、単語情報を用いて解析を
行う解析工程と、前記解析工程における解析の結果、適
正な文字列を抽出する抽出工程とを有する。
Further, according to another configuration, the analysis method of the present invention for analyzing a character string obtained by character recognition of a character image read by the image reading means, the character obtained as a result of the character recognition is converted into a character string. Determining whether or not the character can be divided using character information, dividing the character if the character can be divided, and creating a character string candidate using the characters before and after the division, respectively; The method includes an analysis step of analyzing each of the character string candidates created in the step using the word information, and an extraction step of extracting an appropriate character string as a result of the analysis in the analysis step.

【0007】また、別の構成によれば、画像読み取り手
段により読み取った文字画像を文字認識して得られる文
字列を解析する本発明の解析方法は、文字認識した結
果、得られた各文字が隣り合う文字と結合可能であるか
どうかを文字情報を用いて判別し、結合可能である場合
に、結合前及び結合後の文字をそれぞれ用いた文字列候
補を作成する結合工程と、前記結合工程で作成された文
字列候補それぞれについて、単語情報を用いて解析を行
う解析工程と、前記解析工程における解析の結果、適正
な文字列を抽出する抽出工程とを有する。
Further, according to another configuration, the analysis method of the present invention for analyzing a character string obtained by character recognition of a character image read by the image reading means, the character obtained as a result of the character recognition is converted into a character string. Determining whether or not it is possible to combine with adjacent characters by using character information, and when combining is possible, creating a character string candidate using the characters before and after combining, respectively; And an extraction step of extracting a proper character string as a result of the analysis in the analysis step with respect to each of the character string candidates created in step (1).

【0008】本発明の好適な一様態によれば、前記文字
情報は、複数の文字について各文字が分割・結合可能で
あるかを示すデータと、分割・結合が可能である場合
に、分割・結合後の候補を示すデータとを含む。
According to a preferred aspect of the present invention, the character information includes data indicating whether each character can be divided / combined for a plurality of characters. And data indicating candidates after the combination.

【0009】また、本発明の好適な一様態によれば、前
記文字情報は、左右方向及び上下方向それぞれについ
て、各文字のデータを有し、前記分割工程及び結合工程
では、文字認識して得られる文字列の方向が左右方向の
場合には左右方向の文字情報を用い、文字認識して得ら
れる文字列の方向が上下方向の場合に、上下方向の文字
情報を用いる。
According to a preferred aspect of the present invention, the character information includes data of each character in each of the left-right direction and the up-down direction. When the direction of the character string to be input is the horizontal direction, the character information in the horizontal direction is used, and when the direction of the character string obtained by character recognition is the vertical direction, the character information in the vertical direction is used.

【0010】また、本発明の好適な一様態によれば、前
記単語情報は、複数単語に関するデータを有する。
According to a preferred aspect of the present invention, the word information includes data on a plurality of words.

【0011】更に、本発明の好適な一様態によれば、前
記単語情報は、住所・地名の表記を格納した住所地名の
単語に関するデータを含み、前記解析工程において住所
地名の単語に関するデータを優先的に用いるように設定
する工程を更に有する。
Further, according to a preferred aspect of the present invention, the word information includes data relating to the word of the address place name storing the representation of the address / place name, and the data relating to the word of the address place name is prioritized in the analyzing step. The method further includes a step of setting the information to be used.

【0012】また、本発明の好適な一様態によれば、前
記抽出工程で抽出した文字列を表示する表示工程を更に
有する。
According to a preferred embodiment of the present invention, the method further includes a display step of displaying the character string extracted in the extraction step.

【0013】また、上記目的を達成するために、画像読
み取り手段により読み取った文字画像を文字認識して得
られる文字列を解析する本発明の解析装置は、複数の文
字について、各文字が分割・結合可能であるかを示すデ
ータと、分割・結合が可能である場合に、分割・結合後
の候補を示すデータとを含む文字情報を記憶する第1の
記憶手段と、複数単語に関するデータを示す単語情報を
記憶する第2の記憶手段と、文字認識した結果、得られ
た各文字が分割可能であるかどうかを前記文字情報を用
いて判別し、分割可能である場合にその文字を分割する
分割手段と、分割処理後の各文字が、隣り合う文字と結
合可能であるかどうかを前記文字情報を用いて判別し、
結合可能である場合に、結合前及び結合後の文字をそれ
ぞれ用いた文字列候補を作成する結合手段と、前記結合
手段により作成された文字列候補それぞれについて、前
記単語情報を用いて解析を行う解析手段と、前記解析手
段による解析の結果、適正な文字列を抽出する抽出手段
とを有する。
According to another aspect of the present invention, there is provided an analyzing apparatus for analyzing a character string obtained by character recognition of a character image read by an image reading means. A first storage unit for storing character information including data indicating whether the combination is possible and data indicating candidates after division / combination when division / combination is possible; and data representing a plurality of words. A second storage unit for storing word information; and determining whether each character obtained as a result of character recognition is divisible by using the character information, and dividing the character when the character is divisible. Dividing means, determine whether each character after the division process can be combined with adjacent characters using the character information,
When combining is possible, combining means for creating character string candidates using the characters before and after combining, respectively, and character string candidates created by the combining means are analyzed using the word information. It has an analyzing means and an extracting means for extracting a proper character string as a result of the analysis by the analyzing means.

【0014】また、別の構成によれば、画像読み取り手
段により読み取った文字画像を文字認識して得られる文
字列を解析する解析装置であって、複数の文字につい
て、各文字が分割・結合可能であるかを示すデータと、
分割・結合が可能である場合に、分割・結合後の候補を
示すデータとを含む文字情報を記憶する第1の記憶手段
と、複数単語に関するデータを示す単語情報を記憶する
第2の記憶手段と、文字認識した結果、得られた各文字
が分割可能であるかどうかを前記文字情報を用いて判別
し、分割可能である場合にその文字を分割し、分割前及
び分割後の文字をそれぞれ用いた文字列候補を作成する
分割手段と、前記分割手段により作成された文字列候補
それぞれについて、前記単語情報を用いて解析を行う解
析手段と、前記解析手段による解析の結果、適正な文字
列を抽出する抽出手段とを有する。
According to another aspect of the present invention, there is provided an analyzing apparatus for analyzing a character string obtained by character recognition of a character image read by image reading means, wherein each character can be divided and combined for a plurality of characters. Data indicating whether
First storage means for storing character information including data indicating candidates after division and combination when division and combination are possible, and second storage means for storing word information indicating data relating to a plurality of words As a result of character recognition, it is determined whether or not each obtained character can be divided using the character information.If the character can be divided, the character is divided. Dividing means for creating a character string candidate used; analyzing means for analyzing each of the character string candidates created by the dividing means using the word information; Extraction means for extracting

【0015】更に、別の構成によれば、画像読み取り手
段により読み取った文字画像を文字認識して得られる文
字列を解析する解析装置であって、複数の文字につい
て、各文字が分割・結合可能であるかを示すデータと、
分割・結合が可能である場合に、分割・結合後の候補を
示すデータとを含む文字情報を記憶する第1の記憶手段
と、複数単語に関するデータを示す単語情報を記憶する
第2の記憶手段と、文字認識した結果、得られた各文字
が隣り合う文字と結合可能であるかどうかを前記文字情
報を用いて判別し、結合可能である場合に、結合前及び
結合後の文字をそれぞれ用いた文字列候補を作成する結
合手段と、前記結合手段により作成された文字列候補そ
れぞれについて、前記単語情報を用いて解析を行う解析
手段と、前記解析手段による解析の結果、適正な文字列
を抽出する抽出手段とを有する。
Further, according to another configuration, there is provided an analyzing apparatus for analyzing a character string obtained by character recognition of a character image read by image reading means, wherein each character can be divided and combined for a plurality of characters. Data indicating whether
First storage means for storing character information including data indicating candidates after division and combination when division and combination are possible, and second storage means for storing word information indicating data relating to a plurality of words It is determined whether or not each character obtained as a result of character recognition can be combined with an adjacent character by using the character information, and when combining is possible, the characters before and after combining are used, respectively. Combining means for creating a candidate character string, analyzing means for analyzing each of the character string candidates created by the combining means using the word information, and a result of the analysis by the analyzing means, an appropriate character string. Extracting means for extracting.

【0016】本発明の好適な一様態によれば、前記文字
情報は、左右方向及び上下方向それぞれについて、各文
字のデータを有し、前記分割手段及び結合手段は、文字
認識して得られる文字列の方向が左右方向の場合には左
右方向の文字情報を用い、文字認識して得られる文字列
の方向が上下方向の場合に、上下方向の文字情報を用い
る。
According to a preferred aspect of the present invention, the character information includes data of each character in each of the left-right direction and the up-down direction, and the dividing unit and the combining unit include a character obtained by character recognition. When the column direction is the left-right direction, the character information in the left-right direction is used. When the direction of the character string obtained by character recognition is the up-down direction, the character information in the up-down direction is used.

【0017】また、本発明の好適な一様態によれば、前
記単語情報は、住所・地名の表記を格納した住所地名の
単語に関するデータを含み、前記解析手段による住所地
名の単語に関するデータを優先的に用いるように設定す
る手段を更に有する。
According to a preferred aspect of the present invention, the word information includes data relating to the word of the address place name storing the notation of the address and the place name, and the data relating to the word of the address place name by the analysis means is given priority. And a means for making settings to be used in common.

【0018】更に、本発明の好適な一様態によれば、前
記抽出手段により抽出した文字列を表示する表示手段を
更に有する。
Further, according to a preferred embodiment of the present invention, the apparatus further comprises display means for displaying the character string extracted by the extraction means.

【0019】また、上記目的を達成するために、情報処
理装置が実行可能な本発明のプログラムは、上記いずれ
かに記載の解析方法を実現するためのプログラムコード
を有する。
Further, in order to achieve the above object, a program of the present invention which can be executed by an information processing apparatus has a program code for implementing any one of the above-described analysis methods.

【0020】また、上記目的を達成するために、コンピ
ュータ装置が実行可能な本発明のプログラムは、前記プ
ログラムを実行したコンピュータ装置を、上記いずれか
に記載の解析装置として機能させる。
In order to achieve the above object, a program of the present invention which can be executed by a computer device causes the computer device executing the program to function as any one of the analyzers described above.

【0021】更に、上記目的を達成するために、本発明
の記憶媒体は、上記記載のプログラムを記憶する。
Further, in order to achieve the above object, a storage medium of the present invention stores the above-mentioned program.

【0022】また、上記目的を達成するために、本発明
の記憶媒体は、上記いずれかに記載の解析方法で用いら
れる、複数の文字について、各文字が分割・結合可能で
あるかを示すデータと、分割・結合が可能である場合
に、分割・結合後の候補を示すデータとを含む文字情報
を記憶する。
According to another aspect of the present invention, there is provided a storage medium according to any one of the above-described methods, comprising: a plurality of data indicating whether each character can be divided / combined. And character data including data indicating candidates after division / combination when division / combination is possible.

【0023】本発明の文字認識後の解析方法によれば、
読み込んだ画像データを文字認識し、その結果作成され
る文字列候補に対して文字構成辞書との照合を行うこと
により、文字の切り出しパターンの可能性を網羅した文
字列候補を作成し、それらの文字列候補に対して言語処
理的な解析処理を行うことで、文字切り誤りを起こした
誤認識文字列に対しても適切な文字列の修正を行うこと
ができる。
According to the analysis method after character recognition of the present invention,
Character recognition is performed on the read image data, and the resulting character string candidates are compared with the character configuration dictionary to create character string candidates that cover the possibility of character cutout patterns. By performing linguistic analysis processing on the character string candidates, it is possible to correct the character string appropriately even for an erroneously recognized character string in which a character cut error has occurred.

【0024】[0024]

【発明の実施の形態】以下、添付図面を参照して本発明
の好適な実施の形態を詳細に説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Preferred embodiments of the present invention will be described below in detail with reference to the accompanying drawings.

【0025】図1は、本発明の実施の形態における文字
認識処理装置全体の動作構成を示すブロック図である。
FIG. 1 is a block diagram showing an operation configuration of the entire character recognition processing apparatus according to the embodiment of the present invention.

【0026】図1において、101は、例えば光学的読
取装置を用いて画像データを入力する画像データ入力
部、102は、画像データ入力部101において入力さ
れた画像データから文字の切り出し及び認識を行う文字
認識部、103は文字分割・結合部であり、文字認識部
102で認識された文字列の各文字に対し、まず、後述
する文字構成辞書を参照しながら文字の分割処理を行
い、文字列候補を作成する。そして次に分割処理で作成
された文字列候補に対して、文字構成辞書を参照しなが
ら文字の結合処理を行い、文字列候補を作成する。
In FIG. 1, reference numeral 101 denotes an image data input unit for inputting image data using, for example, an optical reading device; and 102, a character is cut out and recognized from the image data input by the image data input unit 101. A character recognizing unit 103 is a character dividing / combining unit. For each character of the character string recognized by the character recognizing unit 102, first, a character dividing process is performed with reference to a character configuration dictionary described later. Create suggestions. Then, the character string candidate created by the division processing is subjected to character combining processing with reference to a character configuration dictionary, thereby creating a character string candidate.

【0027】104は言語処理的解析部であり、文字分
割・結合部103で作成された文字列候補に対して、例
えば形態素解析等の言語処理を適用し、文字列候補の正
当性を評価し、適正な候補を作成する。105は、言語
処理的解析部104で作成された適正な文字列候補を文
字認識部102による文字認識結果の適正候補として出
力し、表示する認識結果表示部、106は、文字がどの
ような文字に分割可能であるか、及び、文字がどのよう
な文字と結合し1つの文字を構成可能であるかの情報を
格納している文字構成辞書、107は、言語処理的な解
析を行うために、表記、読み、文法情報等から構成され
る単語辞書である。文字構成辞書106及び単語辞書1
07については、それぞれ図4及び図5を参照して後述
する。
Reference numeral 104 denotes a linguistic processing analysis unit which applies linguistic processing such as morphological analysis to the character string candidates created by the character division / combination unit 103 to evaluate the validity of the character string candidates. , Create the right candidate. A recognition result display unit 105 outputs a proper character string candidate created by the linguistic processing analysis unit 104 as a proper candidate of a character recognition result by the character recognition unit 102, and displays the recognition result display unit. The character composition dictionary 107 stores information on whether the character can be divided into characters and what characters can be combined with each other to form one character. It is a word dictionary composed of words, notations, readings, grammar information, and the like. Character composition dictionary 106 and word dictionary 1
07 will be described later with reference to FIGS. 4 and 5, respectively.

【0028】また、108は、本発明の処理手続きや処
理の状態を記憶したり、作業中のバッファ等の一時的な
記憶としても使用される記憶部、109は、記憶部10
8に記憶された処理手続きの呼び出し/実行を行い、表
示部110に文字を描画したり、指示部111からの信
号に応じて装置全体の動作を制御する制御部、110は
表示部、111は指示部であり、キーボードとマウスな
どのポインティングデバイスで代表され、文字の入力や
実行指示、取り消し指示、あるいは取り消し指示などを
可能にする。
Reference numeral 108 denotes a storage unit which stores the processing procedure and processing state of the present invention and is also used as a temporary storage such as a working buffer.
8 is a control unit that calls / executes the processing procedure stored in 8, draws characters on the display unit 110, and controls the operation of the entire apparatus in response to a signal from the instruction unit 111. An instruction unit, which is represented by a keyboard and a pointing device such as a mouse, enables input of characters, execution instruction, cancellation instruction, cancellation instruction, and the like.

【0029】図2は本発明の実施の形態における文字認
識処理装置のハードウエア構成の一例を示すブロック図
である。
FIG. 2 is a block diagram showing an example of a hardware configuration of the character recognition processing device according to the embodiment of the present invention.

【0030】図2において、201はCPU(中央制御
装置)、202はROM(読み出し専用メモリ)、20
3はRAM(随時読み出し書き込みメモリ)、204は
FD(フロッピー(登録商標)ディスク)ドライブ、2
05はFD、206はHD(ハードディスク)ドライ
ブ、207はキーボード、208はマウス、209はデ
ィスプレイ、210はプリンタ、211はイメージリー
ダ、212は制御バスであり、いわゆるパーソナルコン
ピュータやなどの既知の一般的な機器で構成される。
In FIG. 2, reference numeral 201 denotes a CPU (central control unit); 202, a ROM (read only memory);
Reference numeral 3 denotes a RAM (random read / write memory), reference numeral 204 denotes an FD (floppy (registered trademark) disk) drive,
Reference numeral 05 denotes an FD, 206 denotes an HD (hard disk) drive, 207 denotes a keyboard, 208 denotes a mouse, 209 denotes a display, 210 denotes a printer, 211 denotes an image reader, and 212 denotes a control bus. It consists of various devices.

【0031】図1の動作構成図で示した表示部110は
ディスプレイ209に対応し、指示部111はキーボー
ド207とマウス208に対応し、記憶部108はRA
M203に対応し、制御部109はCPU201に対応
し、画像データ入力部101はイメージリーダ211に
対応する。上記以外の図1に示す辞書及び各部は主にF
DやHDに格納され、後述する処理においてRAM20
3にロードすることにより構成される。
The display section 110 shown in the operation configuration diagram of FIG. 1 corresponds to the display 209, the instruction section 111 corresponds to the keyboard 207 and the mouse 208, and the storage section 108 has the RA.
The control unit 109 corresponds to the CPU 201, and the image data input unit 101 corresponds to the image reader 211. Other than the above, the dictionary and each part shown in FIG.
D or HD, and is stored in the RAM 20
3 is configured.

【0032】図3は、プログラム等が媒体からコンピュ
ータシステムに供給されることを示し、300はコンピ
ュータシステムである。
FIG. 3 shows that a program or the like is supplied from a medium to a computer system, and 300 is a computer system.

【0033】図4は、文字分割・結合部103により行
われる文字分割・結合処理において参照される文字構成
辞書106の一例を示す。見出し文字に該当する各文字
に対して、分割可能な文字の集合、および、結合して1
文字を構成可能である文字の集合を格納している。
(A)は左右方向に分割・結合が可能な文字構成辞書の
例であり、横書き入力された文字の文字認識結果に対し
て使用する。(B)は、上下方向に分割・結合が可能な
文字構成辞書の例であり、縦書き入力された文字の文字
認識結果に対して使用される。
FIG. 4 shows an example of the character configuration dictionary 106 referred to in the character division / combination process performed by the character division / combination unit 103. For each character corresponding to a heading character, a set of characters that can be divided, and 1
Contains a set of characters that can be composed of characters.
(A) is an example of a character configuration dictionary that can be divided and combined in the left-right direction, and is used for a character recognition result of a horizontally input character. (B) is an example of a character configuration dictionary that can be vertically divided and combined, and is used for a character recognition result of a vertically input character.

【0034】(A)の場合について例を挙げると、
「木」という文字は、「刀」、「卜」、「几」、
「力」、「入」、「才」、「工」、「寸」といった文字
と結合し、「朷」、「朴」、「机」、「朸」、「杁」、
「材」、「杠」、「村」といった文字を構成することが可
能であることを示している。また、「往」という文字
は、「彳」と「主」、または「テ」と「主」、または
「干」と「主」といった3通りの組み合わせの文字に分
割することが可能であることを示している。ここで格納
する文字の組み合わせは、文字認識結果として予想され
る文字の組み合わせを格納するのであり、現実には文字
を構成できない組み合わせも含まれている。例えば、文
字「往」に対して、分割可能な文字の組み合わせとして
(彳、主)、(テ、主)、(干、主)の3組を登録する
が、「テ」と「主」を組み合わせても、実際に文字「往」に
はならない。「往」の部首である「彳」は、文字認識の
結果「テ」、「干」という文字に誤認識される可能性を
考慮して、これらの文字を登録している。
An example of the case (A) is as follows.
The characters "tree" are "sword", "to", "ge",
Combined with characters such as "strength", "on", "age", "ko", "dim", and "junk", "paku", "desk", "junki", "iri",
This indicates that it is possible to configure characters such as “wood”, “robot”, and “village”. In addition, the character "go" can be divided into three types of characters, such as "shin" and "main", "te" and "main", or "dry" and "main". Is shown. The combination of characters stored here stores a combination of characters expected as a result of character recognition, and includes combinations that cannot actually constitute characters. For example, for the character "O", three sets of characters that can be divided ((shin, lord), (te, lord), and (dry, lord) are registered. Even if they are combined, the characters do not actually become "outgoing." The name of "shin", which is the radical of "go", is registered in consideration of the possibility that characters "te" and "dry" are erroneously recognized as a result of character recognition.

【0035】(B)は上下方向に分割・結合可能な文字
構成辞書の例である。見出し文字「亠」は、次に並ぶ文
字(縦書き文字列では下方向)「几」、「父」、
「ハ」、「巾」と結合し、それぞれ、「亢」、「交」、
「六」、「市」という文字を構成することが可能であ
る。また、「三」は、上下方向に分割して、(一、二)、
(二、一)、(一、一、一)、の3組の組み合わせの文
字に分割可能であることを示している。
FIG. 4B is an example of a character configuration dictionary that can be divided and combined in the vertical direction. The heading character "I" is the next character (downward in the vertical text) "Ge", "Father",
Combined with "c" and "width", "high", "interchange",
It is possible to compose the characters "six" and "city". Also, "three" is divided in the up-down direction, (1, 2),
This indicates that the character can be divided into three combinations of (2, 1) and (1, 1, 1).

【0036】図5は、言語処理的解析部104で行われ
る言語処理的解析処理において参照される単語辞書の一
例であり、単語の表記、読み、品詞、接続情報等の情報
が格納されている。ここで示される接続情報は、対象と
なる単語の後ろにどのような品詞を持つ単語が接続可能
であるかを示している。例えば、名詞である「アーケー
ド」は、後ろに格助詞である単語と接続して文節を構成
することができることを示している。この辞書は、言語
処理的解析処理として形態素解析を行う場合を想定して
いる。
FIG. 5 is an example of a word dictionary referred to in the linguistic analysis processing performed by the linguistic analysis unit 104, and stores information such as word notation, reading, part of speech, and connection information. . The connection information shown here indicates what part of speech can be connected after the target word. For example, "arcade", which is a noun, indicates that a phrase can be formed by connecting it to a word, which is a case particle at the end. This dictionary assumes a case where morphological analysis is performed as a language processing analysis process.

【0037】図6は、処理過程におけるバッファに格納
される文字列候補の例を示す。(A)は入力画像の文字
列の内容の一例を、(B)はその文字認識結果を示す。
(C)は文字構成辞書106を用いて文字の分割処理を
行った後に作成された文字列候補である。(D)は文字
構成辞書106を用いて文字の結合処理を行った後に作
成された文字列候補である。また、(E)は言語処理的
解析部104で言語処理的補正処理を行った結果、抽出
された適正な文字列候補である。
FIG. 6 shows an example of character string candidates stored in the buffer during the processing. (A) shows an example of the content of the character string of the input image, and (B) shows the character recognition result.
(C) is a character string candidate created after performing character division processing using the character composition dictionary 106. (D) is a character string candidate created after performing a character combining process using the character configuration dictionary 106. (E) is a proper character string candidate extracted as a result of performing the linguistic correction processing by the linguistic analysis unit 104.

【0038】図7は、本実施の形態における文字認識処
理の動作を示すフローチャートである。以下、フローチ
ャートに基づき、処理手順を順を追って説明する。
FIG. 7 is a flowchart showing the operation of the character recognition process according to the present embodiment. The processing procedure will be described below in order based on the flowchart.

【0039】まず、ステップS701においてプログラ
ムをロードする。本実施の形態の文字認識処理プログラ
ムを格納した外部記憶装置から、RAMにロードする処
理である。図2及び図3に示す構成では、外部記憶装置
としてFD205から文字認識処理プログラムをロード
して実行する構成となっているが、この他にFD205
から一旦HD(ハードディスク)に格納(インストー
ル)しておき、HDからロードするようにしてもよい。
First, a program is loaded in step S701. This is a process of loading the character recognition processing program of the present embodiment into the RAM from the external storage device storing the program. 2 and 3, the character recognition processing program is loaded from the FD 205 and executed as an external storage device.
After that, the program may be temporarily stored (installed) in the HD (hard disk) and loaded from the HD.

【0040】ステップS702では、文字認識を行う画
像を入力する。例えば、図2のイメージリーダ211な
どの装置から、画像データを記憶部108に取り込む。
これにより、図6(A)のような文字画像が読み込まれ
る。
In step S702, an image for character recognition is input. For example, image data is loaded into the storage unit 108 from an apparatus such as the image reader 211 in FIG.
Thus, a character image as shown in FIG. 6A is read.

【0041】次にステップS703において、記憶部1
08に取り込んだ画像データに対して文字認識処理を行
う。これにより、例えば、図6(B)に示すような認識
結果が得られる。文字認識に関しては様々な手法が考案
されているが、本発明は文字認識の手法にこだわるもの
ではなく、本発明の本質とは直接は関係無いのでここで
は説明を省略する。一般に文字の認識は確実では無く、
認識誤りの可能性があるので、一般的には文字認識処理
では複数の候補文字を出力するが、図6(B)では、簡
素化を図るため1つの候補のみを示している。この認識
結果は文字の切り出しに失敗しており、「横浜」の文字
「横」が、「木」と「黄」の2文字に分割されて認識された場
合を示している。
Next, in step S703, the storage unit 1
A character recognition process is performed on the image data captured in step 08. Thereby, for example, a recognition result as shown in FIG. 6B is obtained. Various methods have been devised for character recognition. However, the present invention is not limited to the character recognition method, and has no direct relation to the essence of the present invention, so that the description is omitted here. Generally, character recognition is not reliable,
Since there is a possibility of recognition error, a plurality of candidate characters are generally output in the character recognition process, but FIG. 6B shows only one candidate for simplification. This recognition result indicates a case where the character extraction has failed, and the character “horizontal” of “Yokohama” has been divided into two characters of “tree” and “yellow” and recognized.

【0042】ステップS704では、左右方向または上
下方向に分割・結合された文字構成辞書、のいずれを使
用するかを判断する。入力画像が縦書き文字の場合は、
ステップS705に進み、上下方向に分割・結合可能な
文字構成辞書を使用するようにし、入力画像が横書き文
字の場合は、ステップS706で、左右方向に分割・結
合が可能な文字構成辞書を使用するようにする。ここで
は、入力画像が横書きであるため、ステップS706に
おいて左右方向に分割・結合が可能な文字構成辞書を使
用するようにし、以下のステップではその場合の具体例
を示す。
In step S704, it is determined which of the character configuration dictionaries divided and combined in the horizontal direction or the vertical direction is to be used. If the input image is vertical text,
In step S705, a character configuration dictionary that can be divided and combined in the vertical direction is used. If the input image is a horizontal writing character, a character configuration dictionary that can be divided and combined in the horizontal direction is used in step S706. To do. Here, since the input image is written horizontally, a character configuration dictionary that can be divided and combined in the left-right direction is used in step S706, and the following steps show a specific example in that case.

【0043】ステップS707では、文字分割候補を作
成する。例えば、図6(B)に示すような文字認識結果
の各文字について、図4(A)の文字構成辞書106を
参照すると、文字「浜」は、(シ、兵)、(三、兵)の2
つの組み合わせの文字に分割可能であり、文字「張」
は、(弓、長)(ろ、長)に分割可能であることが分か
る。その結果、図6(C)で示すように4つの文字列候
補が作成される。
In step S707, character division candidates are created. For example, referring to the character configuration dictionary 106 shown in FIG. 4A for each character of the character recognition result as shown in FIG. 6B, the character “Hama” is (Shi, Hyo), (Shi, Hyo). 2
Can be divided into two combinations of characters, the characters "Zhang"
Can be divided into (bow, long) and (ro, long). As a result, four character string candidates are created as shown in FIG.

【0044】ステップS708は、文字結合候補作成処
理である。文字分割候補作成処理の結果、作成された図
6(C)の4候補の各々の文字について、図4の文字構
成辞書を参照する。図6(C)に示す例「木黄シ兵に出
弓長する」では、隣り合った文字同士、つまり、(木、
黄)、(黄、シ)、(シ、兵)、(兵、に)、(に、
出)、(出、弓)、(弓、長)、(長、す)、(す、る)
が各々結合して一つの文字になり得るかどうかを検索す
る。その結果、(木、黄)が1つの文字「横」に、(シ、
兵)が「浜」に、(弓、長)が「張」になり得ることがわ
かり、図6(C)に示さるように、8種類の文字列候補
「木黄シ兵に出弓長する」、「木黄浜に出弓長する」、
「横シ兵に出弓長する」、「横浜に出弓長する」、「木
黄シ兵に出張する」、「木黄浜に出張する」、「横シ兵
に出張する」、「横浜に出張する」が作成される。同様
にして、図6(C)の他の分割候補について、文字結合
候補作成処理を行うと、図6(C)の結合候補で示され
る文字列候補が作成され、合計で32種類の候補が作成
される。
Step S708 is character combination candidate creation processing. For each character of the four candidates in FIG. 6C created as a result of the character division candidate creation processing, the character configuration dictionary in FIG. 4 is referred to. In the example shown in FIG. 6 (C), “I will go to the Mokuhoshi Shi soldier,” the adjacent characters, that is, (Thu,
(Yellow), (yellow, si), (si, soldier), (soldier, ni), (ni,
De), (de, bow), (bow, long), (long, su), (su, ru)
To see if they can be combined into one character. As a result, (tree, yellow) becomes one character "horizontal", (shi,
It can be seen that (Hei) can be “Hama” and (bow, chief) can be “Zhang”, and as shown in FIG. ”,“ I ’m going to head to Kiyohama ”,
"I will go to Yokoshihei", "I will go to Yokohama", "I will travel to Mikohoshi", "I will travel to Kikohama", "I will travel to Yokoshihei", "I will travel to Yokohama" Is created. Similarly, when a character combination candidate creation process is performed on the other division candidates in FIG. 6C, a character string candidate indicated by the combination candidate in FIG. 6C is created, and a total of 32 types of candidates are obtained. Created.

【0045】ステップS709は、ステップS704、
ステップS705で作成された候補数分、言語処理的解
析処理を行うために、候補数(図6の例では32)を保
持する。
Step S709 is performed in step S704,
The number of candidates (32 in the example of FIG. 6) is held in order to perform linguistic analysis processing for the number of candidates created in step S705.

【0046】ステップS710では、言語処理的解析処
理を行う。ここでは形態素解析を行い、文字列候補の正
当性を評価する。図5の単語辞書107を参照すること
により、文字列候補を単語(形態素)に分解し、文節を
組み立て、文として文法的に整合するかどうかを評価す
る。そして文として整合する文字列が適正な候補である
と判断する。図6(D)で示される文字列候補に対して
形態素解析を行うと、「横浜」(名詞)+「に」(格助
詞)+「出張」(名詞)+する(さ行変格動詞)が文法
的に適正な文字列であると評価される。
In step S710, linguistic analysis processing is performed. Here, morphological analysis is performed to evaluate the validity of the character string candidate. By referring to the word dictionary 107 in FIG. 5, character string candidates are decomposed into words (morphemes), phrases are assembled, and it is evaluated whether or not they are grammatically matched as sentences. Then, it is determined that the character string that matches the sentence is a proper candidate. When morphological analysis is performed on the character string candidates shown in FIG. 6D, “Yokohama” (noun) + “ni” (case particle) + “business trip” (noun) + to (sa line inflected verb) Evaluates to be a grammatically correct string.

【0047】ステップS711では、ステップS710
で行われる言語処理的解析処理で適切であると評価され
た候補文字列を出力する。ここでは、「横浜に出張す
る」が正解候補として出力される。つまり、文字認識の
結果作成された文字列「木黄浜に出張する」に対して、
「横浜に出張する」が補正結果として出力される。
In step S711, step S710
The candidate character string evaluated as appropriate in the linguistic analysis processing performed in (1) is output. Here, "Travel to Yokohama" is output as a correct answer candidate. In other words, for the character string created as a result of character recognition,
“Travel to Yokohama” is output as the correction result.

【0048】(変形例)上記実施の形態においては、文
字構成辞書を用いた候補作成処理では、分割候補作成処
理(図7のステップS704)に続いて結合候補作成処
理(ステップS705)を行い、文字列候補の作成を行
っている。しかし、この2つの処理はどちらか一方のみ
を行っても良い。これは、文字認識において、1つの文
字が2つの文字に分割されて認識する場合と、2つの文
字が1つの文字として認識される場合を比較した場合、
入力画像や文字認識処理の性質に依存して、どちらかの
頻度が多くなる場合があるからである。その場合、分割
候補作成処理又は結合候補作成処理のいずれか一方のみ
を行うことで、処理過程の候補数を低減することがで
き、処理速度の向上を図ることができる。
(Modification) In the above embodiment, in the candidate creation process using the character configuration dictionary, the combination candidate creation process (step S705) is performed following the division candidate creation process (step S704 in FIG. 7). Creating character string candidates. However, only one of the two processes may be performed. This is because, in character recognition, a case where one character is divided into two characters and recognized is compared with a case where two characters are recognized as one character,
This is because either frequency may increase depending on the characteristics of the input image and the character recognition processing. In that case, by performing only one of the division candidate creation process and the combination candidate creation process, the number of candidates in the processing process can be reduced, and the processing speed can be improved.

【0049】また、図7のステップS710で行われる
言語処理的解析処理において、入力文字列を住所地名に
限定するようにしても良い。この場合、図1に示す単語
辞書107には、住所地名データを格納し、住所の階層
構造を表現した住所地名辞書を用いる。そして図7のス
テップS710言語処理的解析処理では、住所辞書との
照合処理を行う。これらの辞書および処理は一般的にい
くつかの手法が提案されているのでここでは省略する。
文字認識後の解析処理を行う文字列を住所地名に限定す
ることにより、図7のステップS707及びS708で
作成される文字列候補は限定されてくるので、解析処理
の精度及び処理速度を向上することができる。
Further, in the linguistic analysis processing performed in step S710 of FIG. 7, the input character string may be limited to the address place name. In this case, an address place name dictionary which stores address place name data and expresses a hierarchical structure of addresses is used in the word dictionary 107 shown in FIG. Then, in the language processing analysis processing in step S710 of FIG. 7, a collation processing with an address dictionary is performed. These dictionaries and processes are generally omitted from description because some methods have been proposed.
By limiting the character string to be subjected to the analysis processing after the character recognition to the address and place name, the character string candidates created in steps S707 and S708 in FIG. 7 are limited, so that the accuracy and processing speed of the analysis processing are improved. be able to.

【0050】[0050]

【他の実施形態】なお、本発明は、複数の機器(例えば
ホストコンピュータ、インターフェイス機器、スキャ
ナ、ビデオカメラなど)から構成されるシステムに適用
しても、一つの機器からなる装置(例えば、複写機、フ
ァクシミリ装置など)に適用してもよい。
[Other Embodiments] Even if the present invention is applied to a system composed of a plurality of devices (for example, a host computer, an interface device, a scanner, a video camera, etc.), an apparatus composed of one device (for example, Machine, facsimile machine, etc.).

【0051】また、本発明の目的は、前述したように、
実施形態の機能を実現するソフトウェアのプログラムコ
ードを記録した記憶媒体(または記録媒体)を、システ
ムあるいは装置に供給し、そのシステムあるいは装置の
コンピュータ(またはCPUやMPU)が記憶媒体に格
納されたプログラムコードを読み出し実行することによ
って、達成することができる。この場合、記憶媒体から
読み出されたプログラムコード自体が前述した実施形態
の機能を実現することになり、そのプログラムコードを
記憶した記憶媒体は本発明を構成することになる。ま
た、コンピュータが読み出したプログラムコードを実行
することにより、前述した実施形態の機能が実現される
だけでなく、そのプログラムコードの指示に基づき、コ
ンピュータ上で稼働しているオペレーティングシステム
(OS)などが実際の処理の一部または全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれることは言うまでもない。ここでプログラム
コードを記憶する記憶媒体としては、上述したフロッピ
ーディスクの他に、例えば、ハードディスク、ROM、
RAM、磁気テープ、不揮発性のメモリカード、CD−
ROM、CD−R、DVD、光ディスク、光磁気ディス
ク、MOなどが考えられる。
The object of the present invention is, as described above,
A storage medium (or recording medium) that records software program codes for realizing the functions of the embodiments is supplied to a system or an apparatus, and a computer (or CPU or MPU) of the system or the apparatus stores the program stored in the storage medium. This can be achieved by reading and executing the code. In this case, the program code itself read from the storage medium implements the functions of the above-described embodiment, and the storage medium storing the program code constitutes the present invention. When the computer executes the readout program codes, not only the functions of the above-described embodiments are realized, but also an operating system (OS) running on the computer based on the instructions of the program codes. It goes without saying that a case where some or all of the actual processing is performed and the functions of the above-described embodiments are realized by the processing is also included. Here, as a storage medium for storing the program code, in addition to the floppy disk described above, for example, a hard disk, a ROM,
RAM, magnetic tape, nonvolatile memory card, CD-
ROMs, CD-Rs, DVDs, optical disks, magneto-optical disks, MOs, and the like are conceivable.

【0052】さらに、記憶媒体から読み出されたプログ
ラムコードが、コンピュータに挿入された機能拡張カー
ドやコンピュータに接続された機能拡張ユニットに備わ
るメモリに書込まれた後、そのプログラムコードの指示
に基づき、その機能拡張カードや機能拡張ユニットに備
わるCPUなどが実際の処理の一部または全部を行い、
その処理によって前述した実施形態の機能が実現される
場合も含まれることは言うまでもない。
Further, after the program code read from the storage medium is written into a memory provided in a function expansion card inserted into the computer or a function expansion unit connected to the computer, based on the instruction of the program code. , The CPU provided in the function expansion card or the function expansion unit performs part or all of the actual processing,
It goes without saying that a case where the function of the above-described embodiment is realized by the processing is also included.

【0053】本発明を上記記憶媒体に適用する場合、そ
の記憶媒体には、先に説明した図7に示すフローチャー
トに対応するプログラムコードが格納されることにな
る。
When the present invention is applied to the storage medium, the storage medium stores program codes corresponding to the above-described flowchart shown in FIG.

【0054】[0054]

【発明の効果】上記の通り本発明によれば、文字認識の
後処理として解析処理を行うことにより適切な認識誤り
の補正処理を実現することができる。特に、文字切り誤
りを起こした文字認識結果に対して、適切な文字認識誤
りの補正が可能となる。
As described above, according to the present invention, appropriate analysis error correction processing can be realized by performing analysis processing as post-processing of character recognition. In particular, it is possible to appropriately correct a character recognition error with respect to a character recognition result in which a character segmentation error has occurred.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の実施の形態における文字認識処理装置
の動作構成を示すブロック図である。
FIG. 1 is a block diagram showing an operation configuration of a character recognition processing device according to an embodiment of the present invention.

【図2】本発明の実施の形態における文字認識処理装置
のハードウエア構成を示すブロック図である。
FIG. 2 is a block diagram illustrating a hardware configuration of a character recognition processing device according to the embodiment of the present invention.

【図3】プログラム等が媒体からコンピュータシステム
に供給されることを示す図である。
FIG. 3 is a diagram showing that a program or the like is supplied from a medium to a computer system.

【図4】本発明の実施の形態における文字構成辞書の内
容の一例を示す図である。
FIG. 4 is a diagram showing an example of the contents of a character configuration dictionary according to the embodiment of the present invention.

【図5】本発明の実施の形態における言語解析用単語辞
書の内容の一例を示す図である。
FIG. 5 is a diagram showing an example of the contents of a language analysis word dictionary according to the embodiment of the present invention.

【図6】本発明の実施の形態における文字認識後の解析
処理を説明するための図である。
FIG. 6 is a diagram for describing analysis processing after character recognition according to the embodiment of the present invention.

【図7】本実施の形態における文字認識処理の動作を示
すフローチャートである。
FIG. 7 is a flowchart illustrating an operation of a character recognition process according to the present embodiment.

【符号の説明】 101 画像データ入力部 102 文字認識部 103 文字分割・結合部 104 言語処理的解析部 105 認識結果表示部 106 文字構成辞書 107 単語辞書 108 記憶部 109 制御部 110 表示部 111 指示部 201 CPU(中央制御装置) 202 ROM(読み出し専用メモリ) 203 RAM(随時読み出し書き込みメモリ) 204 FD(フロッピーディスク)ドライブ 205 FD(フロッピーディスク) 206 HD(ハードディスク)ドライブ 207 キーボード 208 マウス 209 ディスプレイ 210 プリンタ 211 イメージリーダ 212 制御バス[Description of Signs] 101 Image data input unit 102 Character recognition unit 103 Character division / combination unit 104 Linguistic analysis unit 105 Recognition result display unit 106 Character composition dictionary 107 Word dictionary 108 Storage unit 109 Control unit 110 Display unit 111 Instruction unit 201 CPU (Central Control Unit) 202 ROM (Read Only Memory) 203 RAM (Read and Write Memory as needed) 204 FD (Floppy Disk) Drive 205 FD (Floppy Disk) 206 HD (Hard Disk) Drive 207 Keyboard 208 Mouse 209 Display 210 Printer 211 Image reader 212 control bus

Claims (19)

【特許請求の範囲】[Claims] 【請求項1】 画像読み取り手段により読み取った文字
画像を文字認識して得られる文字列を解析する解析方法
であって、 文字認識した結果、得られた各文字が分割可能であるか
どうかを文字情報を用いて判別し、分割可能である場合
にその文字を分割する分割工程と、 前記分割工程後の各文字が、隣り合う文字と結合可能で
あるかどうかを前記文字情報を用いて判別し、結合可能
である場合に、結合前及び結合後の文字をそれぞれ用い
た文字列候補を作成する結合工程と、 前記結合工程で作成された文字列候補それぞれについ
て、単語情報を用いて解析を行う解析工程と、 前記解析工程における解析の結果、適正な文字列を抽出
する抽出工程とを有することを特徴とする解析方法。
An analysis method for analyzing a character string obtained by character recognition of a character image read by an image reading means, the method comprising: determining whether each character obtained as a result of character recognition can be divided; Determining using information, and dividing the character when the character can be divided, and using the character information to determine whether each character after the dividing step can be combined with an adjacent character. A combining step of creating character string candidates using characters before and after combining when the combining is possible, and analyzing each of the character string candidates created in the combining step using word information. An analysis method, comprising: an analysis step; and an extraction step of extracting an appropriate character string as a result of the analysis in the analysis step.
【請求項2】 画像読み取り手段により読み取った文字
画像を文字認識して得られる文字列を解析する解析方法
であって、 文字認識した結果、得られた各文字が分割可能であるか
どうかを文字情報を用いて判別し、分割可能である場合
にその文字を分割し、分割前及び分割後の文字をそれぞ
れ用いた文字列候補を作成する分割工程と、 前記分割工程で作成された文字列候補それぞれについ
て、単語情報を用いて解析を行う解析工程と、 前記解析工程における解析の結果、適正な文字列を抽出
する抽出工程とを有することを特徴とする解析方法。
2. An analysis method for analyzing a character string obtained by character recognition of a character image read by an image reading means, the method comprising: determining whether each character obtained as a result of character recognition can be divided; Determining using the information, dividing the character if the character can be divided, and creating a character string candidate using the characters before and after the division, respectively, a character string candidate created in the dividing step An analysis method, comprising: an analysis step of performing analysis using word information; and an extraction step of extracting a proper character string as a result of the analysis in the analysis step.
【請求項3】 画像読み取り手段により読み取った文字
画像を文字認識して得られる文字列を解析する解析方法
であって、 文字認識した結果、得られた各文字が隣り合う文字と結
合可能であるかどうかを文字情報を用いて判別し、結合
可能である場合に、結合前及び結合後の文字をそれぞれ
用いた文字列候補を作成する結合工程と、 前記結合工程で作成された文字列候補それぞれについ
て、単語情報を用いて解析を行う解析工程と、 前記解析工程における解析の結果、適正な文字列を抽出
する抽出工程とを有することを特徴とする解析方法。
3. An analyzing method for analyzing a character string obtained by character recognition of a character image read by an image reading means, wherein each character obtained as a result of character recognition can be combined with an adjacent character. Whether or not to determine whether or not the character string candidate using the character information, if the combination is possible, a combination step of creating a character string candidate using the characters before and after combination, respectively, character string candidates created in the combination step An analysis method characterized by comprising: an analysis step of performing analysis using word information; and an extraction step of extracting a proper character string as a result of the analysis in the analysis step.
【請求項4】 前記文字情報は、複数の文字について各
文字が分割・結合可能であるかを示すデータと、分割・
結合が可能である場合に、分割・結合後の候補を示すデ
ータとを含むことを特徴とする請求項1乃至3のいずれ
かに記載の解析方法。
4. The character information includes: data indicating whether each character can be divided / combined for a plurality of characters;
The analysis method according to any one of claims 1 to 3, further comprising, when combination is possible, data indicating candidates after division / combination.
【請求項5】 前記文字情報は、左右方向及び上下方向
それぞれについて、各文字のデータを有し、前記分割工
程及び/又は結合工程では、文字認識して得られる文字
列の方向が左右方向の場合には左右方向の文字情報を用
い、文字認識して得られる文字列の方向が上下方向の場
合に、上下方向の文字情報を用いることを特徴とする請
求項4に記載の解析方法。
5. The character information includes data of each character in each of a horizontal direction and a vertical direction, and in the dividing step and / or the combining step, a direction of a character string obtained by character recognition is a horizontal direction. 5. The analysis method according to claim 4, wherein in the case, the character information in the horizontal direction is used, and when the direction of the character string obtained by character recognition is the vertical direction, the character information in the vertical direction is used.
【請求項6】 前記単語情報は、複数単語に関するデー
タを有することを特徴とする請求項1乃至5のいずれか
に記載の解析方法。
6. The analysis method according to claim 1, wherein the word information includes data on a plurality of words.
【請求項7】 前記単語情報は、住所・地名の表記を格
納した住所地名の単語に関するデータを含み、前記解析
工程において住所地名の単語に関するデータを優先的に
用いるように設定する工程を更に有することを特徴とす
る請求項1乃至6のいずれかに記載の解析方法。
7. The word information includes data relating to the word of the address place name which stores the notation of the address / place name, and further comprises a step of setting the data relating to the word of the address place name in the analysis step to be preferentially used. The analysis method according to claim 1, wherein:
【請求項8】 前記抽出工程で抽出した文字列を表示す
る表示工程を更に有することを特徴とする請求項1乃至
7のいずれかに記載の解析方法。
8. The analysis method according to claim 1, further comprising a display step of displaying the character string extracted in the extraction step.
【請求項9】 画像読み取り手段により読み取った文字
画像を文字認識して得られる文字列を解析する解析装置
であって、 複数の文字について、各文字が分割・結合可能であるか
を示すデータと、分割・結合が可能である場合に、分割
・結合後の候補を示すデータとを含む文字情報を記憶す
る第1の記憶手段と、 複数単語に関するデータを示す単語情報を記憶する第2
の記憶手段と、 文字認識した結果、得られた各文字が分割可能であるか
どうかを前記文字情報を用いて判別し、分割可能である
場合にその文字を分割する分割手段と、 分割処理後の各文字が、隣り合う文字と結合可能である
かどうかを前記文字情報を用いて判別し、結合可能であ
る場合に、結合前及び結合後の文字をそれぞれ用いた文
字列候補を作成する結合手段と、 前記結合手段により作成された文字列候補それぞれにつ
いて、前記単語情報を用いて解析を行う解析手段と、 前記解析手段による解析の結果、適正な文字列を抽出す
る抽出手段とを有することを特徴とする解析装置。
9. An analyzing apparatus for analyzing a character string obtained by character recognition of a character image read by an image reading means, comprising: data indicating whether each character can be divided / combined for a plurality of characters; A first storage unit for storing character information including data indicating candidates after division / combination when division / combination is possible; and a second storage unit for storing word information representing data relating to a plurality of words.
Storage means for determining whether or not each character obtained as a result of character recognition is divisible, using the character information, and dividing the character if it is divisible, Is determined using the character information as to whether or not each character can be combined with an adjacent character, and if combined, creates a character string candidate using the characters before and after combining, respectively. Means, analyzing means for analyzing each of the character string candidates created by the combining means using the word information, and extracting means for extracting an appropriate character string as a result of the analysis by the analyzing means. An analyzer characterized by the above-mentioned.
【請求項10】 画像読み取り手段により読み取った文
字画像を文字認識して得られる文字列を解析する解析装
置であって、 複数の文字について、各文字が分割・結合可能であるか
を示すデータと、分割・結合が可能である場合に、分割
・結合後の候補を示すデータとを含む文字情報を記憶す
る第1の記憶手段と、 複数単語に関するデータを示す単語情報を記憶する第2
の記憶手段と、 文字認識した結果、得られた各文字が分割可能であるか
どうかを前記文字情報を用いて判別し、分割可能である
場合にその文字を分割し、分割前及び分割後の文字をそ
れぞれ用いた文字列候補を作成する分割手段と、 前記分割手段により作成された文字列候補それぞれにつ
いて、前記単語情報を用いて解析を行う解析手段と、 前記解析手段による解析の結果、適正な文字列を抽出す
る抽出手段とを有することを特徴とする解析装置。
10. An analyzing apparatus for analyzing a character string obtained by character recognition of a character image read by an image reading means, comprising: data indicating whether each character can be divided / combined for a plurality of characters; A first storage unit for storing character information including data indicating candidates after division / combination when division / combination is possible; and a second storage unit for storing word information representing data relating to a plurality of words.
Storage means, and, as a result of character recognition, determine whether each character obtained is divisible by using the character information, and if divisible, divide the character; before and after division A dividing unit that creates a character string candidate using each character; an analyzing unit that analyzes each of the character string candidates created by the dividing unit using the word information; An extracting device for extracting a simple character string.
【請求項11】 画像読み取り手段により読み取った文
字画像を文字認識して得られる文字列を解析する解析装
置であって、 複数の文字について、各文字が分割・結合可能であるか
を示すデータと、分割・結合が可能である場合に、分割
・結合後の候補を示すデータとを含む文字情報を記憶す
る第1の記憶手段と、 複数単語に関するデータを示す単語情報を記憶する第2
の記憶手段と、 文字認識した結果、得られた各文字が隣り合う文字と結
合可能であるかどうかを前記文字情報を用いて判別し、
結合可能である場合に、結合前及び結合後の文字をそれ
ぞれ用いた文字列候補を作成する結合手段と、 前記結合手段により作成された文字列候補それぞれにつ
いて、前記単語情報を用いて解析を行う解析手段と、 前記解析手段による解析の結果、適正な文字列を抽出す
る抽出手段とを有することを特徴とする解析装置。
11. An analyzing apparatus for analyzing a character string obtained by character recognition of a character image read by an image reading means, comprising: data indicating whether each character can be divided / combined for a plurality of characters; A first storage unit for storing character information including data indicating candidates after division / combination when division / combination is possible; and a second storage unit for storing word information representing data relating to a plurality of words.
Storage means, as a result of character recognition, determine whether each obtained character can be combined with an adjacent character using the character information,
When combining is possible, combining means for creating character string candidates using characters before and after combining, respectively, and analyzing each character string candidate created by the combining means using the word information An analyzing apparatus comprising: an analyzing unit; and an extracting unit configured to extract an appropriate character string as a result of the analysis by the analyzing unit.
【請求項12】 前記文字情報は、左右方向及び上下方
向それぞれについて、各文字のデータを有し、前記分割
手段は、文字認識して得られる文字列の方向が左右方向
の場合には左右方向の文字情報を用い、文字認識して得
られる文字列の方向が上下方向の場合に、上下方向の文
字情報を用いることを特徴とする請求項9又は10に記
載の解析装置。
12. The character information includes data of each character in each of a left-right direction and a vertical direction. 11. The analyzing apparatus according to claim 9, wherein when the direction of a character string obtained by character recognition is vertical, the vertical character information is used.
【請求項13】 前記文字情報は、左右方向及び上下方
向それぞれについて、各文字のデータを有し、前記結合
手段は、文字認識して得られる文字列の方向が左右方向
の場合には左右方向の文字情報を用い、文字認識して得
られる文字列の方向が上下方向の場合に、上下方向の文
字情報を用いることを特徴とする請求項9又は11に記
載の解析装置。
13. The character information includes data of each character in each of a left-right direction and a vertical direction, and the combining unit outputs a right-left direction when a character string obtained by character recognition is a left-right direction The analyzer according to claim 9, wherein the character information in the up-down direction is used when the direction of the character string obtained by character recognition is the up-down direction using the character information.
【請求項14】 前記単語情報は、住所・地名の表記を
格納した住所地名の単語に関するデータを含み、前記解
析手段による住所地名の単語に関するデータを優先的に
用いるように設定する手段を更に有することを特徴とす
る請求項9乃至13のいずれかに記載の解析装置。
14. The word information includes data relating to the word of the address and place name storing the notation of the address and place name, and further includes means for setting the data relating to the word of the address and place name by the analyzing means to be preferentially used. An analyzer according to any one of claims 9 to 13, wherein:
【請求項15】 前記抽出手段により抽出した文字列を
表示する表示手段を更に有することを特徴とする請求項
9乃至14のいずれかに記載の解析装置。
15. The analyzing apparatus according to claim 9, further comprising a display unit for displaying a character string extracted by said extracting unit.
【請求項16】 請求項1乃至8のいずれかに記載の解
析方法を実現するためのプログラムコードを有する情報
処理装置が実行可能なプログラム。
16. A program executable by an information processing apparatus having a program code for realizing the analysis method according to claim 1. Description:
【請求項17】 コンピュータ装置が実行可能なプログ
ラムであって、前記プログラムを実行したコンピュータ
装置を、請求項9乃至15のいずれかに記載の解析装置
として機能させることを特徴とするプログラム。
17. A program executable by a computer device, wherein the computer device executing the program causes the computer device to function as the analysis device according to any one of claims 9 to 15.
【請求項18】 請求項16及び17に記載のプログラ
ムを記憶した記憶媒体。
18. A storage medium storing the program according to claim 16. Description:
【請求項19】 請求項1乃至8のいずれかに記載の解
析方法で用いられる、複数の文字について、各文字が分
割・結合可能であるかを示すデータと、分割・結合が可
能である場合に、分割・結合後の候補を示すデータとを
含む文字情報を記憶した記憶媒体。
19. A data used in the analysis method according to any one of claims 1 to 8, which indicates whether each character can be divided / combined, and a case where division / combination is possible. A storage medium for storing character information including data indicating candidates after division and combination.
JP2001034056A 2001-02-09 2001-02-09 Analyzing method and analyzer Withdrawn JP2002236876A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001034056A JP2002236876A (en) 2001-02-09 2001-02-09 Analyzing method and analyzer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001034056A JP2002236876A (en) 2001-02-09 2001-02-09 Analyzing method and analyzer

Publications (1)

Publication Number Publication Date
JP2002236876A true JP2002236876A (en) 2002-08-23

Family

ID=18897720

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001034056A Withdrawn JP2002236876A (en) 2001-02-09 2001-02-09 Analyzing method and analyzer

Country Status (1)

Country Link
JP (1) JP2002236876A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012098905A (en) * 2010-11-02 2012-05-24 Tokyo Univ Of Agriculture & Technology Character recognition device, character recognition method and program
CN104346611A (en) * 2013-08-06 2015-02-11 富士施乐株式会社 Information processing apparatus and information processing method

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012098905A (en) * 2010-11-02 2012-05-24 Tokyo Univ Of Agriculture & Technology Character recognition device, character recognition method and program
CN104346611A (en) * 2013-08-06 2015-02-11 富士施乐株式会社 Information processing apparatus and information processing method
JP2015032239A (en) * 2013-08-06 2015-02-16 富士ゼロックス株式会社 Information processor and information processing program

Similar Documents

Publication Publication Date Title
JP2836159B2 (en) Speech recognition system for simultaneous interpretation and its speech recognition method
JP4404211B2 (en) Multilingual translation memory, translation method and translation program
JP3971373B2 (en) Hybrid automatic translation system that mixes rule-based method and translation pattern method
JP5071373B2 (en) Language processing apparatus, language processing method, and language processing program
JP2004199427A (en) Device, method and program for associating parallel dependency structure and recording medium with the program recorded thereon
US20030061030A1 (en) Natural language processing apparatus, its control method, and program
US7328404B2 (en) Method for predicting the readings of japanese ideographs
JP2002117027A (en) Feeling information extracting method and recording medium for feeling information extracting program
JP2004133565A (en) Postprocessing device for character recognition using internet
JP2002236876A (en) Analyzing method and analyzer
KR20080028655A (en) Method and apparatus for part-of-speech tagging
JP6640618B2 (en) Language processing apparatus, method, and program
JP4442208B2 (en) Character string notation analysis method and apparatus
Kaur et al. Improving the accuracy of tesseract OCR engine for machine printed Hindi documents
JP2908460B2 (en) Error recognition correction method and apparatus
EP0469485B1 (en) Language processing system using an expanded LR parser
JPS62267872A (en) Language analyzing device
JP2939945B2 (en) Roman character address recognition device
JP2023146547A (en) Extraction program, device, and method
JPH05108703A (en) Machine translator
JPS62224859A (en) Japanese language processing system
JPH087046A (en) Document recognition device
JP3061855B2 (en) Kana-kanji conversion device and kana-kanji conversion method
JP2838850B2 (en) Kana-Kanji conversion device
JPH11191143A (en) Device and method for processing information and computer readable memory

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080513