JP2825072B2 - String recognition device - Google Patents
String recognition deviceInfo
- Publication number
- JP2825072B2 JP2825072B2 JP7203148A JP20314895A JP2825072B2 JP 2825072 B2 JP2825072 B2 JP 2825072B2 JP 7203148 A JP7203148 A JP 7203148A JP 20314895 A JP20314895 A JP 20314895A JP 2825072 B2 JP2825072 B2 JP 2825072B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- character string
- layout
- candidate
- cost
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
Description
【0001】[0001]
【産業上の利用分野】本発明は手書き文字列認識方法及
びその装置に関し、特に光学的文字読み取り装置(OC
R)における手書き文字列認識方法及びその装置に関す
る。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method and apparatus for recognizing a handwritten character string, and more particularly to an optical character reading apparatus (OC).
The present invention relates to a method and apparatus for recognizing a handwritten character string in R).
【0002】[0002]
【従来の技術】文字列認識技術は、例えば、郵便物や帳
票上に記載されている宛名情報を読み取る装置などに広
く用いられている。従来の文字列認識技術として、入力
された文字列から切り出しの候補を複数求め、全ての候
補に文字認識を施した結果から、言語的知識を用いるこ
とにより最終的に文字列を認識する方法が知られてい
る。2. Description of the Related Art A character string recognition technique is widely used in, for example, a device for reading address information described on a mail or a form. As a conventional character string recognition technique, there is a method in which a plurality of cutout candidates are obtained from an input character string, and a character string is finally recognized by using linguistic knowledge from a result of performing character recognition on all candidates. Are known.
【0003】しかし、これらの文字列認識技術は文字列
が一行づつ切り出された状態で入力されることを前提と
していたため、例えば一行づつ文字列を切り出すことに
失敗して二行が一度に入力されてしまうと正しく文字列
を認識することができなくなるという問題があった。However, these character string recognition techniques are based on the premise that a character string is cut out one line at a time, and for example, it fails to cut out a character string line by line and two lines are input at a time. Then, there is a problem that the character string cannot be correctly recognized.
【0004】この問題を解決するために、従来は図形情
報をより詳しく分析することにより文字列を精度良く抽
出しようとするための様々な工夫がなされてきた。例え
ば行天らによる「制約充足型文字領域抽出の基礎検討」
(信学技報、PRU92−119、1993)や、中島
らによる「手書き郵便からの宛名行検出における試行検
証プロセスの導入」(信学技報、PRU95−6、19
95)に示されているような方法が知られている。ま
た、特開平7−6202「文字認識装置」に示されてい
るように一度文字列を抽出した後に、もう一度文字列を
抽出し直すような方法も開示されている。In order to solve this problem, various devices have been conventionally devised for extracting character strings with high precision by analyzing graphic information in more detail. For example, "Basic study of constraint-satisfiable character area extraction" by Gyten et al.
(IEICE Technical Report, PRU92-119, 1993) and Nakajima et al., "Introduction of Trial Verification Process in Detecting Address Line from Handwritten Mail" (IEICE Technical Report, PRU95-6, 19)
95) is known. Further, as disclosed in Japanese Patent Application Laid-Open No. 7-6202, a method of extracting a character string once and then extracting the character string again is disclosed.
【0005】しかし、郵便物や帳票上に記載されている
自由形式の手書き文字列は、文字列内の各文字の大きさ
や形状の変動が大きく、また文字列同士が入り組んでい
ることもあり、図形情報だけから完全に文字列を一行づ
つ切り出すことは困難である。However, in a free-form handwritten character string described on a mail or a form, the size and shape of each character in the character string vary greatly, and the character strings may be complicated. It is difficult to completely extract a character string line by line only from graphic information.
【0006】よって、従来の文字列認識方法では、入力
される文字列が一行でなかった場合、文字列を正しく認
識することができなくなるという問題は避けられない問
題となる。Therefore, in the conventional character string recognition method, if the input character string is not one line, the problem that the character string cannot be correctly recognized becomes an unavoidable problem.
【0007】[0007]
【発明が解決しようとする課題】そこで、本発明は入力
される手書き文字列の行数が複数の場合でも、正しく文
字列を認識することのできる文字列認識方法及び装置を
提供することを目的とする。SUMMARY OF THE INVENTION Accordingly, an object of the present invention is to provide a character string recognition method and apparatus capable of correctly recognizing a character string even when the number of lines of an input handwritten character string is plural. And
【0008】[0008]
【課題を解決するための手段】本発明は前記課題を解決
するため、請求項1記載の文字列認識装置では、光学的
に走査された文字列画像を格納する文字列画像記憶部
と、前記文字列画像を読み込み文字候補パターンと文字
候補図形情報を作成する文字切り出し部と、標準文字パ
ターンを記憶する文字認識辞書記憶部と、前記文字認識
辞書記憶部に格納されている前記標準文字パターンと前
記文字切り出し部から読み込んだ前記文字候補パターン
を照合し文字認識結果として文字コードと文字認識結果
の信頼性を表現する尺度としての文字認識コストを得る
文字認識部と、言語知識を格納する言語知識記憶部と、
文字の記載条件などの図形的知識としてレイアウト知識
を格納するレイアウト知識記憶部と、前記文字切り出し
部から前記文字候補図形情報を読み込み前記文字候補図
形情報に対応する前記文字コードを前記文字認識部から
読み込み前記レイアウト知識記憶部から前記レイアウト
知識を読み込み前記言語知識記憶部に格納されている前
記言語知識と前記文字コードとの言語的照合を行い前記
言語知識を満たすような前記文字コードの組み合わせを
文字列候補として作成し作成された文字列候補の言語的
信頼性を表現する尺度としての言語的コストを得る言語
知識処理部と、前記文字切り出し部から前記文字候補図
形情報を読み込み前記言語知識処理部から前記文字列候
補を読み込み前記レイアウト知識記憶部から前記レイア
ウト知識を読み込み前記文字列候補に対してレイアウト
的制約の妥当性を表現する尺度としてのレイアウトコス
トを得るレイアウト解析部と、前記文字認識部から前記
文字認識コストを読み込み前記言語知識処理部から前記
文字列候補に対する前記言語的コストを読み込み前記レ
イアウト解析部から前記文字列候補の前記レイアウトコ
ストを読み込み前記文字認識コストと前記言語的コスト
と前記レイアウトコストを組み合わせたときに最も良い
コストが得られる前記文字列候補を文字列認識結果とし
て出力する文字列認識結果出力部を備えて構成される。According to the present invention, there is provided a character string recognizing apparatus according to the present invention, wherein a character string image storage unit for storing a character string image scanned optically; A character cutout unit that reads a character string image and creates a character candidate pattern and character candidate graphic information, a character recognition dictionary storage unit that stores a standard character pattern, and the standard character pattern stored in the character recognition dictionary storage unit. A character recognition unit that collates the character candidate pattern read from the character cutout unit and obtains a character code and a character recognition cost as a scale expressing reliability of the character recognition result as a character recognition result, and linguistic knowledge that stores linguistic knowledge A storage unit,
A layout knowledge storage unit that stores layout knowledge as graphic knowledge such as character description conditions, and reads the character candidate graphic information from the character cutout unit to read the character code corresponding to the character candidate graphic information from the character recognition unit. The layout knowledge is read from the layout knowledge storage unit, the linguistic knowledge stored in the linguistic knowledge storage unit is linguistically collated with the character code, and a combination of the character codes that satisfies the linguistic knowledge is read. A linguistic knowledge processing unit that obtains a linguistic cost as a measure expressing the linguistic reliability of the character string candidates created and created as column candidates; and the language knowledge processing unit that reads the character candidate graphic information from the character cutout unit And reads the layout knowledge from the layout knowledge storage unit. A layout analysis unit that obtains a layout cost as a measure for expressing the validity of the layout constraint for the character string candidate, and reads the character recognition cost from the character recognition unit, and reads the character recognition cost from the linguistic knowledge processing unit for the character string candidate. The linguistic cost is read, the layout cost of the character string candidate is read from the layout analysis unit, and the character string candidate that provides the best cost is obtained by combining the character recognition cost, the linguistic cost, and the layout cost. A character string recognition result output unit that outputs a character string recognition result is configured.
【0009】[0009]
【作用】本発明によると、文字列を認識する際に、まず
始めに文字行を仮定せず文字の切り出しと認識を行い、
一度言語的知識を満たす文字の組み合わせを作成してし
まう。この結果言語的知識を満たす組み合わせは多数得
られることになるが、この状態から文字認識のコストと
言語知識的なコストとレイアウト解析的コストを用いて
文字列の認識結果を求める。この方法は個別文字の切り
出しの曖昧性だけでなく文字行抽出の曖昧性までも含め
て言語的知識と同じレベルで総合的に判断していること
になるので、入力文字列が一行でなかった場合でも正し
く文字列を認識できる。According to the present invention, when recognizing a character string, characters are first cut out and recognized without assuming a character line.
Once you create a character combination that satisfies your linguistic knowledge. As a result, many combinations satisfying the linguistic knowledge can be obtained. From this state, a character string recognition result is obtained using the cost of character recognition, the cost of linguistic knowledge, and the cost of layout analysis. In this method, the input character string was not a single line, because it made comprehensive judgments at the same level as linguistic knowledge, including not only the ambiguity of cutting out individual characters but also the ambiguity of character line extraction. Even if it can recognize the character string correctly.
【0010】[0010]
【実施例】本発明の第一の実施例について図面を参照し
て説明する。図1は本発明の第一の実施例の構成を示す
ブロック図である。図1に示す実施例の構成は、光学的
に走査された文字列画像を格納する文字列画像記憶部1
と、文字列画像を読み込み文字候補パターンとその文字
候補パターンに対応する文字候補図形情報を作成する文
字切り出し部2と、標準文字パターンを記憶する文字認
識辞書記憶部3と、標準文字パターンと文字候補パター
ンを照合し文字認識結果として文字コードと文字認識結
果の信頼性を表現する尺度としての文字認識コストを得
る文字認識部4と、言語知識を格納する言語知識記憶部
5と、文字の記載条件などの図形的知識としてレイアウ
ト知識を格納するレイアウト知識記憶部6と、文字切り
出し部2から文字候補図形情報を読み込みこの文字候補
図形情報に対応する文字コードを文字認識部4から読み
込みレイアウト知識記憶部6からレイアウト知識を読み
込み言語知識記憶部5の言語知識と文字コードとの言語
的照合を行い言語知識を満たすような文字コードの組み
合わせを複数作成して文字列候補とし複数作成された各
々の文字列候補に対して言語的信頼性を表現する尺度と
しての言語的コストを得る言語知識処理部7と、文字切
り出し部2から文字候補図形情報を読み込み言語知識処
理部7から全文字列候補を読み込みレイアウト知識記憶
部6からレイアウト知識を読み込み各々の文字列候補毎
にレイアウト的制約の妥当性を表現する尺度としてのレ
イアウトコストを得るレイアウト解析部8と、文字認識
部4から文字認識コストを読み込み言語知識処理部7か
ら文字列候補の言語的コストを読み込みレイアウト解析
部8から文字列候補のレイアウトコストを読み込みこれ
ら三つのコストを組み合わせたときに最も良いコストが
得られる文字列候補を文字列認識結果として出力する文
字列認識結果出力部9とを備えて成る。DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS A first embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing the configuration of the first embodiment of the present invention. The configuration of the embodiment shown in FIG. 1 is a character string image storage unit 1 for storing a character string image optically scanned.
A character cutout unit 2 that reads a character string image and creates a character candidate pattern and character candidate graphic information corresponding to the character candidate pattern; a character recognition dictionary storage unit 3 that stores a standard character pattern; A character recognition unit 4 for collating candidate patterns to obtain a character code and a character recognition cost as a measure for expressing the reliability of the character recognition result as a character recognition result; a linguistic knowledge storage unit 5 for storing linguistic knowledge; A layout knowledge storage unit 6 that stores layout knowledge as graphic knowledge such as conditions, reads character candidate graphic information from a character cutout unit 2, reads a character code corresponding to the character candidate graphic information from a character recognition unit 4, and stores layout knowledge. The layout knowledge is read from the section 6 and the linguistic knowledge of the linguistic knowledge storage section 5 is linguistically collated with the character code, and the A plurality of combinations of character codes that satisfy the intelligibility as character string candidates, and a linguistic knowledge processing unit 7 that obtains a linguistic cost as a measure for expressing linguistic reliability for each of the plurality of generated character string candidates. The character candidate graphic information is read from the character cutout unit 2, all the character string candidates are read from the language knowledge processing unit 7, the layout knowledge is read from the layout knowledge storage unit 6, and the validity of the layout constraint is expressed for each character string candidate. A layout analysis unit 8 for obtaining a layout cost as a measure to be read, a character recognition cost from the character recognition unit 4, a linguistic cost of a character string candidate from the language knowledge processing unit 7, and a layout cost of a character string candidate from the layout analysis unit 8. Is read, the character string candidate that gives the best cost when these three costs are combined is recognized by character string recognition. Comprising a character string recognition result output unit 9 for outputting a.
【0011】次に、本実施例の動作について説明する。Next, the operation of this embodiment will be described.
【0012】文字列画像記憶部1は、イメージスキャナ
等の通常の画像入力手段によって入力された文字列画像
を格納する通常の記憶手段であり、文字列画像は例えば
2値化された画像である。The character string image storage unit 1 is a normal storage unit for storing a character string image input by a normal image input unit such as an image scanner, and the character string image is, for example, a binarized image. .
【0013】文字切り出し部2は、文字列画像から一文
字である可能性のある部分画像を文字候補パターンとし
て抽出し、その文字候補パターンに関する図形的な情報
も同時に文字候補図形情報として作成する手段である。
文字候補パターンを抽出し、同時に文字候補図形情報も
作成するには、いくつかの方法が考えられる。一例を挙
げれば、2値化された文字列画像の黒画素連結領域のあ
らゆる組み合わせを作成し、その組み合わせの画像と外
接矩形の高さと幅と画像上での位置座標を抽出すること
により実現できる。図2に一例を示している。図2
(a)に示すように「野田」のような文字列画像が与え
られた場合、その黒画素連結領域を部分画像として抽出
し、同図(b)に示すように部分画像とその外接矩形の
高さと幅と画像上での位置座標を記憶し、同図(c)に
示すように部分画像同士の相対的位置関係を保ちながら
あらゆる組合せを作成し、その組合せに対応する新たな
部分画像を求め、その外接矩形の高さと幅と画像上での
位置座標を求めることにより文字候補パターンと文字候
補図形情報を作成することができる。The character cutout unit 2 extracts a partial image which may be one character from a character string image as a character candidate pattern, and simultaneously creates graphic information on the character candidate pattern as character candidate graphic information. is there.
There are several methods for extracting character candidate patterns and simultaneously creating character candidate graphic information. As an example, this can be realized by creating all combinations of the black pixel connection regions of the binarized character string image and extracting the height and width of the combination image, the circumscribed rectangle, and the position coordinates on the image. . FIG. 2 shows an example. FIG.
When a character string image such as "Noda" is given as shown in (a), the black pixel connected region is extracted as a partial image, and the partial image and its circumscribed rectangle are extracted as shown in FIG. The height, width, and position coordinates on the image are stored, and all combinations are created while maintaining the relative positional relationship between the partial images as shown in FIG. 10C, and a new partial image corresponding to the combination is created. The character candidate pattern and character candidate graphic information can be created by calculating the height and width of the circumscribed rectangle and the position coordinates on the image.
【0014】文字認識辞書記憶部3は標準文字パターン
を記憶する通常の記憶手段である。The character recognition dictionary storage section 3 is a normal storage means for storing standard character patterns.
【0015】文字認識部4は、文字切り出し部2から文
字候補パターンを読み込み、文字認識辞書記憶部3から
標準文字パターンを読み込んで文字候補パターンと標準
文字パターンを照合・認識し文字認識結果として文字コ
ードと文字認識結果の信頼性を表現する尺度としての文
字認識コストを得る手段である。ここで行う認識は、例
えば従来より良く知られている単純類似度法(文献「文
字認識概論」オーム社、1982、pp34−35参
照)や津雲による「方向パタンマッチングの改良と手書
き漢字認識への応用」(信学技報、PRU90−20、
1990)に記載されている方法を用いることにより実
現できる。The character recognition unit 4 reads a character candidate pattern from the character cutout unit 2, reads a standard character pattern from the character recognition dictionary storage unit 3, checks and recognizes the character candidate pattern and the standard character pattern, and obtains a character recognition result as a character recognition result. This is a means to obtain the character recognition cost as a scale expressing the reliability of the code and the character recognition result. Recognition performed here is, for example, a simple similarity method well known in the art (refer to the document “Introduction to Character Recognition,” Ohmsha, 1982, pp. 34-35) or “improvement of direction pattern matching and handwritten kanji recognition by Tsugumo”. Application ”(IEICE Technical Report, PRU90-20,
1990).
【0016】また文字認識コストは、文字認識結果が誤
りである可能性が高い程大きな値になるようなものであ
ればよく、例えば、本願と同一出願人による特許明細書
(特願平1−334347「文字列認識方法及びその装
置」)に記載されている文字評価値を用いて以下のよう
にコストを求めることができる。The character recognition cost may be such that the higher the possibility that the character recognition result is erroneous, the larger the value. For example, a patent specification (Japanese Patent Application No. Hei. 334347 "Character string recognition method and apparatus"), the cost can be obtained as follows using the character evaluation value.
【0017】文字認識コストをrc、文字評価値をrと
すると、 rc=a1−r ・・・(1) ここでa1は予め決められた定数である。他にも rc=a2/r ・・・(2) としてもよい。ここでa2は予め決められた定数であ
る。Assuming that the character recognition cost is rc and the character evaluation value is r, rc = a1-r (1) where a1 is a predetermined constant. Rc = a2 / r (2) Here, a2 is a predetermined constant.
【0018】言語知識記憶部5は、標準単語の文字コー
ド列情報や、単語の接続関係の制約条件等を言語知識と
して格納する通常の記憶手段である。言語知識として格
納される情報には、例えば以下に挙げられるような情報
が考えられる。The linguistic knowledge storage unit 5 is a normal storage means for storing character code string information of standard words, constraints on word connection relations, and the like as linguistic knowledge. The information stored as the linguistic knowledge may be, for example, the following information.
【0019】郵便物や帳票に書かれた宛名住所の読み取
りの場合、単語の接続関係の制約条件として、図3にお
いて木構造で表現されているような住所の上位−下位関
係を格納する。すなわち、図3の品川区の住所構造で言
えば、「東京都」の下位に「品川区」があり、さらに、
その下位に「荏原」「旗の台」ほかの町名があるという
関係である。住所の場合、一般には、都道府県名、市区
郡名、町名という順番で基本的な上位−下位関係が成り
立っており、町名レベルが大字名、字名(あるいは町
名、系列町名)のように多段になることもある。住所の
場合は、住所要素の上位−下位関係が、そのまま住所要
素の並びの制約になる。すなわち、上位の住所要素から
下位の住所要素の順に並ぶことになる。図3をもとにし
た例を述べれば、「東京都」−「品川区」−「中延」と
いう並びは可能だが、「東京都」−「中延」や「中延」
−「旗の台」のような並びは不可である。そのような接
続制約の表現方法は、例えば、2つの住所要素の全組み
合わせに対して接続可否を記述する方法や、あるい住所
要素の直後あるいは直前に接続し得る住所要素を列挙す
る方法などがある。一般的なドキュメントの文字列の読
み取りの場合には、住所のような階層構造ではなく、文
法的な単語の並びに関する制約にもとづいて、単語の接
続可否を記述することになる。In the case of reading a destination address written on a postal matter or a form, an upper-lower order relationship of an address represented by a tree structure in FIG. 3 is stored as a constraint condition of a word connection relationship. That is, in the address structure of Shinagawa-ku in FIG. 3, there is “Shinagawa-ku” below “Tokyo”,
It is related that there are other town names such as "EBARA", "Flag Nodai", etc. In the case of an address, in general, a basic superordinate-subordinate relationship is established in the order of a prefecture name, a municipal county name, and a town name, and the town name level is represented by a capital letter name, a character name (or a town name, a town name), or the like. It can be multistage. In the case of an address, the upper-lower relationship of the address elements directly serves as a constraint on the arrangement of the address elements. That is, the address elements are arranged in order from a higher-order address element to a lower-order address element. According to the example based on FIG. 3, the sequence of "Tokyo"-"Shinagawa-ku"-"Nakanobu" is possible, but "Tokyo"-"Nakanobu" or "Nakanobu"
-An arrangement such as "flag stand" is not allowed. Examples of such a connection constraint expression method include a method of describing whether connection is possible for all combinations of two address elements, and a method of listing address elements that can be connected immediately after or immediately before an address element. is there. In the case of reading a character string of a general document, whether or not words can be connected is described based on not a hierarchical structure such as an address but a grammatical restriction on word arrangement.
【0020】標準単語の文字コード列情報としては、読
み取り対象に現われる単語を構成する各文字に対して
[単語の文字列U,Uの文字列長L,その文字のU内位
置P]という3項情報を格納する。図4には、図3のよ
うな住所要素群に対する文字コード列情報の内容の例を
示す。図4において、「:」の左側のキー文字は、住所
要素に現われる各文字であり、その右側には、対応する
3項情報が並べてある。それら3項情報は、例えば、
「荏」に対応する[荏原,2,1]であれば、「荏」と
いう文字は住所要素「荏原」の2文字中の1文字目であ
ることを表現している。ある文字が複数の住所要素中に
現われることはあるので、例えば、「延」に対応する
「西中延,3,3][中延,2,2]「東中延,3,
3]であれば、「延」という文字は、住所要素「西中
延」の3文字中の3文字目、または、住所要素「中延」
の2文字中の2文字目、または、住所要素「東中延」の
3文字中の3文字目であることを表現している。なお、
3項情報における住所要素(単語)Uは、図4の例では
文字列で示したが、文字列そのものではなく、住所要素
(単語)と対応づけたコード値で表現してもかまわな
い。The character code string information of the standard word includes, for each character constituting the word appearing in the object to be read, a character string U of a word, a character string length L of U, and a position P in the U of the character. Stores term information. FIG. 4 shows an example of the contents of the character code string information for the address element group as shown in FIG. In FIG. 4, the key characters on the left side of “:” are the characters appearing in the address element, and the corresponding three-term information is arranged on the right side. The three items of information, for example,
In the case of [EBARA, 2, 1] corresponding to "EB", it represents that the character "EB" is the first of two characters of the address element "EBARA". Since a certain character may appear in a plurality of address elements, for example, “Nishinakanobu, 3, 3” [Nakanobu, 2, 2] “Higashinakanobu, 3,” corresponding to “Nobu”
3], the character “Nobu” is the third character of the three characters of the address element “Nishinakanobu” or the address element “Nakanobu”
, Or the third of the three characters of the address element “Higashinakanobu”. In addition,
Although the address element (word) U in the ternary information is represented by a character string in the example of FIG. 4, it may be represented by a code value associated with the address element (word) instead of the character string itself.
【0021】レイアウト知識記憶部6は、書式などの文
字レイアウトに関する情報をレイアウト知識として格納
する通常の記憶手段である。レイアウト知識として格納
される情報には、例えば以下に挙げるような情報が考え
られる。The layout knowledge storage section 6 is a normal storage means for storing information on a character layout such as a format as layout knowledge. The information stored as the layout knowledge may be, for example, the following information.
【0022】記載されている文字列のなかのある1文字
に着目したとき、その文字の一つ前の文字が着目してい
る文字に対してどのような位置に記載され得るかの条件
を与える前方記載領域を決定するパラメータを記憶する
ことができる。When attention is paid to a certain character in the described character string, a condition is given as to what position the preceding character can be described with respect to the noted character. A parameter for determining the front writing area can be stored.
【0023】例えば、ある文字に対する前方記載領域は
図5(a)に示すように表すことができる。このような
領域は以下の式を満たす領域として定義することができ
る。For example, the front writing area for a certain character can be represented as shown in FIG. Such a region can be defined as a region satisfying the following equation.
【0024】ある文字ブロックに対する前方記載領域
は、その文字ブロックの中心点を原点とする局座標を用
いて以下のような領域で表現することができる。The forward description area for a certain character block can be represented by the following area using station coordinates with the center point of the character block as the origin.
【0025】 Rf>r1 0<θ<θ1 ・・・(3) 0 θ1<θ<θ2 r2 θ2<θ<θ3 r1/cosθ θ3<θ<2π ここでθ=0の方向は文字列記載基本方向(縦書きなら
ば上から下への垂直方向、横書きならば左から右への水
平方向)に対して反時計周りに90度回転した方向であ
る。なお、π/2<θ1<π、3π/2<θ2<θ3=
Arccos(r1/r2)<2πである。Rf> r1 0 <θ <θ1 (3) 0 θ1 <θ <θ2 r2 θ2 <θ <θ3 r1 / cosθ θ3 <θ <2π Here, the direction of θ = 0 is the basic direction of the character string. (Vertical direction from top to bottom for vertical writing, horizontal direction from left to right for horizontal writing) is a direction rotated 90 degrees counterclockwise. Note that π / 2 <θ1 <π, 3π / 2 <θ2 <θ3 =
Arccos (r1 / r2) <2π.
【0026】図5において(a)は縦書きで書かれた郵
便物の例であるが、前方記載領域を決定する基準となる
文字に対する右側は自分の行より一行前の行が位置する
ことが可能であり、基準となる文字の上には同じ行内の
文字が記載されている可能性があるという意味を持って
いる。In FIG. 5, (a) shows an example of a postal matter written in a vertical writing mode. The right side of a character serving as a reference for determining the forward writing area may be located one line before its own line. It is possible, and has the meaning that characters in the same line may be described on the reference character.
【0027】式(3)を用いて前方記載領域を定義する
場合には、パラメータのr1とr2とθ1とθ2とθ3
を記憶すればよい。In the case where the forward description area is defined by using equation (3), parameters r1, r2, θ1, θ2, and θ3 are used.
May be stored.
【0028】また、前方記載領域を決定する基準となる
文字がある単語の1文字目である場合にのみ、その直前
で改行されている可能性があるとして、図5の(a)の
ような領域を前方記載領域と考え、それ以外のときには
図5の(b)のように前方記載領域を定義することもで
きる。Also, only when the character serving as a reference for determining the front writing area is the first character of a word, it is determined that there is a possibility that a line feed is performed immediately before the first character, as shown in FIG. The area can be considered as the front writing area, and at other times, the front writing area can be defined as shown in FIG.
【0029】このときの領域は例えば以下の式を満たす
領域として定義することができる。The area at this time can be defined as, for example, an area satisfying the following equation.
【0030】 Rf>r3 π−θ4<θ<π+θ4 ・・・(4) 0 else ここでθ=0の方向は文字列記載基本方向である。なお
0<θ4<π/2である。Rf> r3 π−θ4 <θ <π + θ4 (4) 0 else Here, the direction of θ = 0 is the basic direction for writing a character string. Note that 0 <θ4 <π / 2.
【0031】式(4)で単語の1文字目以外の前方記載
領域を決定する場合には、r3とθ4を記憶すれば良
い。When determining the forward writing area other than the first character of the word by the equation (4), r3 and θ4 may be stored.
【0032】また前方記載領域は矩形領域の組み合わせ
として定義することも可能である。前方記載領域を決定
する基準となるある文字ブロックの中心点を原点とし
て、いくつかの矩形の座標情報を記憶すればよい。この
場合前方記載領域を決定する矩形の数と、それらの矩形
の中心座標と高さと幅を記憶すればよい。この他にも例
えば、基準となる文字を中心としたある半径r4の円内
を前方記載領域としてもよく、この場合にはr4を記憶
すればよい。Further, the front writing area can be defined as a combination of rectangular areas. Some rectangular coordinate information may be stored with the center point of a certain character block serving as a reference for determining the forward writing area as the origin. In this case, the number of rectangles for determining the front writing area, the center coordinates, the height, and the width of those rectangles may be stored. In addition to this, for example, the inside of a circle having a certain radius r4 around the reference character may be used as the front writing area. In this case, r4 may be stored.
【0033】他にもレイアウト知識として考えられるも
のとして、文字列として認識したときに文字の読み飛ば
しがあった場合、読み飛ばされた文字が記載されている
可能性がある領域を対応可能領域として記憶することが
できる。As another possible layout knowledge, if a character is skipped when recognized as a character string, an area in which the skipped character may be described is defined as a corresponding area. Can be memorized.
【0034】今、文字列のi番目の要素に対応する文字
ブロックをブロックi、文字列のi+j番目の要素に対
応する文字ブロックをブロックi+jとすると、ブロッ
クiとブロックi+jの間にi+k番目の要素に対応す
る文字ブロックであるブロックi+kが記載され得る領
域が対応可能領域となる。ここでj>1であり、j>k
>0である。Now, assuming that a character block corresponding to the i-th element of the character string is block i and a character block corresponding to the i + j-th element of the character string is block i + j, the i + k-th element is located between the block i and the block i + j. An area in which a block i + k, which is a character block corresponding to an element, can be described is an applicable area. Where j> 1 and j> k
> 0.
【0035】対応可能領域は、例えば以下のような領域
として定義することができる。ブロックiの中心点を原
点とした以下の式を満たす領域としてRdを定義する。The corresponding area can be defined, for example, as the following area. Rd is defined as a region that satisfies the following equation with the center point of block i as the origin.
【0036】 ブロックiの中心点を原点とした以下の式を満たす領域
としてRuを定義する。[0036] Ru is defined as a region that satisfies the following equation with the center point of block i as the origin.
【0037】 Ru>r5 π−θ5<θ<π+θ5 ・・・(6) 0 else ここでr5はブロックiの中心点とブロックi+jの中
心点間の距離である。また、θ6はブロックiの中心点
からブロックi+jの中心点を結んだ直線の方向からの
角度のずれを表しπ/2以下の値である。式(5)と式
(6)で決定される領域RdとRuの重なる領域を対応
可能領域とすればよい。このときの例は図5(c)に示
されている。Rdは右下がりの斜線領域であり、Ruは
右上がりの斜線領域である。この場合r5はブロックi
とブロックi+jの関係が明らかになった時点で始めて
計算することができる値なので予め記憶する必要は無
く、θ5を記憶すれば良い。Ru> r5 π−θ5 <θ <π + θ5 (6) 0 else Here, r5 is the distance between the center point of block i and the center point of block i + j. Θ6 represents a deviation of an angle from a direction of a straight line connecting the center point of the block i and the center point of the block i + j, and is a value of π / 2 or less. The overlapping area of the areas Rd and Ru determined by the equations (5) and (6) may be set as the corresponding area. An example at this time is shown in FIG. Rd is a diagonally shaded area falling rightward, and Ru is a diagonally shaded area rising rightward. In this case, r5 is the block i
Since it is a value that can be calculated for the first time when the relationship between the block i and the block i + j becomes clear, there is no need to store the value in advance, and θ5 may be stored.
【0038】また、対応可能領域は矩形領域の組み合わ
せとして定義して記憶しておくこともできる。その場合
は、例えばブロックiの中心点とブロックi+jの中心
点を結ぶ直線の中心点を中心とした矩形で表現できる。
この場合、矩形の高さと幅を、ブロックiの中心点とブ
ロックi+jの中心点間の距離との比で表現することが
できるので、その比率をブロック高さとブロック幅を決
定するパラメータとして記憶すれば良い。The corresponding area can be defined and stored as a combination of rectangular areas. In that case, for example, it can be represented by a rectangle centered on the center point of a straight line connecting the center point of block i and the center point of block i + j.
In this case, the height and width of the rectangle can be represented by the ratio of the distance between the center point of block i and the center point of block i + j, and the ratio is stored as a parameter for determining the block height and block width. Good.
【0039】また他のレイアウト知識として、文字列を
認識したときに任意の連続する2文字間、つまりブロッ
クiとブロックi+jの間にはなにも記載されてはいけ
ないとする記載禁止領域を定義して記憶することもでき
る。As another layout knowledge, a write-inhibited area is defined that must not be written between any two consecutive characters when a character string is recognized, that is, between block i and block i + j. You can also memorize.
【0040】これは対応可能領域を定義するときに用い
た方法と同様に定義することができ、例えば式(5)で
算出された領域Rdと式(6)においてk=1と置いて
算出された領域Ruの重なる領域を記載禁止領域とすれ
ばよい。よって、記載禁止領域としては対応可能領域と
同様なパラメータを記憶すれば良い。This can be defined in the same manner as the method used when defining the applicable area. For example, the area Rd calculated by the equation (5) and the equation (6) are calculated by setting k = 1. An area where the overlapped area Ru overlaps may be set as a writing prohibited area. Therefore, the same parameters as those of the corresponding area may be stored as the writing prohibited area.
【0041】さらにレイアウト知識として、行の終端で
あるかどうかのチェックをするためにラインエンド領域
を定義して記憶することもできる。通常一行の終端に位
置する文字の後方には何も文字が記載されていないの
で、行の終端以降には何も文字が記載されてはいけない
ような領域としてラインエンド領域を定義する。Further, as a layout knowledge, a line end area can be defined and stored in order to check whether it is the end of a row. Usually, no character is described after the character located at the end of one line, so the line end area is defined as an area where no character can be described after the end of the line.
【0042】この領域を定義するには、例えば、文字列
記載基本方向に対する角度のずれをθ6として行の終端
に位置するブロックの中心点を原点とした領域を以下の
ように定義する。In order to define this area, for example, an area having the origin at the center point of the block located at the end of the line is defined as follows, assuming that the angle deviation from the basic direction of writing the character string is θ6.
【0043】 ここでθ<θ6<π/2である。この場合記憶する内容
はr6とθ6である。[0043] Here, θ <θ6 <π / 2. In this case, the contents to be stored are r6 and θ6.
【0044】また、ラインエンド領域は矩形領域として
定義して記憶しておくこともでき、この場合は行の終端
に位置するブロックの中心点と原点とした矩形の相対的
な座標情報を記憶すれば良い。The line end area can also be defined and stored as a rectangular area. In this case, the relative coordinate information of the center point of the block located at the end of the line and the rectangle defined as the origin is stored. Good.
【0045】これ以外のレイアウト知識として、単語に
よっては文字の大きさが単語内でも大きく変わることが
あり、例えば図6のように「霞ヶ関」という単語であれ
ば「霞」と「関」の間にくる「ヶ」は小さく書かれるこ
とが多いといった知識を単語内ブロックサイズ情報とし
て記憶することができる。As other layout knowledge, depending on the word, the size of the character may vary greatly within the word. For example, if the word is "Kasumigaseki" as shown in FIG. It is possible to store the knowledge that the “ga” coming in the word is often written small as block size information in a word.
【0046】例えば、登録されているn文字で構成され
る単語内ブロックサイズ情報として、単語内標準ブロッ
クサイズ比[H1,V1,H2,V2,…,Hn,V
n]を記憶する。単語内標準ブロックサイズ比は例えば
以下のように算出することができる。文書毎に記載され
ている文字の大きさは異なるので、まず始めにある単語
の構成要素である文字ブロックの高さと幅のデータから
[h1,v1,h2,v2,…,hn,vn]というデ
ータ形式を作成し、この各要素の値をh1で割ることに
より一度正規化を行ったものについて平均を求めること
により算出することができる。For example, as the intra-word block size information composed of registered n characters, the intra-word standard block size ratio [H1, V1, H2, V2,..., Hn, V
n] is stored. The standard block size ratio within a word can be calculated, for example, as follows. Since the size of the characters described for each document is different, first, from the data of the height and width of the character block which is a component of the word, [h1, v1, h2, v2,..., Hn, vn] This can be calculated by creating a data format and dividing the value of each element by h1 to obtain an average of the values once normalized.
【0047】また単語内標準ブロックサイズ比だけでな
く[H1,V1,H2,V2,…,Hn,Vn]の共分
散行列を算出し記憶しておくこともできる。In addition to the standard block size ratio within a word, a covariance matrix of [H1, V1, H2, V2,..., Hn, Vn] can be calculated and stored.
【0048】レイアウト知識として記憶できる情報はこ
れだけでなく、例えば罫線と文字との相対的な関係や模
様と文字との相対的な関係などを記憶しておくこともで
きる。The information that can be stored as layout knowledge is not limited to this. For example, the relative relationship between ruled lines and characters, the relative relationship between patterns and characters, and the like can also be stored.
【0049】言語知識処理部7は、文字切り出し部2か
ら文字候補図形情報を読み込みこの文字候補図形情報に
対応する文字コードを文字認識部4から読み込みレイア
ウト知識記憶部からレイアウト知識を読み込み言語知識
記憶部5の言語知識を読み込み言語知識と文字コードと
の言語的照合を行い言語知識を満たすような文字コード
の組み合わせを文字列候補として作成し作成された全て
の文字列候補に対して言語的信頼性を表現する尺度とし
ての言語的コストを得る手段である。The linguistic knowledge processing unit 7 reads the character candidate graphic information from the character cutout unit 2, reads the character code corresponding to the character candidate graphic information from the character recognition unit 4, reads the layout knowledge from the layout knowledge storage unit, and stores the language knowledge. The linguistic knowledge of the part 5 is read, the linguistic collation between the linguistic knowledge and the character code is performed, and a combination of character codes satisfying the linguistic knowledge is created as a character string candidate. It is a means of obtaining linguistic costs as a measure of expressing gender.
【0050】ここで言う言語的照合には、いくつかの方
法が考えられる。一例を挙げれば、以下のような方法が
考えられる。Several methods can be considered for the linguistic collation referred to here. As an example, the following method can be considered.
【0051】文字切り出し部2から読み込んだ文字候補
図形情報に対応する文字コードの各々をキーとして、言
語知識の一つである標準単語の文字コード列情報を検索
する。そして、標準単語の文字コード列情報のキー文字
のなかに該当する文字があったら、その文字に対応する
3項情報を読み出して登録する。Using each of the character codes corresponding to the character candidate graphic information read from the character cutout unit 2 as a key, character code string information of a standard word, which is one of language knowledge, is searched. Then, if there is a character corresponding to the key character of the character code string information of the standard word, the ternary information corresponding to the character is read and registered.
【0052】次に、登録された3項情報のなかの2つの
3項情報を連結し、読み取り結果の候補を作成する方法
としては、例えば次のようなものが考えられる。Next, as a method of linking two pieces of the three-item information among the registered three-item information and creating a candidate for the reading result, for example, the following method can be considered.
【0053】3項情報連鎖を作成する第一の実現方法
は、2つの3項情報[U1,L1,P1]と[U2,L
2,P2]について、 条件a:[U1,L1,P1]に対応する文字候補図形
が[U2,L2,P2]に対応する文字候補図形の前方
記載領域にある 条件b:U1=U2かつP1<P2 条件c:U1はU2の前方記載領域に存在し得る としたとき、条件aかつ(条件bまたは条件c)が成立
する際に、[U1,L1,P1]の後に[U2,L2,
P2]を連結して、可能なすべての組み合わせを形成し
た上で、各組み合わせのコスト計算を行なう。The first method for creating a three-term information chain is two pieces of three-term information [U1, L1, P1] and [U2, L
[2, P2] Condition a: The character candidate graphic corresponding to [U1, L1, P1] is in the front entry area of the character candidate graphic corresponding to [U2, L2, P2] Condition b: U1 = U2 and P1 <P2 Condition c: U1 can be present in the forward description area of U2. When Condition a and (Condition b or Condition c) are satisfied, [U2, L2, after [U1, L1, P1].
P2] to form all possible combinations, and then calculate the cost of each combination.
【0054】この他にも例えば、本願と同一出願人によ
る特許明細書(特願平6−317163「文字列読み取
り装置」)に記載されている方法を用いることもでき
る。In addition to this, for example, a method described in a patent specification (Japanese Patent Application No. 6-317163 “character string reading device”) by the same applicant as the present application can be used.
【0055】言語的コストは、様々なものが考えられる
が、例えば読み飛ばした文字数をそのまま言語的コスト
としてもよいし、読み飛ばした文字数を文字列の全文字
数で割ったものでもよい。また、住所などを読み取る場
合文字列の最初には都道府県や市区郡などの情報が書か
れていることが多く、最後のほうは町名が書かれている
ことが多く、しばしば住所読み取りでは町名が読めない
場合のほうが認識誤りを起こしやすいので文字列の最後
の方になればなるほど強い重みを付けてコストを計算す
ることもできる。さらに、連続した読み飛ばしがある場
合、読み飛ばしの個数が多い程大きなコストを与えるこ
ともできる。Various linguistic costs can be considered. For example, the number of skipped characters may be used as it is as the linguistic cost, or the number of skipped characters may be divided by the total number of characters in the character string. Also, when reading addresses, etc., information such as prefectures, municipalities, etc. is often written at the beginning of the character string, and the town name is often written at the end of the character string. Since the recognition error is more likely to occur when the character cannot be read, it is possible to calculate the cost with a stronger weight toward the end of the character string. Further, when there are continuous skips, the greater the number of skips, the greater the cost.
【0056】この他にも例えば、本願と同一出願人によ
る特許明細書(特願平6−317163「文字列読み取
り装置」)に記載されている方法を用いることもでき
る。In addition to this, for example, a method described in a patent specification (Japanese Patent Application No. 6-317163 “character string reading device”) by the same applicant as the present application can be used.
【0057】レイアウト解析部8は、文字切り出し部2
から文字候補図形情報を読み込み言語知識処理部7から
文字列候補を読み込みレイアウト知識記憶部6からレイ
アウト知識を読み込み各文字列候補毎にレイアウト的制
約の妥当性を表現する尺度としてのレイアウトコストを
得る手段である。The layout analysis unit 8 includes the character cutout unit 2
, Character string candidate information is read from the language knowledge processing unit 7, character layout candidates are read from the layout knowledge storage unit 6, and layout knowledge is read from the layout knowledge storage unit 6. The layout cost as a measure for expressing the validity of the layout constraint is obtained for each character string candidate. Means.
【0058】レイアウトコストを計算するには、いくつ
かの方法が考えられる。一例を挙げれば、次のようにし
て実現できる。There are several methods for calculating the layout cost. For example, this can be realized as follows.
【0059】図7に示すように、ある文字列候補のi番
目の文字に対応するブロックiの幅をxi 、高さをyi
として、ブロックiの面積の平方根をsi とする。同様
にj番目の文字に対応するブロックjの面積の平方根を
sj とする。さらにブロックiの中心からブロックjの
中心を結ぶベクトルvijと文字列記載基本方向とのなす
角度をωijとし、ブロックiとブロックjの中心点間の
距離をdijとする。このとき以下のようなコストを算出
する。As shown in FIG. 7, the width of the block i corresponding to the i-th character of a certain character string candidate is x i , and the height is y i.
Let s i be the square root of the area of block i. Similarly, let s j be the square root of the area of block j corresponding to the j-th character. Further, an angle between a vector v ij connecting the center of the block i to the center of the block j and the basic direction of the character string is ω ij, and the distance between the center points of the block i and the block j is d ij . At this time, the following cost is calculated.
【0060】 c1(i,j) =dij/(si +sj ) (ブロックiとj両方が存在する)・ ・・(8) α1 (それ以外) c2(i,j) =|si −sj |/(si +sj ) (ブロックiとj両方が存 在する)・・・(9) α2 (それ以外) c3(i,j) =ωij (ブロックiとj両方が存在する)・・・(10) α3 (それ以外) このときα1とα2とα3は予め与えられた定数であ
る。C1 (i, j) = d ij / (s i + s j ) (both blocks i and j are present) (8) α1 (other than that) c2 (i, j) = | s i −s j | / (s i + s j ) (both blocks i and j exist)... (9) α2 (other than that) c3 (i, j) = ω ij (both blocks i and j exist) (10) α3 (other than that) At this time, α1, α2, and α3 are constants given in advance.
【0061】さらに、図8に示すように、ある文字列候
補のi番目とj番目の要素に対応するブロックiの中心
からブロックjの中心を結ぶベクトルをvij、ブロック
中心間の距離をdij、ある文字列候補のj番目とk番目
の要素に対応するブロックjの中心からブロックkの中
心を結ぶベクトルをvjk、ブロック中心間の距離を
djk、vijとvjkのなす角をθijk とする。このとき以
下のようなコストを算出する。Further, as shown in FIG. 8, a vector connecting the center of block j to the center of block j corresponding to the i-th and j-th elements of a certain character string candidate is represented by v ij , and the distance between block centers is represented by d ij . ij , v jk is a vector connecting the center of block k to the center of block k corresponding to the j-th and k-th elements of a certain character string candidate, the distance between block centers is d jk , and the angle between v ij and v jk Is θ ijk . At this time, the following cost is calculated.
【0062】 c4(i,j,k) =θijk (ブロックi,j,kが全て存在する)・・・(11) α4 (それ以外) c5(i,j,k) =|dij−djk|/(dij+djk) (ブロックi,j,kが全 て存在する)・・・(12) α5 (それ以外) このときα4とα5は予め定められた定数である。これ
らのコストを計算する際に、i+1=j以外のときc1
(i,j) =0、c2(i,j) =0、c3(i,j) =0とおいて
もよい。また、i+2=j+1=k以外のときc4
(i,j,k) =0、c5(i,j,k) =0とおいてもよい。C4 (i, j, k) = θ ijk (all blocks i, j, k exist)... (11) α4 (other) c5 (i, j, k) = | d ij − d jk | / (d ij + d jk ) (all blocks i, j, and k exist) (12) α5 (otherwise) At this time, α4 and α5 are predetermined constants. When calculating these costs, when i + 1 = j, c1
(i, j) = 0, c2 (i, j) = 0 and c3 (i, j) = 0 may be set. When i + 2 = j + 1 = k, c4
(i, j, k) = 0 and c5 (i, j, k) = 0 may be set.
【0063】また、文字列候補中に存在すべき文字コー
ドが抜けてしまったことで読み飛ばした虫食い照合の部
分がある場合、虫食い部分でc1(i,j) 、c2(i,j) 、
c3(i,j) 、c4(i,j,k) 、c5(i,j,k) にペナルティ
ーとして定数値を与えるのではなく、虫食い部分に対応
させることができるような文字候補パターンが対応可能
領域に存在するならば、その部分に仮の対応文字を設定
し、そのままc1(i,j ) 、c2(i,j) 、c3(i,j) 、c
4(i,j,k) 、c5(i,j,k) を計算することもできる。If a character code candidate is skipped because a character code that should be present in the character string candidate has been omitted, c1 (i, j) , c2 (i, j) , c2 (i, j) ,
Instead of giving a constant value as a penalty to c3 (i, j) , c4 (i, j, k) , and c5 (i, j, k) , a character candidate pattern that can be made to correspond to an insect-eating part is supported. If it exists in the possible area, a temporary corresponding character is set in that part, and c1 (i, j ) , c2 (i, j) , c3 (i, j) , c
4 (i, j, k) and c5 (i, j, k) can also be calculated.
【0064】仮対応をさせるには、例えば対応可能領域
にブロック中心点が位置するようなブロックを検出し、
検出されたブロックを仮対応候補としてこれらのブロッ
クのあらゆる可能な組み合わせを仮対応の結果とすれば
よい。この結果、虫食い箇所への仮対応のさせかたは複
数あることになる。複数の仮対応可能性を考え、その中
から一番コストの低い値になった場合を仮対応の結果と
考えて、そのときのコストをレイアウトコストとしても
よいし、全ての仮対応の平均コストをレイアウトコスト
としてもよい。複数の仮対応をさせた結果を図9に示
す。図9の例は文字列として「川越市上野田町」と認識
しようとした場合である。図9(a)では、「上野田
町」の「野」と「田」が虫食いになっている。図9
(b)では、仮対応候補となった三つのブロックを用い
てあらゆる可能な組み合わせを示している。To make provisional correspondence, for example, a block in which the block center point is located in the applicable area is detected, and
The detected blocks may be used as provisional correspondence candidates, and all possible combinations of these blocks may be used as provisional correspondence results. As a result, there are a plurality of ways of temporarily coping with the worm-eating part. Considering the possibility of multiple provisional measures, considering the case of the lowest cost value among them as the result of provisional measures, the cost at that time may be used as the layout cost, or the average cost of all provisional measures May be used as the layout cost. FIG. 9 shows the result of a plurality of provisional correspondences. The example of FIG. 9 is a case where an attempt is made to recognize “Kawagoe City Uenodamachi” as a character string. In FIG. 9A, the “field” and “field” of “Uenoda-cho” are worm-eating. FIG.
In (b), all possible combinations are shown using three blocks that have been provisional correspondence candidates.
【0065】仮対応の結果も利用してレイアウトコスト
を計算する場合には、虫食い部分に仮対応する文字候補
パターンがない場合にのみ、ペナルティーとして各コス
トに定数値を付与すればよいことになる。When the layout cost is calculated using the result of the provisional correspondence, a constant value may be given to each cost as a penalty only when there is no character candidate pattern provisionally corresponding to the worm-eating part. .
【0066】また、ある候補文字列に余分なブロックが
混入したかどうかを評価してレイアウトコストの一つと
することもできる。これは、ある候補文字列内におい
て、言語的に連続する2文字間に設定される記載禁止領
域に他の文字候補パターンが存在するかどうかを評価
し、他の文字候補パターンが存在する場合その文字候補
パターンのブロックの大きさが大きいほどコストが高く
なるように設定すればよい。図10にその例を示してい
る。図10は文字列として「川越市野田町」と認識しよ
うとした場合である。図10(a)では「田」と「町」
の間の記載禁止領域に他の文字候補パターンが存在しな
いので「野田町」と読むことはかなり妥当であるが、図
10(b)では「田」と「町」の間に大きなブロックが
混入しており「野田町」と読む妥当性は低く、図10
(c)では混入したブロックが小さいので妥当性が少し
あるといった内容をコストに反映させる。コストの計算
は、例えば以下のような方法で行うことができる。It is also possible to evaluate whether or not an extra block is mixed in a certain candidate character string and use it as one of the layout costs. This is to evaluate whether there is another character candidate pattern in a writing prohibited area set between two linguistically consecutive characters in a certain candidate character string, and if there is another character candidate pattern, The cost may be set so that the larger the block size of the character candidate pattern, the higher the cost. FIG. 10 shows an example thereof. FIG. 10 shows a case where an attempt is made to recognize “Noda-cho, Kawagoe-shi” as a character string. In FIG. 10A, "field" and "town"
Since there is no other character candidate pattern in the writing prohibited area between "" and "Noda", it is fairly appropriate to read "Nodamachi". However, in FIG. 10B, a large block is mixed between "Ta" and "Town". Therefore, the validity of reading “Noda-cho” is low.
In (c), the content that the mixed block is small and thus slightly valid is reflected in the cost. The cost can be calculated by, for example, the following method.
【0067】ある文字列候補のi番目の要素に対応する
ブロックiとi+1番目の要素に対応するブロックi+
1の面積の平方根をそれぞれsi 、si+1 として、ブロ
ックiとブロックi+1との間に設定された記載禁止領
域とブロックiとブロックi+1以外のブロックとの重
なっている部分の面積の平方根の総和をSとすると以下
のようなコストが算出できる。Block i corresponding to the i-th element of a certain character string candidate and block i + corresponding to the i + 1-th element
The square roots of the area where the writing prohibited area set between the block i and the block i + 1 and the block other than the block i and the block i + 1 overlap each other, where the square roots of the area of 1 are s i and s i + 1 , respectively. If the sum of S is S, the following cost can be calculated.
【0068】 c6(i,i+1) =S/(si +si+1 ) (ブロックiとi+1両方が存在する )・・・(13) 0 (それ以外) また、全体的な文字列の行らしさを評価するために以下
のようなコストを考えることもできる。C6 (i, i + 1) = S / (s i + s i + 1 ) (both blocks i and i + 1 exist) (13) 0 (others) Also, the entire character string The following costs can be considered in order to evaluate the feasibility.
【0069】今、文字数Nの文字列候補があったとする
と、文字列記載基本方向をH軸、文字列記載基本方向と
垂直な方向をV軸として候補文字列のi番目の文字に対
応するブロックiの中心点の座標をBi Hm 、Bi Vm
と置きなおし、Bi Vm の平均値をAveVm とし、|
BN Hm −BO Hm |をLineHとすると、以下のよ
うなコストを計算することができる。Now, assuming that there are character string candidates having the number of characters N, the block corresponding to the i-th character of the candidate character string is defined by setting the basic direction of the character string as the H axis and the direction perpendicular to the basic direction of the character string as the V axis. i the coordinate of the center point of the B i H m, B i V m
And the average value of B i V m is AveV m, and |
B N H m -B O H m | When the the LineH, it is possible to calculate the cost as follows.
【0070】 c7i =|Bi Vm −AveVm |/LineH ・・・(14) この一例を図11に示す。図11では文字数N=6の場
合の例を示している。C7 i = | B i V m −Ave V m | / LineH (14) An example of this is shown in FIG. FIG. 11 shows an example where the number of characters N = 6.
【0071】さらに、住所は必ずしも一行だけで記載さ
れているとは限らないので二行にまたがって住所が書か
れている場合についても評価することができる。この場
合、行が改行されている部分を検出して二行に分割し、
次にそれぞれの行らしさを評価すればよい。Further, since the address is not always described on one line, it is possible to evaluate the case where the address is written over two lines. In this case, the line break is detected and split into two lines.
Next, it is sufficient to evaluate each of the actions.
【0072】改行の検出には様々な方法が考えられる。
ここで一例を挙げるならば、例えばc1(i,j) とc3
(i,j) とc5(i-1,j-1,k-1) とc5(i,j,k) が同時に大
きな値を持つ部分があったとすると、i文字目とj文字
目の間が行の切れ目であると考えて二行にわけることが
できる。ここで、i+2=j+1=kの関係がある。図
12に、この一例を示す。図12(a)のようにc1
(6,7)とc3(6,7)とc5(5,6,7)とc
5(6,7,8)が同時に大きくなると、ブロック6と
ブロック7が行の切れ目であることが検出できる。Various methods can be considered for detecting a line feed.
Here, for example, for example, c1 (i, j) and c3
If there is a part where (i, j) , c5 (i-1, j-1, k-1) and c5 (i, j, k) have large values at the same time, Is considered to be a line break and can be divided into two lines. Here, there is a relationship of i + 2 = j + 1 = k. FIG. 12 shows an example of this. As shown in FIG.
(6,7), c3 (6,7), c5 (5,6,7) and c
When 5 (6, 7, 8) simultaneously increases, it can be detected that blocks 6 and 7 are line breaks.
【0073】改行が検出された場合、行の切れ目で計算
されるレイアウトコストをクリアすることもできる。ま
た改行部分で二行に分割してそれぞれの行らしさの総和
を求めることもできる。When a line feed is detected, the layout cost calculated at the line break can be cleared. In addition, it is also possible to divide the line into two lines at the line feed portion and calculate the total sum of the lines.
【0074】また、行の切れ目が確からしいかどうかを
評価することもできる。これは、ある第m行目の行の終
端に対応するブロックの後方にラインエンド領域を設定
しその領域に終端のブロック以外のブロックが存在した
場合ペナルティーとして定数α6をc8m として与え
て、存在しなかった場合にはα7を与えれば良い。この
ときα6とα7は予め決められた定数であり、α6>>
α7である。また、文字列として住所を認識する場合な
どは、住所の最終文字とラインエンドのブロックが一致
したときc8m =0とし、また住所の最終文字のライン
エンド領域に数字として認識できるような文字候補ブロ
ックが存在した場合もc8m =0とすることができる。It is also possible to evaluate whether a line break is likely. This is because a line end area is set behind a block corresponding to the end of a certain m-th row, and a constant α6 is given as a penalty c8 m as a penalty when a block other than the end block exists in that area. Otherwise, α7 may be given. At this time, α6 and α7 are predetermined constants, and α6 >>
α7. When the address is recognized as a character string, c8 m = 0 when the last character of the address matches the line end block, and a character candidate that can be recognized as a number in the line end area of the last character of the address. When a block exists, c8 m = 0 can be set.
【0075】さらに、図13のように文字行らしさを算
出する際、候補文字列の各ブロックの中心点を基にして
最小自乗法で求めた直線の方向に基づいて文字列記載基
本方向を新たに求めることもできる。Further, when calculating the character likelihood as shown in FIG. 13, the basic direction of the character string description is newly set based on the direction of the straight line obtained by the least square method based on the center point of each block of the candidate character string. You can also ask.
【0076】また、単語内標準ブロックサイズ情報を用
いてある文字列候補中の単語の図形情報による単語らし
さを評価することもできる。今、評価している文字列候
補内のある単語のブロックの座標情報とその単語に対応
する単語内標準ブロックサイズ情報とを比較して単語ら
しさを評価することができる。Further, it is also possible to evaluate the likelihood of a word in a certain character string candidate by using graphic information using standard intra-word block size information. Now, the word-likeness can be evaluated by comparing the coordinate information of a block of a certain word in the evaluated character string candidate with the standard block size information within a word corresponding to the word.
【0077】例えばこの比較にベクトル間のユークリッ
ド距離を用いて単語らしさを算出することができる。単
語らしさの評価にはマハラノビス距離等を用いてもよ
い。この単語らしさの総和をc9として候補文字列のレ
イアウトコストの一つであるとすることもできる。For example, the likelihood of a word can be calculated using the Euclidean distance between the vectors in this comparison. Mahalanobis distance or the like may be used for evaluation of wordiness. The sum of the word-likeness may be c9, which is one of the layout costs of the candidate character string.
【0078】今、ある文字列候補の文字数をN個、文字
行数をMだとすると、その文字列候補に対するレイアウ
トコストは以下のようにして算出される。Assuming that the number of characters of a character string candidate is N and the number of character lines is M, the layout cost for the character string candidate is calculated as follows.
【0079】 LC1=(1/N)ΣΣc1(i,j) ・・・(15) LC2=(1/N)ΣΣc2(i,j) ・・・(16) LC3=(1/N)ΣΣc3(i,j) ・・・(17) LC4=(1/N)ΣΣΣc4(i,j,K) ・・・(18) LC5=(1/N)ΣΣΣc5(i,j,K) ・・・(19) LC6=(1/N)Σc6(i,i+1) ・・・(20) LC7=(1/N)Σc7i ・・・(21) LC8=Σc8i ・・・(22) LC9=c9 ・・・(23) 文字列認識結果出力部9は、文字認識部4から文字認識
コストを読み込み、言語知識処理部7から各文字列候補
の言語的コストを読み込み、レイアウト解析部8から各
文字列候補のレイアウトコストを読み込み、これら三つ
のコストを組み合わせたときに最も良い(低い)コスト
が得られる文字列候補を文字列認識結果として出力する
手段である。LC1 = (1 / N) ΣΣc1 (i, j) (15) LC2 = (1 / N) ΣΣc2 (i, j) (16) LC3 = (1 / N) ΣΣc3 ( i, j) (17) LC4 = (1 / N) ΣΣΣc4 (i, j, K) (18) LC5 = (1 / N) ΣΣΣc5 (i, j, K) ... ( 19) LC6 = (1 / N) Σc6 (i, i + 1) (20) LC7 = (1 / N) Σc7 i (21) LC8 = Σc8 i (22) LC9 = c9 (23) The character string recognition result output unit 9 reads the character recognition cost from the character recognition unit 4, reads the linguistic cost of each character string candidate from the linguistic knowledge processing unit 7, and reads each linguistic cost from the layout analysis unit 8. This is a means for reading the layout cost of a character string candidate and outputting as a character string recognition result a character string candidate that provides the best (lowest) cost when these three costs are combined.
【0080】文字認識コストと言語的コストとレイアウ
トコストを組み合わせて文字列認識コストを計算するに
は、いくつかの方法が考えられる。一例を挙げれば、次
のようにして実現できる。There are several methods for calculating the character string recognition cost by combining the character recognition cost, the linguistic cost, and the layout cost. For example, this can be realized as follows.
【0081】ある文字列候補の全文字数をN個だとする
とある文字列のi番目の文字の文字認識コストをrci
とすると、全文字認識コストRCは以下のように算出さ
れる。Assuming that the total number of characters of a certain character string candidate is N, the character recognition cost of the i-th character of a certain character string is rc i
Then, the total character recognition cost RC is calculated as follows.
【0082】RC=Σrci ・・・(24) ただしi番目の文字に対応する文字認識結果が存在しな
い場合はri=βとする。このときβは予め定められた
定数である。このとき文字列の最後のほうになればなる
ほど強い重みを付けてコストを計算することもできる。RC = Σrc i (24) However, if there is no character recognition result corresponding to the i-th character, ri = β. At this time, β is a predetermined constant. At this time, the cost can be calculated by assigning a stronger weight toward the end of the character string.
【0083】また、言語的コストをKCとする。The linguistic cost is KC.
【0084】いま文字列認識コストSCを以下の式によ
って定義する。Now, the character string recognition cost SC is defined by the following equation.
【0085】 SC=γ×RC+δ×KC+ε1×LC1+ε2×LC2+ε3×LC3+ε 4×LC4+ε5×LC5+ε6×LC6+ε7×LC7+ε8×LC8+ε9 ×LC9 ・・・(25) このときγ、δ、ε1、ε2、ε3、ε4、ε5、ε
6、ε7、ε8、ε9は予め定められた定数である。こ
のコストは、文字列の認識結果が正常である可能性が高
いときに低い値になり、間違っている可能性が高いとき
ほど大きな値になるようなものであればどんなコストで
もよい。SC = γ × RC + δ × KC + ε1 × LC1 + ε2 × LC2 + ε3 × LC3 + ε4 × LC4 + ε5 × LC5 + ε6 × LC6 + ε7 × LC7 + ε8 × LC8 + ε9 × LC9 (25) At this time, γ, δ, ε1, ε2, ε3, ε4, ε5 , Ε
6, ε7, ε8, and ε9 are predetermined constants. This cost may be any value as long as it has a low value when the recognition result of the character string is likely to be normal, and has a large value when the recognition result of the character string is likely to be incorrect.
【0086】このようにして算出された文字列認識コス
トが最も良い値(低い値)になった文字列候補を文字列
認識結果として出力することにより文字列を認識する。A character string is recognized by outputting the character string candidate whose character string recognition cost calculated as described above has the best value (low value) as a character string recognition result.
【0087】次に本発明の第2の実施例を説明する。本
実施例では文字列を認識する際に第一の実施例で示した
ように文字列認識コストを計算して最良コストを認識結
果とする方法以外に、学習を用いて認識系を構成し、構
成された認識系を用いて文字列を認識する機能を文字列
認識結果出力部9に備える。Next, a second embodiment of the present invention will be described. In this embodiment, when a character string is recognized, in addition to the method of calculating a character string recognition cost and obtaining the best cost as a recognition result as shown in the first embodiment, a recognition system is configured using learning, The character string recognition result output unit 9 has a function of recognizing a character string using the configured recognition system.
【0088】学習を用いて認識系を構成するためには、
例えば以下のような方法が考えられる。To construct a recognition system using learning,
For example, the following method can be considered.
【0089】予めいくつかの文字列画像に対する全文字
列候補を作成し、全文字列候補中に正解が存在すればそ
の文字列候補に正解であるという情報を付与し、その他
の文字列候補に不正解であるという情報を付与する。こ
のように正解情報と不正解情報が付与された文字列候補
の各コストRC、KC、LC1、LC2、LC3、LC
4、LC5、LC6、LC7、LC8、LC9を入力と
考え学習を行う。All character string candidates for some character string images are created in advance, and if there is a correct answer in all the character string candidates, information that the character string candidate is correct is given to other character string candidates. Give information that the answer is incorrect. In this way, each cost RC, KC, LC1, LC2, LC3, LC of the character string candidate to which the correct information and the incorrect information are added.
4, learning is performed considering LC5, LC6, LC7, LC8, and LC9 as inputs.
【0090】学習を行うには、例えば重回帰分析や判別
分析などの統計的な方法を用いたり、ニューラルネット
を用いることによって学習を行うことができる。The learning can be performed by using a statistical method such as a multiple regression analysis or a discriminant analysis, or by using a neural network.
【0091】重回帰分析を用いて学習を行う場合、文字
列候補が正解ならば例えば−1、不正解ならな例えば1
を出力するように学習を行えばよい。このようにして学
習によって構成された認識系を用いて認識を行う際には
認識系が最も低い値を出力した文字列候補を文字列認識
結果とすればよい。In the case of learning using multiple regression analysis, if the character string candidate is a correct answer, for example, -1;
Should be learned so as to output. When performing recognition using a recognition system configured by learning in this way, a character string candidate that has output the lowest value from the recognition system may be used as a character string recognition result.
【0092】また、重回帰分析によって得られる結果
は、式(25)におけるSCを計算するためのパラメー
タγ、δ、ε1、ε2、ε3、ε4、ε5、ε6、ε
7、ε8、ε9と考えることも可能であり、重回帰分析
によって得られたパラメータを第一の実施例の式(2
5)のパラメータとすることもできる。また、学習に判
別分析を用いる場合も同様である。The results obtained by the multiple regression analysis are the parameters γ, δ, ε1, ε2, ε3, ε4, ε5, ε6, ε for calculating SC in equation (25).
7, ε8, ε9, and the parameters obtained by the multiple regression analysis are calculated using the equation (2) in the first embodiment.
It can also be the parameter of 5). The same applies when discriminant analysis is used for learning.
【0093】また、ニューラルネットを用いる場合は、
RC、KC、LC1、LC2、LC3、LC4、LC
5、LC6、LC7、LC8、LC9を入力とし、正解
の場合1、不正解の場合0の教師信号を与えることによ
り学習させたニューラルネットを用いて文字列認識を行
うこともできる。When a neural network is used,
RC, KC, LC1, LC2, LC3, LC4, LC
Character string recognition can also be performed using a neural network trained by inputting 5, LC6, LC7, LC8, and LC9 as input, and giving a teacher signal of 1 for a correct answer and 0 for an incorrect answer.
【0094】次に本発明の第三の実施例を説明する。本
実施例では文字列を認識する際に、最小コストを与える
文字列候補で文字認識結果の文字コードが一部得られて
いない等の未解決の部分に対して認識結果を確かめるた
めに文字切り出しと認識をもう一度行い直し、その結果
に基づいて文字列認識を行う検証機能を文字列認識結果
出力部9に備える。Next, a third embodiment of the present invention will be described. In this embodiment, when recognizing a character string, character extraction is performed to check the recognition result for an unresolved portion such as a character string candidate that gives the minimum cost and a character code of the character recognition result is partially not obtained. The character string recognition result output unit 9 is provided with a verification function of performing the recognition again, and performing character string recognition based on the result.
【0095】この検証機能は、例えば本願と同一出願人
による特許明細書(特願平6−317163「文字列読
み取り装置」)に記載されている方法を用いて実現する
ことができる。This verification function can be realized by using, for example, a method described in a patent specification (Japanese Patent Application No. 6-317163 “character string reading device”) by the same applicant as the present application.
【0096】[0096]
【発明の効果】以上説明したように本発明によれば、始
めに言語知識処理を施して複数の文字列候補を作成し、
これらの文字列候補に対してレイアウトコストを計算
し、文字認識コストと言語的コストとレイアウトコスト
を同時に用いて文字列を認識するので、文字列が複数行
入力されても認識対象の文字列を正しく認識することが
できる。As described above, according to the present invention, a plurality of character string candidates are created by first performing linguistic knowledge processing.
The layout cost is calculated for these character string candidates, and the character string is recognized using the character recognition cost, the linguistic cost, and the layout cost at the same time. Can be correctly recognized.
【図1】本発明の一実施例の概略構成を示すブロック
図。FIG. 1 is a block diagram showing a schematic configuration of an embodiment of the present invention.
【図2】図1に示すブロック図の文字切り出し部の処理
を説明するための図。FIG. 2 is a view for explaining processing of a character cutout unit in the block diagram shown in FIG. 1;
【図3】住所要素の一覧の例を示す図。FIG. 3 is a diagram showing an example of a list of address elements.
【図4】文字コード列情報の内容の例を示す図。FIG. 4 is a diagram showing an example of the contents of character code string information.
【図5】レイアウト知識の例を示す図。FIG. 5 is a diagram showing an example of layout knowledge.
【図6】単語の図形的知識を説明する図。FIG. 6 is a view for explaining graphical knowledge of words.
【図7】図1に示すブロック図のレイアウト解析部の処
理を説明するための図。FIG. 7 is a view for explaining processing of a layout analysis unit in the block diagram shown in FIG. 1;
【図8】図1に示すブロック図のレイアウト解析部の処
理を説明するための図。FIG. 8 is a view for explaining processing of a layout analysis unit in the block diagram shown in FIG. 1;
【図9】虫食い照合に対する仮対応の例を説明する図。FIG. 9 is a view for explaining an example of provisional correspondence to worm-eating verification.
【図10】余分なブロックが混入したときのコストの計
算方法について説明する図。FIG. 10 is a diagram illustrating a method of calculating a cost when an extra block is mixed.
【図11】文字行らしさを説明する図。FIG. 11 is a diagram illustrating character lineness.
【図12】改行検出してから文字文字行らしさを評価す
ることを説明する図。FIG. 12 is a view for explaining evaluation of character / character line likeness after line feed detection.
【図13】文字列記載基本方向を最小自乗法で求めるこ
とを説明する図。FIG. 13 is a view for explaining that a basic direction in which a character string is written is determined by a least square method.
1 画像記憶部 2 文字切り出し部 3 文字認識辞書記憶部 4 文字認識部 5 言語知識記憶部 6 レイアウト知識記憶部 7 言語知識処理部 8 レイアウト解析部 9 文字列認識結果出力部 DESCRIPTION OF SYMBOLS 1 Image storage part 2 Character extraction part 3 Character recognition dictionary storage part 4 Character recognition part 5 Language knowledge storage part 6 Layout knowledge storage part 7 Language knowledge processing part 8 Layout analysis part 9 Character string recognition result output part
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平8−96075(JP,A) 特開 平7−57054(JP,A) 特開 平3−225579(JP,A) 特開 昭63−223890(JP,A) 「二次元配置情報を用いた文字認識手 法」,電子情報通信学会技術研究報告, Vol.95,No.278(PRU95 103 −120),page31−36,1995/9 (58)調査した分野(Int.Cl.6,DB名) G06K 9/62 620 特許ファイル(PATOLIS) JICSTファイル(JOIS)────────────────────────────────────────────────── ─── Continuation of the front page (56) References JP-A-8-96075 (JP, A) JP-A-7-57054 (JP, A) JP-A-3-225579 (JP, A) JP-A-63-1988 223890 (JP, A) "Character Recognition Method Using Two-Dimensional Layout Information", IEICE Technical Report, Vol. 95, No. 278 (PRU95 103-120), page 31-36, 1995/9 (58) Fields investigated (Int. Cl. 6 , DB name) G06K 9/62 620 Patent file (PATOLIS) JICST file (JOIS)
Claims (7)
識する文字列認識装置において、光学的に走査された文
字列画像を格納する文字列画像記憶部と、前記文字列画
像を読み込み文字候補パターンと文字候補図形情報を作
成する文字切り出し部と、標準文字パターンを記憶する
文字認識辞書記憶部と、前記文字認識辞書記憶部に格納
されている前記標準文字パターンと前記文字切り出し部
から読み込んだ前記文字候補パターンを照合し文字認識
結果として文字コードと文字認識結果の信頼性を表現す
る尺度としての文字認識コストを得る文字認識部と、言
語知識を格納する言語知識記憶部と、文字の記載条件な
どの図形的知識としてレイアウト知識を格納するレイア
ウト知識記憶部と、前記文字切り出し部から前記文字候
補図形情報を読み込み前記文字候補図形情報に対応する
前記文字コードを前記文字認識部から読み込み前記レイ
アウト知識記憶部から前記レイアウト知識を読み込み前
記言語知識記憶部に格納されている前記言語知識と前記
文字コードとの言語的照合を行い前記言語知識を満たす
ような前記文字コードの組み合わせを文字列候補として
作成し作成された前記文字列候補の言語的信頼性を表現
する尺度としての言語的コストを得る言語知識処理部
と、前記文字切り出し部から前記文字候補図形情報を読
み込み、前記言語知識処理部から前記文字列候補を読み
込み、前記レイアウト知識記憶部から前記レイアウト知
識を読み込み前記文字列候補に対してレイアウト的制約
の妥当性を表現する尺度としてのレイアウトコストを得
るレイアウト解析部と、前記文字認識部から前記文字認
識コストを読み込み前記言語知識処理部から前記文字列
候補に対する前記言語的コストを読み込み前記レイアウ
ト解析部から前記文字列候補の前記レイアウトコストを
読み込み前記文字認識コストと前記言語的コストと前記
レイアウトコストを組み合わせたときに最も良いコスト
が得られる前記文字列候補を文字列認識結果として出力
する文字列認識結果出力部を備えることを特徴とする文
字列認識装置。A character string recognizing device for recognizing a character string by inputting an image of a handwritten character string, a character string image storage unit for storing an optically scanned character string image, and reading the character string image A character cutout unit for creating a character candidate pattern and character candidate graphic information, a character recognition dictionary storage unit for storing a standard character pattern, and a standard character pattern and a character cutout unit stored in the character recognition dictionary storage unit. A character recognition unit that collates the read character candidate patterns and obtains a character code and a character recognition cost as a measure for expressing the reliability of the character recognition result as a character recognition result; a linguistic knowledge storage unit that stores linguistic knowledge; A layout knowledge storage unit for storing layout knowledge as graphical knowledge such as a description condition of the character, and reading the character candidate graphic information from the character cutout unit. The character code corresponding to the character candidate graphic information is read from the character recognition unit, the layout knowledge is read from the layout knowledge storage unit, the language of the language knowledge and the character code stored in the language knowledge storage unit. Language matching processing unit that performs linguistic matching to create a combination of the character codes satisfying the linguistic knowledge as a character string candidate and obtains a linguistic cost as a scale expressing linguistic reliability of the created character string candidate Reading the character candidate graphic information from the character cutout unit, reading the character string candidate from the linguistic knowledge processing unit, reading the layout knowledge from the layout knowledge storage unit, and setting layout restrictions on the character string candidate. A layout analysis unit for obtaining a layout cost as a measure expressing validity; The character recognition cost is read from the language knowledge processing unit, and the linguistic cost for the character string candidate is read from the layout analysis unit.The layout cost of the character string candidate is read from the layout analysis unit. A character string recognition device comprising: a character string recognition result output unit that outputs, as a character string recognition result, the character string candidate that provides the best cost when layout costs are combined.
在すべき文字コードが抜けてしまい言語的に読み飛ばし
た文字の部分があって、かつ読み飛ばした文字の記載さ
れている可能性のある領域に文字列の要素でない文字候
補図形情報が存在する場合、文字列の構成要素でない文
字候補図形情報と読み飛ばした文字とを仮に対応させて
前記レイアウトコストを計算する機能を備えることを特
徴とする請求項1記載の文字列認識装置。2. The layout analysis unit according to claim 1, wherein a character code to be present in the character string candidate is omitted, and there is a character portion which is linguistically skipped, and a possibility that the skipped character is described. In a case where character candidate graphic information that is not a component of a character string exists in a certain area, a function of calculating the layout cost by temporarily associating character candidate graphic information that is not a component of a character string with a skipped character is provided. The character string recognition device according to claim 1, wherein
かで言語的に連続する部分に文字列の構成要素でない文
字コードに対応した文字候補図形情報が存在する場合ペ
ナルティーを与えて前記レイアウトコストを計算する機
能を備えることを特徴とする請求項1記載の文字列認識
装置。3. The layout analysis unit gives a penalty if character candidate graphic information corresponding to a character code that is not a component of a character string exists in a linguistically continuous part of the character string candidates, and gives the layout cost. 2. The character string recognition device according to claim 1, further comprising a function of calculating.
中で改行されたかどうかを検出して、途中で改行された
場合と改行されていない場合で前記レイアウトコストの
計算方法を変える機能を備えることを特徴とする請求項
1記載の文字列認識装置。4. The layout analysis section has a function of detecting whether a line break has occurred in the middle of a character string candidate, and changing the method of calculating the layout cost depending on whether the line break has occurred in the middle or not. 2. The character string recognition device according to claim 1, wherein:
かに存在する単語単位に図形情報を用いて単語らしさを
評価して前記レイアウトコストを計算する機能を備える
ことを特徴とする請求項1記載の文字列認識装置。5. The layout analysis unit according to claim 1, further comprising a function of evaluating the likelihood of a word using graphic information for each word existing in a character string candidate and calculating the layout cost. A character string recognition device as described.
識コストと前記言語的コストと前記レイアウトコストを
組み合わせて文字列を認識する手段を学習によって構成
する機能を備えることを特徴とする請求項1記載の文字
列認識装置。6. The character string recognition result output unit has a function of configuring a means for recognizing a character string by combining the character recognition cost, the linguistic cost, and the layout cost by learning. Item 1. The character string recognition device according to Item 1.
文字列の信頼性が低かった場合、認識された文字列の存
在可能性を判定する検証機能を備えることを特徴とする
請求項1記載の文字列認識装置。7. The character string recognition result output unit includes a verification function for determining whether or not the recognized character string exists when the reliability of the recognized character string is low. 1. The character string recognition device according to 1.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7203148A JP2825072B2 (en) | 1995-08-09 | 1995-08-09 | String recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7203148A JP2825072B2 (en) | 1995-08-09 | 1995-08-09 | String recognition device |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0950485A JPH0950485A (en) | 1997-02-18 |
JP2825072B2 true JP2825072B2 (en) | 1998-11-18 |
Family
ID=16469227
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP7203148A Expired - Fee Related JP2825072B2 (en) | 1995-08-09 | 1995-08-09 | String recognition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2825072B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4805485B2 (en) * | 2001-07-11 | 2011-11-02 | 株式会社東芝 | Word recognition method and word recognition device |
JP4600651B2 (en) * | 2004-10-06 | 2010-12-15 | 日本電気株式会社 | Character string recognition method and apparatus |
JP6342298B2 (en) * | 2014-10-31 | 2018-06-13 | 株式会社東芝 | Character recognition device, image display device, image search device, character recognition method and program |
JP2017116830A (en) * | 2015-12-25 | 2017-06-29 | カシオ計算機株式会社 | Information display device and program |
-
1995
- 1995-08-09 JP JP7203148A patent/JP2825072B2/en not_active Expired - Fee Related
Non-Patent Citations (1)
Title |
---|
「二次元配置情報を用いた文字認識手法」,電子情報通信学会技術研究報告,Vol.95,No.278(PRU95 103−120),page31−36,1995/9 |
Also Published As
Publication number | Publication date |
---|---|
JPH0950485A (en) | 1997-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210034850A1 (en) | System and method of character recognition using fully convolutional neural networks with attention | |
Lee et al. | A new methodology for gray-scale character segmentation and recognition | |
JP3639126B2 (en) | Address recognition device and address recognition method | |
US6950555B2 (en) | Holistic-analytical recognition of handwritten text | |
KR100249055B1 (en) | Character recognition apparatus | |
US20150339525A1 (en) | Process of handwriting recognition and related apparatus | |
Maddouri et al. | Combination of local and global vision modelling for arabic handwritten words recognition | |
JPH0664631B2 (en) | Character recognition device | |
Cohen et al. | Understanding handwritten text in a structured environment: determining ZIP codes from addresses | |
JPH1011531A (en) | Slip reader | |
JP2825072B2 (en) | String recognition device | |
JPH09319824A (en) | Document recognizing method | |
JPH0689365A (en) | Document image processor | |
JP3673616B2 (en) | Gift certificate identification method and apparatus | |
JPH11328315A (en) | Character recognizing device | |
JPH08287188A (en) | Character string recognition device | |
Al Ohali | Handwritten word recognition: Application to Arabic cheque processing | |
JP2922365B2 (en) | Kanji address data processing method in OCR processing system | |
JPH0256086A (en) | Method for postprocessing for character recognition | |
Zerdoumi et al. | A deep learning based approach for extracting Arabic handwriting: applied calligraphy and old cursive | |
JP2991457B2 (en) | How to recognize special continuous numbers | |
JP2000298701A (en) | Destination specifying device | |
Benafia et al. | Proposition of a graphic model with features for handwritten character recognition | |
JP2002312398A (en) | Document retrieval device | |
JP3151866B2 (en) | English character recognition method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 19980811 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080911 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080911 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090911 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090911 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100911 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110911 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120911 Year of fee payment: 14 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130911 Year of fee payment: 15 |
|
LAPS | Cancellation because of no payment of annual fees |