JPH07210632A - Character recognition device - Google Patents

Character recognition device

Info

Publication number
JPH07210632A
JPH07210632A JP6007492A JP749294A JPH07210632A JP H07210632 A JPH07210632 A JP H07210632A JP 6007492 A JP6007492 A JP 6007492A JP 749294 A JP749294 A JP 749294A JP H07210632 A JPH07210632 A JP H07210632A
Authority
JP
Japan
Prior art keywords
sentence
character
recognition
area
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6007492A
Other languages
Japanese (ja)
Inventor
Yukiya Sugiyama
幸也 杉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP6007492A priority Critical patent/JPH07210632A/en
Publication of JPH07210632A publication Critical patent/JPH07210632A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

PURPOSE:To provide the character recognition device superior in reliability and workability which automatically discriminates connection relations between sentence areas to recognize the characters. CONSTITUTION:This device is provided with an image read part 1 which reads in a document or the like and stores image data in an image storage part 2, a layout storage part 3 which extracts individual sentence areas from image data to recognize the layout, a character recognition part 4 which recognizes characters in each sentence area to store them in a recognition result storage part 5, a word dictionary 6 where all words are stored, a connection discriminating part 7 which couples characters or a character string in the end part of each sentence area and characters or a character string in the head part of another sentence area to generate a character string for discrimination and collates it with the word dictionary 6 and discriminates connectability between sentence areas in the case of success of collation with the word dictionary 6, and a recognition result sort part 9 which sorts code data of each sentence area based on the connectability obtained by the connection discriminating part 7 and stores the result in a sentence data storage part 8.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は新聞,雑誌,小説等の活
字,ドット文字及び手書き文字パターンを、JISコー
ド等のコードデータに変換する文字認識装置に関するも
のである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character recognition device for converting printed characters, dot characters and handwritten character patterns of newspapers, magazines, novels etc. into code data such as JIS code.

【0002】[0002]

【従来の技術】近年、コンピュータ等の高性能化に伴っ
て、文書等の保管スペースの削減,研削等の際の作業性
の向上等を目的とし、文書等の電子化が行われるように
なり、そのための入力装置として、キーボードに代わ
り、文書等を読み取って、直接JISコード等のコード
データに変換することができる文字認識装置が種々開発
されている。
2. Description of the Related Art In recent years, as computers have become more sophisticated, documents have been digitized for the purpose of reducing the storage space for documents and improving workability in grinding and the like. As an input device therefor, various character recognition devices have been developed, which can read a document or the like and directly convert it into code data such as JIS code instead of a keyboard.

【0003】以下に従来の文字認識装置について説明す
る。図6は認識対象文書の一例を示す図であり、図7は
図6に対する一般的なレイアウト認識結果を示す図であ
り、図8は図6に対する従来の文字認識装置の認識結果
を示す図である。図7において、aは図6に対する一般
的なレイアウト認識処理によって得られた第1の文章領
域、bは第1の文章領域aと同様な第2の文章領域、c
は第1の文章領域aと同様な第3の文章領域、dは第1
の文章領域aと同様な第4の文章領域である。
A conventional character recognition device will be described below. 6 is a diagram showing an example of a document to be recognized, FIG. 7 is a diagram showing a general layout recognition result for FIG. 6, and FIG. 8 is a diagram showing a recognition result for a conventional character recognition device for FIG. is there. In FIG. 7, a is a first text area obtained by the general layout recognition processing for FIG. 6, b is a second text area similar to the first text area a, and c is
Is a third sentence area similar to the first sentence area a, and d is the first sentence area
It is a fourth text area similar to the text area a.

【0004】従来の文字認識は、初めに、認識対象文書
に対して、文字の分布等に基づいて一般的なレイアウト
認識処理を行う。ここでは、図6に示すような認識対象
文書から、図7に示すようなレイアウト認識結果が得ら
れ、a乃至dの4つの文章領域が抽出されたものとす
る。次に、レイアウト認識結果に応じ、各文章領域内を
予め定められた順序に従って文字認識し、認識結果を得
る。ここで、文字認識は、左上の文章領域から、右下へ
向けて行うものとする。ここでは、図8に示すように、
第1の文章領域a,第2の文章領域b,第3の文章領域
c,第4の文章領域dの順番で、文字認識が行われる。
図8から明らかなように、従来の文字認識装置は、各文
章領域間の接続関係を誤認識している。
In the conventional character recognition, first, a general layout recognition process is performed on a document to be recognized based on the distribution of characters and the like. Here, it is assumed that the layout recognition result as shown in FIG. 7 is obtained from the recognition target document as shown in FIG. 6 and four sentence regions a to d are extracted. Next, according to the layout recognition result, character recognition is performed in each sentence area in a predetermined order, and a recognition result is obtained. Here, character recognition is performed from the upper left sentence area toward the lower right. Here, as shown in FIG.
Character recognition is performed in the order of the first sentence area a, the second sentence area b, the third sentence area c, and the fourth sentence area d.
As is apparent from FIG. 8, the conventional character recognition device erroneously recognizes the connection relation between the text areas.

【0005】[0005]

【発明が解決しようとする課題】しかしながら上記従来
の構成では、レイアウト認識処理によって得られた各文
章領域を文字認識する順番を、単にこれらの位置関係の
みから決定しているために、各文章領域間の接続関係を
誤認識してしまい信頼性に欠けるとともに、認識結果の
訂正が煩雑で手数が掛かり作業性に欠けるという問題点
を有していた。また、個々の文章領域毎に文字認識を行
い、利用者がこれらの接続関係を指定するようにする
と、認識対象文書を一括して認識することができず、煩
雑で手数が掛かり作業性に欠けるという問題点を有して
いた。
However, in the above-mentioned conventional configuration, since the order of character recognition of the respective text areas obtained by the layout recognition processing is determined only from these positional relationships, each text area is determined. There is a problem in that the connection relationship between them is erroneously recognized and reliability is poor, and correction of the recognition result is complicated and time-consuming, resulting in poor workability. In addition, if character recognition is performed for each text area and the user specifies these connection relationships, the documents to be recognized cannot be recognized all at once, which is cumbersome and troublesome and lacks workability. Had the problem.

【0006】本発明は上記従来の問題点を解決するもの
で、各文章領域間の接続関係を自動的に判断して文字認
識を行うことができる信頼性、作業性に優れた文字認識
装置を提供することを目的とする。
The present invention solves the above-mentioned conventional problems, and provides a character recognition device excellent in reliability and workability, which is capable of automatically recognizing the connection relation between each text area and performing character recognition. The purpose is to provide.

【0007】[0007]

【課題を解決するための手段】この目的を達成するため
に本発明の文字認識装置は、文書等を読み込んでイメー
ジデータに変換する画像読み取り部と、前記画像読み取
り部で得られたイメージデータを記憶するイメージ記憶
部と、前記イメージ記憶部に記憶されているイメージデ
ータ中から個々の文章領域を抽出してレイアウトを認識
するレイアウト認識部と、前記イメージ記憶部に記憶さ
れているイメージデータの内、前記レイアウト認識部で
抽出された各文章領域の内部を各々文字認識する文字認
識部と、前記文字認識部で得られたコードデータを前記
レイアウト認識部で抽出された個々の文章領域毎に記憶
する認識結果記憶部と、単語辞書と、前記認識結果記憶
部に記憶されている各文章領域内の末尾部分の文字また
は文字列と他の文章領域内の先頭部分の文字または文字
列を結合して判定用文字列を作成しこの判定用文字列を
前記単語辞書と照合して照合に成功した場合にこの2つ
の文章領域間に接続性があると判断する接続判断部と、
最終的な認識結果を記憶する文章データ記憶部と、前記
認識結果記憶部に記憶されている各文章領域毎のコード
データを前記接続判断部で判断された接続性に基づいて
ソートし前記文章データ記憶部に記憶する認識結果ソー
ト部とを備えた構成を有している。
To achieve this object, a character recognition apparatus of the present invention comprises an image reading unit for reading a document or the like and converting it into image data, and an image data obtained by the image reading unit. An image storage unit for storing, a layout recognition unit for recognizing a layout by extracting individual text areas from the image data stored in the image storage unit, and an image data stored in the image storage unit. A character recognition unit for recognizing the inside of each sentence region extracted by the layout recognition unit, and the code data obtained by the character recognition unit is stored for each individual sentence region extracted by the layout recognition unit. A recognition result storage unit, a word dictionary, a character or character string at the end of each sentence area stored in the recognition result storage unit, and another sentence. When the characters or character strings at the beginning of the area are combined to create a character string for determination and the character string for determination is collated with the word dictionary and the collation succeeds, the connectivity between the two sentence areas is established. A connection determination unit that determines that there is,
A sentence data storage unit that stores a final recognition result, and code data for each sentence region stored in the recognition result storage unit is sorted based on the connectivity determined by the connection determination unit, and the sentence data And a recognition result sorting section to be stored in the storage section.

【0008】[0008]

【作用】この構成によって、レイアウト認識部が、認識
対象文書中から個々の文章領域を抽出し、文字認識部
が、各文章領域内を各々文字認識して、これらに対する
認識結果を個別に認識結果記憶部に記憶し、接続判断部
が、各文章領域内の末尾部分の文字又は文字列と、他の
文章領域内の先頭部分の文字又は文字列とを結合して判
定用文字列を作成し、この判定用文字列を、単語辞書と
照合して、この照合に成功した文章領域間に接続性があ
ると判断し、認識結果ソート部が、認識結果記憶部中の
各文章領域毎のコードデータを接続判断部で接続性があ
ると判断された文章領域を連結させるようにソートし、
その結果を文章データ記憶部に記憶することで、認識対
象文書中の各文章領域を認識する順序の決定を、各文章
領域の認識対象文書中での位置だけでなく、各文章領域
の末尾部分と他の文章領域先頭部分との文章としての接
続性を判断して行うために、認識対象文書に対する認識
精度を向上させることができる。また、この認識順序の
決定を、自動的に行うことができ、認識対象文書を一括
して文字認識することができるために、利用者は文字認
識作業を極めて容易に行うことができる。
With this configuration, the layout recognition section extracts individual sentence areas from the document to be recognized, the character recognition section recognizes each character in each sentence area, and the recognition results for these are individually recognized. Stored in the storage unit, the connection determination unit creates a character string for determination by combining the character or character string at the end of each text area and the character or character string at the head of another text area. , The judgment character string is collated with the word dictionary, it is judged that there is connectivity between the sentence areas that have been successfully collated, and the recognition result sorting unit determines the code for each sentence region in the recognition result storage unit. The data is sorted so that the text areas that are judged to be connected by the connection judgment unit are connected,
By storing the result in the text data storage unit, the order of recognizing each text area in the recognition target document can be determined not only by the position of each text area in the recognition target document but also by the end portion of each text area. Since the connectivity as a sentence between the other sentence area and the beginning portion of the sentence area is determined, the recognition accuracy for the recognition target document can be improved. Moreover, since the recognition order can be automatically determined and the characters to be recognized can be collectively recognized, the user can perform the character recognition work very easily.

【0009】[0009]

【実施例】以下本発明の一実施例における文字認識装置
について、図面を参照しながら説明する。図1は本発明
の一実施例における文字認識装置の機能ブロック図であ
る。1はスキャナ(図示せず)等からなり認識対象文書
を読み取ってイメージデータに変換する画像読み取り
部、2は画像読み取り部1で得られたイメージデータを
記憶するイメージ記憶部、3はイメージ記憶部2中のイ
メージデータ内の文字の分布等に基づいて個々の文章領
域を抽出してレイアウトを認識するレイアウト認識部、
4はイメージ記憶部2中のイメージデータに対してレイ
アウト認識部3で抽出された各文章領域毎に文字認識を
行ってコードデータを得る文字認識部、5は文字認識部
4で得られたコードデータをレイアウト認識部3で抽出
された各文章領域毎に記憶する認識結果記憶部、6は単
語の正しい綴りを記憶した単語辞書、7は認識結果記憶
部5に記憶されているレイアウト認識部3で抽出された
各文章領域内の末尾部分の文字または文字列とレイアウ
ト認識部3で抽出された他の文章領域内の先頭部分の文
字または文字列とを結合して判定用文字列を作成しこの
判定用文字列を単語辞書6と照合して照合に成功した場
合にこの2つの文章領域間に接続性があると判断する接
続判定部、8は最終的な認識結果を記憶する文章データ
記憶部、9は認識結果記憶部5中に記憶されている各文
章領域毎のコードデータを接続判断部7で判断された接
続性に基づいてソートしその結果得られるコードデータ
を最終的な認識結果として文章データ記憶部8に記憶す
る認識結果ソート部である。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS A character recognition device according to an embodiment of the present invention will be described below with reference to the drawings. FIG. 1 is a functional block diagram of a character recognition device according to an embodiment of the present invention. Reference numeral 1 denotes an image reading unit configured by a scanner (not shown) or the like for reading a document to be recognized and converting it into image data, 2 an image storage unit for storing the image data obtained by the image reading unit 1, 3 an image storage unit A layout recognition unit for recognizing the layout by extracting individual text areas based on the distribution of characters in the image data in FIG.
Reference numeral 4 is a character recognition unit for performing character recognition on the image data in the image storage unit 2 for each text region extracted by the layout recognition unit 3 to obtain code data, and 5 is a code obtained by the character recognition unit 4. A recognition result storage unit that stores data for each sentence area extracted by the layout recognition unit 3, 6 is a word dictionary that stores correct spelling of words, and 7 is a layout recognition unit 3 that is stored in the recognition result storage unit 5. The character or character string at the end of each text area extracted in step 3 and the character or character string at the beginning of the other text area extracted by the layout recognition unit 3 are combined to create a judgment character string. A connection determination unit that determines that there is connectivity between the two sentence areas when the determination character string is compared with the word dictionary 6 and the matching is successful, and 8 is a sentence data storage that stores the final recognition result. Part 9 is recognized The code data for each text area stored in the result storage unit 5 is sorted based on the connectivity determined by the connection determination unit 7, and the resulting code data is used as a final recognition result as a text data storage unit. 8 is a recognition result sorting unit stored in FIG.

【0010】以上のように構成された本発明の一実施例
における文字認識装置について、以下その動作を説明す
る。図2乃至図4は本発明の一実施例における文字認識
装置のフローチャートであり、図5は図6に対する本発
明の一実施例における文字認識装置の最終的な認識結果
を示す図である。図5において、aは第1の文章領域、
bは第2の文章領域、cは第3の文章領域、dは第4の
文章領域であり、これらは従来例と同様なものなので同
一の符号を付し説明を省略する。
The operation of the character recognition device having the above-described structure according to the embodiment of the present invention will be described below. 2 to 4 are flowcharts of the character recognition device in the embodiment of the present invention, and FIG. 5 is a diagram showing the final recognition result of the character recognition device in the embodiment of the present invention with respect to FIG. In FIG. 5, a is the first text area,
b is the second sentence area, c is the third sentence area, and d is the fourth sentence area. Since these are the same as in the conventional example, the same reference numerals are given and the description thereof is omitted.

【0011】初めに、画像読み取り部1によって、図6
に示すような認識対象文書を読み取り、得られたイメー
ジデータをイメージ記憶部2に記憶する(S1)。次
に、レイアウト認識部3によって、イメージ記憶部2中
のイメージデータに対して、レイアウト認識を行い、図
7に示すようなレイアウト認識結果を得るとともに、こ
の処理によって得られた各文章領域に対して、各々仮領
域番号を付加する(S2)。ここでは、第1の文章領域
aに対して仮領域番号1が、第2の文章領域bに対して
2が、第3の文章領域cに対して3が、第4の文章領域
cに対して3が、第4の文章領域dに対して4が、それ
ぞれ付加されたものとする。次に、変数nに仮領域番号
の最大値である4が代入される(S3)。次に、変数i
に1を代入し(S4)、各々の文章領域の内部を、全て
文字認識部4によって文字認識し、その認識結果を、個
々の文章領域毎に認識結果記憶部5に記憶する(S5〜
S7)。次に、図3において、処理済文章領域数のカウ
ンタである変数rcに1を代入する(S8)。次に、文
章領域の接続順情報を示す配列変数r()の1番目に1
を代入し、最初に仮領域番号1の第1の文章領域aから
処理することを指定する(S9)。次に、ループのカウ
ンタである変数iに1を代入する(S10)。次に、仮
領域番号がiの文章領域の末尾文字を変数c1に代入す
る(S11)。ここでは、iが1であるために、変数c
1に第1の文章領域aの末尾文字「指」が代入される。
次に、ループのカウンタである変数jに1を代入する
(S12)。次に、ループのカウンタである変数kに1
を代入する(S13)。次に、処理済みの文章領域の仮
領域番号を記憶している配列変数r()のk番目の値が
jと等しいか調べる(S14)。Yesである場合は、
仮領域番号がjの文章領域は処理済と判断してS21へ
jumpし、Noである場合は、S15へjumpす
る。ここでは、r(1)=1であるために、S21へj
umpする。次に変数jを1つインクリメントする(S
21)。ここでは、j=2となる。次に、図4におい
て、変数jが変数nを越えたか調べる(S22)。No
である場合は、次の文章領域に対する処理を行うために
S13へjumpし、Yesである場合は、仮領域番号
がiの文章領域に接続性がなかったものとして、S28
へjumpする(S22)。ここでは、変数jが変数n
を越えていないために、S13へjumpする。次に、
先と同様にして、配列変数r()の1番目が2と等しい
か調べる(S13〜S14)。ここでは、r(1)=1
であるために、変数kを1つインリメントする(S1
5)。次に、変数kが変数rcより大きくなったか調べ
る(S16)。Noである場合は、S14へjump
し、Yesである場合は、仮領域番号がjの文章領域は
未処理と判断してS17へjumpする。ここでは、変
数kが変数rcよりも大きいために、S17へjump
する。次に、仮領域番号がjの文章領域の先頭文字を変
数c2に代入する(S17)。ここでは、jが2である
ために、変数c2に第2の文章領域bの先頭文字「出」
が代入される。次に、変数c1と変数c2を結合し、変
数sに代入して、判定用文字列を作成する(S18)。
ここでは、変数sに文字列「指出」が代入される。次
に、変数sを単語辞書6と照合する(S19)。ここで
は、文字列「指出」は、単語辞書6中に記憶されていな
かったものとする。次に、S19で照合に成功したか調
べる(S20)。Yesである場合は、仮領域番号がi
の文章領域と仮領域番号がjの文章領域との間に接続性
があると判断して、S23へjumpし、Noである場
合は、S21へjumpする。ここでは、照合に失敗し
たために、S21へjumpする。次に、変数jを1つ
インクリメントする(S21)。ここでは、j=3とな
る。次に、図4において、変数jが変数nを越えたか調
べる(S22)。ここでは、変数jが変数nを越えてい
ないために、S13へjumpする。次に、先と同様に
して、仮領域番号が3の文章領域の先頭文字を変数c2
に代入する(S13〜S17)。ここでは、文字「定」
が得られる。次に、S11で得られたc1とS17で得
られた変数c2を結合して変数sに代入する(S1
8)。ここでは、文字列「指定」が得られる。次に、単
語辞書6による照合を行い、これが成功したか調べる
(S19〜S20)。ここでは、文字列「指定」が単語
辞書6に記憶されており、照合に成功したために、変数
jを1つインクリメントし、S22へjumpする。次
に、変数rcを1つインクリメントする(S23)。こ
こではrc=2となる。次に、配列変数r()のrc番
目に、接続性のある文章領域の仮領域番号を示す変数j
を代入する(S24)。ここでは、r(2)に3が代入
される。次に、変数iに変数jを代入して(S25)、
次に接続性を調べる文章領域を指定する。ここではi=
3となる。次に、変数rcが変数nと等しいか調べる
(S26)。Noである場合は、次の文章領域に対する
処理を行うために、S11へjumpし、Yesである
場合は、S27へjumpする。ここでは、rc=2,
n=4であるために、S11へjumpする。次に、先
と同様にして、仮領域番号3である第3の文章領域cと
接続性を有する文章領域を検索する(S11〜S2
2)。ここでは、第3の文章領域cと接続する文章領域
として、仮領域番号2の第2の文章領域bが得られる。
次に、変数rcを1つクリメントする(S23)。ここ
では、rc=3となる。次に、配列変数r()の変数r
c番目に変数jを代入する(S24)。ここでは、r
(3)に2が代入される。次に、変数iに変数jを代入
する(S25)。ここではi=2となる。次に、変数r
cと変数nが等しいか調べる(S26)。ここでは、r
c=3,n=4であるために、S11へjumpする。
次に、先と同様にして、仮領域番号2である第2の文章
領域bと接続性を有する文章領域を検索する(S11〜
S22)。ここでは、第2の文章領域bと接続する文章
領域として、仮領域番号4の第4の文章領域dが得られ
る。次に、変数rcを1つインクリメントする(S2
3)。ここでは、rc=4となる。次に、配列変数
r()の変数rc番目に変数jを代入する(S24)。
ここでは、r(4)に4が代入される。次に、変数iに
変数jを代入する(S25)。ここでは、i=4とな
る。次に、変数rcと変数nが等しいか調べる(S2
6)。ここではrc=4,n=4であるために、S27
へjumpする。次に、認識結果ソート部9によって、
認識結果記憶部5に各文章領域毎に記憶されている認識
結果をS24等で得られた配列変数r()に基づいて各
文章領域をソートし、最終的な認識結果を文章データ記
憶部8へ記憶する(S27)。ここでは、配列変数
r()の内容が1,3,2,4であるために、仮領域番
号が1,3,2,4の順序になるようにソートを行い、
図5に示すような正確な認識結果を得る。
First, the image reading section 1 is used for the operation shown in FIG.
The document to be recognized as shown in (1) is read and the obtained image data is stored in the image storage unit 2 (S1). Next, the layout recognition unit 3 performs layout recognition on the image data in the image storage unit 2 to obtain a layout recognition result as shown in FIG. 7, and for each text area obtained by this processing. Then, each temporary area number is added (S2). Here, the temporary area number 1 for the first sentence area a, 2 for the second sentence area b, 3 for the third sentence area c, and 4 for the fourth sentence area c. 3 and 4 are added to the fourth text area d. Next, 4 which is the maximum value of the temporary area number is substituted into the variable n (S3). Next, the variable i
1 is substituted for (S4), the inside of each text area is character-recognized by the character recognition unit 4, and the recognition result is stored in the recognition result storage unit 5 for each text area (S5-
S7). Next, in FIG. 3, 1 is substituted into the variable rc which is a counter of the number of processed text areas (S8). Next, 1 is first in the array variable r () indicating the connection order information of the text area.
Is assigned to specify that processing is first performed from the first text area a with the temporary area number 1 (S9). Next, 1 is substituted into the variable i which is the counter of the loop (S10). Next, the last character of the text area with the temporary area number i is substituted into the variable c1 (S11). Here, since i is 1, the variable c
The end character "finger" of the first sentence area a is substituted for 1.
Next, 1 is substituted for the variable j which is the counter of the loop (S12). Next, 1 is added to the variable k that is the loop counter.
Is substituted (S13). Next, it is checked whether the k-th value of the array variable r () storing the temporary area number of the processed text area is equal to j (S14). If yes,
The sentence area having the temporary area number j is judged to be processed and jumped to S21. If No, jumped to S15. Here, since r (1) = 1, go to S21.
ump. Next, the variable j is incremented by 1 (S
21). Here, j = 2. Next, in FIG. 4, it is checked whether the variable j exceeds the variable n (S22). No
If yes, jump to S13 to perform processing for the next text area, and if Yes, it is determined that the text area whose tentative area number is i has no connectivity and S28.
Jump to (S22). Here, the variable j is the variable n
Since it has not exceeded, jump to S13. next,
Similarly to the above, it is checked whether the first of the array variable r () is equal to 2 (S13 to S14). Here, r (1) = 1
Therefore, the variable k is incremented by one (S1
5). Next, it is checked whether the variable k is larger than the variable rc (S16). If No, jump to S14.
If Yes, the sentence area with the temporary area number j is judged to be unprocessed and jump to S17. Here, since the variable k is larger than the variable rc, jump to S17.
To do. Next, the first character of the text area with the temporary area number j is substituted into the variable c2 (S17). Here, since j is 2, the variable c2 has the first character "out" in the second sentence area b.
Is substituted. Next, the variables c1 and c2 are combined and substituted into the variable s to create a judgment character string (S18).
Here, the character string “pointing” is assigned to the variable s. Next, the variable s is collated with the word dictionary 6 (S19). Here, it is assumed that the character string “instruction” is not stored in the word dictionary 6. Next, it is checked whether the collation is successful in S19 (S20). If Yes, the temporary area number is i
If it is determined that there is connectivity between the text area of No. and the text area of the temporary area number j, jump to S23, and if No, jump to S21. Here, since the collation has failed, the process jumps to S21. Next, the variable j is incremented by 1 (S21). Here, j = 3. Next, in FIG. 4, it is checked whether the variable j exceeds the variable n (S22). Here, since the variable j does not exceed the variable n, jump to S13. Next, similarly to the above, the first character of the sentence area with the temporary area number of 3 is set to the variable c2.
(S13 to S17). Here, the character "constant"
Is obtained. Next, the c1 obtained in S11 and the variable c2 obtained in S17 are combined and substituted into the variable s (S1
8). Here, the character string "designation" is obtained. Next, collation by the word dictionary 6 is performed and it is checked whether or not this is successful (S19 to S20). Here, the character string "designation" is stored in the word dictionary 6, and since the collation is successful, the variable j is incremented by 1 and jumped to S22. Next, the variable rc is incremented by 1 (S23). Here, rc = 2. Next, at the rcth position of the array variable r (), a variable j indicating the provisional region number of the connected text region
Is substituted (S24). Here, 3 is substituted into r (2). Next, the variable j is substituted for the variable i (S25),
Next, specify the text area to check the connectivity. Where i =
It becomes 3. Next, it is checked whether the variable rc is equal to the variable n (S26). If No, jump to S11 to perform the process for the next sentence area, and if Yes, jump to S27. Here, rc = 2
Since n = 4, jump to S11. Next, similarly to the above, a text area having connectivity with the third text area c having the temporary area number 3 is searched (S11 to S2).
2). Here, the second text area b having the temporary area number 2 is obtained as the text area connected to the third text area c.
Next, the variable rc is decremented by 1 (S23). Here, rc = 3. Next, the variable r of the array variable r ()
The variable j is substituted for the c-th (S24). Where r
2 is substituted into (3). Next, the variable j is substituted for the variable i (S25). Here, i = 2. Then the variable r
It is checked whether c and the variable n are equal (S26). Where r
Since c = 3 and n = 4, jump to S11.
Then, similarly to the above, a text area having connectivity with the second text area b having the temporary area number 2 is searched (S11 to S11).
S22). Here, the fourth sentence region d having the temporary region number 4 is obtained as the sentence region connected to the second sentence region b. Next, the variable rc is incremented by 1 (S2
3). Here, rc = 4. Next, the variable j is substituted for the variable rcth of the array variable r () (S24).
Here, 4 is substituted into r (4). Next, the variable j is substituted for the variable i (S25). Here, i = 4. Next, it is checked whether the variable rc and the variable n are equal (S2
6). Since rc = 4 and n = 4 here, S27
Jump to. Next, the recognition result sorting unit 9
The recognition results stored for each sentence area in the recognition result storage unit 5 are sorted into each sentence area based on the array variable r () obtained in S24 or the like, and the final recognition result is stored in the sentence data storage unit 8 It is stored in (S27). Here, since the contents of the array variable r () are 1, 3, 2, and 4, the sorting is performed so that the temporary area numbers are in the order of 1, 3, 2, and 4.
An accurate recognition result as shown in FIG. 5 is obtained.

【0012】一方、S22において、Yesであった場
合には、仮領域番号がiの文章領域に接続性がないと判
断して、配列変数r()の変数rc+1番目に、配列変
数r()の変数rc番目に記憶されている仮領域番号に
1を加えたものを代入する(S28)。次に、変数rc
を1つインクリメントする(S29)。次に、配列変数
r()の変数rc番目に記憶されている仮領域番号を、
変数iに代入して、S26へjumpする(S30)。
On the other hand, if Yes in S22, it is determined that the sentence area having the temporary area number i is not connected, and the array variable r () is arranged at the variable rc + 1 of the array variable r (). The temporary area number stored in the variable rc-th of is added with 1 (S28). Next, the variable rc
Is incremented by 1 (S29). Next, the temporary area number stored in the variable rcth of the array variable r () is
The variable i is substituted and jumped to S26 (S30).

【0013】尚、本発明の一実施例においては、文章領
域の末尾1文字と他の文章領域の先頭1文字を結合し
て、判定用文字列を作成するようにしているが、これら
を、末尾部分及び先頭部分の文字列から判定用文字列を
作成するようにすれば、認識精度を向上させることがで
き信頼性の面から好ましい。また、単語辞書6中に、自
立語のみでなく付属語も用いるようにすれば、同様に認
識精度を向上させることができ信頼性の面から好まし
い。更に、認識対象文書として、日本語の文書を用いて
いるが、これは英語等他の文書であってもよい。
In one embodiment of the present invention, one character at the end of a sentence area and one character at the beginning of another sentence area are combined to create a character string for determination. If the character string for determination is created from the character strings at the end and the beginning, the recognition accuracy can be improved, which is preferable in terms of reliability. Further, if not only the independent word but also the auxiliary word is used in the word dictionary 6, the recognition accuracy can be similarly improved, which is preferable in terms of reliability. Furthermore, although a Japanese document is used as the recognition target document, this may be another document such as English.

【0014】[0014]

【発明の効果】以上のように本発明は、レイアウト認識
部が、認識対象文書中から個々の文章領域を抽出し、文
字認識部が、各文章領域内を各々文字認識して、これら
に対する認識結果を個別に認識結果記憶部に記憶し、接
続判断部が、各文章領域内の末尾部分の文字又は文字列
と、他の文章領域内の先頭部分の文字又は文字列とを結
合して判定用文字列を作成し、この判定用文字列を、単
語辞書と照合して、この照合に成功した文章領域間に接
続性があると判断し、認識結果ソート部が、認識結果記
憶部中の各文章領域毎のコードデータを接続判断部で接
続性があると判断された文章領域を連結させるようにソ
ートし、その結果を文章データ記憶部に記憶すること
で、認識対象文書中の各文章領域を認識する順序の決定
を、各文章領域の認識対象文書中での位置だけでなく、
各文章領域の末尾部分と他の文章領域先頭部分との文章
としての接続性を判断して行うために、認識対象文書に
対する認識精度を向上させることができ信頼性に優れて
いる。また、この認識順序の決定を、自動的に行うこと
ができ、認識対象文書を一括して文字認識することがで
きるために、利用者が文字認識作業を極めて容易に行う
ことができ作業性に著しく優れた文字認識装置を実現で
きるものである。
As described above, according to the present invention, the layout recognition section extracts individual sentence areas from the document to be recognized, the character recognition section recognizes each character in each sentence area, and recognizes them. The results are individually stored in the recognition result storage unit, and the connection determination unit determines by combining the character or character string at the end of each text area and the character or character string at the beginning of another text area. Create a character string for comparison, compare this character string for determination with the word dictionary, determine that there is connectivity between the sentence areas that have been successfully matched, and the recognition result sorting unit stores the result in the recognition result storage unit. By sorting the code data for each text area so that the text areas that are determined to be connected by the connection determination unit are linked and storing the result in the text data storage unit, each text in the recognition target document is sorted. Determine the order of recognizing areas by recognizing each text area. Not only the position in the target document,
Since the connectivity as a sentence between the end of each sentence area and the beginning of another sentence area is determined, the recognition accuracy for the recognition target document can be improved, and the reliability is excellent. Further, since the recognition order can be automatically determined and the characters to be recognized can be collectively recognized, the user can perform the character recognition work extremely easily and improve the workability. It is possible to realize a remarkably excellent character recognition device.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施例における文字認識装置の機能
ブロック図
FIG. 1 is a functional block diagram of a character recognition device according to an embodiment of the present invention.

【図2】本発明の一実施例における文字認識装置のフロ
ーチャート
FIG. 2 is a flowchart of a character recognition device according to an embodiment of the present invention.

【図3】本発明の一実施例における文字認識装置のフロ
ーチャート
FIG. 3 is a flowchart of a character recognition device according to an embodiment of the present invention.

【図4】本発明の一実施例における文字認識装置のフロ
ーチャート
FIG. 4 is a flowchart of a character recognition device according to an embodiment of the present invention.

【図5】図6に対する本発明の一実施例における文字認
識装置の最終的な認識結果を示す図
FIG. 5 is a diagram showing a final recognition result of the character recognition device in the embodiment of the present invention with respect to FIG. 6;

【図6】認識対象文書の一例を示す図FIG. 6 is a diagram showing an example of a recognition target document.

【図7】図6に対する一般的なレイアウト認識結果を示
す図
FIG. 7 is a diagram showing a general layout recognition result for FIG. 6;

【図8】図6に対する従来の文字認識結果を示す図8 is a diagram showing a conventional character recognition result for FIG.

【符号の説明】[Explanation of symbols]

1 画像読み取り部 2 イメージ記憶部 3 レイアウト認識部 4 文字認識部 5 認識結果記憶部 6 単語辞書 7 接続判断部 8 文章データ記憶部 9 認識結果ソート部 1 image reading unit 2 image storage unit 3 layout recognition unit 4 character recognition unit 5 recognition result storage unit 6 word dictionary 7 connection determination unit 8 sentence data storage unit 9 recognition result sorting unit

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】文書等を読み込んでイメージデータに変換
する画像読み取り部と、前記画像読み取り部で得られた
イメージデータを記憶するイメージ記憶部と、前記イメ
ージ記憶部に記憶されているイメージデータ中から個々
の文章領域を抽出してレイアウトを認識するレイアウト
認識部と、前記イメージ記憶部に記憶されているイメー
ジデータの内前記レイアウト認識部で抽出された各文章
領域の内部を各々文字認識する文字認識部と、前記文字
認識部で得られたコードデータを前記レイアウト認識部
で抽出された個々の文章領域毎に記憶する認識結果記憶
部と、単語辞書と、前記認識結果記憶部に記憶されてい
る各文章領域内の末尾部分の文字または文字列と他の文
章領域内の先頭部分の文字または文字列を結合して判定
用文字列を作成しこの判定用文字列を前記単語辞書と照
合して照合に成功した場合にこの2つの文章領域間に接
続性があると判断する接続判断部と、最終的な認識結果
を記憶する文章データ記憶部と、前記認識結果記憶部に
記憶されている各文章領域毎のコードデータを前記接続
判断部で判断された接続性に基づいてソートし前記文章
データ記憶部に記憶する認識結果ソート部と、を備えた
ことを特徴とする文字認識装置。
1. An image reading unit that reads a document or the like and converts it into image data, an image storage unit that stores the image data obtained by the image reading unit, and an image data stored in the image storage unit. A layout recognition unit for recognizing a layout by extracting individual text regions from the character recognition unit for recognizing the layout, and a character for recognizing the inside of each text region extracted by the layout recognition unit among the image data stored in the image storage unit. A recognition unit, a recognition result storage unit that stores the code data obtained by the character recognition unit for each sentence area extracted by the layout recognition unit, a word dictionary, and a recognition result storage unit that stores the code data. The character or character string at the end of each text area and the character or character string at the beginning of another text area are combined to create a judgment character string. And a sentence data storage unit for storing a final recognition result, which determines that there is connectivity between the two sentence areas when the determination character string is compared with the word dictionary and the collation is successful. And a recognition result sorting unit that sorts the code data for each text area stored in the recognition result storage unit based on the connectivity determined by the connection determination unit and stores the result in the text data storage unit. A character recognition device characterized by being provided.
JP6007492A 1994-01-27 1994-01-27 Character recognition device Pending JPH07210632A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6007492A JPH07210632A (en) 1994-01-27 1994-01-27 Character recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6007492A JPH07210632A (en) 1994-01-27 1994-01-27 Character recognition device

Publications (1)

Publication Number Publication Date
JPH07210632A true JPH07210632A (en) 1995-08-11

Family

ID=11667278

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6007492A Pending JPH07210632A (en) 1994-01-27 1994-01-27 Character recognition device

Country Status (1)

Country Link
JP (1) JPH07210632A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006285961A (en) * 2005-03-07 2006-10-19 Ricoh Co Ltd Information processor and information processing method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006285961A (en) * 2005-03-07 2006-10-19 Ricoh Co Ltd Information processor and information processing method

Similar Documents

Publication Publication Date Title
JP2007317022A (en) Handwritten character processor and method for processing handwritten character
JPH087033A (en) Method and device for processing information
JPH0682403B2 (en) Optical character reader
US5887072A (en) Full address reading apparatus
WO2000036530A1 (en) Searching method, searching device, and recorded medium
JPH07210632A (en) Character recognition device
JP3727422B2 (en) Character recognition apparatus and method
JP3274014B2 (en) Character recognition device and character recognition method
JP4263928B2 (en) Character recognition device, character recognition method, character recognition program, and recording medium
JP2002183667A (en) Character-recognizing device and recording medium
JP3304512B2 (en) Table recognition device
JPH10302025A (en) Handwritten character recognizing device and its program recording medium
JPH113401A (en) Information processor and its method
JP2827066B2 (en) Post-processing method for character recognition of documents with mixed digit strings
JP3507720B2 (en) Online handwritten character recognition device and computer-readable recording medium
JP2570784B2 (en) Document reader post-processing device
JP4261831B2 (en) Character recognition processing method, character recognition processing device, character recognition program
JP3123169B2 (en) Character recognition method
JP2639314B2 (en) Character recognition method
JP3071048B2 (en) Character recognition apparatus and method
JP3151866B2 (en) English character recognition method
JPH05210635A (en) Input device
JP3022790B2 (en) Handwritten character input device
JPH1069494A (en) Image retrieval method and device therefor
JPH06333083A (en) Optical character reader