JPH08297718A - Character segmentation device and character recognition device - Google Patents

Character segmentation device and character recognition device

Info

Publication number
JPH08297718A
JPH08297718A JP7099350A JP9935095A JPH08297718A JP H08297718 A JPH08297718 A JP H08297718A JP 7099350 A JP7099350 A JP 7099350A JP 9935095 A JP9935095 A JP 9935095A JP H08297718 A JPH08297718 A JP H08297718A
Authority
JP
Japan
Prior art keywords
connected component
character
information
extracting
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7099350A
Other languages
Japanese (ja)
Inventor
Satoshi Emura
里志 江村
Ichiro Nakao
一郎 中尾
Mariko Takenouchi
磨理子 竹之内
Minoru Takakura
穂 高倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP7099350A priority Critical patent/JPH08297718A/en
Priority to US08/608,179 priority patent/US5999647A/en
Publication of JPH08297718A publication Critical patent/JPH08297718A/en
Priority to US09/187,131 priority patent/US6141443A/en
Priority to US09/186,943 priority patent/US6064769A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

PURPOSE: To provide a character segmentation device which can correctly extract the separate characters such as 'i', etc., and also the pseudo separate characters generated by blurs by integrating the combinations of connected components having a specific relation among them into a single extracting object. CONSTITUTION: A connection component extraction means 13 extracts the black pixel connection components consisting of dots and lines which construct characters. A connection component integration means 15 integrates the combinations which have their tilts includes in a fixed range to the character strings put on a straight line connecting between the center of a prescribed graphic including a concatenation component and the center of a prescribed graphic including other connected components into a single extracting object among those combinations of black pixel connection components which are extracted by the means 13 and not deleted by a connection component deletion means 14 respectively. A character extraction means 16 extracts the image information of every character out of the black pixel connection components excluding those that are invalidated by both means 14 and 15.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、文字認識装置に関し、
特にその前処理の文字切り出し及びこれを利用しての文
字認識に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character recognition device,
In particular, the present invention relates to character cutting out in the preprocessing and character recognition using the character cutting.

【0002】[0002]

【従来の技術】従来、L/E変換等で読み込んだ文字の
切り出し技術としては、主に、周辺分布を用いる方法を
採用したもの、黒画素連結成分を抽出する方法を採用し
たものが提案されている。以下、この2つの方法を中心
に説明する。第1の、周辺分布法を用いる文字切り出し
装置は、文字列抽出手段と周辺分布抽出手段と文字抽出
手段とを備えている。そして、文字列抽出手段は、文字
が記載された画像から文字の位置についての情報を抽出
する。次に、周辺分布抽出手段は、文字列抽出手段によ
って抽出された文字の列の位置についての情報で示され
る画像の領域に対して、文字の列の方向と直交する方向
に画像を走査し、各走査毎に黒画素の数を計数し、更に
この処理を今度は文字列の方向に順に行い、これにより
文字の列の存在する領域の周辺に存在する黒画素の分布
を抽出する。次に、文字抽出手段は、周辺分布抽出手段
によって抽出された周辺分布に基づいて、平均文字幅の
推定値などを考慮して個々の文字についての画像情報を
抽出する。
2. Description of the Related Art Conventionally, as a technique for cutting out a character read by L / E conversion or the like, a technique mainly using a peripheral distribution and a technique using a method of extracting a black pixel connected component have been proposed. ing. Hereinafter, these two methods will be mainly described. A first character cutting device using the marginal distribution method includes a character string extracting means, a marginal distribution extracting means, and a character extracting means. Then, the character string extracting means extracts information about the position of the character from the image in which the character is described. Next, the marginal distribution extraction means scans the image in the direction orthogonal to the direction of the character string, with respect to the area of the image indicated by the information about the position of the character string extracted by the character string extraction means, The number of black pixels is counted for each scan, and this process is performed in turn in the direction of the character string, thereby extracting the distribution of black pixels existing around the area where the character string exists. Next, the character extracting means extracts the image information of each character in consideration of the estimated value of the average character width based on the marginal distribution extracted by the marginal distribution extracting means.

【0003】第2の、黒画素連結成分を抽出する方法を
用いる文字切り出し装置は、文字列抽出手段と連結成分
抽出手段と文字抽出手段とを有している。そして、文字
列抽出手段は、文字が記載された画像から、文字の列の
位置についての情報を抽出する。次に、連結成分抽出手
段は、文字列抽出手段によって抽出された文字の列の位
置についての情報から得られる画像の領域に対して、黒
画素の連続よりなる連結成分のラベル(番号)付けを行
って、各連結成分を抽出する。具体的には、文字列の存
在する画像領域の全画素を走査して、上下左右の4方向
または対角方向も含めた8方向に互いに連結している黒
画素を連結成分として抽出する。そして、同じ連結成分
に属する全ての画素に同じラベルを割り当てる。この
際、異なった連結成分には異なったラベルを割り当て
る。(例えば「コンピュータ画像処理入門」(総研出
版、田村秀行監修)の75頁に記載)。次に、文字抽出
手段は、連結成分抽出手段で作成されたラベルごとに、
個々の文字についての情報を抽出する。
A second character extracting device using the method of extracting a black pixel connected component has a character string extracting means, a connected component extracting means, and a character extracting means. Then, the character string extracting means extracts information about the position of the character string from the image in which the characters are described. Next, the connected component extracting means labels the connected component (consisting of black pixels) of consecutive black pixels to the area of the image obtained from the information about the position of the character string extracted by the character string extracting means. Perform to extract each connected component. Specifically, all the pixels in the image area where the character string exists are scanned, and the black pixels connected to each other in four directions including up, down, left and right, or in eight directions including diagonal directions are extracted as connected components. Then, the same label is assigned to all pixels belonging to the same connected component. At this time, different labels are assigned to different connected components. (For example, described on page 75 of "Introduction to Computer Image Processing" (supervised by Soken Publishing, Hideyuki Tamura)). Next, the character extraction means, for each label created by the connected component extraction means,
Extract information about individual characters.

【0004】次に、上記いずれの技術であっても、抽出
された個々の文字画像のデータは、文字認識装置本体部
に送られ、文字認識がなされることとなる。さて、文字
認識の技術としては、型板との照合法、決定木法等があ
る。更に、いずれの方法においても、認識精度を向上さ
せるために、前語の文字との相関を利用する方法、欧米
系の文のごとく単語間に余白がある場合にはこの余白を
利用して一単語を認識し、更に単語辞書と照合する方法
等がある。ただし、これらは本発明の趣旨に直接の関係
はなく、また周知かつ自明の技術であるため、説明は省
略する。そしてこのことは、後の実施例についても同様
である。
Next, in any of the above techniques, the data of the extracted individual character image is sent to the main body of the character recognition device for character recognition. Well-known techniques for character recognition include a template matching method and a decision tree method. Furthermore, in any of the methods, in order to improve the recognition accuracy, the method of using the correlation with the character of the previous word, and when there is a white space between words such as a Western text, this white space is used. There is a method of recognizing a word and further comparing it with a word dictionary. However, since these are not directly related to the gist of the present invention and are well-known and obvious techniques, description thereof will be omitted. This also applies to the later embodiments.

【0005】[0005]

【発明が解決しようとする課題】しかしながら、周辺分
布を用いるものでは、英文等が特にそうであるが、上下
又は左右に入り組みが発生する場合や文字幅が一定しな
い場合には、正しく文字を抽出できない。その例を図1
6に示す。本図においては、第1文(a)のTakeの
「T」と「a」に入り込みが発生している。また、第2
文(b)の「f」と「y」とは近接している。更に、小
文字の「i」や「l」は大文字は勿論、他の小文字
「a」等に比較して文字幅が狭く、更に小文字の「g」
や「p」は行の下部に文字の一部が突出している。ま
た、第3文(c)は、独文中の英文は概筆記体であり、
上下方向で重なりが発生している。また、第4文(d)
は、ドイツ文字であり、分離が生じている。
However, in the case of using the marginal distribution, especially in the case of English, etc., when the letters are mixed vertically or horizontally and the character width is not constant, the characters are correctly Cannot be extracted. Figure 1
6 is shown. In the figure, there is an entry into the "T" and "a" of Take in the first sentence (a). Also, the second
“F” and “y” in sentence (b) are close to each other. Furthermore, the lowercase letters "i" and "l" have a narrower character width as compared to other lowercase letters "a", as well as uppercase letters.
A part of the letter is projected at the bottom of the line. In the third sentence (c), the English sentence in the German sentence is a cursive script,
Overlap has occurred in the vertical direction. Also, the fourth sentence (d)
Is a German letter, and separation occurs.

【0006】また、黒画素連結成分を抽出するものを用
いるものは、元来周辺分布法の欠点に鑑みなされたもの
であるが、やはり、例えばアルファベットの「i」や
「j」やドイツ語のウムラウト等の分離文字や、本来連
結しているべき一部が画像のかすれのため欠落している
文字を正しく抽出できない。また、画像の傾きや文字列
(行)間の間隔が狭いなどの原因で、抽出された文字列
の矩形領域に、他の文字列に含まれる文字の一部が突き
出ている場合には、その突き出た文字の一部を誤って認
識対象の文字の一部として抽出することがある。
Further, the method of extracting the black pixel connected component was originally made in view of the drawback of the marginal distribution method, but again, for example, in the alphabet "i" or "j" or in the German Separated characters such as umlauts, or characters that are originally concatenated but are missing due to image fading cannot be extracted correctly. In addition, when a part of the characters included in another character string is protruding in the rectangular area of the extracted character string due to the inclination of the image or the narrow spacing between the character strings (rows), A part of the protruding character may be mistakenly extracted as a part of the character to be recognized.

【0007】また、似たことは、日本語文書におけるル
ビ、漢文における送り仮名、その他和文、欧米文を問わ
ず上添え字や下添え字が存在する場合にも生じる。次
に、文字の抽出が正しくなしえない場合には、文字の認
識そのものが正しくなしえないこととなる。ことに、昔
の文献、貴重な文献の写真等では本来的に文字や文献等
のゆがみ、かすれが多い上に、L/E変換での読み取り
に際してもかすれが生じる。
[0007] Similarities also occur when there are ruby in Japanese documents, sending kana in Chinese sentences, and other upper and lower subscripts in both Japanese and Western texts. Next, if the character extraction cannot be performed correctly, the character recognition itself cannot be performed correctly. In particular, photographs and the like of old documents and valuable documents inherently have many distortions and blurring of characters and documents, and also blurring occurs when reading by L / E conversion.

【0008】このため、分離文字や、かすれにより生じ
た擬分離文字等を正しく抽出することが可能、また他の
列の文字の一部が認識対象の文字列中に突き出ている場
合等にも正しく抽出することが可能な文字切り出し装置
の実現が望まれている。本発明はこのような要望を可及
的に充足し得る有用な文字切り出し装置を提供すること
を目的としている。
Therefore, it is possible to correctly extract a separated character or a pseudo-separated character caused by a blur, and also when a part of the character in another string is projected into the character string to be recognized. It is desired to realize a character segmentation device that can be correctly extracted. An object of the present invention is to provide a useful character slicing device capable of satisfying such a demand as much as possible.

【0009】[0009]

【課題を解決するための手段】上記目的を達成するため
に、請求項1の発明においては、文字(含む、記号)が
記載された画像の読取りデータから文字の列の画像デー
タ面でのX座標値、Y座標値、列の高さ等からなる位置
についての情報を抽出する文字列抽出手段と、前記文字
列抽出手段により抽出された文字の列の位置についての
情報で示される領域において、本来的には文字を構成す
る点や線等を表す黒画素の連結(連続)してなる文字構
成成分たる連結成分を抽出する連結成分抽出手段と、前
記連結成分抽出手段により抽出された各連結成分の組合
せのうち、例えば「i」等の分離文字で生じることであ
るが、一の連結成分を包含する所定の図形の中心と他の
連結成分を包含する所定の図形の中心とを結ぶ直線の上
記文字の列(縦書きならば、行)に対する傾きが一定の
範囲内にある組合せを一の抽出対象の文字として統合す
る連結成分統合手段と、前記連結成分抽出手段及び前記
連結成分統合手段の作用のもとで最終的に認識対象とし
て抽出された連結成分から認識対象の文字についての情
報、例えばそのまま出力したり、あるいは型板と照合す
る際の特徴点を抽出する文字認識情報抽出手段とを備え
たことを特徴としている。
In order to achieve the above-mentioned object, in the invention of claim 1, from the read data of the image in which the character (including the symbol) is described, the X on the image data surface of the character string is read. In a region indicated by a character string extraction unit that extracts information about a position including coordinate values, Y coordinate values, column heights, and the like, and information about the position of the character string extracted by the character string extraction unit, Originally, a connected component extracting means for extracting a connected component that is a character constituent component formed by connecting (consecutive) black pixels that represent points and lines that form a character, and each connected component extracted by the connected component extracting means. A straight line connecting the center of a predetermined graphic including one connected component and the center of a predetermined graphic including another connected component, which occurs in a separated character such as "i" in a combination of components. Above character string (vertical writing Then, a connected component integrating means for integrating a combination whose inclination with respect to a line) falls within a certain range as one character to be extracted, and a final operation under the action of the connected component extracting means and the connected component integrating means. The character recognition information extracting means for extracting information about the character to be recognized from the connected component extracted as the recognition target, for example, as it is, or for extracting a feature point when collating with the template is provided. There is.

【0010】請求項2の発明においては、例えば活字体
のアルファベット等の文字が記載された画像の読取りデ
ータから文字の列の位置についての情報を抽出する文字
列抽出手段と、前記文字列抽出手段により抽出された文
字の列の位置についての情報で示される領域において、
黒画素の連結してなる連結成分(含む、単一の黒画素)
を抽出する連結成分抽出手段と、前記連結成分抽出手段
により抽出された各連結成分の組合せのうち、漢字の
「川」、「二」やドイツ文字のウムラウトを示す「‥」
やアルファベットの「M」等で生じるが、一の連結成分
に含まれる黒画素と他の連結成分に含まれる黒画素と
の、例えば文字列(縦書きならば、行)方向の最短の距
離が別途定められた基準値に対して一定範囲内(例えば
閾値以下)である組合せを一の抽出対象として統合する
連結成分統合手段と、前記連結成分抽出手段及び前記連
結成分統合手段の作用のもとで最終的に抽出された連結
成分から認識対象の文字についての情報、例えば一の文
字のみの黒画素であること、を抽出する文字認識情報抽
出手段とを備えたことを特徴としている。
According to the second aspect of the present invention, for example, a character string extracting means for extracting information about the position of the character string from the read data of the image in which characters such as the alphabet of the typeface are described, and the character string extracting means. In the area indicated by the information about the position of the character string extracted by
Connected component consisting of connected black pixels (including single black pixel)
Of the connected components extracted by the connected component extracting means and the connected component extracting means, and "..." indicating the kanji "kawa" or "two" or the German character umlaut.
Or the letter “M” in the alphabet, the shortest distance between a black pixel included in one connected component and a black pixel included in another connected component is, for example, in the character string (vertical writing, row) direction. Connected component integrating means for integrating a combination within a certain range (for example, less than or equal to a threshold value) with respect to a separately determined reference value as one extraction target, and the action of the connected component extracting means and the connected component integrating means The character recognition information extracting means for extracting the information about the character to be recognized, for example, the black pixel of only one character, from the finally extracted connected component is provided.

【0011】請求項3の発明においては、文字が記載さ
れた画像の読取りデータから文字の列の位置についての
情報を抽出する文字列抽出手段と、画像データの前記文
字列抽出手段により抽出された文字列の位置情報で示さ
れる領域において、黒画素の連結してなる連結成分を抽
出する連結成分抽出手段と、前記連結成分抽出手段によ
り抽出された各連結成分の組合せのうち、漢字の「二」
や数学の記号の等号「=」等で生じるが、一の連結成分
を包含する所定の図形の文字の列方向の座標値と他の連
結成分を包含する所定の図形の文字の列(縦書きなら
ば、行)方向の座標値との間に包含(重複等)関係があ
る組合せを一の抽出対象として統合する連結成分統合手
段と、前記連結成分抽出手段及び前記連結成分統合手段
の作用のもとで最終的に抽出された連結成分から認識対
象の文字についての情報を抽出する文字認識情報抽出手
段とを備えたことを特徴としている。
According to the third aspect of the present invention, the character string extracting means for extracting information about the position of the character string from the read data of the image in which the character is written, and the character string extracting means for the image data are extracted. In the area indicated by the position information of the character string, a kanji character "2" is selected from the combination of the connected component extracting means for extracting the connected component formed by connecting the black pixels and each connected component extracted by the connected component extracting means. "
Or the equal sign “=” of a mathematical symbol, etc., but the coordinate values in the column direction of the character of a predetermined figure containing one connected component and the character string of a predetermined figure containing another connected component (vertical If it is written, the connected component integration means that integrates a combination having an inclusion (overlap etc.) relationship with the coordinate values in the row direction as one extraction target, and the operation of the connected component extraction means and the connected component integration means Character recognition information extraction means for extracting information about the character to be recognized from the finally extracted connected component.

【0012】請求項4の発明においては、文字が記載さ
れた画像の読取りデータから文字の列の位置についての
情報を抽出する文字列抽出手段と、前記文字列抽出手段
により抽出された文字の列の位置についての情報で示さ
れる領域において、黒画素の連結してなる連結成分を抽
出する連結成分抽出手段と、前記連結成分抽出手段によ
り抽出された各連結成分の組合せのうち、複雑な漢字や
アルファベットの「H」、「A」、「E」等で生じえる
が、一の連結成分を包含する所定の図形、例えば、水平
の線、と他の連結成分を包含する所定の図形、例えば垂
直の線、との重なり度合が別途定められた閾値以上であ
る組合せを一の抽出対象として統合する連結成分統合手
段と、前記連結成分抽出手段及び前記連結成分統合手段
の作用のもとで最終的に抽出された連結成分から文字情
報を抽出する文字認識情報抽出手段とを備えたことを特
徴としている。
According to the invention of claim 4, a character string extracting means for extracting information on the position of the character string from the read data of the image in which the character is described, and the character string extracted by the character string extracting means. In the area indicated by the information about the position of the complex pixel, among the combinations of the connected component extracting means for extracting the connected component formed by connecting the black pixels and the respective connected components extracted by the connected component extracting means, a complicated kanji character or The letters "H", "A", "E", etc. can occur, but a predetermined figure containing one connected component, such as a horizontal line, and a predetermined figure containing another connected component, such as a vertical line. Line, the degree of overlap with a threshold value that is separately determined or more is integrated component for integrating as one extraction target, and the connected component extraction means and the connected component integration means It is characterized in that a character recognition information extracting means for extracting character information from the manner extracted connected components.

【0013】請求項5の発明においては、文字が記載さ
れた画像の読取りデータから文字の列の位置についての
情報を抽出する文字列抽出手段と、前記文字列抽出手段
により抽出された文字の列の位置についての情報で示さ
れる領域において、黒画素の連結してなる連結成分を抽
出する連結成分抽出手段と、前記連結成分抽出手段によ
り抽出された各連結成分の組合せのうち、記号
の「:」、ドイツ語のウムラウト、アルファベットの
「j」等で生じえるが、一の連結成分を包含する所定の
図形と他の連結成分を包含する所定の図形との距離値が
閾値以下であり、上記両図形の面積比が別途定められた
基準値に対して一定の範囲内である(例えば、記号
の「;」等では0.8から1.2内、「j」では0.3という閾
値以下)連結成分の組合せを一の抽出対象として統合す
る連結成分統合手段と、前記連結成分抽出手段及び前記
連結成分統合手段の作用のもとで最終的に抽出された連
結成分から認識対象の文字についての情報を抽出する文
字認識情報抽出手段とを備えたことを特徴としている。
According to a fifth aspect of the present invention, a character string extracting means for extracting information about the position of the character string from the read data of the image in which the character is described, and the character string extracted by the character string extracting means. In the region indicated by the information about the position of the symbol, among the combinations of the connected component extracting means for extracting the connected components formed by connecting the black pixels and the respective connected components extracted by the connected component extracting means, the symbol “: , German umlaut, alphabetical letter “j”, etc., but the distance value between a predetermined figure including one connected component and a predetermined figure including another connected component is equal to or less than a threshold value, and The area ratio of both figures is within a certain range with respect to the separately determined reference value (for example, within the range of 0.8 to 1.2 for the symbol “;”, and below the threshold of 0.3 for “j”). One extraction Connected component integrating means for integrating as an elephant, and character recognition information extraction for extracting information about a character to be recognized from the connected components finally extracted under the action of the connected component extracting means and the connected component integrating means. And means are provided.

【0014】請求項6の発明においては、文字が記載さ
れた画像の読取りデータから文字の列の位置についての
情報を抽出する文字列抽出手段と、前記文字列抽出手段
により抽出された文字の列の位置についての情報で示さ
れる領域よりも文字列方向に直交する両側に所定画素数
大きい領域に存在する黒画素の連結してなる連結成分を
抽出する連結成分抽出手段と、前記連結成分抽出手段に
より抽出された連結成分のうち、該連結成分を包含する
所定の図形の文字列と直交する方向の開始または終了座
標が前記文字列抽出手段により抽出された文字の列の位
置の存在範囲、例えば、上、下各方向の座標値や当該文
字列に直交する方向の画素数で与えられる、を逸脱して
いる連結成分を同じく当該文字列の文字を構成する連結
成分として抽出する対象から削除する連結成分削除手段
と、前記連結成分抽出手段及び前記連結成分削除手段の
作用のもとで最終的に抽出された連結成分から認識対象
の、例えば個々の、文字についての情報を抽出する文字
認識情報抽出手段とを備えたことを特徴としている。
According to a sixth aspect of the present invention, a character string extracting means for extracting information about the position of the character string from the read data of the image in which the character is written, and the character string extracted by the character string extracting means. Connected component extracting means for extracting a connected component formed by connecting black pixels existing in an area having a predetermined number of pixels on both sides orthogonal to the character string direction than the area indicated by the information about the position, and the connected component extracting means. Among the connected components extracted by, the start or end coordinates in the direction orthogonal to the character string of the predetermined graphic including the connected component have the existence range of the position of the character string extracted by the character string extraction means, for example, , Which are given by the coordinate values in the upper and lower directions and the number of pixels in the direction orthogonal to the character string, are extracted as connected components that also form the characters of the character string. The connected component deleting means to be deleted from the object, and the information about the recognition target, for example, individual characters, is extracted from the connected component finally extracted under the action of the connected component extracting means and the connected component deleting means. And character recognition information extracting means for

【0015】請求項7の発明においては、文字が記載さ
れた画像の読取りデータから文字の列の位置についての
情報を抽出する文字列抽出手段と、前記文字列抽出手段
により抽出された文字の列の位置についての情報で示さ
れる領域において、黒画素の連結してなる連結成分を抽
出する連結成分抽出手段と、前記連結成分抽出手段によ
り抽出された各連結成分の組合せのうち、一の連結成分
を包含する所定の図形の中心と他の連結成分を包含する
所定の図形の中心とを結ぶ直線の上記文字の列に対する
傾きが一定の範囲内にある組合せを一の抽出対象として
統合する連結成分統合手段と、前記連結成分抽出手段及
び前記連結成分統合手段の作用のもとで最終的に抽出さ
れた連結成分から認識対象の文字についての情報を抽出
する文字認識情報抽出手段と、前記連結成分抽出手段に
より抽出された各連結成分の組合せのうち、一の連結成
分を包含する所定の図形の中心と他の連結成分を包含す
る所定の図形の中心とを結ぶ直線の上記文字の列に対す
る傾きが一定の範囲内にある組合せの生じる文字若しく
は文字の組合せについての情報をあらかじめ登録してい
る文字認識用補助辞書部と、前記連結成分統合手段が、
上記傾きが一定の範囲内にある組合せを一の抽出対象と
して統合する判断処理をなしたならば、この通知、その
判断結果の少なくも一を受けて、前記文字認識情報抽出
手段からの抽出情報をもとに文字認識を行なうに際し
て、前記文字認識用補助辞書部に登録されている情報を
利用する連結成分統合情報反映文字認識部を有している
ことを特徴としている。
According to a seventh aspect of the invention, a character string extracting means for extracting information about the position of the character string from the read data of the image in which the character is described, and the character string extracted by the character string extracting means. In the area indicated by the information about the position of the connected component, one connected component is selected from the connected component extracting means for extracting the connected component formed by connecting the black pixels, and each connected component extracted by the connected component extracting means. A connected component that integrates a combination of a straight line connecting the center of a predetermined graphic including the above and the center of a predetermined graphic including another connected component within a certain range with respect to the character string as one extraction target Character recognition information for extracting information about a character to be recognized from the connected component finally extracted under the action of the integrating unit, the connected component extracting unit, and the connected component integrating unit. A straight line connecting the center of a predetermined graphic including one connected component and the center of a predetermined graphic including another connected component among the combinations of the output means and the respective connected components extracted by the connected component extraction means. The character recognition auxiliary dictionary unit that has registered in advance information about a character or a combination of characters in which a combination in which the inclination with respect to the character string is within a certain range, and the connected component integrating unit,
When the judgment processing for integrating the combination having the inclination within a certain range as one extraction target is made, upon receiving this notification, at least one of the judgment results, the extraction information from the character recognition information extraction means. When character recognition is performed on the basis of the above, the character recognition section is characterized by having a connected component integrated information reflecting character recognition section that utilizes information registered in the character recognition auxiliary dictionary section.

【0016】請求項8の発明においては、文字が記載さ
れた画像の読取りデータから文字の列の位置についての
情報を抽出する文字列抽出手段と、前記文字列抽出手段
により抽出された文字の列の位置についての情報で示さ
れる領域において、黒画素の連結してなる連結成分を抽
出する連結成分抽出手段と、前記連結成分抽出手段によ
り抽出された各連結成分の組合せのうち、一の連結成分
に含まれる黒画素と他の連結成分に含まれる黒画素との
最短の距離が別途定められた基準値に対して一定範囲内
である組合せを一の抽出対象として統合する連結成分統
合手段と、前記連結成分抽出手段及び前記連結成分統合
手段の作用のもとで最終的に抽出された連結成分から認
識対象の文字についての情報を抽出する文字認識情報抽
出手段と、前記連結成分抽出手段により抽出された各連
結成分の組合せのうち、一の連結成分に含まれる黒画素
と他の連結成分に含まれる黒画素との最短の距離が別途
定められた基準値に対して一定範囲内である組合せの生
じる文字若しくは文字の組合せについての情報をあらか
じめ登録している文字認識用補助辞書部と、前記連結成
分統合手段が、上記最短の距離か基準値に対して一定範
囲内である組合せを一の抽出対象として統合する判断処
理をなしたならば、この通知、その判断結果の少なくも
一を受けて、前記文字認識情報抽出手段からの抽出情報
をもとに文字認識を行なうに際して、前記文字認識用補
助辞書部に登録されている情報を利用する連結成分統合
情報反映文字認識部を有していることを特徴としてい
る。
According to an eighth aspect of the present invention, a character string extracting means for extracting information about the position of the character string from the read data of the image in which the character is described, and the character string extracted by the character string extracting means. In the area indicated by the information about the position, the connected component extracting means for extracting the connected component formed by connecting the black pixels, and one connected component among the combinations of the connected components extracted by the connected component extracting means Connected component integrating means for integrating a combination in which a shortest distance between a black pixel included in the black pixel and a black pixel included in another connected component is within a certain range with respect to a separately determined reference value as one extraction target, A character recognition information extraction means for extracting information about a character to be recognized from the connected component finally extracted under the action of the connected component extracting means and the connected component integrating means; Among the combinations of connected components extracted by the component extracting means, the shortest distance between the black pixel included in one connected component and the black pixel included in another connected component is constant with respect to a separately determined reference value. The auxiliary dictionary unit for character recognition in which information about characters or combinations of characters in which a combination within a range is registered in advance, and the connected component integrating means are within a certain range with respect to the shortest distance or the reference value. If the judgment processing for integrating a certain combination as one extraction target is made, the notification and at least one of the judgment results are received, and character recognition is performed based on the extracted information from the character recognition information extraction means. In this case, it is characterized in that it has a connected component integrated information reflecting character recognition unit that uses information registered in the auxiliary dictionary unit for character recognition.

【0017】請求項9の発明においては、文字が記載さ
れた画像の読取りデータから文字の列の位置についての
情報を抽出する文字列抽出手段と、画像データの前記文
字列抽出手段により抽出された文字列の位置情報で示さ
れる領域において、黒画素の連結してなる連結成分を抽
出する連結成分抽出手段と、前記連結成分抽出手段によ
り抽出された各連結成分の組合せのうち、一の連結成分
を包含する所定の図形の文字の列方向の座標値と他の連
結成分を包含する所定の図形の文字の列方向の座標値と
の間に包含関係がある組合せを一の抽出対象として統合
する連結成分統合手段と、前記連結成分抽出手段及び前
記連結成分統合手段の作用のもとで最終的に抽出された
連結成分から認識対象の文字についての情報を抽出する
文字認識情報抽出手段と、前記連結成分抽出手段により
抽出された各連結成分の組合せのうち、一の連結成分を
包含する所定の図形の文字の列方向の座標値と他の連結
成分を包含する所定の図形の文字の列方向の座標値との
間に包含関係がある組合せの生じる文字若しくは文字の
組合せについての情報をあらかじめ登録している文字認
識用補助辞書部と、前記連結成分統合手段が、上記包含
関係がある組合せを一の抽出対象として統合する判断処
理をなしたならば、この通知、その判断結果の少なくも
一を受けて、前記文字認識情報抽出手段からの抽出情報
をもとに文字認識を行なうに際して、前記文字認識用補
助辞書部に登録されている情報を利用する連結成分統合
情報反映文字認識部を有していることを特徴としてい
る。
According to the present invention, the character string extracting means for extracting information about the position of the character string from the read data of the image in which the character is written, and the character string extracting means for the image data are extracted. In the area indicated by the position information of the character string, one connected component among the connected component extracting means for extracting the connected component formed by connecting the black pixels, and each connected component extracted by the connected component extracting means. A combination having an inclusive relation between the coordinate values in the column direction of a character of a predetermined figure that includes and the coordinate values in the column direction of a character of a predetermined figure that includes other connected components is integrated as one extraction target. Character recognition information extraction for extracting information about a character to be recognized from the finally extracted connected component under the action of the connected component integrating means, the connected component extracting means and the connected component integrating means And a predetermined figure including the other connected components and the column direction coordinate value of the character of the predetermined figure including one connected component among the combinations of the connected components extracted by the connected component extracting means. The auxiliary dictionary unit for character recognition in which information about a character or a combination of characters in which a combination having an inclusive relation with the column-direction coordinate value of the character occurs is registered in advance, and the connected component integrating means includes the above inclusive relation. If a determination process for integrating a certain combination as one extraction target is made, the notification and at least one of the determination results are received, and character recognition is performed based on the extraction information from the character recognition information extraction means. When performing, it is characterized in that it has a connected component integrated information reflecting character recognition unit that uses information registered in the auxiliary dictionary unit for character recognition.

【0018】請求項10の発明においては、文字が記載
された画像の読取りデータから文字の列の位置について
の情報を抽出する文字列抽出手段と、前記文字列抽出手
段により抽出された文字の列の位置についての情報で示
される領域において、黒画素の連結してなる連結成分を
抽出する連結成分抽出手段と、前記連結成分抽出手段に
より抽出された各連結成分の組合せのうち、一の連結成
分を包含する所定の図形と他の連結成分を包含する所定
の図形との重なり度合が別途定められた閾値以上である
組合せを一の抽出対象として統合する連結成分統合手段
と、前記連結成分抽出手段及び前記連結成分統合手段の
作用のもとで最終的に抽出された連結成分から文字情報
を抽出する文字認識情報抽出手段と、前記連結成分抽出
手段により抽出された各連結成分の組合せのうち、一の
連結成分を包含する所定の図形と他の連結成分を包含す
る所定の図形との重なり度合が別途定められた閾値以上
である組合せの生じる文字若しくは文字の組合せについ
ての情報をあらかじめ登録している文字認識用補助辞書
部と、前記連結成分統合手段が、上記重なり度合が閾値
以上となる組合せを一の抽出対象として統合する判断処
理をなしたならば、この通知、その判断結果の少なくも
一を受けて、前記文字認識情報抽出手段からの抽出情報
をもとに文字認識を行なうに際して、前記文字認識用補
助辞書部に登録されている情報を利用する連結成分統合
情報反映文字認識部を有していることを特徴としてい
る。
According to the tenth aspect of the invention, a character string extracting means for extracting information about the position of the character string from the read data of the image in which the character is described, and the character string extracted by the character string extracting means. In the area indicated by the information about the position of the connected component, one connected component is selected from the connected component extracting means for extracting the connected component formed by connecting the black pixels, and each connected component extracted by the connected component extracting means. Connected component integrating means for integrating a combination in which the degree of overlap between a predetermined figure including the above and a predetermined figure including another connected component is equal to or more than a separately determined threshold value as one extraction target, and the above connected component extracting means And a character recognition information extracting means for extracting character information from the finally extracted connected component under the action of the connected component integrating means, and the connected component extracting means. Among the combinations of the respective connected components, the degree of overlap between a predetermined figure including one connected component and a predetermined figure including another connected component is equal to or greater than a separately determined threshold value If the character recognition auxiliary dictionary unit that has registered information about combinations in advance, and the connected component integrating means performs a determination process of integrating combinations in which the degree of overlap is a threshold value or more as one extraction target, Upon receiving this notification and at least one of the judgment results, when the character recognition is performed based on the extracted information from the character recognition information extracting means, the information registered in the auxiliary dictionary unit for character recognition is used. It is characterized by having a connected component integrated information reflecting character recognition unit.

【0019】請求項11の発明においては、文字が記載
された画像の読取りデータから文字の列の位置について
の情報を抽出する文字列抽出手段と、前記文字列抽出手
段により抽出された文字の列の位置についての情報で示
される領域において、黒画素の連結してなる連結成分を
抽出する連結成分抽出手段と、前記連結成分抽出手段に
より抽出された各連結成分の組合せのうち、一の連結成
分を包含する所定の図形と他の連結成分を包含する所定
の図形との距離値が閾値以下であり、上記両図形の面積
比が別途定められた基準値に対して一定範囲内である連
結成分の組合せを一の抽出対象として統合する連結成分
統合手段と、前記連結成分抽出手段及び前記連結成分統
合手段の作用のもとで最終的に抽出された連結成分から
認識対象の文字についての情報を抽出する文字認識情報
抽出手段と、前記連結成分抽出手段により抽出された各
連結成分の組合せのうち、一の連結成分を包含する所定
の図形と他の連結成分を包含する所定の図形との距離値
が閾値以下であり、上記両図形の面積比が別途定められ
た基準値に対して一定範囲内である連結成分の組合せの
生じる文字若しくは文字の組合せについての情報をあら
かじめ登録している文字認識用補助辞書部と、前記連結
成分統合手段が、上記距離値が閾値以下となり面積比が
基準値に対して一定範囲内となる組合せを一の抽出対象
として統合する判断処理をなしたならば、この通知、そ
の判断結果の少なくも一を受けて、前記文字認識情報抽
出手段からの抽出情報をもとに文字認識を行なうに際し
て、前記文字認識用補助辞書部に登録されている情報を
利用する連結成分統合情報反映文字認識部を有している
ことを特徴としている。
According to an eleventh aspect of the present invention, a character string extracting means for extracting information about the position of the character string from the read data of the image in which the character is described, and the character string extracted by the character string extracting means. In the area indicated by the information about the position, the connected component extracting means for extracting the connected component formed by connecting the black pixels, and one connected component among the combinations of the connected components extracted by the connected component extracting means A connected component in which a distance value between a predetermined figure including the above and a predetermined figure including another connected component is less than or equal to a threshold value, and an area ratio of the two figures is within a certain range with respect to a separately determined reference value. Connected component integrating means for integrating the combination of as one extraction target, and the connected component finally extracted under the action of the connected component extracting means and the connected component integrating means to a character to be recognized. Of the character recognition information extracting means for extracting the information, and a predetermined graphic including one connected component and a predetermined graphic including another connected component among the combinations of the connected components extracted by the connected component extracting means. The distance value to the figure is less than or equal to the threshold value, and the area ratio of both figures is within a certain range with respect to the separately defined reference value. The character recognition auxiliary dictionary unit and the connected component integration means perform a determination process to integrate a combination in which the distance value is equal to or less than a threshold value and the area ratio is within a certain range with respect to a reference value as one extraction target. In response to this notification and at least one of the judgment results, when performing character recognition based on the extracted information from the character recognition information extracting means, the character recognition auxiliary dictionary unit is registered. It is characterized by having a coupling component integrated information reflecting a character recognition unit that utilizes the information being.

【0020】請求項12の発明においては、文字が記載
された画像の読取りデータから文字の列の位置について
の情報を抽出する文字列抽出手段と、前記文字列抽出手
段により抽出された文字の列の位置についての情報で示
される領域よりも文字列方向に直交する両側に所定画素
数大きい領域に存在する黒画素の連結してなる連結成分
を抽出する連結成分抽出手段と、前記連結成分抽出手段
により抽出された連結成分のうち、該連結成分を包含す
る所定の図形の文字列と直交する方向の開始または終了
座標が、前記文字列抽出手段により抽出された文字の列
の位置の存在範囲を逸脱している連結成分を同じく当該
文字列の文字を構成する連結成分として抽出する対象か
ら削除する連結成分削除手段と、前記連結成分抽出手段
及び前記連結成分削除手段の作用のもとで最終的に抽出
された連結成分から認識対象の文字についての情報を抽
出する文字認識情報抽出手段と、前記連結成分抽出手段
により抽出された各連結成分のうち、前記連結成分削除
手段の作用発揮の対象となる連結成分を有することとな
る可能性の高い文字若しくは文字の組合せについての情
報をあらかじめ登録している文字認識用補助辞書部と、
前記連結成分削除手段が、上記連結成分を一の抽出対象
から削除したならば、この通知を受けて、前記文字認識
情報抽出手段からの抽出情報をもとに当該削除した連結
成分を端部に一部として含む他の列の文字の認識を行な
うに際して、前記文字認識用補助辞書部に登録されてい
る情報を利用する連結成分削除情報反映文字認識部を有
していることを特徴としている。 請求項13及び請求
項14の発明においては、前記連結成分統合手段は、上
記連結成分を包含する所定の図形として、連結成分に外
接するかつ各辺が文字列方向若しくはこれに直交する方
向の四角形を作成する外接四角形作成部を有しているこ
とを特徴としている。
According to the twelfth aspect of the present invention, a character string extracting means for extracting information about the position of the character string from the read data of the image in which the character is described, and the character string extracted by the character string extracting means. Connected component extracting means for extracting a connected component formed by connecting black pixels existing in regions having a predetermined number of pixels on both sides orthogonal to the character string direction than the region indicated by the information about the position, and the connected component extracting device. Among the connected components extracted by, the start or end coordinates in the direction orthogonal to the character string of the predetermined figure including the connected component are the existence range of the position of the character string extracted by the character string extracting means. Connected component deleting means for deleting a deviated connected component from a target for extracting as a connected component which also constitutes a character of the character string, the connected component extracting means and the connected component The character recognition information extracting means for extracting information about the character to be recognized from the finally extracted connected component under the action of the removing means, and among the connected components extracted by the connected component extracting means, A character recognition auxiliary dictionary unit in which information about a character or a combination of characters that is likely to have a connected component for which the connected component deleting means exhibits its effect is registered.
When the connected component deletion means deletes the connected component from one extraction target, upon receiving this notification, the deleted connected component is added to the end based on the extraction information from the character recognition information extraction means. It is characterized in that it has a connected component deletion information reflecting character recognition unit that utilizes information registered in the auxiliary dictionary unit for character recognition when recognizing characters in other columns included as a part. In the thirteenth and fourteenth aspects of the present invention, the connected component integrating means is a quadrangle that circumscribes the connected component and whose sides are in the character string direction or in a direction orthogonal to this as a predetermined figure including the connected component. Is characterized by having a circumscribing quadrangle creation unit for creating

【0021】[0021]

【作用】上記構成により、請求項1の発明においては、
文字列抽出手段が、文字が記載された画像の読取りデー
タから、文字の記載された用紙の画像データ全体の形状
等を把握等した上で、文字の列の位置についての情報、
例えばその左右端、上下端等を、画素数で示された座標
値や画像データ全体に対する比で示された座標値等を利
用して、抽出する。連結成分抽出手段が、前記文字列抽
出手段により抽出された文字の列の位置についての情報
で示される領域において、「0」と「1」からなるデー
タから「1」の連続する部分のみ取り出す等して、黒画
素の連結してなる文字構成成分たる連結成分を抽出す
る。連結成分統合手段が、前記連結成分抽出手段により
抽出された各連結成分の組合せのうち、一の連結成分を
包含する所定の図形の中心と他の連結成分を包含する所
定の図形の中心とを結ぶ直線の上記文字の列に対する傾
きが、例えば70°〜110°等、一定の範囲内にある
組合せを一の抽出対象として統合する。文字認識情報抽
出手段が、前記連結成分抽出手段及び前記連結成分統合
手段の作用のもとで、最終的に一の認識対象として抽出
された連結成分から認識対象の文字についての情報を抽
出し、更に文字認識部に送ったり等する。
With the above structure, in the invention of claim 1,
Character string extraction means, from the read data of the image in which the characters are described, after grasping the overall shape of the image data of the paper in which the characters are described, etc., information about the position of the character string,
For example, the left and right edges, the upper and lower edges, etc. are extracted by using the coordinate value indicated by the number of pixels, the coordinate value indicated by the ratio to the entire image data, and the like. The connected component extracting means extracts only a continuous portion of "1" from the data consisting of "0" and "1" in the area indicated by the information about the position of the character string extracted by the character string extracting means. Then, a connected component which is a character component formed by connecting black pixels is extracted. The connected component integrating means sets the center of a predetermined graphic including one connected component and the center of a predetermined graphic including another connected component among the combinations of the connected components extracted by the connected component extracting means. Combinations in which the inclination of the connecting straight line with respect to the character string is within a certain range, such as 70 ° to 110 °, are integrated as one extraction target. The character recognition information extraction means, under the action of the connected component extraction means and the connected component integration means, finally extracts information about the character of the recognition target from the connected component extracted as one recognition target, Further, it is sent to the character recognition unit.

【0022】請求項2の発明においては、文字列抽出手
段が、文字が記載された画像の読取りデータから文字の
列の位置についての情報を抽出する。連結成分抽出手段
が、前記文字列抽出手段により抽出された文字の列の位
置についての情報で示される領域において、黒画素の連
結してなる連結成分を抽出する。連結成分統合手段が、
前記連結成分抽出手段により抽出された各連結成分の組
合せのうち、一の連結成分に含まれる黒画素と他の連結
成分に含まれる黒画素との最短の距離が別途定められた
基準値に対して一定の範囲内、例えば文字列の高さに対
して閾値たる0.3以下である組合せを一の抽出対象とし
て統合する。文字認識情報抽出手段が、前記連結成分抽
出手段及び前記連結成分統合手段の作用のもとで最終的
に抽出された連結成分から認識対象の文字についての情
報を抽出する。請求項3の発明においては、文字列抽出
手段が、文字が記載された画像の読取りデータから文字
の列の位置についての情報を抽出する。連結成分抽出手
段が、画像データの前記文字列抽出手段により抽出され
た文字列の位置情報で示される領域において、黒画素の
連結してなる連結成分を抽出する。連結成分統合手段
が、前記連結成分抽出手段により抽出された各連結成分
の組合せのうち、一の連結成分を包含する所定の図形の
文字の列方向の座標値と他の連結成分を包含する所定の
図形の文字の列方向の座標値との間に包含関係がある組
合せを一の抽出対象として統合する。文字認識情報抽出
手段が、前記連結成分抽出手段及び前記連結成分統合手
段の作用のもとで最終的に抽出された連結成分から認識
対象の文字についての情報を抽出する。
According to the second aspect of the present invention, the character string extracting means extracts the information about the position of the character string from the read data of the image in which the characters are described. The connected component extracting means extracts a connected component formed by connecting black pixels in the area indicated by the information about the position of the character string extracted by the character string extracting means. Connected component integration means
Among the combinations of the connected components extracted by the connected component extracting means, the shortest distance between the black pixel included in one connected component and the black pixel included in another connected component with respect to a separately determined reference value. Within a certain range, for example, a combination that is a threshold value of 0.3 or less with respect to the height of the character string is integrated as one extraction target. The character recognition information extraction means extracts information about the character to be recognized from the finally extracted connected component under the action of the connected component extracting means and the connected component integrating means. In the third aspect of the invention, the character string extracting means extracts information about the position of the character string from the read data of the image in which the characters are written. The connected component extracting means extracts a connected component formed by connecting black pixels in an area of the image data indicated by the position information of the character string extracted by the character string extracting means. The connected component integrating means includes, among the combinations of connected components extracted by the connected component extracting means, predetermined coordinate values including the coordinate values in the column direction of characters of a predetermined graphic including one connected component and other connected components. A combination having an inclusive relation with the coordinate values of the characters of the figure in the column direction is integrated as one extraction target. The character recognition information extraction means extracts information about the character to be recognized from the finally extracted connected component under the action of the connected component extracting means and the connected component integrating means.

【0023】請求項4の発明においては、文字列抽出手
段が、文字が記載された画像の読取りデータから文字の
列の位置についての情報を抽出する。連結成分抽出手段
が、前記文字列抽出手段により抽出された文字の列の位
置についての情報で示される領域において、黒画素の連
結してなる連結成分を抽出する。連結成分統合手段が、
前記連結成分抽出手段により抽出された各連結成分の組
合せのうち、一の連結成分を包含する所定の図形と他の
連結成分を包含する所定の図形との重なり度合が別途定
められた閾値以上である組合せを一の抽出対象として統
合する。文字認識情報抽出手段が、前記連結成分抽出手
段及び前記連結成分統合手段の作用のもとで最終的に抽
出された連結成分から文字情報を抽出する。
According to the fourth aspect of the invention, the character string extracting means extracts information on the position of the character string from the read data of the image in which the characters are described. The connected component extracting means extracts a connected component formed by connecting black pixels in the area indicated by the information about the position of the character string extracted by the character string extracting means. Connected component integration means
Among the combinations of the connected components extracted by the connected component extracting means, the degree of overlap between a predetermined figure including one connected component and a predetermined figure including another connected component is not less than a separately determined threshold value. A certain combination is integrated as one extraction target. The character recognition information extracting means extracts character information from the finally extracted connected component under the action of the connected component extracting means and the connected component integrating means.

【0024】請求項5の発明においては、文字列抽出手
段が、文字が記載された画像の読取りデータから文字の
列の位置についての情報を抽出する。連結成分抽出手段
が、前記文字列抽出手段により抽出された文字の列の位
置についての情報で示される領域において、黒画素の連
結してなる連結成分を抽出する。連結成分統合手段が、
前記連結成分抽出手段により抽出された各連結成分の組
合せのうち、一の連結成分を包含する所定の図形と他の
連結成分を包含する所定の図形との距離値が閾値以下で
あり、上記両図形の面積比が別途定められた基準値に対
して一定範囲内、例えば閾値以上である、連結成分の組
合せを一の抽出対象として統合する。文字認識情報抽出
手段が、前記連結成分抽出手段及び前記連結成分統合手
段の作用のもとで最終的に抽出された連結成分から認識
対象の文字についての情報を抽出する。
According to the fifth aspect of the invention, the character string extracting means extracts information about the position of the character string from the read data of the image in which the characters are described. The connected component extracting means extracts a connected component formed by connecting black pixels in the area indicated by the information about the position of the character string extracted by the character string extracting means. Connected component integration means
Among the combinations of connected components extracted by the connected component extracting means, the distance value between a predetermined figure including one connected component and a predetermined figure including another connected component is equal to or less than a threshold value. A combination of connected components, in which the area ratio of the graphic is within a certain range with respect to a separately determined reference value, for example, a threshold value or more, is integrated as one extraction target. The character recognition information extraction means extracts information about the character to be recognized from the finally extracted connected component under the action of the connected component extracting means and the connected component integrating means.

【0025】請求項6の発明においては、文字列抽出手
段が、文字が記載された画像の読取りデータから文字の
列の位置についての情報を抽出する。連結成分抽出手段
が、前記文字列抽出手段により抽出された文字の列の位
置についての情報で示される領域よりも文字列方向に直
交する両側に、原画像の文字列データの状況等により定
まる所定画素数、例えば1画素、大きい領域に存在する
黒画素の連結してなる連結成分を抽出する。連結成分削
除手段が、前記連結成分抽出手段により抽出された連結
成分のうち、該連結成分を包含する所定の図形の文字列
と直交する方向の開始または終了座標が、前記文字列抽
出手段により抽出された文字の列の位置の存在範囲を逸
脱している線等からなる連結成分を同じく当該文字列の
文字を構成する連結成分として抽出する対象から削除す
る。文字認識情報抽出手段が、前記連結成分抽出手段及
び前記連結成分削除手段の作用のもとで最終的に抽出さ
れた連結成分から認識対象の文字についての情報を抽出
する。
In the invention of claim 6, the character string extracting means extracts information about the position of the character string from the read data of the image in which the characters are described. The connected component extracting means has a predetermined value determined by the situation of the character string data of the original image on both sides orthogonal to the character string direction with respect to the area indicated by the information about the position of the character string extracted by the character string extracting means. The number of pixels, for example, one pixel, a connected component formed by connecting black pixels existing in a large area is extracted. The connected component deleting means extracts, from the connected components extracted by the connected component extracting means, start or end coordinates in a direction orthogonal to a character string of a predetermined graphic including the connected components by the character string extracting means. The connected component formed of a line or the like that deviates from the existing range of the position of the character string is deleted from the target to be extracted as the connected component that also constitutes the character of the character string. The character recognition information extracting means extracts information about the character to be recognized from the finally extracted connected component under the action of the connected component extracting means and the connected component deleting means.

【0026】請求項7の発明においては、請求項1の発
明の作用に加えて、以下の作用がなされる。文字認識用
補助辞書部に、前記連結成分抽出手段により抽出された
各連結成分の組合せのうち、一の連結成分を包含する所
定の図形の中心と他の連結成分を包含する所定の図形の
中心とを結ぶ直線の上記文字の列に対する傾きが一定の
範囲内にある組合せの生じる文字若しくは文字の組合せ
についての情報、例えば「i」、「j」、「=」、
「÷」、ドイツ語のウムラウト等、その他逆情報として
は、「∴」、大文字の「P」、「T」とこれに近接する
小文字の「c」や「a」や「e」等をあらかじめ登録し
ている。連結成分統合情報反映文字認識部が、前記連結
成分統合手段が上記傾きが一定の範囲内にある組合せを
一の抽出対象として統合する判断処理をなしたならば、
この通知、その判断結果の少なくも一を受けて、前記文
字認識情報抽出手段からの抽出情報をもとに文字認識を
行なうに際して、前記文字認識用補助辞書部に登録され
ている情報を通常の認識処理では不明確な場合に参照す
る等して利用する。
According to the invention of claim 7, in addition to the operation of the invention of claim 1, the following operation is performed. In the auxiliary dictionary unit for character recognition, among the combinations of the connected components extracted by the connected component extracting means, the center of a predetermined graphic including one connected component and the center of a predetermined graphic including another connected component Information about a character or a combination of characters in which a combination of a straight line connecting with and the inclination of the character with respect to the character string is within a certain range, for example, "i", "j", "=".
"÷", German umlaut, and other reverse information, such as "∴", uppercase "P", "T", and lowercase "c", "a", "e", etc. I have registered. If the connected component integrated information reflecting character recognition unit performs the determination process of integrating the combination in which the connected component integrating means has the inclination within a certain range as one extraction target,
Upon receiving this notification, at least one of the judgment results, and performing character recognition based on the extracted information from the character recognition information extracting means, the information registered in the character recognition auxiliary dictionary unit is set to the normal information. It is used as a reference when it is unclear in the recognition process.

【0027】請求項8の発明においては、請求項2の発
明の作用に加えて、以下の作用がなされる。文字認識用
補助辞書部に、前記連結成分抽出手段のより抽出された
各連結成分の組合せのうち、一の連結成分に含まれる黒
画素と他の連結成分に含まれる黒画素との最短の距離が
別途定められた基準値に対して一定範囲内である組合せ
の生じる文字若しくは文字の組合せについての情報、例
えば「i」、「j」、「‥」、
「…」、「;」、「:」、「=」、特殊な書体かつ分離
が生じた場合の「H」や「D」等をあらかじめ登録して
いる。連結成分統合情報反映文字認識部が、前記連結成
分統合手段が上記最短の距離が基準値に対して一定の範
囲内である組合せを一の抽出対象として統合する判断処
理をなしたならば、この通知、その判断結果の少なくも
一を受けて、前記文字認識情報抽出手段からの抽出情報
をもとに文字認識を行なうに際して、前記文字認識用補
助辞書部に登録されている情報を候補文字の重み付けに
使用する等して利用する。
In the eighth aspect of the invention, the following action is performed in addition to the action of the second aspect of the invention. In the character recognition auxiliary dictionary unit, the shortest distance between the black pixel included in one connected component and the black pixel included in another connected component among the combinations of the connected components extracted by the connected component extracting unit. Information about a character or a combination of characters in which a combination is within a certain range with respect to a separately determined reference value, for example, "i", "j", "...",
“...”, “;”, “:”, “=”, “H”, “D”, etc. in case of special typeface and separation are registered in advance. If the connected component integrated information reflecting character recognizing unit performs the determination process of integrating the combination in which the connected component integrating means has the shortest distance within a certain range with respect to the reference value as one extraction target, Upon receiving the notification, at least one of the judgment results, and performing character recognition based on the extracted information from the character recognition information extracting means, the information registered in the character recognition auxiliary dictionary unit is used as a candidate character Used for weighting, etc.

【0028】請求項9の発明においては、請求項3の発
明の作用に加えて、以下の作用がなされる。文字認識用
補助辞書部に、前記連結成分抽出手段により抽出された
各連結成分の組合せのうち、一の連結成分を包含する所
定の図形の文字の列方向の座標値と他の連結成分を包含
する所定の図形の文字の列方向の座標値との間に包含関
係がある組合せの生じる文字若しくは文字の組合せにつ
いての情報、例えば上下関係ならば「=」、「?」、
「!」、「…」、「‥」、ウムラウトの2つの「・」、
その他逆情報(上下関係が生じえる複数の文字)として
の大文字の「P」等とこれに近接する小文字の「c」
等、小文字の「f」と「y」等をあらかじめ登録してい
る。連結成分統合情報反映文字認識部が、前記連結成分
統合手段が、上記包含関係がある組合せを一の抽出対象
として統合する判断処理をなしたならば、この通知、そ
の判断結果の少なくも一を受けて、前記文字認識情報抽
出手段からの抽出情報をもとに文字認識を行なうに際し
て、前記文字認識用補助辞書部に登録されている情報を
認識に直接使用したり、候補を絞り混むのに利用する。
In the invention of claim 9, in addition to the operation of the invention of claim 3, the following operation is performed. In the character recognition auxiliary dictionary unit, among the combinations of the connected components extracted by the connected component extracting means, the coordinate values in the column direction of the characters of a predetermined figure including one connected component and other connected components are included. Information about a character or a combination of characters in which there is an inclusive relationship with the coordinate value of the character of the predetermined figure in the column direction, for example, "=", "?"
"!", "...", "...", two "・" of umlaut,
Other uppercase letters such as "P" as reverse information (plurality of characters that can be vertically related) and a lowercase letter "c" adjacent to them
Etc., lowercase letters "f" and "y" are registered in advance. If the connected component integrated information reflecting character recognition unit performs the determination process of integrating the combination having the inclusion relation as one extraction target, this notification, at least one of the determination results is given. When performing character recognition based on the extracted information from the character recognition information extracting means, it is possible to directly use the information registered in the auxiliary dictionary unit for character recognition or narrow down the candidates. To use.

【0029】請求項10の発明においては、請求項11
の発明の作用に加えて、以下の作用がなされる。文字認
識用補助辞書部に、前記連結成分抽出手段により抽出さ
れた各連結成分の組合せのうち、一の連結成分を包含す
る所定の図形と他の連結成分を包含する所定の図形との
重なり度合が別途定められた閾値以上である組合せの生
じる文字若しくは文字の組合せについての情報、例えば
「X」、「H」、「E」、その他郵便記号等、この他逆
情報として小文字の「f」と「y」等をあらかじめ登録
している。連結成分統合情報反映文字認識部が、前記連
結成分統合手段が、上記重なり度合が閾値以上となる組
合せを一の抽出対象として統合する判断処理をなしたな
らば、この通知、若しくはその判断結果の少なくも一を
受けて、前記文字認識情報抽出手段からの抽出情報をも
とに文字認識を行なうに際して、前記文字認識用補助辞
書部に登録されている情報を利用する。
In the invention of claim 10, claim 11 is provided.
In addition to the function of the invention described above, the following function is performed. In the character recognition auxiliary dictionary unit, among the combinations of the connected components extracted by the connected component extracting means, the degree of overlap between a predetermined figure including one connected component and a predetermined figure including another connected component. Information about a character or a combination of characters in which a combination is equal to or greater than a separately determined threshold value, for example, “X”, “H”, “E”, other postal symbols, etc. "Y" etc. are registered in advance. If the connected component integrated information reflecting character recognition unit performs the determination process of integrating the combination in which the overlapping degree is the threshold value or more as one extraction target, this notification, or the result of the determination Upon receiving at least one and performing character recognition based on the extracted information from the character recognition information extraction means, the information registered in the auxiliary dictionary unit for character recognition is used.

【0030】請求項11の発明においては、請求項5の
発明の作用に加えて、以下の作用がなされる。文字認識
用補助辞書部に、前記連結成分抽出手段により抽出され
た各連結成分の組合せのうち、一の連結成分を包含する
所定の図形と他の連結成分を包含する所定の図形との距
離値が閾値以下であり、上記両図形の面積比が別途定め
られた基準値に対して一定範囲内である連結成分の組合
せの生じる文字若しくは文字の組合せについての情報、
例えば面積比が基準値0.7以上ならば「i」、「j」、
「?」、以下ならば「:」等、この他、逆情報としては
大文字の「P」、「T」と小文字の「c」等が複数の文
字であるがかかる関係に条件によっては生じえる、等を
あらかじめ登録している。
According to the eleventh aspect of the invention, the following action is performed in addition to the action of the fifth aspect of the invention. A distance value between a predetermined figure including one connected component and a predetermined figure including another connected component among the combinations of the connected components extracted by the connected component extracting means in the auxiliary dictionary unit for character recognition. Is less than or equal to a threshold value, and the area ratio of the two figures is within a certain range with respect to a separately determined reference value.
For example, if the area ratio is 0.7 or more, then "i", "j",
"?", ":", Etc. if it is less than this. In addition to this, as reverse information, uppercase letters "P", "T" and lowercase letters "c", etc. are multiple characters, but this relationship may occur depending on the condition. , Etc. are registered in advance.

【0031】連結成分統合情報反映文字認識部が、前記
連結成分統合手段が、上記距離値が閾値以下となり面積
比が基準値に対して一定範囲内となる組合せを一の抽出
対象として統合する判断処理をなしたならば、この通
知、その判断結果の少なくも一を受けて、前記文字認識
情報抽出手段からの抽出情報をもとに文字認識を行なう
に際して、前記文字認識用補助辞書部に登録されている
情報を利用する。
The connected component integrated information reflecting character recognition unit judges that the connected component integrating means integrates a combination in which the distance value is equal to or less than a threshold value and the area ratio is within a certain range with respect to a reference value as one extraction target. After the processing, upon receiving this notification and at least one of the judgment results, when performing character recognition based on the extracted information from the character recognition information extraction means, it is registered in the character recognition auxiliary dictionary section. Use the information provided.

【0032】請求項12の発明においては、請求項6の
発明の作用に加えて、以下の作用がなされる。文字認識
用補助辞書部に、前記連結成分抽出手段により抽出され
た各連結成分のうち、前記連結成分削除手段の作用発揮
の対象となる連結成分を有することとなる可能性の高い
文字若しくは文字の組合せについての情報、例えば横書
きならば「n」、「g」、「q」、「f」等、縦書きの
筆記体ならば「水」等ハネのある漢字をあらかじめ登録
している。連結成分削除情報反映文字認識部が、前記連
結成分削除手段が、上記連結成分を一の抽出対象から削
除したならば、この通知を受けて前記文字認識用補助辞
書部に登録されている情報を、前記文字認識情報抽出手
段からの抽出情報をもとに当該削除した連結成分を端部
に一部として含む他の列の文字の認識を行なうに際して
利用する。
In the twelfth aspect of the invention, the following action is performed in addition to the action of the sixth aspect of the invention. In the character recognition auxiliary dictionary unit, among the connected components extracted by the connected component extraction unit, a character or a character that is likely to have a connected component that is the target of the action of the connected component deleting unit. Information about combinations, such as horizontal writing “n”, “g”, “q”, “f”, and vertical writing cursive, such as “water”, is registered in advance. When the connected component deleting means deletes the connected component from the one extraction target, the connected component deletion information reflecting character recognition unit receives this notification and displays the information registered in the character recognition auxiliary dictionary unit. , Which is used when recognizing a character in another column including the deleted connected component as a part at the end based on the extracted information from the character recognition information extracting means.

【0033】請求項13及び請求項14の発明において
は、前記連結成分削除手段の外接四角形作成部にて、上
記連結成分を包含する所定の図形として、連結成分に外
接するかつ各辺が文字列方向若しくはこれに直交する方
向の、例えば、認識対象の文字がアルファベットならば
矩形、漢字ならば正方形の四角形を作成する。
In the thirteenth and fourteenth aspects of the present invention, in the circumscribed quadrangle creation unit of the connected component deleting means, a predetermined figure including the connected component is circumscribed to the connected component and each side is a character string. In the direction or in the direction orthogonal thereto, for example, a rectangle is created if the character to be recognized is an alphabet, and a square is created if it is a Chinese character.

【0034】[0034]

【実施例】以下、本発明に係る文字切り出し装置を実施
例に基づいて説明する。 (第1実施例)図1は、本発明に係る文字切り出し装置
の一実施例の構成図である。本図において、10は、画
像データ化された文書が入力される入力手段である。1
1は、文字が記載された画像データから文字の列の位置
情報を抽出する文字列抽出手段である。12は、画像デ
ータの指定された走査線上の画素値を調べて、黒画素が
一次元的に連結している区間の開始及び終了位置を出力
する連結区間抽出手段である。13は、文字列抽出手段
11により抽出された文字列の位置情報で示される領域
よりも、文字列の方向に直交する両側に一画素ずつ大き
い領域において、文字列方向に連続する走査線上の抽出
された黒画素の連結する区間の連結性をもとに、本来は
文字を構成する点や線からなる黒画素連結成分を抽出す
る連結成分抽出手段である。14は、連結成分抽出手段
13により抽出された黒画素の連結成分のうち、連結成
分に外接する矩形の文字列方向に直交する方向の開始又
は終了座標が、文字列抽出手段により抽出された文字列
の位置情報の範囲を逸脱している黒画素連結成分を文字
抽出の対象から削除する連結成分削除手段である。15
は、連結成分抽出手段13により抽出され、連結成分削
除手段14によって削除されなかった黒画素連結成分の
組合せのうち、あらかじめ定められた条件を満たす黒画
素連結成分の組合せを一の抽出対象として統合する連結
成分統合手段である。16は、連結成分抽出手段13に
より抽出された連結成分のうち、連結成分削除手段14
及び連結成分統合手段15によって無効にされた連結成
分を除く黒画素連結成分から、1の文字毎にその文字画
像情報を抽出する文字抽出手段である。200は、文字
抽出手段16から抽出された1の文字毎の画像情報をも
とに、文字認識を行なう文字認識装置本体部であり、認
識用辞書(テンプレート、型板)20等を内蔵してい
る。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS A character cutting device according to the present invention will be described below based on embodiments. (First Embodiment) FIG. 1 is a block diagram of an embodiment of a character slicing device according to the present invention. In the figure, 10 is an input means for inputting a document converted into image data. 1
Reference numeral 1 is a character string extracting means for extracting position information of a character string from image data in which characters are described. Reference numeral 12 is a connecting section extracting means for checking the pixel value on the designated scanning line of the image data and outputting the start and end positions of the section in which black pixels are one-dimensionally connected. 13 is an extraction on a scanning line continuous in the character string direction in an area larger by one pixel on both sides orthogonal to the direction of the character string than the area indicated by the position information of the character string extracted by the character string extraction means 11. Based on the connectivity of the connected sections of the black pixels, the connected component extracting means extracts the black pixel connected components that are originally composed of points and lines that form a character. The reference numeral 14 indicates a character extracted from the connected component of the black pixel by the connected component extracting means 13 in which the start or end coordinates in the direction orthogonal to the character string direction of the rectangle circumscribing the connected component are extracted by the character string extracting means. It is a connected component deleting unit that deletes a black pixel connected component that deviates from the range of column position information from the target of character extraction. 15
Is a combination of black pixel connected components that are extracted by the connected component extraction unit 13 and not deleted by the connected component deletion unit 14 and are combined as one extraction target. It is a means for integrating connected components. Reference numeral 16 denotes a connected component deleting unit 14 of the connected components extracted by the connected component extracting unit 13.
And character extraction means for extracting the character image information for each character from the black pixel connected components excluding the connected components invalidated by the connected component integrating means 15. Reference numeral 200 denotes a character recognition device main body that performs character recognition based on the image information for each character extracted by the character extraction means 16, and incorporates a recognition dictionary (template, template) 20 and the like. There is.

【0035】以上の他、印刷字体や書体の相違、文字寸
法等を補償する正規化処理部、各文字の平均的な大きさ
を文字列の高さ等から求める平均文字寸法算出部、図や
罫線等を排除する非文字画素排除部、必要に応じて、一
部の単語や行の一部に対して他の行や同一行の他の部分
とは独立に抽出処理を行なう図形的文書、技術論文用対
応をなす制御部等を有しているが、これらは本発明の要
旨に直接の関係はなく、また周知、自明の技術であるた
めその説明は省略する。
In addition to the above, a normalization processing unit for compensating for differences in printed characters and typefaces, character size, etc., an average character size calculation unit for obtaining the average size of each character from the height of a character string, a drawing, A non-character pixel exclusion unit that eliminates ruled lines, etc., a graphic document that extracts some words or part of lines independently from other lines or other parts of the same line, if necessary, Although it has a control unit or the like for technical papers, these are not directly related to the gist of the present invention, and are well-known and obvious techniques, so description thereof will be omitted.

【0036】次に、以上のように構成された文字切り出
し装置について、図2乃至図14をも用いてその動作を
説明する。文字列抽出手段11の、文字が記載された画
像データから文字の列の位置情報を抽出する基本的な手
順を図2に示す。本手順は、x,y軸方向あるいは水
平、垂直方向に並んだ画素列中に、1つでも黒画素が存
在すれば、当該画素列中に文字列(行)が存在するとい
うことを基本として、文字列の存在する画素列(行)の
座標を見出すものである。いわゆる公知技術であるた
め、各ステップの詳細な説明は省略する。なお、実際に
は、この手順のみでは不充分であるため、これに先立っ
て、あるいは併せて、以下のような処理がなされる。
Next, the operation of the character slicing device configured as described above will be described with reference to FIGS. 2 to 14. FIG. 2 shows a basic procedure of the character string extraction means 11 for extracting position information of a character string from image data in which characters are described. This procedure is based on the fact that if there is at least one black pixel in a pixel row arranged in the x- and y-axis directions or in the horizontal and vertical directions, a character string (row) exists in the pixel row. , To find the coordinates of a pixel column (row) in which a character string exists. Since this is a known technique, detailed description of each step is omitted. In practice, this procedure alone is not sufficient, so the following processing is performed prior to or in addition to this.

【0037】画像データ化された用紙の縦方向、横方
向に黒画素を正投象して文字の記載位置、記載方向、大
よその列や行を見出す。 必要に応じて、用紙の縦、横とも例えば半分や1/5
ずつをとって、上記のの操作を行い、文字列や見出し
単語からなる文字列等をより正確に見出す。 文字の列方向に周辺分布を取って、文字の列の列方向
の存在位置等をより正確に決定する。
Black pixels are normally projected in the vertical direction and the horizontal direction of the image data-formed paper to find the character writing position, the writing direction, and roughly the columns and rows. If necessary, the length and width of the paper may be half or 1/5, for example.
The above operation is performed by taking each of them, and the character string or the character string including the headword is found more accurately. The marginal distribution in the column direction of the character is taken to more accurately determine the position of the character column in the column direction.

【0038】各文字の列の位置ごとに、文字列方向に
直交する方向に周辺分布を取って文字列の外接矩形座標
を決定する。 必要に応じて、例えば、文字列方向の8画素中1画素
でも黒画素が存在すれば8画素とも黒画素とみなす(図
2と同じ)等の手段で、文字列方向に画像を圧縮して連
結成分を抽出し、更にそれぞれの連結成分の外接矩形を
抽出する。
For each position of the character string, the marginal distribution is taken in the direction orthogonal to the character string direction to determine the circumscribed rectangular coordinates of the character string. If necessary, the image is compressed in the character string direction by means such as, for example, if even one of the eight pixels in the character string direction has a black pixel, all eight pixels are regarded as black pixels (the same as in FIG. 2). The connected components are extracted, and the circumscribed rectangle of each connected component is further extracted.

【0039】この上で、文字の列が記載されている方
向に近接する矩形は同じ認識対象の1の文字や文字列と
する等の規則で外接矩形を認識対象、抽出対象として統
合する。この際、例えば抽出対象の文字が、活字体のア
ルファベットであるならば、大文字は全て同じ高さ、小
文字でも「h」や「l」は大文字と同じ高さである、文
字高さに対する文字幅の比は上限がある等の原則を利用
したりする。ただし、これらの処理は、本発明の趣旨に
直接の関係はない、というよりも、前提としているいわ
ゆる公知技術であるため、これ以上の説明は省略する。
In addition, the circumscribed rectangles are integrated as recognition targets and extraction targets according to a rule such that rectangles that are close to each other in the direction in which the character string is described are the same character or character string that is the same recognition target. At this time, for example, if the characters to be extracted are alphabets of a typeface, all uppercase letters have the same height, and even lowercase letters "h" and "l" have the same height as the uppercase letters. There is an upper limit for the ratio of, and the principle is used. However, these processes are not directly related to the gist of the present invention, but rather are premised so-called publicly known techniques, and therefore further description will be omitted.

【0040】文字列抽出手段11の動作の結果を示す例
を、図3に示す。本図は、(a)に示す画像データから
抽出した文字の列の位置情報を、(b)に示したもので
ある。ここに、(a)の左端のy座標軸の黒い太線の部
分は、図2に示す手順で文字列が存在するとされた部分
(y座標値)を示す。また(b)では、画像データ中の
文字の列の位置情報を示すために、文字列の外接する矩
形の左上の点のx座標をs(start)x、y座標を
sy、右下の点のx座標をe(end)x、y座標をe
yとしている。なお、位置情報として文字列に外接する
矩形を採用しているのは、印刷されたアルファベットの
形状にあわせたこと、後に説明する処理が簡単なこと、
イタリック体等にも基本プログラムは流用可能なことに
よる。また、本実施例では、図3(a)に示すように、
画像データの左上隅の座標を原点(0,0)とし、文字
列(右側)方向をx軸方向、文字列方向に直交すると垂
直下方方向をy軸方向としている。
An example of the result of the operation of the character string extracting means 11 is shown in FIG. This figure shows in (b) the position information of the character string extracted from the image data shown in (a). Here, the thick black line portion of the y coordinate axis at the left end of (a) indicates the portion (y coordinate value) where the character string is present in the procedure shown in FIG. Further, in (b), in order to indicate the position information of the character string in the image data, the x coordinate of the upper left point of the rectangle circumscribing the character string is s (start) x, the y coordinate is sy, and the lower right point. X-coordinate of e (end) x, y-coordinate of e
y. The rectangle that circumscribes the character string is used as the position information because it matches the shape of the printed alphabet, and the process described later is simple.
This is because the basic program can be used for italics. Further, in this embodiment, as shown in FIG.
The coordinates of the upper left corner of the image data are the origin (0, 0), the character string (right side) direction is the x-axis direction, and the vertical downward direction is the y-axis direction when orthogonal to the character string direction.

【0041】連結区間抽出手段12は、画像データ中の
指定された走査線上の画素値を調べて、黒画素が水平
(x軸)方向に連続している区間の開始及び終了位置を
出力する。その手順を、図4の流れ図を用いて説明す
る。なお、以下の説明においては、画像データの走査線
上の画素の順番として、最初の画素を0番目と数えるこ
とにする。
The connected section extracting means 12 checks the pixel value on the designated scanning line in the image data, and outputs the start and end positions of the section where the black pixels are continuous in the horizontal (x-axis) direction. The procedure will be described with reference to the flowchart of FIG. In the following description, the first pixel is counted as the 0th pixel in the order of pixels on the scanning line of the image data.

【0042】連結区間抽出手段12は、 (ステップa01)調査対象の列の最終画素番号として
の変数Nに、指定された走査線上の画素数を設定する。 (ステップa02)調査対象画素番号としての変数iに
(0)を、同じく連結区間の番号としての変数jにも初
期値(0)を設定する。
The connecting section extracting means 12 (step a01) sets the number of pixels on the designated scanning line to the variable N as the final pixel number of the column to be investigated. (Step a02) (0) is set to the variable i as the pixel number to be investigated, and the initial value (0) is also set to the variable j as the number of the connected section.

【0043】(ステップa03)画像データの指定され
た走査線上の第i番目の画素が黒画素か否かを調べ、黒
画素であればステップa04へ進み、黒画素でなければ
ステップa10へ進む。 (ステップa04)連結区間(j)の開始位置を変数i
の値に設定する。 (ステップa05)変数iの値に(1)を加える。
(Step a03) It is checked whether or not the i-th pixel on the designated scanning line of the image data is a black pixel. If it is a black pixel, the process proceeds to step a04, and if it is not a black pixel, the process proceeds to step a10. (Step a04) Set the start position of the connection section (j) to the variable i
Set to the value of. (Step a05) (1) is added to the value of the variable i.

【0044】(ステップa06)変数iの値が変数Nの
値に等しいか否かを調べ、等しければ全ての画素の調査
が終了したためステップa12へ進み、等しくなければ
ステップa07へ進む。 (ステップa07)画像データの指定された走査線上の
第i番目の画素が白画素か否かを調べ、白画素であれば
ステップa08へ進み、白画素でなければステップa0
5へ戻る。
(Step a06) It is checked whether or not the value of the variable i is equal to the value of the variable N. If they are equal, the process has proceeded to step a12 because all pixels have been checked, and if they are not equal, the process proceeds to step a07. (Step a07) It is checked whether or not the i-th pixel on the designated scanning line of the image data is a white pixel. If it is a white pixel, the process proceeds to step a08, and if it is not a white pixel, the process proceeds to step a0.
Return to 5.

【0045】(ステップa08)連結区間(j)の終了
位置を変数iの値に設定する。 (ステップa09)変数jの値に(1)を加える。 (ステップa10)変数iの値に(1)を加える。 (ステップa11)変数iの値が変数Nの値に等しいか
否かを調べ、等しくなければステップa03へ戻り、等
しければ処理を終了する。
(Step a08) The end position of the connection section (j) is set to the value of the variable i. (Step a09) (1) is added to the value of the variable j. (Step a10) Add (1) to the value of the variable i. (Step a11) It is checked whether or not the value of the variable i is equal to the value of the variable N. If they are not equal, the process returns to step a03, and if they are equal, the process ends.

【0046】(ステップa06)変数iの値が変数Nの
値に等しければ、ステップa12へ進む。 (ステップa12)連結区間(j)の終了位置を変数i
の値に設定する。 (ステップa13)変数jの値に(1)を加えて、処理
を終了する。 以上の処理により、連結区間抽出手段12は、画像デー
タの指定された走査線上の全ての画素を調べ、黒画素の
連結する区間の総数j及び連結区間(0)から連結区間
(j−1)までの開始位置及び終了位置を出力する。
(Step a06) If the value of the variable i is equal to the value of the variable N, the process proceeds to step a12. (Step a12) Set the end position of the connected section (j) to the variable i.
Set to the value of. (Step a13) (1) is added to the value of the variable j, and the process ends. Through the above processing, the connected section extracting unit 12 checks all the pixels on the designated scanning line of the image data, and the total number j of connected sections of black pixels and the connected section (0) to the connected section (j-1). The start position and end position up to are output.

【0047】連結区間抽出手段12の動作結果を示す例
を、図5に示す。本図の(a)は、連結区間抽出手段1
2に与えられた画像データ中の、指定された走査線上の
画素単位のデータ例を示す。そして、黒い部分が文字を
構成するストローク等となる。なお、本図では、左端の
画素の位置を0とし、右方向に座標値が増加していくも
のとしている。
An example of the operation result of the connected section extracting means 12 is shown in FIG. (A) of the figure shows the connected section extracting means 1
2 shows an example of pixel-by-pixel data on a designated scanning line in the image data given in FIG. Then, the black portion becomes a stroke or the like that constitutes a character. In this figure, the position of the pixel at the left end is set to 0, and the coordinate value increases in the right direction.

【0048】本図の(b)は、(a)に示した画素デー
タから抽出した連結区間に関する情報であり、左の欄よ
り順に連結区間の番号ひいては総数、それぞれの番号の
連結区間の開始座標値、同じく終了の座標値を示す。連
結成分抽出手段13は、文字列抽出手段11により抽出
された画像データ中の文字の列の位置情報で示される領
域よりも、その方向に直交する両側に各一画素ずつ大き
い領域において、黒画素の連結成分を抽出し、それぞれ
を区別して黒画素成分や外接矩形に関する情報を出力す
る。その手順を、図6〜図8の流れ図を用いて説明す
る。なお、これら3図は本来は一葉であるが、大きさの
制限のため3分割したものである。
(B) of the figure is information on the connection section extracted from the pixel data shown in (a), and the connection section number, and thus the total number, and the start coordinates of the connection section of each number, in order from the left column. A value, similarly the coordinate value of the end. The connected component extracting means 13 has black pixels in an area larger than the area indicated by the position information of the character string in the image data extracted by the character string extracting means 11 by one pixel on each side orthogonal to the direction. Of the black pixel component and the circumscribed rectangle are output by distinguishing each of them. The procedure will be described with reference to the flowcharts of FIGS. Although these three figures are originally one leaf, they are divided into three because of size limitation.

【0049】まず、手順そのものの説明に先立ち、流れ
図に用いている記号について説明する。連結区間抽出手
段12により抽出された連結区間について、作用の対象
とする走査線の一つ前(上方、yの値が小さい)の走査
線上の連結区間の個数をpnで、目下作用の対象として
いる走査線上の連結区間の個数をcnで表す。また、各
連結区間そのものをp(0)からp(pn−1)及び同
じくc(0)からc(cn−1)で表すものとする。次
に、i番目の連結区間p(i)が含まれる連結成分の番
号をRp(i)の形式で表し、同じくi番目の連結区間
c(i)が含まれる連結成分の番号をRc(i)の形式
で表すものとする。
First, before explaining the procedure itself, the symbols used in the flow chart will be described. For the connection section extracted by the connection section extraction means 12, the number of connection sections on the scanning line immediately before the scanning line to be acted on (upper, y value is small) is pn, and is set as the current object of operation. The number of connected sections on the scanning line is represented by cn. Further, each connected section itself is represented by p (0) to p (pn-1) and similarly c (0) to c (cn-1). Next, the number of the connected component that includes the i-th connected section p (i) is represented in the form of Rp (i), and the number of the connected component that also includes the i-th connected section c (i) is Rc (i ) Format.

【0050】また、連結成分Rを特定する情報として、
連結成分Rの位置情報を示すための外接矩形の左上の点
のx座標sx、y座標sy、右下の点のx座標ex、y
座標ey及び連結成分Rの黒画素の広がりを示すための
各走査線ごとの黒画素の開始座標sx、終了座標exを
用いるものとする。このため、以下の説明で、連結成分
に関する情報を更新する際には、外接矩形の位置情報s
x、sy、ex、ey及び各走査線ごとの黒画素の開始
座標sx、終了座標exを更新することになる。
Further, as information for identifying the connected component R,
The x coordinate sx, y coordinate sy of the upper left point of the circumscribed rectangle for indicating the position information of the connected component R, and the x coordinate ex, y of the lower right point
It is assumed that the start coordinates sx and the end coordinates ex of the black pixel for each scanning line for indicating the spread of the black pixel of the coordinate ey and the connected component R are used. Therefore, in the following description, when updating the information on the connected components, the position information s of the circumscribed rectangle is
x, sy, ex, ey and the start coordinates sx and end coordinates ex of the black pixels for each scanning line are updated.

【0051】以上のもとで、以下に手順そのものを説明
する。 (ステップb01)画像データ中の注目している走査線
のy軸方向の座標を示す変数yに、画像データのy軸方
向の開始座標を越えない範囲で、文字列抽出手段11に
より抽出された文字列矩形座標の開始y座標の値よりも
1小さい座標値を設定する。なお、これは1画素分上側
の走査線に存在する連結区間を調べるためである。更
に、抽出している連結成分の番号(ひいては、文字番号
となる)を示す変数kの値を(0)に初期化し、併せ
て、注目している走査線の一つ前の走査線における連結
区間数を示す変数pnの値を(0)に初期化する。
Based on the above, the procedure itself will be described below. (Step b01) The character string extraction means 11 extracts the variable y indicating the coordinate of the scanning line of interest in the image data in the y-axis direction within a range not exceeding the start coordinate of the image data in the y-axis direction. A coordinate value that is one less than the value of the start y coordinate of the character string rectangular coordinate is set. It should be noted that this is to check the connection section existing in the scanning line on the upper side by one pixel. Further, the value of the variable k indicating the number of the connected component being extracted (and thus the character number) is initialized to (0), and at the same time, the connection in the scan line immediately preceding the scan line of interest is connected. The value of the variable pn indicating the number of sections is initialized to (0).

【0052】(ステップb02)連結区間抽出手段12
を用いて、画像データの走査線yの連結区間総数cn及
び各連結区間c(0)からc(cn−1)の開始及び終
了座標を抽出する。 (ステップb03)調査対象の走査線上の、作用の対象
としている連結区間を表す変数iの値を(0)に初期化
する。
(Step b02) Connected section extracting means 12
Is used to extract the total number of connected sections cn of the scanning line y of the image data and the start and end coordinates of each connected section c (0) to c (cn-1). (Step b03) The value of the variable i that represents the connected section on which the action is to be performed on the scanning line to be investigated is initialized to (0).

【0053】(ステップb04)変数iの値が走査線y
の連結区間数cnに等しいか否かを判断し、等しければ
次の走査線を処理すべくステップb21へ進み、等しく
なければステップb05へ進む。以下、ステップb05
からステップb20においては、注目している走査線上
の連結区間c(i)に対して、注目している走査線の一
つ前の走査線上に存在する連結区間p(0)からp(p
n−1)との連結性、すなわち一の認識対象として抽出
すべきか否かを調べる。そして、連結があれば、ステッ
プb09からステップb14で既存の連結成分に連結区
間c(i)の領域を追加し、又は既存の連結成分どうし
を統合し、連結がなければステップb16からステップ
b19で新たな連結成分を作成する処理を行うこととな
る。
(Step b04) The value of the variable i is the scanning line y.
It is determined whether or not the number of connected sections is equal to cn. If they are equal, the process proceeds to step b21 to process the next scanning line, and if not, the process proceeds to step b05. Hereafter, step b05
From step b20 to the connection section c (i) on the scanning line of interest, the connection sections p (0) to p (p on the scanning line immediately preceding the scanning line of interest are processed.
The connectivity with n-1), that is, whether to extract as one recognition target is checked. If there is a connection, in step b09 to step b14, the area of the connection section c (i) is added to the existing connected component, or the existing connected components are integrated. A process for creating a new connected component will be performed.

【0054】(ステップb05)連結区間c(i)が含
まれる連結成分の番号を示す変数Rc(i)の値を(−
1)に初期化する。 (ステップb06)1つ前の走査線上の連結区間のう
ち、連結性を調べる対象となっているものの番号を表す
変数jの値を0に初期化する。 (ステップb07)変数jの値が一つ前の走査線の連結
区間数pnと等しいか否かを判断し、等しければステッ
プb16へ進み、等しくなければステップb08へ進
む。
(Step b05) The value of the variable Rc (i) indicating the number of the connected component including the connected section c (i) is changed to (-).
Initialize to 1). (Step b06) Of the connected sections on the previous scanning line, the value of the variable j representing the number of the object whose connectivity is to be checked is initialized to 0. (Step b07) It is judged whether or not the value of the variable j is equal to the number of connected sections pn of the immediately preceding scanning line, and if they are equal, the process proceeds to step b16, and if they are not equal, the process proceeds to step b08.

【0055】(ステップb08)注目している走査線上
の連結区間c(i)と、注目している走査線の一つ前の
走査線の連結区間p(j)とが、連結しているか否かを
判断する。つまり、連結区間c(i)の開始、終了の座
標値と、連結区間p(j)の開始、終了の座標値との関
係を調べ、x座標方向に共通する(重なる)区間の有無
を調べる。そして、連結している場合にはステップb0
9へ進み、連結していない場合にはステップb09から
ステップb14の処理を行わないでステップb15へ進
む。
(Step b08) Whether or not the connecting section c (i) on the scanning line of interest and the connecting section p (j) of the scanning line immediately preceding the scanning line of interest are connected. To judge. That is, the relationship between the start and end coordinate values of the connection section c (i) and the start and end coordinate values of the connection section p (j) is checked to see if there is a section common (overlapping) in the x coordinate direction. . Then, if they are connected, step b0
9. If not connected, the process proceeds from step b09 to step b15 without performing the processing of step b14.

【0056】(ステップb09)連結区間c(j)が含
まれる連結成分Rc(i)の値が(−1)である、つま
り無効か否かを判断し、無効ならば既存の連結成分Rp
(j)に連結区間c(i)の領域を加えるためにステッ
プb10へ進み、無効でなければ既存の連結成分Rp
(j)と既存の連結成分Rc(i)とを統合するために
ステップb11へ進む。
(Step b09) It is judged whether or not the value of the connected component Rc (i) including the connected section c (j) is (-1), that is, it is invalid. If it is invalid, the existing connected component Rp is found.
To add the area of the connected section c (i) to (j), proceed to step b10, and if not invalid, the existing connected component Rp
Go to step b11 to integrate (j) with the existing connected component Rc (i).

【0057】(ステップb10)連結区間p(j)が含
まれる連結成分Rp(j)に、連結区間c(i)の領域
を加えて連結成分Rp(j)とし、ステップb14へ進
む。 (ステップb11)連結区間c(i)が含まれる連結成
分Rc(i)と連結区間p(j)が含まれる連結成分R
p(j)とが等しいか否かを判断し、等しければ改めて
統合する必要はないのでステップb14へ進み、等しく
なければステップb12へ進む。
(Step b10) The region of the connected section c (i) is added to the connected component Rp (j) including the connected section p (j) to form the connected component Rp (j), and the process proceeds to Step b14. (Step b11) Connected component Rc (i) including connected section c (i) and connected component R including connected section p (j)
It is determined whether or not p (j) is equal. If they are equal, there is no need to integrate again, so the process proceeds to step b14, and if they are not equal, the process proceeds to step b12.

【0058】(ステップb12)連結区間p(j)が含
まれる連結成分Rp(j)に、連結区間c(i)が含ま
れる連結成分Rc(i)の領域を加えて、連結成分Rp
(j)とする。 (ステップb13)連結成分Rc(i)を無効にする。 (ステップb14)連結区間c(i)が含まれる連結成
分を示す変数Rc(i)にRp(j)と同じ値を設定す
る。
(Step b12) The connected component Rp (j) containing the connected section p (j) is added with the region of the connected component Rc (i) containing the connected section c (i) to obtain the connected component Rp.
(J). (Step b13) The connected component Rc (i) is invalidated. (Step b14) The same value as Rp (j) is set to the variable Rc (i) indicating the connected component including the connected section c (i).

【0059】(ステップb15)注目している走査線の
一つ前の走査線上の次の連結区間との連結性を調べるた
めに、変数jの値に(1)を加えてステップb07戻
る。 (ステップb07)変数jの値が変数pnに等しい場
合、つまり注目している走査線の一つ前の走査線上の全
ての連結区間との連結性を調査し終わった場合には、ス
テップb16に到達する。
(Step b15) In order to check the connectivity with the next connecting section on the scanning line immediately preceding the scanning line of interest, (1) is added to the value of the variable j and the process returns to step b07. (Step b07) If the value of the variable j is equal to the variable pn, that is, if the connectivity with all connected sections on the scan line immediately preceding the scan line of interest has been checked, the process proceeds to step b16. To reach.

【0060】(ステップb16)連結区間c(i)が、
いまだにいずれの連結成分にも含まれていないか否か、
つまり、一つ前の走査線の連結区間p(0)からp(p
n−1)のいずれかとの連結の有無を、連結区間c
(i)が含まれる連結成分を示す変数Rc(i)が無効
である事を示す(−1)であるか否かで判断する。そし
て、若し無効であれば、新たな連結成分を作成するため
に以下のステップb17からステップb19の処理を行
い、無効でなければステップb20へ進むこととなる。
(Step b16) The connected section c (i) is
Whether it is not included in any connected component yet,
That is, the connection section p (0) to p (p
n-1) whether or not there is a connection with any of the connection section c
It is determined whether or not the variable Rc (i) indicating the connected component including (i) is (-1) indicating that it is invalid. If it is invalid, the following steps b17 to b19 are performed to create a new connected component, and if it is not invalid, the process proceeds to step b20.

【0061】(ステップb17)連結区間c(i)に関
する情報から連結成分kを新たに設定する。つまり、連
結成分kのsx及びexには、各々連結区間c(i)の
開始座標値、終了座標値を入力する。また、sy及びe
yには、注目している走査線の座標値yを代入する。ま
た、走査線yにおける黒画素の開始と終了の座標値に
は、それぞれ連結区間c(i)の開始と終了の座標値を
入力する。
(Step b17) A connected component k is newly set from the information on the connected section c (i). That is, the start coordinate value and the end coordinate value of the connected section c (i) are input to sx and ex of the connected component k, respectively. Also, sy and e
The coordinate value y of the scanning line of interest is substituted for y. Moreover, the coordinate values of the start and end of the connection section c (i) are input as the coordinate values of the start and end of the black pixel on the scanning line y.

【0062】(ステップb18)連結区間c(i)が含
まれる連結成分を示す変数Rc(i)に値kを設定す
る。 (ステップb19)変数kの値に(1)を加える。 (ステップb20)注目している走査線上の次の連結区
間についての処理を行うために、変数iの値に(1)を
加えてステップb04へ戻る。そして、ステップb04
で、変数iの値が変数cnに等しい場合、つまり注目し
ている走査線の全ての連結区間についての処理が終わっ
た場合、ステップb21に到達する。次のステップb2
1からステップb24では、目下注目していた走査線の
連結区間に関する情報を、次の走査線に対する処理を行
うために、次の走査線の一つ前の走査線の連結区間とみ
なす処理である。
(Step b18) The value k is set to the variable Rc (i) indicating the connected component including the connected section c (i). (Step b19) Add (1) to the value of the variable k. (Step b20) In order to process the next connected section on the scanning line of interest, (1) is added to the value of the variable i and the process returns to step b04. And step b04
Then, when the value of the variable i is equal to the variable cn, that is, when the processing for all the connection sections of the scanning line of interest is completed, the process reaches step b21. Next step b2
From 1 to step b24, the information regarding the connection section of the scanning line which is currently focused is regarded as the connection section of the scanning line immediately before the next scanning line in order to process the next scanning line. .

【0063】(ステップb21)今まで注目していた走
査線の連結区間数cnの値を、一つ前の走査線の連結区
間数pnとして入力する。 (ステップb22)今まで注目していた走査線の各連結
区間の位置情報c(0)からc(cn−1)を、一つ前
の走査線の各連結区間の位置情報p(0)からp(cn
−1)として入力する。
(Step b21) The value of the connected section number cn of the scanning lines, which has been focused so far, is input as the connected section number pn of the immediately preceding scanning line. (Step b22) From the position information c (0) to c (cn-1) of each connected section of the scanning line, which has been focused so far, from the position information p (0) of each connected section of the preceding scanning line. p (cn
-1) Enter as.

【0064】(ステップb23)今まで注目していた走
査線の各連結区間が含まれる連結成分を示す変数Rc
(0)からRc(cn−1)を、一つ前の走査線の連結
区間が含まれる連結成分を示す変数Rp(0)からRp
(cn−1)として入力する。 (ステップb24)注目する走査線を一つ進めるため
に、変数yの値に1を加える。
(Step b23) A variable Rc indicating a connected component including each connected section of the scanning line which has been focused so far.
From (0) to Rc (cn-1), variables Rp (0) to Rp indicating the connected component including the connected section of the previous scanning line are included.
Input as (cn-1). (Step b24) In order to advance the scanning line of interest by one, 1 is added to the value of the variable y.

【0065】(ステップb25)変数yの値が前記文字
列抽出手段11により抽出された文字列矩形座標の終了
y座標の値に(2)加えた値に等しいか否かを判断す
る。そして、等しくなければステップb02へ戻って次
の走査線に対する処理を行う。等しければ、一画素分下
方の走査線での連結区間の調査が終了したことになるた
め処理を終了する。なお、ここに「+2」としたのは、
先のステップb01で「−1」を入力していることに整
合させたものである。
(Step b25) It is judged whether or not the value of the variable y is equal to the value of the end y coordinate of the character string rectangular coordinates extracted by the character string extracting means 11 (2). If they are not equal, the process returns to step b02 and the process for the next scanning line is performed. If they are equal to each other, it means that the examination of the connecting section in the scanning line below by one pixel has been completed, so the process is completed. In addition, the reason why "+2" is set here is
This is consistent with the input of "-1" in the previous step b01.

【0066】連結成分抽出手段13の動作例を図9に示
す。本図の(a)に示すように、文字列抽出手段11に
より抽出された文字列の外接矩形L1(内部の文字は省
略)よりも、y座標の上下両方向にそれぞれ一画素余分
な矩形L2の画像範囲を対象として、黒画素連結成分の
抽出を行う。ただし、矩形L2の開始、終了y座標は、
元の画像データの範囲を越えないものとするのは勿論で
ある。
FIG. 9 shows an operation example of the connected component extracting means 13. As shown in (a) of this figure, a rectangle L2 that is one pixel extra in both the vertical direction and the y-coordinate of the circumscribing rectangle L1 of the character string extracted by the character string extracting means 11 (internal characters are omitted). The black pixel connected component is extracted for the image range. However, the start and end y-coordinates of the rectangle L2 are
Of course, the range of the original image data should not be exceeded.

【0067】本図の(b)に示す3個の連結成分R1、
R2、R3に対する抽出結果を、本図の(c)に示す。
連結成分削除手段14は、連結成分抽出手段13により
抽出された黒画素連結成分の組合せのうち、外接矩形の
文字列と直交する方向の開始または終了座標が、文字列
抽出手段により抽出された文字列の矩形座標の範囲を逸
脱している黒画素連結成分を削除する。すなわち、図9
の(a)において、上下のL2の区間に要素が存在する
ものは、当該文字列の文字としての抽象の対象外とす
る。
The three connected components R1 shown in FIG.
The extraction results for R2 and R3 are shown in (c) of this figure.
The connected component deletion means 14 is a character whose start or end coordinates in the direction orthogonal to the character string of the circumscribed rectangle are extracted from the combination of the black pixel connected components extracted by the connected component extraction means 13 by the character string extraction means. Black pixel connected components that deviate from the rectangular coordinate range of the column are deleted. That is, FIG.
In (a) of (3), elements having elements in the upper and lower L2 sections are excluded from the abstraction target of the character of the character string.

【0068】次に、連結成分削除手段14の手順を、図
10の流れ図を用いて説明する。 (ステップc01)連結成分抽出手段13により抽出さ
れた連結成分の総数を変数Nに設定する。 (ステップc02)調査対象の行に存在する連結成分の
個数を示す変数iに、初期値(0)を設定する。
Next, the procedure of the connected component deleting means 14 will be described with reference to the flowchart of FIG. (Step c01) The total number of connected components extracted by the connected component extracting means 13 is set in the variable N. (Step c02) An initial value (0) is set to the variable i indicating the number of connected components existing in the row to be investigated.

【0069】(ステップc03)連結成分抽出手段13
で抽出された連結成分(i)の外接矩形のy方向の開始
座標ys(i)が、文字列抽出手段11で抽出された文
字列の外接矩形のy方向の開始座標ysLより小さいか
否かを判断する。条件が成立すればステップc05へ進
み、そうでなければステップc04へ進む。 (ステップc04)連結成分抽出手段13で抽出された
連結成分(i)の外接矩形のy方向の終了座標ye
(i)が、文字列抽出手段11で抽出された文字列の外
接矩形のy方向の終了座標yeLより大きいか否かを判
断する。条件が成立すればステップc05へ進み、そう
でなければステップc06へ進む。
(Step c03) Connected component extracting means 13
Whether the starting coordinate ys (i) of the circumscribing rectangle of the connected component (i) extracted in step y is smaller than the starting coordinate ysL of the circumscribing rectangle of the character string extracted by the character string extracting unit 11 in the y direction. To judge. If the condition is satisfied, the process proceeds to step c05, and if not, the process proceeds to step c04. (Step c04) End coordinate ye in the y direction of the circumscribed rectangle of the connected component (i) extracted by the connected component extracting means 13.
It is determined whether (i) is larger than the end coordinate yeL in the y direction of the circumscribed rectangle of the character string extracted by the character string extraction means 11. If the condition is satisfied, the process proceeds to step c05, and if not, the process proceeds to step c06.

【0070】(ステップc05)ステップc03または
ステップc04において、連結成分(i)が文字字列の
外接矩形を逸脱していると判断された場合は、本ステッ
プで連結成分(i)を無効とする。 (ステップc06)変数iに(1)を加える。 (ステップc07)変数iの値を変数Nの値と比較し、
値が一致しなければステップc03へ戻り、値が一致す
れば処理を終了する。
(Step c05) When it is determined in step c03 or step c04 that the connected component (i) deviates from the circumscribed rectangle of the character string, the connected component (i) is invalidated in this step. . (Step c06) Add (1) to the variable i. (Step c07) Compare the value of the variable i with the value of the variable N,
If the values do not match, the process returns to step c03, and if the values match, the process ends.

【0071】連結成分削除手段14の動作例を図11に
示す。本図の(a)に示すような画像データに対して、
その2行目に記載された文字の画像を抽出した結果を、
同じく(b)に示す。(b)において、前記連結成分抽
出手段13は、文字列の外接矩形L1よりも文字列の方
向とは垂直な方向に1画素広い矩形L2に示す領域に対
して連結成分を抽出し、そのうち矩形L1の領域から逸
脱している連結成分Rは、連結成分削除手段14によっ
て、他行の文字列に含まれる、本図では上の行に含まれ
る文字「p」の一部であると判断されて、本行の抽出対
象からは削除される。
FIG. 11 shows an operation example of the connected component deleting means 14. For image data as shown in (a) of this figure,
The result of extracting the image of the character described in the second line,
Also shown in (b). In (b), the connected component extraction means 13 extracts connected components from a region indicated by a rectangle L2 that is one pixel wider in the direction perpendicular to the direction of the character string than the circumscribed rectangle L1 of the character string, and the rectangle is extracted from the rectangle. The connected component R deviating from the region of L1 is judged by the connected component deleting means 14 to be a part of the character "p" included in the character string of another line, which is included in the upper line in this figure. Then, it is deleted from the extraction target of this line.

【0072】連結成分統合手段15は、連結成分抽出手
段13で抽出され、前記連結成分削除手段14によって
削除されなかった連結成分の組合せのうち、あらかじめ
定められた条件を満たす連結成分の組合わせを一の抽出
対象として統合する。次に、連結成分統合手段15の処
理を、図12のフローチャート及び図13に示す統合条
件の例を用いて説明する。
The connected component integrating means 15 selects a combination of connected components satisfying a predetermined condition among the connected component combinations extracted by the connected component extracting means 13 and not deleted by the connected component deleting means 14. Integrate as one extraction target. Next, the processing of the connected component integration means 15 will be described using the flowchart of FIG. 12 and an example of integration conditions shown in FIG.

【0073】(ステップd01)変数Nに、連結成分抽
出手段13で抽出された連結成分の数を代入し、作用の
対象としている連結成分の番号を示す変数iに値(0)
を設定する。 (ステップd02)連結成分(i)が有効かどうかを調
べ、有効ならステップd03へ進み、無効ならステップ
d09へ進む。
(Step d01) The number of connected components extracted by the connected component extracting means 13 is substituted for the variable N, and the value (0) is set for the variable i indicating the number of the connected component to be acted on.
Set. (Step d02) It is checked whether or not the connected component (i) is valid. If it is valid, the procedure proceeds to step d03, and if it is invalid, the procedure proceeds to step d09.

【0074】(ステップd03)変数jを(i+1)の
値に設定する。 (ステップd04)連結成分(j)が有効か否か調べ、
有効ならステップd05へ進み、無効ならステップd0
7へ進む。 (ステップd05)連結成分(i)と連結成分(j)に
ついて、図13の(a)に示す(1)から(5)の統合
条件のいずれかの1が成立するか否かを判断し、1でも
成立するならステップd06へ進み、成立しなければス
テップd07へ進む。この際の判断の手順を図13の
(b)に示す。
(Step d03) The variable j is set to the value of (i + 1). (Step d04) Check whether the connected component (j) is valid,
If valid, proceed to step d05, and if invalid, step d0.
Proceed to 7. (Step d05) For the connected component (i) and the connected component (j), it is determined whether or not any one of the integration conditions (1) to (5) shown in (a) of FIG. 13 is satisfied, If 1 is satisfied, the process proceeds to step d06, and if not, the process proceeds to step d07. The determination procedure at this time is shown in FIG.

【0075】(ステップd06)連結成分(i)と連結
成分(j)を統合して新たに連結成分(i)として記憶
し、これに伴い連結成分(j)を単独の抽出対象から除
外すべく無効とする。 (ステップd07)変数jの値に1を加える。 (ステップd08)変数jの値を変数Nの値と比較し、
値が一致しなければステップd04へ戻り、値が一致す
ればステップd09へ進む。
(Step d06) The connected component (i) and the connected component (j) are integrated and stored as a new connected component (i), and accordingly, the connected component (j) is excluded from a single extraction target. Invalidate. (Step d07) 1 is added to the value of the variable j. (Step d08) The value of the variable j is compared with the value of the variable N,
If the values do not match, the process returns to step d04, and if the values do match, the process proceeds to step d09.

【0076】(ステップd09)変数iの値に1を加え
る。 (ステップd10)変数iの値を(N−1)の値と比較
し、値が一致しなければステップd02へ戻り、値が一
致すれば処理を終了する。連結成分統合手段15の動作
例を図14に示す。図13に示す条件(1)から(5)
による統合例を、それぞれ図14の(a)から(e)に
示す。
(Step d09) 1 is added to the value of the variable i. (Step d10) The value of the variable i is compared with the value of (N-1). If the values do not match, the process returns to step d02, and if the values match, the process ends. FIG. 14 shows an operation example of the connected component integrating means 15. Conditions (1) to (5) shown in FIG.
14 (a) to (e) of FIG. 14, respectively.

【0077】図14の(a)において、連結成分C1の
外接矩形R1の重心と連結成分C2の外接矩形R2の重
心とを結ぶ直線の傾きの絶対値が2以上であるので、図
13の(1)の条件を満たす。図14の(b)におい
て、連結成分C1と連結成分C2の黒画素間の最短距離
つまりB地点の距離が1画素以下であるので、図13の
(2)の条件を満たす。
In FIG. 14A, the absolute value of the inclination of the straight line connecting the center of gravity of the circumscribed rectangle R1 of the connected component C1 and the center of gravity of the circumscribed rectangle R2 of the connected component C2 is 2 or more, so that in FIG. The condition of 1) is satisfied. In FIG. 14B, the shortest distance between the black pixels of the connected component C1 and the connected component C2, that is, the distance at the point B is 1 pixel or less, so the condition of (2) in FIG. 13 is satisfied.

【0078】図14の(c)において、連結成分C1の
外接矩形R1のx軸方向の座標と連結成分C2の外接矩
形R2のx軸方向の座標に包含関係があるので、図13
の(3)の条件を満たす。図14の(d)において、連
結成分C1の外接矩形R1のx軸方向と連結成分C2の
外接矩形R2のx軸方向との重なりが、x軸方向の長さ
が短いほう、つまり外接矩形R2のx軸方向の長さの1
/2以上であり、同様のことがy軸方向にも当てはまる
ので、図13の(4)の条件を満たす。
In (c) of FIG. 14, there is an inclusive relation between the coordinates of the circumscribed rectangle R1 of the connected component C1 in the x-axis direction and the coordinates of the circumscribed rectangle R2 of the connected component C2 in the x-axis direction.
The condition (3) of is satisfied. In (d) of FIG. 14, the overlap between the x-axis direction of the circumscribed rectangle R1 of the connected component C1 and the x-axis direction of the circumscribed rectangle R2 of the connected component C2 is shorter in the x-axis direction, that is, the circumscribed rectangle R2. 1 of the x-axis length
Since it is / 2 or more, and the same applies to the y-axis direction, the condition (4) of FIG. 13 is satisfied.

【0079】図14の(e)において、連結成分C1の
外接矩形R1と連結成分C2の外接矩形R2との距離が
2画素以下であり、面積比が5以上であるので、図13
の(5)の条件を満たす。以上、図14の(a)から
(e)において、連結成分統合手段15は、連結成分C
1に関する情報と連結成分C2に関する情報とを統合し
て、新たな連結成分R3を作成する。
In (e) of FIG. 14, the distance between the circumscribed rectangle R1 of the connected component C1 and the circumscribed rectangle R2 of the connected component C2 is 2 pixels or less, and the area ratio is 5 or more.
The condition (5) of is satisfied. As described above, in (a) to (e) of FIG.
The information on 1 and the information on the connected component C2 are integrated to create a new connected component R3.

【0080】文字抽出手段16は、前記連結成分抽出手
段13により抽出された連結成分のうち、前記連結成分
削除手段14及び連結成分統合手段15によって無効に
された連結成分を除く連結成分について、それぞれを認
識対象の1の文字の画像の最終情報に変換して出力す
る。つまり、連結成分Rの位置情報を示すための左上の
点のx座標sx、y座標sy、右下の点のx座標ex、
y座標ey及び連結成分Rの黒画素の広がりを示すため
の各走査線ごとの黒画素の開始座標sx、終了座標ex
から、元の画像データにおける連結成分Rの黒画素から
なる画像データを正確に抽出し、作成することができた
わけである。 (第2実施例)図15の(a)は、本発明に係る文字認
識装置の一実施例の構成図である。本図の(a)におい
て、100は文字切り出し装置である。200は文字認
識装置本体部であり、通常の文字認識装置として必要な
認識用辞書20、認識処理部21の他に、文字認識用補
助辞書部22と連結成分情報反映文字認識制御部23と
を有している。
The character extracting means 16 respectively extracts, from the connected components extracted by the connected component extracting means 13, the connected components excluding the connected components invalidated by the connected component deleting means 14 and the connected component integrating means 15. Is converted into the final information of the image of the one character to be recognized and is output. That is, the x coordinate sx, y coordinate sy of the upper left point for indicating the position information of the connected component R, the x coordinate ex of the lower right point,
The y coordinate ey and the start coordinate sx and end coordinate ex of the black pixel for each scanning line for indicating the spread of the black pixel of the connected component R
Therefore, it was possible to accurately extract and create the image data including the black pixels of the connected component R in the original image data. (Second Embodiment) FIG. 15A is a block diagram of an embodiment of the character recognition apparatus according to the present invention. In (a) of this figure, 100 is a character slicing device. Reference numeral 200 denotes a main body of the character recognition device, which includes an auxiliary dictionary part 22 for character recognition and a connected component information reflecting character recognition control part 23 in addition to the recognition dictionary 20 and the recognition processing part 21 required as an ordinary character recognition device. Have

【0081】文字切り出し装置100は、先の実施例で
示したのと同じである。ただ、連結成分統合手段、連結
成分削除手段がその機能発揮をなしたならば、その旨及
びどのように機能発揮したかの情報を連結成分情報反映
文字認識制御部22に送る連結削除統合情報送信手段1
7を有しているのが異なる。文字認識用補助辞書部23
は、認識対象の文字に一の認識対象として連結成分を抽
出する際の困難性、誤抽出が生じる原因毎に、その原因
が生じやすい文字についての情報を対応付けて登録して
ある。具体的には、以下のような事実を反映して作成し
た情報である。
The character cutting device 100 is the same as that shown in the previous embodiment. However, if the connected component integrating means and the connected component deleting means have fulfilled their functions, the effect and how the function has been exerted is sent to the connected component information reflecting character recognition control section 22. Means 1
The difference is that it has 7. Auxiliary dictionary unit 23 for character recognition
Is registered in association with each character that is likely to cause a difficulty in extracting a connected component as a recognition target for a character to be recognized and a cause of erroneous extraction. Specifically, the information is created by reflecting the following facts.

【0082】漢字の上部(横書き)、右部(縦書き)
に記載してある小さいかつ黒画素数の少なく簡単な文字
は、振り仮字の可能性が高い。漢文ならば、カエリ点
(記号)等である。 アルファベットにおいて、上下方向の重なりが生じや
すいのは、活字体ならば大文字の「P」、「T」等とそ
の近傍の小文字の「a」、「c」、「e」等の組合せで
ある。また、英文中の一部に引用された独文等の外国
語、イタリック体、筆記体に似た活字体でも生じる。こ
の場合特に、小文字の「f」、「l」等で上下の重なり
が生じ易い。
Upper part (horizontal writing), right part (vertical writing) of Kanji
The small and simple characters with a small number of black pixels described in Section 1 above are highly likely to be syllabary characters. If it is a Chinese sentence, it is a burial point (symbol). In the alphabet, it is the combination of uppercase letters "P", "T", etc. and the lowercase letters "a", "c", "e" etc. in the vicinity that are likely to cause vertical overlap. It also occurs in foreign languages such as German, which are cited in part of English sentences, italics, and typeface similar to cursive. In this case, in particular, lowercase letters “f”, “l” and the like are likely to cause vertical overlap.

【0083】分離文字は、アルファベットならば小文
字の「i」、「j」等、その他ドイツ語のウムラウト等
である。更に、読み取りの困難性(誤読み取り)から生
じやすい分離文字としては、文字線の細い部分で黒画素
の連結が生じる文字、例えばMやNに相当するドイツ文
字等である。漢字においては、上下方向の分離部の中心
線は、上下方向線に対して大きくは偏らない。例えば、
「昌」、「召」等である。また、「竹冠」や「草冠」等
は漢字全体に占めることとなる上下方向の比がほぼ一定
である。
The separating characters are lowercase letters "i", "j" and the like in the case of alphabets, and other German umlauts and the like. Further, as the separated characters that are likely to occur due to the difficulty of reading (erroneous reading), there are characters in which black pixels are connected in a narrow portion of the character line, such as German characters corresponding to M and N. In Chinese characters, the center line of the vertical separating portion is not largely biased with respect to the vertical line. For example,
"Chang", "Call", etc. In addition, "bamboo crowns" and "grass crowns" have a substantially constant vertical ratio that occupies the entire kanji.

【0084】上添え字や下添え字の生じる文字は、技
術、学術論文等に多く、この場合、上添え字は「2」等
のアラビア数字、「p」、「x」、「y」、「m」、
「n」等の特定のアルファベットの小文字に多い。下添
え字が付くのは「P」等特定のアルファベット、ギリシ
ャ文字に多い。また、小さな上添え字や下添え字そのも
のは、「3」等のアラビア数字、「i」、「m」等の特
定のアルファベットに多い。
Characters with upper and lower subscripts are often found in technical articles and academic papers. In this case, the upper subscript is an Arabic numeral such as "2", "p", "x", "y", "M",
It is often found in lowercase letters of certain alphabets such as "n". Subscripts are often attached to certain alphabets such as "P" and Greek letters. Also, small upper subscripts and lower subscripts themselves are often found in Arabic numerals such as "3" and in specific alphabets such as "i" and "m".

【0085】通常の文字の列でその上方へ一部がはみ
出す文字としては、イタリック体や活字体を問わずアル
ファベット小文字では「f」、「h」等であり、逆に下
方にはみ出す文字としては、アルファベット小文字の
「j」、「n」、「q」等がある。 接触する文字の組み合わせとしては、アルファベット
ならば小文字の「w」、「y」等、文字の左又は右の上
端へ伸びた線(ストローク)を有するもの相互及びこれ
らと「t」等の上方に水平に伸びたかつ突出した線を有
する文字間に生じ易い。大文字では、下方に張り出す
「A」と左又は右が垂直な「H」、「R」、「L」等で
ある。特に、図16の(c)に示すごとく、文字の下端
に水平方向の小さな突出部を設ける字体に多い。また、
手書きでは「13」は、えてして「B」に似ることがあ
る。同じく、手書きの縦書きでは、「ま」と「し」等で
ある。
Characters that partly protrude above the normal character string are "f", "h", etc. in lowercase alphabets regardless of italic type or typeface, and conversely as characters protruding downward. , Lowercase letters "j", "n", "q", etc. As for the combination of characters that come into contact with each other, if it is an alphabet, lowercase letters "w", "y", etc., such as those having a line (stroke) extending to the upper left or right end of the character, and those and above "t" etc. It tends to occur between characters that have horizontally extending and protruding lines. In capital letters, "A" that projects downward and "H", "R", "L", etc. where the left or right is vertical. In particular, as shown in FIG. 16 (c), there are many fonts in which a small horizontal projection is provided at the lower end of the character. Also,
By handwriting, "13" may sometimes resemble "B". Similarly, in handwritten vertical writing, “Ma” and “shi” are used.

【0086】以上の他、数学等学術や技術の分野、中
国語や日本語等の言語の種類、筆記体か活字体か、ある
いは活字体ならばどのような書体か等によって、種々の
読み取りのための抽出が困難な文字や記号やそれらの組
み合わせが存在するが、その困難性が生じる文字や文字
の組み合わせ等は大よそ定まっている。具体的には、い
ずれの言語であっても、読者の注意喚起のために単語に
付される点は、横書きならば単語を構成する文字の真
上、縦書きならば真右であり、しかもこの点はある程度
の大きさの黒丸であることが多い。
In addition to the above, various readings can be made depending on the field of science or technology such as mathematics, the type of language such as Chinese or Japanese, the writing style or the typeface, or the typeface if it is the typeface. There are characters and symbols that are difficult to extract and combinations thereof, but the characters and combinations of characters that cause the difficulty are roughly determined. Specifically, in any language, the point added to the word to alert the reader is just above the letters that make up the word in horizontal writing, right in vertical writing, and This point is often a black circle with a certain size.

【0087】水平方向に分離する漢字は「川」、「昭」
等、上下方向に分離する漢字は「二」、「三」等少数で
ある。分離数も、通常は3つまでである。漢字に比較し
て、仮字は小さく記されることが多い。技術文書に多い
ダッシュは、文字の右肩に付される等である。このた
め、文字認識用補助辞書部23は、この原因と原因の生
じる文字とを、認識対象の文書の言語、書体に応じてあ
らかじめ登録してある。その一部を図15の(b)に示
す。
Kanji separated horizontally are "Kawa" and "Aki".
For example, the number of Chinese characters that are vertically separated is small, such as "two" and "three." The number of separations is usually up to three. Compared to Kanji, Kana are often written smaller. Dashes often found in technical documents are attached to the right shoulder of letters. For this reason, the character recognition auxiliary dictionary unit 23 registers the cause and the character causing the cause in advance according to the language and typeface of the document to be recognized. A part thereof is shown in FIG.

【0088】連結成分情報反映文字認識制御部22は、
連結成分統合手段、連結成分削除手段がその機能を発揮
し、どのように機能を発揮したかの情報を受けとったな
らば、文字認識用補助辞書部23を参照して対応する文
字についての情報を認識処理部21に送る。認識処理部
21は、抽出された文字を認識する際に、この情報を反
映させる。ただし、どのようにこの情報を型板照合等に
よる候補文字の選択や決定に際して反映させるか、重み
付けの値等は、認識対象の文書に応じて、適宜最適のも
のが選択されるのは勿論である。
The connected component information reflecting character recognition control unit 22
When the connected component integrating means and the connected component deleting means have fulfilled their functions and have received information on how they have worked, the character recognition auxiliary dictionary unit 23 is referred to obtain information about the corresponding characters. It is sent to the recognition processing unit 21. The recognition processing unit 21 reflects this information when recognizing the extracted character. However, it is needless to say that how to reflect this information when selecting or determining a candidate character by template matching or the like, the weighting value, etc. are appropriately selected according to the document to be recognized. is there.

【0089】具体的には、元の画像データが汚く、あ
ちこちに用紙の汚れがある場合には、連結成分削除手段
からの通知のウェートを下げ、一応読み取った前後の文
字との組み合わせからなる単語が認識用単語辞書(図示
せず)に存在するか否かのウェートを上げる。 文字間隔、行や列の間隔が特許出願の明細書のごとく
充分空いているならば、文字認識用補助辞書はほとんど
参照しない等である。
Specifically, when the original image data is dirty and the paper is smeared here and there, the weight of the notification from the connected component deleting means is lowered, and a word consisting of a combination of characters read before and after is read. Raises the weight of whether or not exists in the recognition word dictionary (not shown). If the character spacing and the row and column spacing are sufficiently vacant as in the specification of the patent application, the character recognition auxiliary dictionary is hardly referenced.

【0090】以上、本発明を実施例にもとづいて説明し
てきたが、本発明は何も上記実施例に限定されるもので
はない。すなわち、例えば、以下のようにしてもよい。 (1)本実施例においては、画像データの走査線に含ま
れる連結区間を抽出し、連続する走査線に含まれる連結
区間どうしの連結性を調べることにより、連結成分を抽
出する方法を示したが、例えば輪郭線の追跡によって連
結成分を抽出する手法を用いる。
The present invention has been described above based on the embodiments, but the present invention is not limited to the above embodiments. That is, for example, the following may be performed. (1) In this embodiment, the method of extracting the connected component by extracting the connected section included in the scanning lines of the image data and examining the connectivity between the connected sections included in the continuous scanning lines has been described. However, for example, a method of extracting a connected component by tracing a contour line is used.

【0091】(2)連結成分を包含する所定の図形とし
て、実施例では印刷されたアルファベットに対応して外
接矩形としたが、イタリック体であるならば、文字方向
に整合して傾いた四角形としている、また日本文や中国
語文ならば正方形としている。更には、第1行の文字列
の抽出作業の際に書体、言語等を検出して、これらを自
動的に行なうようにしている。
(2) In the embodiment, the predetermined figure including the connected component is a circumscribing rectangle corresponding to the printed alphabet. If it is Japanese or Chinese, it is square. Further, the typeface, language, etc. are detected during the operation of extracting the character string in the first line, and these are automatically performed.

【0092】(3)製造等の都合で、本発明の1の必要
不可欠な事項(手段)を複数にしたり、逆に複数のもの
を一体としたり、あるいはこれらを適宜組み合わせてい
る。 (4)アルファベットの場合、大文字であれ小文字であ
れ、一字の幅や高さはある範囲内にある。このため、隣
接する文字が読み取りの都合等で一の連結成分となった
場合には、これを文字の幅の上限から2つに分割する手
段を採用している。
(3) For the convenience of manufacturing, a plurality of essential items (means) 1 of the present invention may be provided in a plural number, or conversely, a plurality of items may be integrated, or these may be appropriately combined. (4) In the case of alphabets, the width and height of one character, whether upper case or lower case, are within a certain range. For this reason, when adjacent characters become one connected component for the convenience of reading, etc., a means for dividing this into two parts from the upper limit of the character width is adopted.

【0093】(5)手書き文字の抽出、認識に、ウェー
トをあげて利用している。 (6)筆記体では、上下の行の文字が大きくはみ出すこ
とがあるため、これに対応すべく、連結成分削除手段の
調査する列外領域は、文字列に直交する方向の各一画素
でなく、複数画素としている。
(5) A weight is used for extracting and recognizing handwritten characters. (6) In cursive script, the characters in the upper and lower lines may largely protrude. Therefore, in order to deal with this, the out-of-column region investigated by the connected component deleting means is not one pixel in the direction orthogonal to the character string. , Multiple pixels.

【0094】[0094]

【発明の効果】以上説明してきたように、請求項1の発
明は、アルファベット文字iやjなどの分離文字を正し
く抽出することができる。請求項2の発明は、かすれた
画像中の本来連結しているべき一部が欠落して分離した
文字等を正しく抽出することができる。
As described above, the invention of claim 1 can correctly extract the separated characters such as alphabetic characters i and j. According to the second aspect of the present invention, it is possible to correctly extract a character or the like separated from a part of a faint image that should be originally connected and is missing.

【0095】請求項3の発明は、かすれた画像中の本来
連結しているべき一部が欠落して分離した文字等を正し
く抽出することができる。請求項4の発明は、かすれた
画像中の本来連結しているべき一部が欠落して分離した
文字等を正しく抽出することができる。請求項5の発明
は、かすれた画像中の本来連結しているべき一部が欠落
して分離した文字等を正しく抽出することができる。
According to the third aspect of the present invention, it is possible to correctly extract a character or the like separated from a part of a faint image that should have been originally connected and is missing. According to the fourth aspect of the present invention, it is possible to correctly extract a character or the like separated from a part of a faint image that should be originally connected and is missing. According to the fifth aspect of the invention, it is possible to correctly extract a character or the like separated from a part of a faint image that should be originally concatenated.

【0096】請求項6の発明は、画像の傾きや文字列間
の間隔が狭いなどの原因で、抽出された文字列の矩形領
域に、他の文字列に含まれる文字の一部が突き出ている
場合等にも、他行の文字の一部を誤って抽出しないこと
ができる。更に、上記各請求項の発明は一体となって、
文字情報の抽出の精度向上に寄与する。
According to the sixth aspect of the invention, a part of the characters included in another character string is projected in the rectangular area of the extracted character string due to the inclination of the image or the narrow space between the character strings. If some of the characters on other lines are not extracted by mistake. Further, the inventions of the above claims are integrated,
This contributes to improving the accuracy of extracting character information.

【0097】請求項7から請求項12の発明は、各々請
求項1から請求項6の発明における文字画像の抽出結果
を有効に文字認識に反映しえる。このため、原画像が手
書きや汚い場合等には特に、文字認識率が向上する。請
求項13及び請求項14の発明は、請求項1から請求項
12までの発明の実施に際して、プログラムの作成やデ
ータの処理が容易となる。また、イタリック体等の抽
出、認識処理に際しても、活字体主対象として作成され
たプログラムに大きな変更を加えることなく対応可能と
なる。
The inventions of claims 7 to 12 can effectively reflect the extraction results of the character images in the inventions of claims 1 to 6 in character recognition. Therefore, the character recognition rate is improved especially when the original image is handwritten or dirty. According to the thirteenth and fourteenth aspects of the invention, when the inventions of the first to the twelfth aspects are carried out, it is easy to create a program and process data. Further, it is possible to deal with the extraction and recognition processing of italic fonts etc. without making a large change to the program created as the main object of the typeface.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明に係る文字切り出し装置の第1実施例の
構成図である。
FIG. 1 is a configuration diagram of a first embodiment of a character clipping device according to the present invention.

【図2】上記実施例における文字列抽出の基本的な動作
流れ図である。
FIG. 2 is a basic operation flow chart of character string extraction in the above embodiment.

【図3】上記実施例における文字列抽出手段の動作結果
の1例を示す図である。
FIG. 3 is a diagram showing an example of an operation result of a character string extracting means in the above embodiment.

【図4】上記実施例における連結区間抽出手段の動作の
手順を示す図である。
FIG. 4 is a diagram showing a procedure of an operation of the connected section extracting means in the above embodiment.

【図5】上記実施例における連結区間抽出手段の動作結
果の1例を示す図である。
FIG. 5 is a diagram showing an example of an operation result of the connected section extracting means in the above embodiment.

【図6】上記明実施例における連結成分抽出手段の動作
の手順を示す図の1/3である。
FIG. 6 is ⅓ of the diagram showing the procedure of the operation of the connected component extracting means in the embodiment.

【図7】上記明実施例における連結成分抽出手段の動作
の手順を示す図の2/3である。
FIG. 7 is 2/3 of the diagram showing the procedure of the operation of the connected component extracting means in the embodiment.

【図8】上記明実施例における連結成分抽出手段の動作
の手順を示す図の3/3である。
FIG. 8 is 3/3 of the diagram showing the procedure of the operation of the connected component extracting means in the embodiment.

【図9】上記実施例における連結成分抽出手段の動作内
容の1例を示す図である。
FIG. 9 is a diagram showing an example of the operation content of the connected component extraction means in the above embodiment.

【図10】上記実施例における連結成分削除手段の動作
の手順を示す図である。
FIG. 10 is a diagram showing a procedure of an operation of the connected component deleting means in the above embodiment.

【図11】上記実施例における連結成分削除手段の動作
の内容の1例を示す図である。
FIG. 11 is a diagram showing an example of the content of the operation of the connected component deleting means in the above embodiment.

【図12】上記実施例における連結成分統合手段の動作
の手順を示す図である。
FIG. 12 is a diagram showing a procedure of an operation of the connected component integrating means in the above embodiment.

【図13】(a)は、上記実施例における連結成分統合
手段の統合条件の例を示す図である。(b)は、その条
件にあうか否かの判定手順を示す図である。
FIG. 13A is a diagram showing an example of integration conditions of the connected component integration means in the above-described embodiment. (B) is a diagram showing a procedure for determining whether or not the condition is satisfied.

【図14】上記実施例における連結成分統合手段の動作
例を示す図である。
FIG. 14 is a diagram showing an operation example of a connected component integrating means in the above embodiment.

【図15】本発明に係る文字認識装置の1実施例の構成
図である。
FIG. 15 is a configuration diagram of an embodiment of a character recognition device according to the present invention.

【図16】従来の技術では抽出が困難な欧米文の一例で
ある。
FIG. 16 is an example of a Western sentence that is difficult to extract by the conventional technique.

【符号の説明】[Explanation of symbols]

10 入力手段 11 文字列抽出手段 12 連結区間抽出手段 13 連結成分抽出手段 14 連結成分削除手段 15 連結成分統合手段 16 文字抽出手段 17 連結削除統合情報送信手段 20 認識用辞書 21 認識処理部 22 連結成分情報反映文字認識制御部 23 文字認識用補助辞書部 10 Input Means 11 Character String Extracting Means 12 Concatenated Section Extracting Means 13 Concatenated Component Extracting Means 14 Concatenated Component Deleting Means 15 Concatenated Component Integrating Means 16 Character Extracting Means 17 Concatenated Deletion Integrated Information Sending Means 20 Recognition Dictionaries 21 Recognition Processing Units 22 Recognition Components 22 Information reflected character recognition control unit 23 Character recognition auxiliary dictionary unit

───────────────────────────────────────────────────── フロントページの続き (72)発明者 高倉 穂 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 ─────────────────────────────────────────────────── --- Continuation of the front page (72) Inventor Ho Ho Takakura 1006 Kadoma, Kadoma City, Osaka Prefecture Matsushita Electric Industrial Co., Ltd.

Claims (14)

【特許請求の範囲】[Claims] 【請求項1】 文字を含む画像の読取りデータから文字
の列の位置についての情報を抽出する文字列抽出手段
と、 前記文字列抽出手段により抽出された文字の列の位置に
ついての情報で示される領域において、黒画素の連結し
てなる連結成分を抽出する連結成分抽出手段と、 前記連結成分抽出手段により抽出された各連結成分の組
合せのうち、一の連結成分を包含する所定の図形の中心
と他の連結成分を包含する所定の図形の中心とを結ぶ直
線の上記文字の列に対する傾きが一定の範囲内にある組
合せを一の抽出対象として統合する連結成分統合手段
と、 前記連結成分抽出手段及び前記連結成分統合手段の作用
のもとで最終的に抽出された連結成分から認識対象の文
字についての情報を抽出する文字認識情報抽出手段とを
備えたことを特徴とする文字切り出し装置。
1. A character string extracting means for extracting information about a position of a character string from read data of an image including a character, and information about a position of a character string extracted by the character string extracting means. In a region, a connected component extracting means for extracting a connected component formed by connecting black pixels, and a center of a predetermined figure including one connected component among combinations of connected components extracted by the connected component extracting means Connected component integrating means for integrating a combination in which a straight line connecting the center of a predetermined graphic including other connected components with respect to the character string within a certain range as one extraction target, and the connected component extraction Means and character recognition information extracting means for extracting information about a character to be recognized from the connected component finally extracted under the action of the connected component integrating means. Character cutting device.
【請求項2】 文字を含む画像の読取りデータから文字
の列の位置についての情報を抽出する文字列抽出手段
と、 前記文字列抽出手段により抽出された文字の列の位置に
ついての情報で示される領域において、黒画素の連結し
てなる連結成分を抽出する連結成分抽出手段と、 前記連結成分抽出手段により抽出された各連結成分の組
合せのうち、一の連結成分に含まれる黒画素と他の連結
成分に含まれる黒画素との最短の距離が別途定められた
基準値に対して一定範囲内である組合せを一の抽出対象
として統合する連結成分統合手段と、 前記連結成分抽出手段及び前記連結成分統合手段の作用
のもとで最終的に抽出された連結成分から認識対象の文
字についての情報を抽出する文字認識情報抽出手段とを
備えたことを特徴とする文字切り出し装置。
2. A character string extracting means for extracting information about a position of a character string from read data of an image including a character, and information about a position of a character string extracted by the character string extracting means. In the region, a connected component extracting means for extracting a connected component formed by connecting black pixels, and a combination of each connected component extracted by the connected component extracting means, a black pixel included in one connected component and another Connected component integration means for integrating a combination whose shortest distance from a black pixel included in a connected component is within a certain range with respect to a separately determined reference value as one extraction target, the connected component extraction means and the connected A character slicing device comprising: character recognition information extraction means for extracting information about a character to be recognized from a connected component finally extracted under the action of the component integration means. Place.
【請求項3】 文字を含む画像の読取りデータから文字
の列の位置についての情報を抽出する文字列抽出手段
と、 画像データの前記文字列抽出手段により抽出された文字
列の位置情報で示される領域において、黒画素の連結し
てなる連結成分を抽出する連結成分抽出手段と、 前記連結成分抽出手段により抽出された各連結成分の組
合せのうち、一の連結成分を包含する所定の図形の文字
の列方向の座標値と他の連結成分を包含する所定の図形
の文字の列方向の座標値との間に包含関係がある組合せ
を一の抽出対象として統合する連結成分統合手段と、 前記連結成分抽出手段及び前記連結成分統合手段の作用
のもとで最終的に抽出された連結成分から認識対象の文
字についての情報を抽出する文字認識情報抽出手段とを
備えたことを特徴とする文字切り出し装置。
3. Character string extraction means for extracting information about the position of a character string from read data of an image containing characters, and position information of the character string extracted by the character string extraction means of image data. In a region, a connected component extracting means for extracting a connected component formed by connecting black pixels, and a predetermined graphic character including one connected component among combinations of connected components extracted by the connected component extracting means Connected component integrating means for integrating a combination having an inclusive relation between the coordinate values in the column direction of the column and the coordinate values in the column direction of a character of a predetermined graphic including other connected components as one extraction target; Character recognition information extracting means for extracting information about a character to be recognized from the finally extracted connected component under the action of the component extracting means and the connected component integrating means. Character cutting device.
【請求項4】 文字を含む画像の読取りデータから文字
の列の位置についての情報を抽出する文字列抽出手段
と、 前記文字列抽出手段により抽出された文字の列の位置に
ついての情報で示される領域において、黒画素の連結し
てなる連結成分を抽出する連結成分抽出手段と、 前記連結成分抽出手段により抽出された各連結成分の組
合せのうち、一の連結成分を包含する所定の図形と他の
連結成分を包含する所定の図形との重なり度合が別途定
められた閾値以上である組合せを一の抽出対象として統
合する連結成分統合手段と、 前記連結成分抽出手段及び前記連結成分統合手段の作用
のもとで最終的に抽出された連結成分から文字情報を抽
出する文字認識情報抽出手段とを備えたことを特徴とす
る文字切り出し装置。
4. A character string extracting means for extracting information about a position of a character string from read data of an image including a character, and information about a position of a character string extracted by the character string extracting means. In the region, a connected component extracting means for extracting a connected component formed by connecting black pixels, and a predetermined figure including one connected component among other combinations of connected components extracted by the connected component extracting means, Connected component integrating means for integrating as a single extraction target a combination in which the degree of overlap with a predetermined figure including the connected component is greater than or equal to a separately determined threshold, and the operation of the connected component extracting means and the connected component integrating means And a character recognition information extraction means for extracting character information from the connected component finally extracted under the following conditions.
【請求項5】 文字を含む画像の読取りデータから文字
の列の位置についての情報を抽出する文字列抽出手段
と、 前記文字列抽出手段により抽出された文字の列の位置に
ついての情報で示される領域において、黒画素の連結し
てなる連結成分を抽出する連結成分抽出手段と、 前記連結成分抽出手段により抽出された各連結成分の組
合せのうち、一の連結成分を包含する所定の図形と他の
連結成分を包含する所定の図形との距離値が閾値以下で
あり、上記両図形の面積比が別途定められた基準値に対
して一定範囲内である連結成分の組合せを一の抽出対象
として統合する連結成分統合手段と、 前記連結成分抽出手段及び前記連結成分統合手段の作用
のもとで最終的に抽出された連結成分から認識対象の文
字についての情報を抽出する文字認識情報抽出手段とを
備えたことを特徴とする文字切り出し装置。
5. A character string extraction unit for extracting information about the position of a character string from the read data of an image containing characters, and information about the position of the character string extracted by the character string extraction unit. In the region, a connected component extracting means for extracting a connected component formed by connecting black pixels, and a predetermined figure including one connected component among other combinations of connected components extracted by the connected component extracting means, A combination of connected components whose distance value to a predetermined figure including the connected component is less than or equal to a threshold value and the area ratio of the two figures is within a certain range with respect to a separately determined reference value is set as one extraction target. Connected component integrating means for integrating, and character recognition information for extracting information about a character to be recognized from the connected components finally extracted under the action of the connected component extracting means and the connected component integrating means. A character slicing device comprising: a report extracting unit.
【請求項6】 文字を含む画像の読取りデータから文字
の列の位置についての情報を抽出する文字列抽出手段
と、 前記文字列抽出手段により抽出された文字の列の位置に
ついての情報で示される領域よりも文字列方向に直交す
る両側に所定画素数大きい領域に存在する黒画素の連結
してなる連結成分を抽出する連結成分抽出手段と、 前記連結成分抽出手段により抽出された連結成分のう
ち、該連結成分を包含する所定の図形の文字列と直交す
る方向の開始または終了座標が、前記文字列抽出手段に
より抽出された文字の列の位置の存在範囲を逸脱してい
る連結成分を同じく当該文字列の文字を構成する連結成
分として抽出する対象から削除する連結成分削除手段
と、 前記連結成分抽出手段及び前記連結成分削除手段の作用
のもとで最終的に抽出された連結成分から認識対象の文
字についての情報を抽出する文字認識情報抽出手段を備
えたことを特徴とする文字切り出し装置。
6. A character string extracting means for extracting information about a position of a character string from read data of an image including a character, and information about a position of a character string extracted by the character string extracting means. A connected component extracting means for extracting a connected component formed by connecting black pixels existing in an area having a predetermined number of pixels on both sides orthogonal to the character string direction, and among the connected components extracted by the connected component extracting means , A connected component whose start or end coordinates in a direction orthogonal to a character string of a predetermined graphic including the connected component deviates from the existence range of the position of the character string extracted by the character string extraction means. Finally, the connected component deleting means for deleting from the object to be extracted as the connected component forming the character of the character string, and the connected component extracting means and the connected component deleting means finally extract A character slicing device comprising character recognition information extraction means for extracting information about a character to be recognized from the output connected component.
【請求項7】 文字を含む画像の読取りデータから文字
の列の位置についての情報を抽出する文字列抽出手段
と、 前記文字列抽出手段により抽出された文字の列の位置に
ついての情報で示される領域において、黒画素の連結し
てなる連結成分を抽出する連結成分抽出手段と、 前記連結成分抽出手段により抽出された各連結成分の組
合せのうち、一の連結成分を包含する所定の図形の中心
と他の連結成分を包含する所定の図形の中心とを結ぶ直
線の上記文字の列に対する傾きが一定の範囲内にある組
合せを一の抽出対象として統合する連結成分統合手段
と、 前記連結成分抽出手段及び前記連結成分統合手段の作用
のもとで最終的に抽出された連結成分から認識対象の文
字についての情報を抽出する文字認識情報抽出手段と、 前記連結成分抽出手段により抽出された各連結成分の組
合せのうち、一の連結成分を包含する所定の図形の中心
と他の連結成分を包含する所定の図形の中心とを結ぶ直
線の上記文字の列に対する傾きが一定の範囲内にある組
合せの生じる文字若しくは文字の組合せについての情報
をあらかじめ登録している文字認識用補助辞書部と、 前記連結成分統合手段が、上記傾きが一定の範囲内にあ
る組合せを一の抽出対象として統合する判断処理をなし
たならば、この通知、その判断結果の少なくも一を受け
て、前記文字認識情報抽出手段からの抽出情報をもとに
文字認識を行なうに際して、前記文字認識用補助辞書部
に登録されている情報を利用する連結成分統合情報反映
文字認識部を有していることを特徴とする文字認識装
置。
7. A character string extracting means for extracting information about a position of a character string from read data of an image including a character, and information about a position of a character string extracted by the character string extracting means. In a region, a connected component extracting means for extracting a connected component formed by connecting black pixels, and a center of a predetermined figure including one connected component among combinations of connected components extracted by the connected component extracting means Connected component integrating means for integrating a combination in which a straight line connecting the center of a predetermined graphic including other connected components with respect to the character string within a certain range as one extraction target, and the connected component extraction Means and the character recognition information extraction means for extracting information about the character to be recognized from the connected component finally extracted under the action of the connected component integrating means, and the connected component extraction Among the combinations of the connected components extracted by the step, the inclination of the straight line connecting the center of the predetermined figure including one connected component and the center of the predetermined figure including the other connected component with respect to the character string is The auxiliary dictionary unit for character recognition in which information about a character or a combination of characters in which a combination within a certain range occurs is registered in advance, and the connected component integrating means selects one of the combinations whose inclination is within a certain range. If the judgment process of integrating as the extraction target of the character is performed, the character recognition is performed on the basis of the extracted information from the character recognition information extraction means in response to this notification and at least one of the judgment results. A character recognition device comprising a connected component integrated information reflecting character recognition unit that uses information registered in a recognition auxiliary dictionary unit.
【請求項8】 文字を含む画像の読取りデータから文字
の列の位置についての情報を抽出する文字列抽出手段
と、 前記文字列抽出手段により抽出された文字の列の位置に
ついての情報で示される領域において、黒画素の連結し
てなる連結成分を抽出する連結成分抽出手段と、 前記連結成分抽出手段により抽出された各連結成分の組
合せのうち、一の連結成分に含まれる黒画素と他の連結
成分に含まれる黒画素との最短の距離が別途定められた
基準値に対して一定範囲内である組合せを一の抽出対象
として統合する連結成分統合手段と、 前記連結成分抽出手段及び前記連結成分統合手段の作用
のもとで最終的に抽出された連結成分から認識対象の文
字についての情報を抽出する文字認識情報抽出手段と、 前記連結成分抽出手段により抽出された各連結成分の組
合せのうち、一の連結成分に含まれる黒画素と他の連結
成分に含まれる黒画素との最短の距離が別途定められた
基準値に対して一定範囲内である組合せの生じる文字若
しくは文字の組合せについての情報をあらかじめ登録し
ている文字認識用補助辞書部と、 前記連結成分統合手段が、上記最短の距離か基準値に対
して一定範囲内である組合せを一の抽出対象として統合
する判断処理をなしたならば、この通知、その判断結果
の少なくも一を受けて、前記文字認識情報抽出手段から
の抽出情報をもとに文字認識を行なうに際して、前記文
字認識用補助辞書部に登録されている情報を利用する連
結成分統合情報反映文字認識部を有していることを特徴
とする文字認識装置。
8. A character string extracting means for extracting information about a position of a character string from read data of an image including a character, and information about a position of a character string extracted by the character string extracting means. In the region, a connected component extraction unit that extracts a connected component formed by connecting black pixels, and a combination of each connected component extracted by the connected component extraction unit, a black pixel included in one connected component and another Connected component integrating means for integrating a combination whose shortest distance from a black pixel included in a connected component is within a certain range with respect to a separately defined reference value as one extraction target; the connected component extracting means and the connected A character recognition information extracting means for extracting information about a character to be recognized from the connected component finally extracted under the action of the component integrating means, and the connected component extracting means. Among combinations of connected components, a combination in which the shortest distance between a black pixel included in one connected component and a black pixel included in another connected component is within a certain range with respect to a separately determined reference value occurs. An auxiliary dictionary unit for character recognition in which information about a character or a combination of characters is registered in advance, and the connected component integrating means selects one combination that is within a certain range from the shortest distance or the reference value as one extraction target. If the judgment process of integrating the characters is performed, the notification and at least one of the judgment results are received, and when the character recognition is performed based on the extracted information from the character recognition information extracting means, the character recognition auxiliary A character recognition device comprising a connected component integrated information reflecting character recognition unit that uses information registered in a dictionary.
【請求項9】 文字を含む画像の読取りデータから文字
の列の位置についての情報を抽出する文字列抽出手段
と、 画像データの前記文字列抽出手段により抽出された文字
列の位置情報で示される領域において、黒画素の連結し
てなる連結成分を抽出する連結成分抽出手段と、 前記連結成分抽出手段により抽出された各連結成分の組
合せのうち、一の連結成分を包含する所定の図形の文字
の列方向の座標値と他の連結成分を包含する所定の図形
の文字の列方向の座標値との間に包含関係がある組合せ
を一の抽出対象として統合する連結成分統合手段と、 前記連結成分抽出手段及び前記連結成分統合手段の作用
のもとで最終的に抽出された連結成分から認識対象の文
字についての情報を抽出する文字認識情報抽出手段と、 前記連結成分抽出手段により抽出された各連結成分の組
合せのうち、一の連結成分を包含する所定の図形の文字
の列方向の座標値と他の連結成分を包含する所定の図形
の文字の列方向の座標値との間に包含関係がある組合せ
の生じる文字若しくは文字の組合せについての情報をあ
らかじめ登録している文字認識用補助辞書部と、 前記連結成分統合手段が、上記包含関係がある組合せを
一の抽出対象として統合する判断処理をなしたならば、
この通知、その判断結果の少なくも一を受けて、前記文
字認識情報抽出手段からの抽出情報をもとに文字認識を
行なうに際して、前記文字認識用補助辞書部に登録され
ている情報を利用する連結成分統合情報反映文字認識部
を有していることを特徴とする文字認識装置。
9. A character string extracting means for extracting information about the position of a character string from read data of an image containing characters, and position information of the character string extracted by the character string extracting means of image data. In a region, a connected component extracting means for extracting a connected component formed by connecting black pixels, and a predetermined graphic character including one connected component among combinations of connected components extracted by the connected component extracting means Connected component integrating means for integrating a combination having an inclusive relation between the coordinate values in the column direction of the column and the coordinate values in the column direction of a character of a predetermined graphic including other connected components as one extraction target; A character recognition information extracting means for extracting information about a character to be recognized from the finally extracted connected component under the action of the component extracting means and the connected component integrating means; and the connected component extracting means. Among the combinations of the extracted connected components, the coordinate values in the column direction of the character of the predetermined figure including one connected component and the coordinate values in the column direction of the character of the predetermined figure including the other connected component An auxiliary dictionary unit for character recognition in which information about a character or a combination of characters in which a combination having an inclusive relation occurs is registered in advance, and the connected component integrating means, the combination having the inclusive relation is one extraction target. If you make a judgment process to integrate as
Upon receiving this notification and at least one of the judgment results, when the character recognition is performed based on the extracted information from the character recognition information extracting means, the information registered in the auxiliary dictionary unit for character recognition is used. A character recognition device having a connected component integrated information reflecting character recognition unit.
【請求項10】 文字を含む画像の読取りデータから文
字の列の位置についての情報を抽出する文字列抽出手段
と、 前記文字列抽出手段により抽出された文字の列の位置に
ついての情報で示される領域において、黒画素の連結し
てなる連結成分を抽出する連結成分抽出手段と、 前記連結成分抽出手段により抽出された各連結成分の組
合せのうち、一の連結成分を包含する所定の図形と他の
連結成分を包含する所定の図形との重なり度合が別途定
められた閾値以上である組合せを一の抽出対象として統
合する連結成分統合手段と、 前記連結成分抽出手段及び前記連結成分統合手段の作用
のもとで最終的に抽出された連結成分から文字情報を抽
出する文字認識情報抽出手段と、 前記連結成分抽出手段により抽出された各連結成分の組
合せのうち、一の連結成分を包含する所定の図形と他の
連結成分を包含する所定の図形との重なり度合が別途定
められた閾値以上である組合せの生じる文字若しくは文
字の組合せについての情報をあらかじめ登録している文
字認識用補助辞書部と、 前記連結成分統合手段が、上記重なり度合が閾値以上と
なる組合せを一の抽出対象として統合する判断処理をな
したならば、この通知、その判断結果の少なくも一を受
けて、前記文字認識情報抽出手段からの抽出情報をもと
に文字認識を行なうに際して、前記文字認識用補助辞書
部に登録されている情報を利用する連結成分統合情報反
映文字認識部を有していることを特徴とする文字認識装
置。
10. A character string extraction means for extracting information about a position of a character string from read data of an image including a character, and information about a position of a character string extracted by the character string extraction means. In the region, a connected component extracting means for extracting a connected component formed by connecting black pixels, and a predetermined figure including one connected component among other combinations of connected components extracted by the connected component extracting means, Connected component integrating means for integrating as a single extraction target a combination in which the degree of overlap with a predetermined figure including the connected component is greater than or equal to a separately determined threshold, and the operation of the connected component extracting means and the connected component integrating means Character recognition information extraction means for extracting character information from the finally extracted connected component under the following, and a combination of each connected component extracted by the connected component extracting means Information about a character or a combination of characters in which a degree of overlap between a predetermined figure including one connected component and a predetermined figure including another connected component is equal to or more than a separately determined threshold is registered in advance. If the character recognition auxiliary dictionary unit and the connected component integration means perform a determination process of integrating a combination having an overlapping degree of a threshold value or more as one extraction target, this notification, at least the determination result thereof. In response to the above, when performing character recognition based on the extracted information from the character recognition information extraction means, a connected component integrated information reflecting character recognition section that uses information registered in the character recognition auxiliary dictionary section is provided. A character recognition device having.
【請求項11】 文字を含む画像の読取りデータから文
字の列の位置についての情報を抽出する文字列抽出手段
と、 前記文字列抽出手段により抽出された文字の列の位置に
ついての情報で示される領域において、黒画素の連結し
てなる連結成分を抽出する連結成分抽出手段と、 前記連結成分抽出手段により抽出された各連結成分の組
合せのうち、一の連結成分を包含する所定の図形と他の
連結成分を包含する所定の図形との距離値が閾値以下で
あり、上記両図形の面積比が別途定められた基準値に対
して一定範囲内である連結成分の組合せを一の抽出対象
として統合する連結成分統合手段と、 前記連結成分抽出手段及び前記連結成分統合手段の作用
のもとで最終的に抽出された連結成分から認識対象の文
字についての情報を抽出する文字認識情報抽出手段と、 前記連結成分抽出手段により抽出された各連結成分の組
合せのうち、一の連結成分を包含する所定の図形と他の
連結成分を包含する所定の図形との距離値が閾値以下で
あり、上記両図形の面積比が別途定められた基準値に対
して一定範囲内である連結成分の組合せの生じる文字若
しくは文字の組合せについての情報をあらかじめ登録し
ている文字認識用補助辞書部と、 前記連結成分統合手段が、上記距離値が閾値以下となり
面積比が基準値に対して一定範囲内となる組合せを一の
抽出対象として統合する判断処理をなしたならば、この
通知、その判断結果の少なくも一を受けて、前記文字認
識情報抽出手段からの抽出情報をもとに文字認識を行な
うに際して、前記文字認識用補助辞書部に登録されてい
る情報を利用する連結成分統合情報反映文字認識部を有
していることを特徴とする文字認識装置。
11. A character string extracting means for extracting information about a position of a character string from read data of an image including a character, and information about a position of a character string extracted by the character string extracting means. In the area, a connected component extracting means for extracting a connected component formed by connecting black pixels, and a predetermined figure including one connected component among the combinations of the connected components extracted by the connected component extracting means and others The distance value to a predetermined figure including the connected component is less than or equal to a threshold value, and the combination of the connected components in which the area ratio of the two figures is within a certain range with respect to a separately determined reference value is set as one extraction target Connected component integrating means for integrating, and character recognition for extracting information about a character to be recognized from the connected components finally extracted under the action of the connected component extracting means and the connected component integrating means. A distance value between a predetermined figure including one connected component and a predetermined figure including another connected component is equal to or less than a threshold value among the combinations of the information extracting means and the respective connected components extracted by the connected component extracting means. And an auxiliary dictionary unit for character recognition in which information about a character or a combination of characters in which a combination of connected components is generated in which the area ratio of the two figures is within a certain range with respect to a separately determined reference value is registered in advance. If the connection component integrating means performs a determination process of integrating a combination in which the distance value is equal to or less than a threshold value and the area ratio is within a certain range with respect to a reference value as one extraction target, this notification, the Upon receiving at least one of the judgment results and performing character recognition based on the extracted information from the character recognition information extracting means, a sequence of using the information registered in the auxiliary dictionary unit for character recognition is used. Character recognition device, characterized in that a component integrated information reflecting the character recognition unit.
【請求項12】 文字を含む画像の読取りデータから文
字の列の位置についての情報を抽出する文字列抽出手段
と、 前記文字列抽出手段により抽出された文字の列の位置に
ついての情報で示される領域よりも文字列方向に直交す
る両側に所定画素数大きい領域に存在する黒画素の連結
してなる連結成分を抽出する連結成分抽出手段と、 前記連結成分抽出手段により抽出された連結成分のう
ち、該連結成分を包含する所定の図形の文字列と直交す
る方向の開始または終了座標が、前記文字列抽出手段に
より抽出された文字の列の位置の存在範囲を逸脱してい
る連結成分を同じく当該文字列の文字を構成する連結成
分として抽出する対象から削除する連結成分削除手段
と、 前記連結成分抽出手段及び前記連結成分削除手段の作用
のもとで最終的に抽出された連結成分から認識対象の文
字についての情報を抽出する文字認識情報抽出手段と、 前記連結成分抽出手段により抽出された各連結成分のう
ち、前記連結成分削除手段の作用発揮の対象となる連結
成分を有することとなる可能性の高い文字若しくは文字
の組合せについての情報をあらかじめ登録している文字
認識用補助辞書部と、 前記連結成分削除手段が、上記連結成分を一の抽出対象
から削除したならば、この通知を受けて、前記文字認識
情報抽出手段からの抽出情報をもとに当該削除した連結
成分を端部に一部として含む他の列の文字の認識を行な
うに際して、前記文字認識用補助辞書部に登録されてい
る情報を利用する連結成分削除情報反映文字認識部を有
していることを特徴とする文字認識装置。
12. A character string extracting means for extracting information about a position of a character string from read data of an image including a character, and information about a position of a character string extracted by the character string extracting means. A connected component extracting means for extracting a connected component formed by connecting black pixels existing in a region having a predetermined number of pixels larger on both sides orthogonal to the region than the region, and among the connected components extracted by the connected component extracting device , A connected component whose start or end coordinates in a direction orthogonal to a character string of a predetermined graphic including the connected component deviates from the existence range of the position of the character string extracted by the character string extraction means. Finally, under the action of the connected component deleting means for deleting from the object to be extracted as the connected component forming the character of the character string, the connected component extracting means and the connected component deleting means. A character recognition information extraction unit that extracts information about a character to be recognized from the extracted connected component, and among the connected components extracted by the connected component extraction unit, the connected component deletion unit is a target for exerting the action. A character recognition auxiliary dictionary unit that pre-registers information about a character or a combination of characters that is likely to have a connected component, and the connected component deleting unit deletes the connected component from one extraction target. If this is done, upon receiving this notification, when recognizing the character in the other column including the deleted connected component as a part at the end based on the extracted information from the character recognition information extracting means, the character A character recognition device having a connected component deletion information reflecting character recognition unit that uses information registered in a recognition auxiliary dictionary unit.
【請求項13】 前記連結成分統合手段は、上記連結成
分を包含する所定の図形として、連結成分に外接するか
つ各辺が文字列方向若しくはこれに直交する方向の四角
形を作成する外接四角形作成部を有していることを特徴
とする請求項1、請求項2、請求項3、請求項4、請求
項5、請求項6、請求項7、請求項8、請求項9若しく
は請求項10記載の文字切り出し装置。
13. The circumscribed quadrangle creation unit, wherein the connected component integrating means creates a quadrangle circumscribing the connected component and each side of which is a character string direction or a direction orthogonal thereto as a predetermined figure including the connected component. Claim 1, claim 2, claim 3, claim 4, claim 5, claim 6, claim 7, claim 8, claim 9, or claim 10 characterized in that Character cutting device.
【請求項14】 前記連結成分削除手段は、上記連結成
分を包含する所定の図形として、連結成分に外接するか
つ各辺が文字列方向若しくはこれに直交する方向の四角
形を作成する外接四角形作成部を有していることを特徴
とする請求項6若しくは請求項12記載の文字切り出し
装置。
14. A circumscribed quadrangle creation unit that creates a quadrangle circumscribing the connected component and each side of which is in the character string direction or in a direction orthogonal to this as the predetermined figure including the connected component. The character slicing device according to claim 6 or 12, further comprising:
JP7099350A 1995-04-21 1995-04-25 Character segmentation device and character recognition device Pending JPH08297718A (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP7099350A JPH08297718A (en) 1995-04-25 1995-04-25 Character segmentation device and character recognition device
US08/608,179 US5999647A (en) 1995-04-21 1996-02-28 Character extraction apparatus for extracting character data from a text image
US09/187,131 US6141443A (en) 1995-04-21 1998-11-05 Character extraction apparatus, dictionary production apparatus, and character recognition apparatus using both apparatuses
US09/186,943 US6064769A (en) 1995-04-21 1998-11-05 Character extraction apparatus, dictionary production apparatus and character recognition apparatus, using both apparatuses

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7099350A JPH08297718A (en) 1995-04-25 1995-04-25 Character segmentation device and character recognition device

Publications (1)

Publication Number Publication Date
JPH08297718A true JPH08297718A (en) 1996-11-12

Family

ID=14245171

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7099350A Pending JPH08297718A (en) 1995-04-21 1995-04-25 Character segmentation device and character recognition device

Country Status (1)

Country Link
JP (1) JPH08297718A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8213748B2 (en) 2008-02-26 2012-07-03 Fuji Xerox Co., Ltd. Generating an electronic document with reference to allocated font corresponding to character identifier from an image
US8411955B2 (en) 2007-02-21 2013-04-02 Fuji Xerox Co., Ltd. Image processing apparatus, image processing method and computer-readable medium
JP2022047314A (en) * 2020-09-11 2022-03-24 キヤノンマーケティングジャパン株式会社 Information processing apparatus, information processing method, and program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8411955B2 (en) 2007-02-21 2013-04-02 Fuji Xerox Co., Ltd. Image processing apparatus, image processing method and computer-readable medium
US8213748B2 (en) 2008-02-26 2012-07-03 Fuji Xerox Co., Ltd. Generating an electronic document with reference to allocated font corresponding to character identifier from an image
JP2022047314A (en) * 2020-09-11 2022-03-24 キヤノンマーケティングジャパン株式会社 Information processing apparatus, information processing method, and program

Similar Documents

Publication Publication Date Title
KR100658119B1 (en) Apparatus and Method for Recognizing Character
JP2713622B2 (en) Tabular document reader
JP3452774B2 (en) Character recognition method
EP1564675A1 (en) Apparatus and method for searching for digital ink query
Goraine et al. Off-line Arabic character recognition
JPH05282488A (en) Method for automatically changing semantically important part of document without decoding document picture
JP2002279433A (en) Method and device for retrieving character in video
JP2001109844A (en) Character string extracting method, handwritten character extracting method, character string extraction device, and image processor
JP2000315247A (en) Character recognizing device
JPH05242300A (en) Method for processing document image
JP2002015280A (en) Device and method for image recognition, and computer- readable recording medium with recorded image recognizing program
Kar et al. A three-phase noise removal approach to achieve accuracy in line segmentation of Odia text
JPH03214378A (en) Character recognizing device
Bushofa et al. Segmentation of Arabic characters using their contour information
JPH08297718A (en) Character segmentation device and character recognition device
JPH0333990A (en) Optical character recognition instrument and method using mask processing
JP3476595B2 (en) Image area division method and image binarization method
KR100315428B1 (en) Character Feature Extraction Apparatus And Method For Recognition Of Multi-Language Printed Document
JP2917427B2 (en) Drawing reader
Airphaiboon et al. Recognition of handprinted Thai characters using loop structures
JPH02116987A (en) Character recognizing device
JP3457376B2 (en) Character correction method in optical reader
Lohakan et al. Single-character segmentation for handprinted Thai word
Lehal et al. A complete OCR system for Gurmukhi script
JP2893781B2 (en) Character recognition device