JPH04352295A - System and device for identifing character string direction - Google Patents

System and device for identifing character string direction

Info

Publication number
JPH04352295A
JPH04352295A JP3127131A JP12713191A JPH04352295A JP H04352295 A JPH04352295 A JP H04352295A JP 3127131 A JP3127131 A JP 3127131A JP 12713191 A JP12713191 A JP 12713191A JP H04352295 A JPH04352295 A JP H04352295A
Authority
JP
Japan
Prior art keywords
character
character string
string direction
rectangle
rectangles
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3127131A
Other languages
Japanese (ja)
Other versions
JP3090342B2 (en
Inventor
Yasuto Ishitani
石谷 康人
Shunji Ariyoshi
俊二 有吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP03127131A priority Critical patent/JP3090342B2/en
Publication of JPH04352295A publication Critical patent/JPH04352295A/en
Application granted granted Critical
Publication of JP3090342B2 publication Critical patent/JP3090342B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

PURPOSE:To correctly identify the direction of a character string on various documents including a document whose character spacing is larger than its line spacing since the direction of the character string is identified by detecting the state of blank lines (or blank column) obtained from image data of an input document. CONSTITUTION:The device consists of a means 6 which extracts the extent of horizontal character arrangement from the inputted image data, a means which extracts the extent of vertical character arrangement, and a means 5 which compares the extents of horizontal character arrangement and vertical character arrangement with each other to identify the character string direction in the image.

Description

【発明の詳細な説明】[Detailed description of the invention]

[発明の目的] [Purpose of the invention]

【0001】0001

【産業上の利用分野】本発明は入力文書に記載された文
字列方向を判別する文字列方向判別方式及び文字列方向
を判別する文字列方向判別装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character string direction determining method for determining the direction of a character string written in an input document, and a character string direction determining device for determining the direction of a character string.

【0002】0002

【従来の技術】縦書き及び横書きの文書を自動的に読み
取る場合には、文字の認識処理に先立って入力文書にお
ける文字列の方向を判別し、正しい読み取り方向を決定
する必要がある。従来の文字列方向判別方式および装置
は、行間より字間が小さいという印刷文書に対する経験
的事実から、入力文書から字間と行間を推定し、これら
を比較することにより実現されている。
2. Description of the Related Art When automatically reading documents written vertically or horizontally, it is necessary to determine the direction of character strings in the input document and determine the correct reading direction prior to character recognition processing. Conventional character string direction determination methods and devices are realized by estimating character spacing and line spacing from an input document and comparing them based on the empirical fact for printed documents that character spacing is smaller than line spacing.

【0003】ところで、近年ワードプロセッサやDTP
システムが普及したことで、手軽に印刷文書が作成でき
るようになっている。こうして作成された文書は同じサ
イズの用紙を使っていても、作成者によって字間や行間
の大きさの関係はまちまちであり、必ずしも”字間<行
間”という関係が成り立つとはいえない。このような場
合には単純に「字間は行間よりも小さい」という性質を
前提とした文字列方向判別方式では、判別誤りが生じて
しまうという問題点があった。
By the way, in recent years word processors and DTP
As systems have become more widespread, it has become easier to create printed documents. Even if the documents created in this way use the same size paper, the relationship between the sizes of the character spacing and line spacing varies depending on the creator, and it cannot necessarily be said that the relationship ``character spacing < line spacing'' holds true. In such cases, a character string direction determination method that simply assumes the property that ``the character spacing is smaller than the line spacing'' has a problem in that a determination error occurs.

【0004】0004

【発明が解決しようとする課題】従来の文字列方向判別
方式及び装置では、字間よりも行間の方が広いという経
験的事実に基づき文字列方向の判別を行なっていたため
、わずかでも字間が行間より大きい文書の文字列方向を
判別する場合に正しく判別することができないという問
題点があった。
[Problem to be Solved by the Invention] Conventional character string direction determination methods and devices have determined the character string direction based on the empirical fact that the line spacing is wider than the character spacing. There has been a problem in that it is not possible to correctly determine the direction of character strings in documents that are larger than the line spacing.

【0005】本発明は上記の問題点に鑑みなされたもの
で、字間が行間より大きい文書を読み込む場合でも、文
字列の方向を正確に判別できる文字列方向判別方式及び
文字列方向判別装置を提供することを目的とする。 [発明の構成]
The present invention has been made in view of the above problems, and provides a character string direction determining method and a character string direction determining device that can accurately determine the direction of character strings even when reading a document in which the character spacing is larger than the line spacing. The purpose is to provide. [Structure of the invention]

【0006】[0006]

【課題を解決するための手段】本発明は、入力された画
像データから文字候補矩形を抽出し、水平方向及び垂直
方向に隣接する文字候補矩形間の距離を求めて、文字候
補矩形に占有されないデータ領域の状態を検出する手段
と、前記検出されたデータ領域の状態から文字列方向を
判別する手段とを有することを特徴をする文字列方向判
別方式、およびこのような文字列方向判別方法により文
字列方向判別を行なうことを特徴とする文字列方向判別
装置を提供する。
[Means for Solving the Problems] The present invention extracts character candidate rectangles from input image data, calculates the distance between character candidate rectangles that are adjacent to each other in the horizontal and vertical directions, and calculates the distance between character candidate rectangles that are not occupied by the character candidate rectangles. A character string direction determination method characterized by having means for detecting a state of a data area, and means for determining a character string direction from the detected state of the data area, and such a character string direction determination method A character string direction determining device is provided, which is characterized by performing character string direction determination.

【0007】[0007]

【作用】本発明によれば、水平方向及び垂直方向の文字
並びの度合を抽出し、水平方向及び垂直方向の文字並び
の度合の抽出結果により入力文書の文字列以外の部分、
いわゆる空白行(あるいは空白列)の部分の状態を検出
することにより文字列の方向を判別するため、字間が行
間より大きい文書の場合を含む様々な文書において文字
列方向を正しく判別することができる。
[Operation] According to the present invention, the degree of character arrangement in the horizontal and vertical directions is extracted, and based on the extraction result of the degree of character arrangement in the horizontal and vertical directions, parts other than character strings of the input document,
Since the direction of the character string is determined by detecting the state of so-called blank lines (or blank columns), it is possible to correctly determine the direction of the character string in various documents, including documents where the character spacing is larger than the line spacing. can.

【0008】[0008]

【実施例】以下、図面に基づいて本発明の一実施例につ
いて説明する。図1は本発明の文字列方向判別方式を説
明するためのブロック図である。まず本発明の文字列方
向判別方式の手続きを概説する。
DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram for explaining the character string direction determination method of the present invention. First, the procedure of the character string direction determination method of the present invention will be outlined.

【0009】イメージスキャナー等の画像入力装置で入
力された入力画像に対して、「黒連結矩形生成部」1で
、画像情報のうち黒点の連結している部分の外接矩形を
抽出する。抽出された黒連結部分の外接矩形をもとに「
文字の大きさ推定部」2により、出現頻度の大きい黒連
結矩形の矩形サイズ、あるいは平均的な黒連結矩形の矩
形サイズを、その入力文書における文字矩形の大きさと
推定する。文字矩形の大きさが推定されると、「文字候
補矩形抽出部」3にて、先に求めた黒連結部分の外接矩
形とその推定された文字矩形との矩形サイズを比較し、
その推定された文字矩形の矩形サイズに近い黒連結矩形
が文字候補矩形群として抽出される。
[0009] For an input image inputted by an image input device such as an image scanner, a "black connected rectangle generation unit" 1 extracts a circumscribing rectangle of a portion of the image information in which black points are connected. Based on the circumscribed rectangle of the extracted black connected part,
The character size estimating unit 2 estimates the rectangular size of frequently occurring black connected rectangles or the average rectangular size of black connected rectangles as the size of character rectangles in the input document. When the size of the character rectangle is estimated, the "character candidate rectangle extraction unit" 3 compares the rectangle size of the previously obtained circumscribed rectangle of the black connected part and the estimated character rectangle,
Black connected rectangles close to the rectangular size of the estimated character rectangle are extracted as a character candidate rectangle group.

【0010】「文字間スペース推定部」4では、抽出さ
れた文字候補矩形群から垂直方向及び水平方向に隣合っ
た文字候補矩形ペアについて、それぞれ垂直方向及び水
平方向の文字候補矩形間の距離を算出し、この距離に統
計処理を施すことにより例えば最頻値あるいは平均値を
、その入力文書における垂直方向または水平方向の文字
間スペースの大きさとして推定する。この垂直方向の文
字間スペースと水平方向の文字間スペースの大きさとを
比較することにより、文字間スペースの間隔が狭い方向
に連続して文字が並んでいるとして、「第1文字列方向
判別部」5にて文字列方向の判別を行なう。すなわち第
1文字列方向判別部では、垂直方向の文字間スペースと
水平方向の文字間スペースとを比較し、垂直方向の文字
間スペースが水平方向の文字間スペースよりもある設定
値より大きい場合は入力文書の文字列方向が水平方向で
あると判別し、水平方向の文字間スペースが垂直方向の
文字間スペースよりもある設定値より大きい場合は入力
文書の文字列方向が垂直方向であると判別し、垂直方向
の文字間スペースと水平方向の文字間スペースとの大き
さの差がある設定値以下である場合には、文字方向の判
別をすることなく次のステップに移る。
The "intercharacter space estimating unit" 4 calculates the distance between character candidate rectangles in the vertical and horizontal directions for pairs of character candidate rectangles that are adjacent in the vertical and horizontal directions from the extracted character candidate rectangle group. By performing statistical processing on this distance, for example, the mode or average value is estimated as the size of the space between characters in the vertical or horizontal direction in the input document. By comparing the vertical character spacing with the horizontal character spacing, it is determined that the characters are consecutively arranged in the direction with the narrowest character spacing. ”5, the direction of the character string is determined. In other words, the first character string direction determination section compares the vertical character spacing with the horizontal character spacing, and if the vertical character spacing is larger than the horizontal character spacing by a certain setting value, Determines that the character string direction of the input document is horizontal, and if the horizontal space between characters is larger than the vertical character space by a certain setting value, determines that the character string direction of the input document is vertical. However, if the difference in size between the vertical character space and the horizontal character space is less than a certain set value, the process moves to the next step without determining the character direction.

【0011】例えば図2にように、文字候補矩形が水平
方向、垂直方向にほぼ同程度の字間で並んでいる場合は
、前述の第1文字列方向判別部では文字列方向が判別さ
れずに、「文字並びの度合抽出部」6にデータが送られ
て詳細判別を行なう。ここでは、入力された文書の「段
落の終わり」の後続の空白部分(図の斜線で示した部分
)以外の部分の文字並びの状態を数値化することにより
、その文書の文字列の方向を推定し判別する。隣接する
文字候補矩形の間隔が文字間スペース推定部4で推定し
た文字間スペースよりもある程度以上大きくならない文
字候補矩形ペアの数を数えることにより行なう。
For example, as shown in FIG. 2, when character candidate rectangles are arranged horizontally and vertically with approximately the same character spacing, the first character string direction determination section described above does not determine the character string direction. Then, the data is sent to the "character sequence degree extraction section" 6 for detailed determination. Here, we can determine the direction of character strings in an input document by quantifying the state of the character arrangement in areas other than the blank area following the "end of the paragraph" (the shaded area in the figure). Estimate and determine. This is done by counting the number of character candidate rectangle pairs in which the interval between adjacent character candidate rectangles is not larger than the intercharacter space estimated by the intercharacter space estimating section 4 by more than a certain degree.

【0012】図3は図2に示した斜線部分を拡大したも
のである。ここで文字候補矩形Aについて注目する。文
字候補矩形Aと水平方向に隣接する文字候補矩形aある
いはcとは、推定される水平方向文字間スペースとほぼ
等しい距離で隣接して並んでいると考えられる。これら
の文字候補矩形ペアは、「水平方向の文字並びの度合」
に計数される。また文字候補矩形Aに対して図面向かっ
て下方向に隣接する文字候補矩形bとの距離も、推定さ
れる垂直方向文字間スペースとほぼ等しいと考えられる
。この文字候補矩形ペアは、「垂直方向の文字並びの度
合」に計数される。
FIG. 3 is an enlarged view of the shaded area shown in FIG. Here, we will focus on character candidate rectangle A. Character candidate rectangle A and character candidate rectangle a or c horizontally adjacent to each other are considered to be adjacent to each other at a distance approximately equal to the estimated horizontal intercharacter space. These character candidate rectangle pairs are determined by the "degree of horizontal character alignment"
is counted. Further, the distance between character candidate rectangle A and character candidate rectangle b adjacent to it in the downward direction in the drawing is also considered to be approximately equal to the estimated vertical space between characters. This pair of character candidate rectangles is counted as the "degree of vertical character arrangement."

【0013】これに対し文字候補矩形Aに対して図面向
かって上方向に隣接する文字候補矩形dとは1つの文字
候補矩形の大きさ以上の広い間隔が空いているため、推
定される垂直方向文字間スペースよりもある程度以上大
きい間隔を示す文字候補矩形ペアとして垂直方向の文字
並びの度合には計数されない。この計数作業を全ての文
字候補矩形ペアについて行なう。図2で斜線で示した部
分に隣接する文字候補矩形について考えると、互いに垂
直方向に隣接する文字候補矩形同士の距離が一文字候補
矩形以上あるため、これらをそれぞれ垂直方向の文字並
びの度合に計数されない。図面に示す水平方向に長い空
白行は垂直方向のみ計数され、水平方向計数されないの
で、これらの計数値の大小関係から文字列の接続方向を
判別することができる。
On the other hand, the character candidate rectangle d adjacent to the character candidate rectangle A in the upward direction in the drawing is spaced apart from the character candidate rectangle by a distance larger than the size of one character candidate rectangle. Character candidate rectangular pairs exhibiting an interval larger than the inter-character space to a certain extent are not counted in the degree of character arrangement in the vertical direction. This counting operation is performed for all character candidate rectangle pairs. Considering the character candidate rectangles adjacent to the shaded area in Figure 2, since the distance between character candidate rectangles that are vertically adjacent to each other is at least one character candidate rectangle, these are each counted as the degree of vertical character arrangement. Not done. Since the horizontally long blank lines shown in the drawings are counted only in the vertical direction and not in the horizontal direction, the connection direction of the character strings can be determined from the magnitude relationship of these counted values.

【0014】この方法によれば、垂直方向の文字間スペ
ースと水平方向の文字間スペースとの大きさの差により
文字方向を判別することが困難な場合にも、精度の高い
文字方向判別を行なうことが可能となる。以下各構成部
分での動作を詳述する。
According to this method, even when it is difficult to determine the character direction due to the difference in the size of the vertical character space and the horizontal character space, character direction can be determined with high accuracy. becomes possible. The operation of each component will be explained in detail below.

【0015】黒連結矩形生成部1では、入力画像の黒地
データに注目して、連続した黒地データの形状に外接す
る矩形を生成し、この矩形の座標をデータとして求める
働きをする。入力画像はイメージスキャナー等の読み取
り装置の走査ピッチに対応して白、黒2値のデータとし
て取り込まれている。例えば、取り込まれた入力画像に
XY座標系を設け、X方向に走査して黒地データを検出
する。そして最初に黒地データが検出されると、このデ
ータと垂直、水平方向に隣接する部分に黒地データが存
在しないかを検出する。隣接する部分に黒地データが存
在する場合には、さらに連続する部分に黒地データが存
在しないかどうか検出を続け、隣接する部分に黒地デー
タが存在しない場合には、そこで黒地データの検出をや
める。そして全ての隣接する部分について連続する黒地
部分が検出されなくなった時点で、この連続する黒地部
分の形状に外接するような矩形を生成する。黒連結矩形
の生成例を図4に示す。そしてこの黒地部分に外接する
黒連結矩形の座標をデータとして求める。こうして入力
画像から得られた全ての画像データに対して、水平方向
及び垂直方向に2次元的に黒地データの検出、走査を行
なう。求められた全ての黒連結矩形の座標データ、矩形
の水平、垂直方向の辺の長さのデータを、幅wおよび高
さhとして取り込み(図5参照)、文字の大きさ推定部
2にデータを渡す。この場合に黒連結矩形の座標データ
は矩形の1角の座標と水平、垂直方向の2辺の長さとす
ることも、矩形の対角に位置する2角の座標とすること
も可能であり、また矩形の4角の座標をデータとしても
よい。
The black connected rectangle generation unit 1 focuses on the black background data of the input image, generates a rectangle that circumscribes the shape of the continuous black background data, and calculates the coordinates of this rectangle as data. The input image is captured as binary white and black data corresponding to the scanning pitch of a reading device such as an image scanner. For example, an XY coordinate system is provided in the captured input image, and black background data is detected by scanning in the X direction. When black background data is first detected, it is detected whether black background data exists in a portion adjacent to this data in the vertical and horizontal directions. If black background data exists in an adjacent portion, detection is continued to see if black background data exists in a further continuous portion, and if black background data does not exist in an adjacent portion, detection of black background data is stopped there. Then, when a continuous black background part is no longer detected for all adjacent parts, a rectangle that circumscribes the shape of the continuous black background part is generated. FIG. 4 shows an example of generating black connected rectangles. Then, the coordinates of a black connected rectangle circumscribing this black background portion are obtained as data. In this way, black background data is detected and scanned two-dimensionally in the horizontal and vertical directions for all image data obtained from the input image. The coordinate data of all the obtained black connected rectangles and the horizontal and vertical side length data of the rectangles are imported as width w and height h (see Fig. 5), and the data is sent to the character size estimation unit 2. give. In this case, the coordinate data of the black connected rectangle can be the coordinates of one corner of the rectangle and the lengths of two sides in the horizontal and vertical directions, or the coordinates of two corners located diagonally of the rectangle, Alternatively, the coordinates of the four corners of the rectangle may be used as data.

【0016】文字の大きさ推定部2では、黒連結矩形生
成部で得られた黒連結矩形の幅w、高さhから、その入
力文書の本文を構成する文字矩形の大きさを推定する。 これは得られた黒連結矩形の幅w、高さhをデータとし
て用い、それぞれ最も出現頻度の大きい値(あるいは平
均値)を入力文書の本文を構成する文字の外接矩形の幅
Wと高さHの推定値として用いる。この場合に、文字候
補矩形の大きさを推定する際に、文字矩形の幅w、高さ
hはそれぞれ独立に用いることにより推定可能である。 この段階でw、hについてある設定値よりも大きいもの
、あるいは別の設定値よりも小さいものを除去すること
も可能である。
The character size estimating unit 2 estimates the size of a character rectangle constituting the main text of the input document from the width w and height h of the black connected rectangle obtained by the black connected rectangle generation unit. This uses the width w and height h of the obtained black connected rectangle as data, and calculates the width W and height of the circumscribed rectangle of the characters that make up the main text of the input document, respectively, and calculates the value with the highest frequency of appearance (or average value). Used as an estimated value of H. In this case, when estimating the size of a character candidate rectangle, the width w and height h of the character rectangle can be estimated by using each independently. At this stage, it is also possible to remove w and h that are larger than a certain set value or smaller than another set value.

【0017】この操作をすることにより入力文書と無関
係の紙面の汚れ、斑点等を排除することができるととも
に、挿入図面、見出し等の文字データよりも比較的大き
な画像データを除くことができる。
By performing this operation, it is possible to eliminate dirt, spots, etc. on the paper surface that are unrelated to the input document, and it is also possible to eliminate image data that is relatively larger than character data such as inserted drawings and headings.

【0018】次に、文字候補矩形抽出部3において、文
字の大きさの推定部2で仮定した外接矩形の幅Wと高さ
Hを用いて、データとして取り込んだ黒連結矩形のうち
文字候補矩形として用いるものを選別する。これは、 
 W×n1   <  w  <  W×n2    
 (ただし0<n1 <n2 )…式1と   H×n3   <  h  <  H×n4   
  (ただし0<n3 <n4 )…式2なる条件式を
ともに満足するものを選び出すことにより行なわれる。
Next, the character candidate rectangle extraction unit 3 uses the width W and height H of the circumscribing rectangle assumed by the character size estimation unit 2 to extract character candidate rectangles from among the black connected rectangles taken in as data. Select those to be used as this is,
W×n1 < w < W×n2
(However, 0<n1 <n2)...Formula 1 and H×n3 < h < H×n4
(However, 0<n3<n4)...This is performed by selecting those that both satisfy the conditional expression 2.

【0019】ここでn1 、n2 、n3 、n4 は
ある定数を表わす。例えば、n1 =n3 =0.2、
n2 =n4 =4なる値をとるものとする。この作業
を行なうことにより、文字候補矩形として適当でない「
文字の一部分」あるいは差入れられている図面等の黒連
結矩形を取り除くことができる。
Here, n1, n2, n3, and n4 represent certain constants. For example, n1 = n3 = 0.2,
It is assumed that n2 = n4 = 4. By performing this process, you can create "
You can remove "parts of text" or black connecting rectangles such as inserted drawings.

【0020】続いて、文字間スペース推定部4において
、文字候補矩形抽出部3において選び出された文字候補
矩形から水平方向の文字間スペースと垂直方向の文字間
スペースを推定する。この推定部の動作を説明するため
に図6を参照する。これは本実施例に説明する文字候補
矩形抽出部3までの手順により抽出された文字候補矩形
のうち、ある文字候補矩形iと、これと水平方向に隣接
する文字候補矩形jを表わしたものである。文字候補矩
形iの左上角の座標を(xi1,yi1)、右下角の座
標を(xi2,yi2)とし、文字候補矩形jの左上角
の座標を(xi1,yi1)、右下角の座標を(xj2
,yj2)とする。このときに水平方向の文字間スペー
スを推定するために、文字間スペース推定部4では、 
 min(yi2,yj2)−max(yi1,yj1
)>H×α  …式3(ただしmin(a,b)は、a
,bのうち値の小さい方を表わす。)(またmax(a
,b)は、a,bのうち値の大きい方を表わす。)の条
件を満たす文字矩形候補ペアを検出する。ここでHは文
字の大きさ推定部2で推定された文字の高さであり、α
はある定数、例えばα=1/3とする。
Next, a character space estimating section 4 estimates a horizontal character space and a vertical character space from the character candidate rectangle selected by the character candidate rectangle extraction section 3. Refer to FIG. 6 to explain the operation of this estimator. This represents a certain character candidate rectangle i and a character candidate rectangle j horizontally adjacent thereto among the character candidate rectangles extracted by the steps up to the character candidate rectangle extraction unit 3 described in this embodiment. be. The coordinates of the upper left corner of character candidate rectangle i are (xi1, yi1), the coordinates of the lower right corner are (xi2, yi2), and the coordinates of the upper left corner of character candidate rectangle j are (xi1, yi1), and the coordinates of the lower right corner are (xi1, yi1). xj2
, yj2). At this time, in order to estimate the character space in the horizontal direction, the character space estimation unit 4 performs the following steps.
min(yi2, yj2)-max(yi1, yj1
)>H×α...Formula 3 (however, min(a, b) is a
, b, whichever has the smaller value. ) (also max(a
, b) represents the larger value of a and b. ) Detect character rectangle candidate pairs that satisfy the conditions. Here, H is the height of the character estimated by the character size estimation unit 2, and α
is a certain constant, for example α=1/3.

【0021】この条件は水平方向に隣接する文字候補矩
形ペアのうち垂直方向へのずれが小さいもののみを選別
するためのものであり、この条件により隣接する文字候
補矩形ペアのうち垂直方向に大きくずれているものを、
不適当な文字候補矩形ペアとして除去する。そして式3
の条件を満足する文字候補矩形ペアについて、その文字
候補矩形ペアの文字候補矩形間水平距離(xj1−xi
2)を求める。この文字候補矩形間水平距離は入力文書
の文字候補矩形ペアから求められるもので、水平方向の
文字間を推定するためのデータとなる。この作業を抽出
された全ての文字候補矩形に対して行ない、求められた
文字候補矩形間水平距離のうち、出現頻度の最も高い値
(あるいは平均値)を求め、これを水平方向文字間スペ
ースHSと推定する。
This condition is for selecting only those pairs of character candidate rectangles that are adjacent in the horizontal direction and have a small deviation in the vertical direction. What is out of place,
Remove them as inappropriate character candidate rectangle pairs. and formula 3
For a character candidate rectangle pair that satisfies the condition, the horizontal distance between character candidate rectangles of the character candidate rectangle pair (xj1-xi
Find 2). This horizontal distance between character candidate rectangles is obtained from a pair of character candidate rectangles in the input document, and serves as data for estimating the distance between characters in the horizontal direction. This process is performed for all extracted character candidate rectangles, and among the horizontal distances between the character candidate rectangles, the value (or average value) with the highest frequency of appearance is determined, and this is calculated as the horizontal distance between characters. It is estimated that

【0022】また同様に、この推定部の動作を説明する
ために図7を参照する。これは本実施例に説明する文字
候補矩形抽出部3までの手順により抽出された文字候補
矩形のうち、ある文字候補矩形iと、これと垂直方向に
隣接する文字候補矩形jを表わしたものである。文字候
補矩形iの左上角の座標を(xi1,yi1)、右下角
の座標を(xi2,yi2)とし、文字候補矩形jの左
上角の座標を(xi1,yi1)、右下角の座標を(x
j2,yj2)とする。このときに垂直方向の文字間ス
ペースを推定するために、   min(xi2,xj2)−max(xi1,xj
1)>W×α  …式4(ただしmin(a,b)は、
a,bのうち値の小さい方を表わす。)(またmax(
a,b)は、a,bのうち値の大きい方を表わす。)の
条件を満たす文字矩形候補ペアを検出する。ここでWは
文字の大きさ推定部2で推定された文字の幅であり、α
はある定数、例えばα=1/3とする。この条件は垂直
方向に隣接する文字候補矩形ペアの中で水平方向へのず
れが小さいものを選別するためのものであり、この条件
により隣接する文字候補矩形ペアのうち水平方向に大き
くずれているものを、不適当な文字候補矩形ペアとして
除去する。そして式4の条件を満足する文字候補矩形ペ
アについて、その文字候補矩形ペアの文字候補矩形間垂
直距離(yj1−yi2)を求める。この文字候補矩形
間垂直距離は入力文書の文字候補矩形から求められた垂
直方向の文字間を推定するためのデータとなる。この作
業を抽出された全ての文字候補矩形に対して行ない、求
められた文字候補矩形間垂直距離のうち、出現頻度の最
も高い値(あるいは平均値)を求め、これを垂直方向文
字間スペースVSと推定する。
Similarly, reference will be made to FIG. 7 to explain the operation of this estimator. This represents a character candidate rectangle i and a character candidate rectangle j vertically adjacent thereto among the character candidate rectangles extracted by the steps up to the character candidate rectangle extraction unit 3 described in this embodiment. be. The coordinates of the upper left corner of character candidate rectangle i are (xi1, yi1), the coordinates of the lower right corner are (xi2, yi2), and the coordinates of the upper left corner of character candidate rectangle j are (xi1, yi1), and the coordinates of the lower right corner are (xi1, yi1). x
j2, yj2). At this time, in order to estimate the vertical character space, min(xi2, xj2)-max(xi1, xj
1)>W×α...Formula 4 (however, min(a, b) is
Represents the smaller value of a and b. ) (also max(
a, b) represents the larger value of a and b. ) Detect character rectangle candidate pairs that satisfy the conditions. Here, W is the width of the character estimated by the character size estimation unit 2, and α
is a certain constant, for example α=1/3. This condition is to select characters that have a small horizontal deviation among vertically adjacent character candidate rectangle pairs, and this condition selects characters that have a large horizontal deviation among adjacent character candidate rectangle pairs. are removed as inappropriate character candidate rectangle pairs. Then, for a pair of character candidate rectangles that satisfy the condition of Equation 4, the vertical distance between character candidate rectangles (yj1-yi2) of the pair of character candidate rectangles is determined. This vertical distance between character candidate rectangles becomes data for estimating the vertical distance between characters obtained from the character candidate rectangles of the input document. This process is performed for all extracted character candidate rectangles, and among the vertical distances between the character candidate rectangles, the value (or average value) with the highest frequency of appearance is calculated, and this value is calculated as the vertical intercharacter space VS We estimate that.

【0023】ここで文字間スペース推定部4における作
業を効率よく行なうために、以下の動作を加えてもよい
。文字間スペース推定部において水平方向文字間スペー
スHSを推定するための作業を開始する前に、文字候補
矩形抽出部3で抽出された文字候補矩形全てについて、
文字候補矩形の左上角のx座標の値を基準として昇順の
ソートを行なう。この結果文字候補矩形はx座標の小さ
い順に順序づけられるので、ある文字候補矩形iに対し
て水平方向に隣接する隣接文字候補矩形jは必ず文字候
補矩形iより後に出現することになる。したがって、文
字候補矩形iに対して水平水平方向に隣接する文字候補
矩形を探索する場合には、文字候補矩形iの後方に続く
文字候補矩形について探索を始めることができるので、
探索を開始して最初に式3の条件を満足する文字候補矩
形が発見された場合には、これを水平方向の文字候補矩
形間距離(xj1ーxj2)とすることができる。
In order to efficiently perform the work in the character space estimating section 4, the following operation may be added. Before starting the work for estimating the horizontal character space HS in the character space estimating unit, for all character candidate rectangles extracted by the character candidate rectangle extraction unit 3,
Sorting is performed in ascending order based on the x-coordinate value of the upper left corner of the character candidate rectangle. As a result, character candidate rectangles are ordered in descending order of x-coordinate, so that an adjacent character candidate rectangle j horizontally adjacent to a certain character candidate rectangle i always appears after character candidate rectangle i. Therefore, when searching for character candidate rectangles adjacent to character candidate rectangle i in the horizontal direction, the search can be started for character candidate rectangles following character candidate rectangle i.
When a character candidate rectangle that satisfies the condition of Equation 3 is first found after starting the search, this can be used as the distance between character candidate rectangles in the horizontal direction (xj1-xj2).

【0024】同様に文字間スペース推定部において垂直
方向文字間スペースVSを推定するための作業を開始す
る前に、文字候補矩形抽出部3で抽出された文字候補矩
形全てについて、文字候補矩形の左上角のy座標の値を
基準として昇順のソートを行なう。この結果文字候補矩
形はy座標の小さい順に順序づけられるので、ある文字
候補矩形iに対して垂直方向に隣接する隣接文字候補矩
形jは必ず文字候補矩形iより後に出現することになる
。したがって、文字候補矩形iに対して垂直方向に隣接
する文字候補矩形を探索する場合には、文字候補矩形i
の後方に続く文字候補矩形について探索を始めることが
できるので、探索を開始して最初に式4の条件を満足す
る文字候補矩形が発見された場合には、これを垂直方向
の文字候補矩形間距離(yj1ーyj2)とすることが
できる。
Similarly, before starting the work for estimating the vertical inter-character space VS in the inter-character space estimating section, for all the character candidate rectangles extracted by the character candidate rectangle extraction section 3, the upper left corner of the character candidate rectangle is Sort in ascending order based on the y-coordinate value of the corner. As a result, character candidate rectangles are ordered in ascending order of y coordinate, so that an adjacent character candidate rectangle j that is vertically adjacent to a certain character candidate rectangle i always appears after character candidate rectangle i. Therefore, when searching for a character candidate rectangle vertically adjacent to character candidate rectangle i, character candidate rectangle i
Since the search can be started for the character candidate rectangles that follow the The distance can be (yj1-yj2).

【0025】第1文字列方向判別部5では、文字間スペ
ース推定部4で抽出された水平方向文字間スペースHS
と垂直方向文字間スペースVSの値の大きさを比較する
。これは通常の文章では意味のつながりがある方向に文
字の間隔が狭く並んでおり、意味的につながりのない方
向に文字の間隔が広く並んでいるという、経験則に基づ
いている。即ち図8に示すように、 VS>HS+th1  …式5 が成り立つ領域(すなわち領域1)では、入力文書にお
ける文字列方向を水平方向即ち横書きであると判断し、
VS<HS+th2  …式6 が成り立つ領域(すなわち領域3)では、入力文書にお
ける文字列方向を垂直方向即ち縦書きであると判断する
。そして、 th2<(VS−HS)<th1  …式7が成り立つ
領域(すなわち領域2)の場合には判別不能とする。こ
こでth1、th2はあるしきい値とし、本方式ではt
h1、th2の大きさまで、字間が行間より大きいこと
を許す。このようにして入力文書の文字列方向を判別す
ることにより、入力文書の文字列が水平方向につながっ
ているか、垂直方向につながっているか、若しくは判別
不能であるかを判別する。ただしVS=HS+th1…
式8 の条件を満たす場合を、領域1または領域2のいずれか
に含めるよう予め定めるものとする。また、VS=HS
+th2…式9 の条件を満たす場合を、領域2または領域3のいずれか
に含めるよう予め定めるものとする。
The first character string direction determining unit 5 determines the horizontal character space HS extracted by the character space estimating unit 4.
and the vertical character space VS are compared. This is based on the empirical rule that in normal sentences, the spacing between letters is narrower in the direction where there is a semantic connection, and the spacing between the letters is wider in the direction where there is no semantic connection. That is, as shown in FIG. 8, in the area where VS>HS+th1...Equation 5 holds (ie, area 1), the character string direction in the input document is determined to be horizontal, that is, horizontal writing,
VS<HS+th2...In a region (ie, region 3) where Equation 6 holds true, the character string direction in the input document is determined to be vertical, that is, vertical writing. Then, th2<(VS-HS)<th1...In the case of a region where Equation 7 holds true (ie, region 2), it is assumed that discrimination is impossible. Here, th1 and th2 are set to certain threshold values, and in this method, t
The character spacing is allowed to be larger than the line spacing up to the size of h1 and th2. By determining the character string direction of the input document in this manner, it is determined whether the character strings of the input document are connected horizontally, vertically, or cannot be determined. However, VS=HS+th1...
It is predetermined that the case where the condition of Equation 8 is satisfied is included in either region 1 or region 2. Also, VS=HS
+th2...The case where the condition of formula 9 is satisfied is predetermined to be included in either region 2 or region 3.

【0026】第1文字列方向判別部5で判別不能と判断
した場合には、文字並びの度合抽出部6で水平方向の文
字並びの度合と、垂直方向の文字並びの度合を抽出する
。この文字並びの度合はその方向における文字列らしさ
を数値化したものである。例えば、図6のように互いに
水平方向に隣接している文字候補矩形について、  m
in(yi2,yj2)−max(yi1,yj1)>
H×β  …式8及び xj1−xi2<HS+th2   …式9を満たすよ
うな文字候補矩形ペアを計数する。この計数値を水平方
向における文字並びの度合HCとする。また図7のよう
に、互いに垂直方向に隣接している文字候補矩形が、   min(xi2,xj2)−max(xi1,xj
1)>W×β  …式10及び yj1―yi2<VS+th3   …式11を満たす
ような文字候補矩形ペアを計数する。この計数値を垂直
方向における文字並びの度合VCとする。ここで例えば
β=1/2としてもよい。th2 、th3 はしきい
値である。この値は抽出された文字候補矩形の水平方向
、垂直方向の大きさの分布がある程度の幅をもっており
、またそのようにして抽出された文字候補矩形の間隔も
一様であるとは限らないことから、その幅に対して誤っ
た判断を下すことが少なくなるように冗長係数を足し合
わせることとしたものである。これらの判別式の意味す
るところは以下の通りである。式10の意味するところ
は、垂直方向に隣接する文字候補矩形ペアの中で水平方
向へのずれが小さいものを選別するためのものであり、
垂直方向に隣接する文字候補矩形ペアのうち水平方向に
大きくずれているものを、不適当な文字候補矩形ペアと
して除去することである。また式11の意味するところ
は、垂直方向に隣接する文字候補矩形ペアの文字間距離
(yj1−yi2)が、文字間スペース推定部4で推定
した垂直方向文字間スペースVSと比較してある程度以
上大きくない文字候補矩形ペアである関係を有するとい
うことである。すなわち式10と式11の条件により、
垂直方向に隣合った文字候補矩形ペアについて(式8の
条件に対応)、文字候補矩形間の距離が垂直方向文字間
スペースVSよりも大きい関係をもつ文字候補矩形ペア
を垂直方向における文字並びの度合VCに計数しないこ
とになる。
If the first character string direction determining unit 5 determines that the character string cannot be determined, the character sequence degree extraction unit 6 extracts the horizontal character sequence degree and the vertical character sequence degree. The degree of character arrangement is a numerical representation of the character string-likeness in that direction. For example, for character candidate rectangles that are horizontally adjacent to each other as shown in FIG.
in(yi2, yj2)-max(yi1, yj1)>
Count character candidate rectangle pairs that satisfy H×β...Equation 8 and xj1-xi2<HS+th2...Equation 9. This count value is defined as the degree of character arrangement in the horizontal direction HC. Further, as shown in FIG. 7, character candidate rectangles that are vertically adjacent to each other are min(xi2, xj2)-max(xi1, xj
1) Count character candidate rectangle pairs that satisfy Equation 10 and yj1-yi2<VS+th3 Equation 11. This count value is defined as the degree of character arrangement in the vertical direction VC. Here, for example, β may be set to 1/2. th2 and th3 are threshold values. This value indicates that the horizontal and vertical size distribution of the extracted character candidate rectangles has a certain width, and that the intervals between the extracted character candidate rectangles are not necessarily uniform. Therefore, it was decided to add redundancy coefficients to reduce the possibility of making incorrect judgments regarding the width. The meanings of these discriminants are as follows. The meaning of Equation 10 is to select a pair of character candidate rectangles that are vertically adjacent and have a small deviation in the horizontal direction.
Among character candidate rectangle pairs adjacent in the vertical direction, those that are largely shifted in the horizontal direction are removed as inappropriate character candidate rectangle pairs. In addition, what Equation 11 means is that the distance between characters (yj1-yi2) of a pair of vertically adjacent character candidate rectangles is a certain amount or more compared to the vertical character space VS estimated by the character space estimation unit 4. This means that they have a relationship as a pair of character candidate rectangles that are not large. That is, according to the conditions of equations 10 and 11,
For pairs of character candidate rectangles that are adjacent in the vertical direction (corresponding to the condition of Equation 8), pair of character candidate rectangles in which the distance between the character candidate rectangles is larger than the vertical intercharacter space VS is defined as the character arrangement in the vertical direction. It will not be counted in the degree VC.

【0027】これにより垂直方向に隣接した文字候補矩
形ペアについて、垂直方向に1文字以上間隔が空いてい
る文字候補矩形ペアならば、垂直方向における文字並び
の度合VCに計数されない条件とすることができる。先
の式10と式11の条件によれば、βおよびth3 を
適当に設定することにより、空白行(または空白列)の
部分と文字列が連続して存在する部分とを区別すること
が可能となる。図9に文字候補矩形のみを抽出した入力
データの例を示す。垂直方向に隣接する文字候補矩形ペ
アのうち、文字候補矩形間距離が文字間スペース推定部
4で推定される行間程度の間隔であるもの(例えば文字
候補矩形a1 と文字候補矩形b1 )をVCに計数す
ることとし、文字候補矩形距離が文字間スペース推定部
4で推定される行間よりもかなり大きい間隔であるもの
、特に文字候補矩形一つ分よりも大きな間隔であるもの
(例えば文字候補矩形a4 と文字候補矩形c4 )を
VCに計数しないこととする。同様の動作を式8と式9
の条件について行ない、水平方向に存在する入力画像の
空白部分について水平方向における文字並びの度合HC
を計数する。
[0027] As a result, for a pair of character candidate rectangles that are adjacent in the vertical direction, if the pair of character candidate rectangles has an interval of one character or more in the vertical direction, the condition can be set such that the pair is not counted in the degree of character arrangement in the vertical direction VC. can. According to the conditions of Equations 10 and 11 above, by appropriately setting β and th3, it is possible to distinguish between a blank line (or blank column) and a continuous string. becomes. FIG. 9 shows an example of input data from which only character candidate rectangles are extracted. Among pairs of character candidate rectangles adjacent in the vertical direction, those whose distance between character candidate rectangles is approximately the same as the line spacing estimated by the character space estimation unit 4 (for example, character candidate rectangle a1 and character candidate rectangle b1) are sent to VC. The distance between character candidate rectangles is considerably larger than the line spacing estimated by the character space estimation unit 4, especially those whose distance is larger than one character candidate rectangle (for example, character candidate rectangle a4). and character candidate rectangle c4) are not counted as VC. Similar operations can be expressed as Equation 8 and Equation 9.
The degree of character arrangement in the horizontal direction HC for the blank part of the input image that exists in the horizontal direction
Count.

【0028】この作業を抽出された全ての文字候補矩形
について行ない、入力文書における空白部の状態を計測
する。図9に示したような水平方向に連続する空白部分
が存在する場合は、その空白部分の垂直方向に相隣接す
る文字候補矩形ペア(例えば文字候補矩形a4 とc4
 、あるいはa5 とc5)については、その部分の垂
直方向における文字並びの度合VCが計数されず、同様
に垂直方向に連続する空白部分が存在する場合は、その
部分の水平方向における文字並びの度合HCは計数され
ない。 これにより例えば入力文書の文字方向が水平方向である
場合に、「段落の終わり」に後続する空白行が存在すれ
ば、この部分ではVCよりもHCの方が多く計数される
。逆に入力文書の文字方向が垂直方向である場合に、「
段落の終わり」に後続する空白列が存在すれば、その部
分でHCよりもVCの方が多く計数される。したがって
HCがVCよりも大きな値であれば入力文書は水平方向
に文字が並んでおり、VCがHCよりも大きな値であれ
ば入力文書は垂直方向に文字が並んでいると判断をする
ことが可能となる。
This operation is performed for all extracted character candidate rectangles, and the state of blank areas in the input document is measured. When there is a blank area that is continuous in the horizontal direction as shown in FIG. 9, a pair of character candidate rectangles (for example, character candidate rectangles a4 and c4
, or a5 and c5), the degree of character arrangement in the vertical direction VC of that part is not counted, and similarly if there is a blank part that is continuous in the vertical direction, the degree of character arrangement in the horizontal direction of that part is counted. HC is not counted. As a result, for example, when the character direction of the input document is horizontal, if there is a blank line following the "end of paragraph", HC will be counted more than VC in this part. Conversely, if the text direction of the input document is vertical,
If there is a blank string following "End of Paragraph," VC is counted more than HC in that part. Therefore, if HC is larger than VC, it can be determined that the input document has characters arranged horizontally, and if VC is larger than HC, it can be determined that the input document has characters arranged vertically. It becomes possible.

【0029】そして第2文字列方向判別部7において、
文字並びの度合抽出部6で抽出されたHCとVCを比較
して最終的な文字列方向の判別を行う。ここでは、例え
ば、 HC−VC>γ1   …式12 (ただしγ1 は0以上の実数)であるとき、入力文書
の文字列方向を水平方向とし、また VC−HC>γ2 …式13 (ただしγ2 は0以上の実数)であるとき、入力文書
の文字列方向を垂直方向とする。そして式12、式13
の条件により判別することができないときは、最終的に
判別不能であるとする。以上により本発明の文字列方向
判別方式の手続きを終了する。
Then, in the second character string direction determining section 7,
The HC and VC extracted by the character arrangement degree extraction unit 6 are compared to determine the final direction of the character string. Here, for example, when HC-VC>γ1...Equation 12 (however, γ1 is a real number greater than or equal to 0), the character string direction of the input document is the horizontal direction, and VC-HC>γ2...Equation 13 (however, γ2 is (a real number greater than or equal to 0), the character string direction of the input document is set to be vertical. And equation 12, equation 13
If it cannot be determined based on these conditions, it is ultimately determined that it is impossible to determine. This completes the procedure of the character string direction determination method of the present invention.

【0030】図10は本発明を文書読取り装置11に適
用する場合のブロック図である。即ち文書画像入力部8
で入力された文書画像に対して文字列方向判別部9で文
字列方向を判別し、入力文書画像が水平方向に連続する
ものであるか、垂直方向に連続するものであるかを決定
して、その結果を後段の文書読み取り部10に供給する
。以上の処理の結果、入力文書の文字列方向が判別され
、その情報が文書読取り部10に供給されるが、情報の
内容は、文書読取り部10の制御方式によって異なる。 例えば、文書読取り部10が入力文書の文字列方向によ
って読取り方向が異なるような制御方式を採用している
ならば、文字列方向判別部9は文書読取り部10に、入
力文書画像と一緒に文字列方向の情報を供給する。また
、文書読取り部10が文書の読取り方向が一定であるよ
うに制御されているならば、読取り方向と文字列方向が
一致するように入力文書画像を変換して文書読取り部1
0に供給する。本実施例をまとめると以下のようになる
FIG. 10 is a block diagram when the present invention is applied to the document reading device 11. That is, the document image input section 8
The character string direction determining section 9 determines the character string direction for the input document image, and determines whether the input document image is continuous in the horizontal direction or continuous in the vertical direction. , and supplies the result to the subsequent document reading section 10. As a result of the above processing, the character string direction of the input document is determined and the information is supplied to the document reading section 10, but the content of the information differs depending on the control method of the document reading section 10. For example, if the document reading unit 10 adopts a control method in which the reading direction differs depending on the character string direction of the input document, the character string direction determination unit 9 will cause the document reading unit 10 to read the characters along with the input document image. Provides column-wise information. Furthermore, if the document reading section 10 is controlled so that the document reading direction is constant, the document reading section 10 converts the input document image so that the reading direction and the character string direction match.
Supply to 0. The present embodiment can be summarized as follows.

【0031】まず、入力文書の画像データから画像デー
タが連結している形状の外接矩形の大きさの分布を求め
、最も出現頻度の高い画像データ連結矩形の大きさをそ
の文書における文字の大きさと推定する。推定された文
字の大きさとほぼ等しい大きさの画像データ連結矩形を
文字候補矩形として選別し、この文字候補矩形の水平方
向、及び垂直方向の分布から、その文書の水平方向及び
垂直方向の文字間スペースの大きさを決定する。水平方
向の文字間スペースと垂直方向の文字間スペースの大き
さとを比較して、水平方向の文字間スペースが垂直方向
の文字間スペースよりも設定値以上大きい場合には、入
力された文書の文字列は垂直方向に並んでいると判別す
る。逆に、垂直方向の文字間スペースが水平方向の文字
間スペースよりも設定値以上大きい場合には、入力され
た文書の文字列は水平方向に並んでいると判別する。
First, the size distribution of the circumscribed rectangle of the shape in which the image data is connected is determined from the image data of the input document, and the size of the image data connection rectangle with the highest frequency of appearance is calculated based on the size of the characters in the document. presume. Image data concatenation rectangles with a size approximately equal to the estimated character size are selected as character candidate rectangles, and from the horizontal and vertical distribution of these character candidate rectangles, the horizontal and vertical character spacing of the document is determined. Determine the size of the space. Compare the horizontal character spacing with the vertical character spacing, and if the horizontal character spacing is greater than the vertical character spacing by more than the set value, the characters in the input document It is determined that the columns are arranged vertically. Conversely, if the vertical inter-character space is larger than the horizontal inter-character space by a set value or more, it is determined that the character strings of the input document are aligned in the horizontal direction.

【0032】次に、上記の条件で判別することができな
い場合には、その文書についての水平方向、垂直方向に
隣合った文字候補矩形同士の間隔と、先に決定した水平
方向及び垂直方向の文字間スペースとを比較して、これ
らの間隔がほぼ等しい文字候補矩形のペアの数を水平方
向、垂直方向それぞれについてカウントする。この操作
によりカウントされた計数値は、水平方向、垂直方向に
平均的な字間程度の間隔をおいて隣接する文字候補矩形
のペアの数を表わしており、例えば1つの文字候補矩形
の大きさ以上大きい間隔をおいて隣接する文字候補矩形
のペアを含まないものとしている。通常の文章において
は「段落の終わり」で改行されている部分等では空白行
(あるいは空白列)となるため、この部分は平均的な字
間程度の間隔をおいて隣接する文字候補矩形のペアとし
てカウントされない。したがって上記の動作により水平
方向、垂直方向についてカウントされた計数値の大きさ
を比較することにより、水平方向、垂直方向の文字候補
矩形の見かけ上の配置を識別し、入力された文書の文字
列方向の判別を行なう。すなわち水平方向についてカウ
ントされた計数値が、垂直方向についてカウントされた
計数値よりも設定値以上大きい場合には、文字列は水平
方向に並んでいると判別する。また垂直方向についてカ
ウントされた計数値が、水平方向についてカウントされ
た計数値よりも設定値以上大きい場合には、文字列は垂
直方向に並んでいると判別する。以上の動作により文字
列方向を適切に判別することができる。 (実施例2)
Next, if the above conditions cannot be used, the spacing between horizontally and vertically adjacent character candidate rectangles for the document and the previously determined horizontal and vertical directions are determined. The character spacing is compared and the number of pairs of character candidate rectangles with approximately equal spacing is counted in both the horizontal and vertical directions. The count value counted by this operation represents the number of pairs of character candidate rectangles that are adjacent to each other with an interval similar to the average character spacing in the horizontal and vertical directions.For example, the size of one character candidate rectangle Pairs of character candidate rectangles that are adjacent to each other at a distance greater than or equal to this distance are not included. In normal sentences, blank lines (or blank columns) occur in areas where there is a line break at the end of a paragraph, so this area consists of a pair of adjacent character candidate rectangles with an interval similar to the average character spacing. not counted as. Therefore, by comparing the sizes of the count values counted in the horizontal and vertical directions through the above operation, the apparent arrangement of character candidate rectangles in the horizontal and vertical directions can be identified, and the character strings of the input document can be identified. Determine direction. That is, if the count value counted in the horizontal direction is larger than the count value counted in the vertical direction by a set value or more, it is determined that the character strings are arranged in the horizontal direction. Further, if the count value counted in the vertical direction is greater than the count value counted in the horizontal direction by a set value or more, it is determined that the character strings are arranged in the vertical direction. The above operation makes it possible to appropriately determine the character string direction. (Example 2)

【0033】実施例1では、第1文字列方向判別部5に
おいて文字間スペース推定部4で抽出された水平方向文
字間スペースHSと垂直方向文字間スペースVSとの値
の大きさを比較することにより入力文書の文字列方向を
判別することとした。そこで判別に用いた条件式はそれ
ぞれ、 VS>HS+th1  …式5 VS<HS+th2  …式6 th2<(VS−HS)<th1  …式7VS=HS
+th1…式8 VS=HS+th2…式9 であったが、これらの条件式のかわりに以下の条件を用
いることも可能である。 VS>HS  …式5−2 及び VS/HS>th1’  …式5−3 が成り立つ領域(以下領域4とする)では、入力文書に
おける文字列方向を水平方向であると判断し、HS>V
S  …式6−2 及び HS/VS>th2’  …式6−3 が成り立つ領域(以下領域6とする)では、入力文書に
おける文字列方向を垂直方向であると判断する。そして
、 1/th2’<(VS/HS)<th1’  …式7−
2(ただしth2’≠0とする)が成り立つ領域(以下
領域5)の場合には判別不能とする。ここでth1’、
th2’はあるしきい値とする。このようにして入力文
書の文字列方向を判別することにより、入力文書の文字
列方向を水平方向であるか、垂直方向であるか、若しく
は判別不能であるかを判別する。ただし VS/HS=th1’…式8−2 の条件を満たす場合を、領域4または領域5のいずれか
に含めるよう予め定めるものとする。また、HS/VS
=th2’…式9−2 の条件を満たす場合を、領域5または領域6のいずれか
に含めるよう予め定めるものとする。このような判別式
を用いても、上記説明した実施例と同様の効果を得るこ
とができる。同様に先の実施例で説明した第2文字列方
向判別部7で用いた以下の判別式 HC−VC>γ1   …式12 VC−HC>γ2   …式13 についても、以下のように条件を変更することが可能で
ある。 HC>VC  …式12−2 及び HC/VC>th1’  …式12−3が成り立つ領域
では、入力文書における文字列方向を水平方向であると
判断し、 VC>HC  …式13−2 及び VC/HC>th2’  …式13−3が成り立つ領域
では、入力文書における文字列方向を垂直方向であると
判断する。このような条件式を用いても上記の実施例と
同様の効果を得ることができる。 (実施例3)
In the first embodiment, the first character string direction determining unit 5 compares the values of the horizontal character space HS and the vertical character space VS extracted by the character space estimating unit 4. We decided to determine the character string direction of the input document. Therefore, the conditional expressions used for discrimination are as follows: VS>HS+th1...Equation 5 VS<HS+th2...Equation 6 th2<(VS-HS)<th1...Equation 7VS=HS
+th1...Equation 8 VS=HS+th2...Equation 9 However, it is also possible to use the following conditions instead of these conditional expressions. In the area where VS>HS...Equation 5-2 and VS/HS>th1'...Equation 5-3 hold (hereinafter referred to as area 4), the character string direction in the input document is determined to be horizontal, and HS>V
In an area (hereinafter referred to as area 6) where S...Equation 6-2 and HS/VS>th2'...Equation 6-3 hold, the character string direction in the input document is determined to be vertical. And 1/th2'<(VS/HS)<th1'...Formula 7-
2 (where th2'≠0) holds (hereinafter referred to as region 5), it is assumed that the determination is impossible. Here th1',
It is assumed that th2' is a certain threshold value. By determining the character string direction of the input document in this manner, it is determined whether the character string direction of the input document is horizontal, vertical, or cannot be determined. However, it is predetermined that the case where the condition of VS/HS=th1'...Equation 8-2 is satisfied is included in either region 4 or region 5. Also, HS/VS
=th2'...The case where the condition of Equation 9-2 is satisfied is predetermined to be included in either region 5 or region 6. Even if such a discriminant is used, the same effects as in the embodiment described above can be obtained. Similarly, the conditions for the following discriminant expressions HC-VC>γ1...Equation 12 VC-HC>γ2...Equation 13 used in the second character string direction determination unit 7 explained in the previous example are changed as follows. It is possible to do so. In the area where HC>VC...Equation 12-2 and HC/VC>th1'...Equation 12-3 hold, the character string direction in the input document is determined to be horizontal, and VC>HC...Equation 13-2 and VC /HC>th2'...In a region where equation 13-3 holds true, the character string direction in the input document is determined to be vertical. Even if such a conditional expression is used, the same effect as in the above embodiment can be obtained. (Example 3)

【0034】実施例1では第1文字列方向判別部5によ
り判別を行なった後に第2文字列方向判別部7で判別を
行なう方法について説明したが、以下に説明するように
判断条件を変更することにより、判別方法の順序を逆に
することによっても文字列方向判別を行なうことが可能
である。
In the first embodiment, a method has been described in which the first character string direction determining section 5 performs the determination and then the second character string direction determining section 7 performs the determination, but the determination conditions are changed as described below. Therefore, it is possible to perform character string direction determination even by reversing the order of the determination methods.

【0035】これを図11を用いて説明する。入力画像
に対して黒連結連結矩形を生成し、その入力文書におけ
る文字の大きさの推定を行ない、文字候補矩形の抽出を
行ない、水平、垂直方向の文字間スペースを推定すると
ころまでは、上記の実施例と同様であるので説明を省略
する。
This will be explained using FIG. 11. The steps described above include generating black concatenated rectangles for the input image, estimating the size of characters in the input document, extracting character candidate rectangles, and estimating the space between characters in the horizontal and vertical directions. Since this embodiment is the same as that of the embodiment, the explanation will be omitted.

【0036】次に、文字並びの度合抽出部6で水平方向
の文字並びの度合と、垂直方向の文字並びの度合を抽出
し、入力画像の水平方向、及び垂直方向に存在するそれ
ぞれの方向の文字間スペースとほぼ等しい文字候補矩形
間距離を有する文字候補矩形ペアの数を計数する。この
計数結果をもとに第2文字列判別部7で「文字列方向の
判別」を行なう。すなわち垂直方向における文字並びの
度合VC、水平方向における文字並びの度合HCを用い
て HC−VC>γ1   …式12 (ただしγ1 は0以上の実数)であるとき、入力文書
の文字列方向を水平方向とし、また VC−HC>γ2 …式13 (ただしγ2 は0以上の実数)であるとき、入力文書
の文字列方向を垂直方向とする。そして式12、式13
の条件により判別することができないときは、判別する
ことなく次のステップに移る。
Next, the degree of character arrangement extraction unit 6 extracts the degree of character arrangement in the horizontal direction and the degree of character arrangement in the vertical direction, and extracts the degree of character arrangement in the horizontal direction and the vertical direction of the input image. The number of character candidate rectangle pairs having a distance between character candidate rectangles that is approximately equal to the intercharacter space is counted. Based on this counting result, the second character string determining section 7 performs "character string direction determination." In other words, using the degree of character arrangement in the vertical direction VC and the degree of character arrangement in the horizontal direction HC, HC-VC>γ1...Equation 12 (where γ1 is a real number greater than or equal to 0), the character string direction of the input document is set horizontally. When VC-HC>γ2 (Equation 13) (where γ2 is a real number greater than or equal to 0), the character string direction of the input document is the vertical direction. And equation 12, equation 13
If it cannot be determined based on the conditions, the process moves to the next step without making any determination.

【0037】そして第2文字列方向判別部で判別しなか
った入力文書につき、第1文字列方向判別部5で文字列
方向の判別を行なう。すなわち文字間スペース推定部4
で抽出された水平方向文字間スペースHSと垂直方向文
字間スペースVSの値の大きさを比較し、VS>HS+
th1  …式5 が成り立つ領域では、入力文書における文字列方向を水
平方向であると判断し、 VS<HS+th2  …式6 が成り立つ領域では、入力文書における文字列方向を垂
直方向であると判断する。そして、 th2<(VS−HS)<th1  …式7が成り立つ
領域の場合には最終的に判別を行なうことなく文字列方
向判別を終了する。このように先の実施例で説明した第
1文字列方向判別部5と第2文字列方向判別部7を順序
を逆にしても、文字列方向判別は可能である。
For input documents that have not been determined by the second character string direction determining section, the first character string direction determining section 5 determines the character string direction. In other words, the character space estimation unit 4
Compare the values of the horizontal character space HS extracted with the vertical character space VS, and find that VS>HS+
In an area where th1...Equation 5 holds, the character string direction in the input document is determined to be horizontal, and in an area where VS<HS+th2...Equation 6 holds, the character string direction in the input document is determined to be vertical. Then, in the case of a region where th2<(VS-HS)<th1...Equation 7 holds true, the character string direction determination is ended without performing the final determination. In this way, even if the order of the first character string direction determining section 5 and the second character string direction determining section 7 described in the previous embodiment is reversed, character string direction determination is possible.

【0038】この場合にも第1文字列判別部、第2文字
列判別部で判断に用いる条件式を式5−2〜式13−3
のように変更することによっても、文字列方向の判別を
行なうことができ、同様の効果を得ることができる。
In this case as well, the conditional expressions used for judgment in the first character string discriminator and the second character string discriminator are Equations 5-2 to 13-3.
By changing as follows, the direction of the character string can also be determined and the same effect can be obtained.

【0039】以上全ての実施例では、文字列方向判別手
段として、第1文字列方向判定部と第2文字列方向判定
部を設けたが、入力文書が行間よりも字間の方が小さい
という性質を持った文書に限られるならば第1文字列方
向判定部5の判定結果に基づいて文字列方向を判定する
ようにしても高い精度が得られることはもちろんである
In all of the above embodiments, the first character string direction determining section and the second character string direction determining section are provided as character string direction determining means, but if the input document has a smaller character spacing than the line spacing. Of course, high accuracy can be obtained even if the character string direction is determined based on the determination result of the first character string direction determining section 5, provided that the document has certain characteristics.

【0040】また入力文書全体を文字列方向判別部に入
力して文字列方向を判別していたが、例えば部分領域抽
出装置などによって抽出された、入力文書の一部である
文章領域(見出し、本文、図表・写真等の説明文など)
を文字列方向判別部に入力して、各文章領域で文字列方
向を判別するようにしてもよい。このようにすれば、各
文章領域において文字列方向を判別することができ、縦
書きと横書きの文章が混在した文書に対しても正確にそ
の文字列方向を決定することができる。
[0040]Also, the entire input document is input to the character string direction determining section to determine the character string direction, but for example, text regions (headings, (text, explanatory text for diagrams, photographs, etc.)
may be input to the character string direction determining section to determine the character string direction in each text area. In this way, it is possible to determine the character string direction in each text area, and it is possible to accurately determine the character string direction even for a document in which vertically written and horizontally written texts are mixed.

【0041】さらに、英文文書読み取り装置において、
入力装置の大きさが縦長(あるいは横長)であるため横
長(あるいは縦長)に長い文書を90度回転して入力し
なければならない場合に、入力後の文書画像の文字列方
向を判別して画像をもとに戻す処理を行うことにより、
正しい文字列方向で入力文書を読み取ることができる。
Furthermore, in the English document reading device,
If the input device is vertically long (or horizontally long) and a long horizontally (or vertically) long document must be rotated 90 degrees to be input, the character string direction of the input document image is determined and the image is By performing the process of restoring the
The input document can be read in the correct string direction.

【0042】[0042]

【発明の効果】本発明によれば、入力文書の画像データ
から得られる空白行(あるいは空白列)の状態を検出す
ることにより文字列の方向を判別するため、従来のやり
方では正しく判断できなかった字間が行間より大きい文
書の場合を含む様々な文書において、文字列方向を正し
く判別することができる。
[Effects of the Invention] According to the present invention, the direction of a character string is determined by detecting the state of blank lines (or blank columns) obtained from image data of an input document, which cannot be determined correctly using conventional methods. The character string direction can be correctly determined in various documents, including those in which the character spacing is larger than the line spacing.

【図面の簡単な説明】[Brief explanation of drawings]

【図1】  文字列方向判別方式の構成を示すブロック
図。
FIG. 1 is a block diagram showing the configuration of a character string direction determination method.

【図2】  入力画像から文字候補矩形を生成した例を
示す図。
FIG. 2 is a diagram showing an example of character candidate rectangles generated from an input image.

【図3】  入力画像から文字候補矩形を生成した例を
示す図。
FIG. 3 is a diagram showing an example of character candidate rectangles generated from an input image.

【図4】  黒連結矩形の生成例を示す図。FIG. 4 is a diagram showing an example of generating black connected rectangles.

【図5】  黒連結矩形の座標データ例を示す図。FIG. 5 is a diagram showing an example of coordinate data of black connected rectangles.

【図6】  水平方向に隣接する文字候補矩形ペアを示
す図。
FIG. 6 is a diagram showing pairs of character candidate rectangles adjacent in the horizontal direction.

【図7】  垂直方向に隣接する文字候補矩形ペアを示
す図。
FIG. 7 is a diagram showing pairs of character candidate rectangles that are vertically adjacent to each other.

【図8】  文字列方向判別を行なう判別領域例を示す
図。
FIG. 8 is a diagram showing an example of a determination area for character string direction determination.

【図9】  文字候補矩形のみを抽出した入力データの
例を示す図。
FIG. 9 is a diagram showing an example of input data in which only character candidate rectangles are extracted.

【図10】  本方式を文書読み取り装置に適用した場
合の図。
FIG. 10 is a diagram when this method is applied to a document reading device.

【図11】  文字列方向判別方式の別の構成を示すブ
ロック図。
FIG. 11 is a block diagram showing another configuration of a character string direction determination method.

【符号の説明】[Explanation of symbols]

1  黒連結矩形生成部 2  文字の大きさの推定部 3  文字候補矩形抽出部 4  文字間スペース推定部 5  第1文字列方向判別部 6  文字並びの度合抽出部 7  第2文字列方向判別部 8  文書画像入力部 9  文字列方向判別部 10  文書読取り部 11  文書読取り装置 14  判定部 1 Black connected rectangle generation part 2 Character size estimation part 3 Character candidate rectangle extraction part 4 Character space estimation part 5 First character string direction determination unit 6 Character sequence degree extraction part 7 Second character string direction determination unit 8 Document image input section 9 Character string direction determination unit 10 Document reading section 11 Document reading device 14 Judgment section

Claims (7)

【特許請求の範囲】[Claims] 【請求項1】  水平方向の文字並びの度合を抽出する
手段と、垂直方向の文字並びの度合を抽出する手段と、
水平方向の文字並びの度合と垂直方向の文字並びの度合
を比較する手段と、前記比較する手段からの比較結果に
基づき文字並びの方向を判別する判別手段とを具備した
ことを特徴とする文字列方向判別方式。
Claim 1: means for extracting the degree of character arrangement in the horizontal direction; means for extracting the degree of character arrangement in the vertical direction;
A character characterized by comprising: means for comparing the degree of character arrangement in the horizontal direction and the degree of character arrangement in the vertical direction; and determining means for determining the direction of the character arrangement based on the comparison result from the comparing means. Column direction discrimination method.
【請求項2】  水平方向文字間スペースと垂直方向文
字間スペースの大きさを比較して文字列方向を判別し、
更に請求項1記載の文字列方向判別方式を用いて文字列
方向を判別することを特徴とする文字列方向判別方式。
[Claim 2] Comparing the sizes of the horizontal inter-character space and the vertical inter-character space to determine the character string direction,
A character string direction determining method further comprising determining the character string direction using the character string direction determining method according to claim 1.
【請求項3】  水平方向文字間スペースは水平方向に
隣接する文字候補矩形間距離の最頻値を用い、垂直方向
文字間スペースは垂直方向に隣接する文字候補矩形間距
離の最頻値を用いることを特徴とする請求項2記載の文
字列方向判別方式。
[Claim 3] For the horizontal inter-character space, use the mode value of the distance between horizontally adjacent character candidate rectangles, and for the vertical inter-character space, use the mode value of the distance between vertically adjacent character candidate rectangles. 3. The character string direction determination method according to claim 2.
【請求項4】  水平方向文字間スペースは水平方向に
隣接する文字候補矩形間距離の平均値を用い、垂直方向
文字間スペースは垂直方向に隣接する文字候補矩形間距
離の平均値を用いることを特徴とする請求項2記載の文
字列方向判別方式。
4. The horizontal character space uses the average distance between horizontally adjacent character candidate rectangles, and the vertical character space uses the average distance between vertically adjacent character candidate rectangles. 3. The character string direction determination method according to claim 2.
【請求項5】  入力されたデータから複数の文字候補
矩形を抽出する手段と、相異なる文字候補矩形間の距離
を求めて文字列方向を判別する手段と、文字候補矩形に
占有されないデータ領域の状態を数値化することにより
文字列方向を判別する手段とを有することを特徴をする
文字列方向判別方式。
5. Means for extracting a plurality of character candidate rectangles from input data, means for determining a character string direction by determining the distance between different character candidate rectangles, and a means for extracting a data area not occupied by the character candidate rectangles. 1. A character string direction determination method characterized by comprising means for determining character string direction by converting a state into a numerical value.
【請求項6】  画像入力部と、入力されたデータから
複数の文字候補矩形を抽出する文字候補矩形抽出部と、
相異なる文字候補矩形間の距離を求めて文字列方向を判
別する第1の文字列方向判別部と、文字候補矩形に占有
されない領域の状態を数値化することにより文字列方向
を判別する第2の文字列方向判別部とを備えた文字列方
向判別装置。
6. An image input unit; a character candidate rectangle extraction unit that extracts a plurality of character candidate rectangles from input data;
A first character string direction determining unit determines the character string direction by determining the distance between different character candidate rectangles, and a second character string direction determining unit determines the character string direction by quantifying the state of the area not occupied by the character candidate rectangles. A character string direction determining device comprising a character string direction determining unit.
【請求項7】  画像データを入力する画像入力部と、
黒色の画像データが連続する領域に外接する矩形を生成
する黒連結矩形生成部と、生成された黒連結矩形の大き
さを求め、複数の黒連結矩形のうち最も出現頻度の大き
い黒連結矩形の大きさを選択する文字の大きさの推定部
と、その推定された文字の大きさと前記生成された黒連
結矩形の大きさとを比較することにより文字候補矩形を
抽出する文字候補矩形抽出部と、相隣合った2つの文字
候補矩形間の距離を算出することにより水平方向及び垂
直方向の文字間スペースを推定する文字間スペース推定
部と、水平方向の文字間スペースと垂直方向の文字間ス
ペースとの大きさを比較することにより文字列方向の判
別を行なう第1文字列方向判別部と、水平方向に相隣合
った2つの文字候補矩形間の距離HLと前記水平方向の
文字間スペースHCとが、HL<HC+th1 なる関
係を有する文字候補矩形ペアの数を計数する第1の計数
部と、垂直方向に相隣合った2つの文字候補矩形間の距
離VLと前記垂直方向の文字間スペースVCとが、VL
<VC+th2 なる関係を有する文字候補矩形ペアの
数を計数する第2の計数部と、前記第1の計数部で計数
された計数値と前記第2の計数部で計数された計数値と
を比較することにより文字列方向の判別を行なう第2文
字列方向判別部と、第1文字列方向判別部の判定結果及
び第2文字列方向判別部の判定結果から文字列方向判別
結果を出力する判定部とを備えたことを特徴とする文字
列方向判別装置。
[Claim 7] An image input section for inputting image data;
A black connected rectangle generation unit that generates a rectangle circumscribing an area where black image data is continuous, and calculates the size of the generated black connected rectangle and calculates the size of the black connected rectangle that appears most frequently among the plurality of black connected rectangles. a character size estimation unit that selects a size; a character candidate rectangle extraction unit that extracts a character candidate rectangle by comparing the estimated character size with the size of the generated black connected rectangle; A character space estimating unit that estimates the horizontal and vertical character space by calculating the distance between two adjacent character candidate rectangles, and a horizontal character space and a vertical character space. a first character string direction determining unit that determines the character string direction by comparing the sizes of the characters; , a first counting unit that counts the number of character candidate rectangle pairs having the relationship HL<HC+th1, a distance VL between two vertically adjacent character candidate rectangles, and a space VC between characters in the vertical direction. Toga, VL
A second counting section that counts the number of character candidate rectangle pairs having a relationship such as <VC+th2, and a comparison between the counted value counted by the first counting section and the counted value counted by the second counting section. a second character string direction determination unit that determines the character string direction by performing the following steps; and a determination unit that outputs a character string direction determination result from the determination result of the first character string direction determination unit and the determination result of the second character string direction determination unit. A character string direction determining device comprising:
JP03127131A 1991-05-30 1991-05-30 Character string direction discriminator Expired - Lifetime JP3090342B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03127131A JP3090342B2 (en) 1991-05-30 1991-05-30 Character string direction discriminator

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03127131A JP3090342B2 (en) 1991-05-30 1991-05-30 Character string direction discriminator

Publications (2)

Publication Number Publication Date
JPH04352295A true JPH04352295A (en) 1992-12-07
JP3090342B2 JP3090342B2 (en) 2000-09-18

Family

ID=14952383

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03127131A Expired - Lifetime JP3090342B2 (en) 1991-05-30 1991-05-30 Character string direction discriminator

Country Status (1)

Country Link
JP (1) JP3090342B2 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0573718A (en) * 1991-09-13 1993-03-26 Matsushita Electric Ind Co Ltd Area attribute identifying system
JPH1063776A (en) * 1996-08-16 1998-03-06 Fujitsu Ltd Method and device for estimating character string direction
JP2012037926A (en) * 2010-08-03 2012-02-23 Fuji Xerox Co Ltd Image processing apparatus and image processing program
JP2012048321A (en) * 2010-08-24 2012-03-08 Fuji Xerox Co Ltd Image processor and image processing program
JP2013206258A (en) * 2012-03-29 2013-10-07 Dainippon Printing Co Ltd Document recognition device, document recognition method and program
JP2018116647A (en) * 2017-01-20 2018-07-26 リード テクノロジーズ,インコーポレイティド Apparatus, method and computer readable storage medium for determining rotation angle of text

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6254380A (en) * 1985-08-20 1987-03-10 Matsushita Electric Ind Co Ltd Character recognizing device
JPS62197881A (en) * 1986-02-26 1987-09-01 Hitachi Ltd Vertical or horizontal writing deciding system for document image
JPH04290185A (en) * 1991-03-19 1992-10-14 Omron Corp Vertical/lateral writing discriminating method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6254380A (en) * 1985-08-20 1987-03-10 Matsushita Electric Ind Co Ltd Character recognizing device
JPS62197881A (en) * 1986-02-26 1987-09-01 Hitachi Ltd Vertical or horizontal writing deciding system for document image
JPH04290185A (en) * 1991-03-19 1992-10-14 Omron Corp Vertical/lateral writing discriminating method

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0573718A (en) * 1991-09-13 1993-03-26 Matsushita Electric Ind Co Ltd Area attribute identifying system
JPH1063776A (en) * 1996-08-16 1998-03-06 Fujitsu Ltd Method and device for estimating character string direction
JP2012037926A (en) * 2010-08-03 2012-02-23 Fuji Xerox Co Ltd Image processing apparatus and image processing program
JP2012048321A (en) * 2010-08-24 2012-03-08 Fuji Xerox Co Ltd Image processor and image processing program
JP2013206258A (en) * 2012-03-29 2013-10-07 Dainippon Printing Co Ltd Document recognition device, document recognition method and program
JP2018116647A (en) * 2017-01-20 2018-07-26 リード テクノロジーズ,インコーポレイティド Apparatus, method and computer readable storage medium for determining rotation angle of text

Also Published As

Publication number Publication date
JP3090342B2 (en) 2000-09-18

Similar Documents

Publication Publication Date Title
US6332046B1 (en) Document image recognition apparatus and computer-readable storage medium storing document image recognition program
US5664027A (en) Methods and apparatus for inferring orientation of lines of text
US9104940B2 (en) Line segmentation method applicable to document images containing handwriting and printed text characters or skewed text lines
JP7244223B2 (en) Identifying emphasized text in electronic documents
JP4395188B2 (en) Document image recognition apparatus and storage medium for document image recognition program
US5923782A (en) System for detecting and identifying substantially linear horizontal and vertical lines of engineering drawings
US20060078204A1 (en) Image processing apparatus and method generating binary image from a multilevel image
US8989485B2 (en) Detecting a junction in a text line of CJK characters
US20120269438A1 (en) Image processing apparatus
Dori et al. Segmentation and recognition of dimensioning text from engineering drawings
Kim et al. Word segmentation of printed text lines based on gap clustering and special symbol detection
JPH04352295A (en) System and device for identifing character string direction
JP4849883B2 (en) Row direction determination program, method and apparatus
Lehal et al. A technique for segmentation of Gurmukhi text
Shirali-Shahreza et al. Persian/Arabic text font estimation using dots
JP2000090194A (en) Image processing method and image processor
JP2004246546A (en) Image processing method, program used for execution of method, and image processing apparatus
JP2569103B2 (en) Character detection method
JP2982221B2 (en) Character reader
JP2003256769A (en) Formula recognizing device and formula recognizing method
CN115731250A (en) Text segmentation method, device, equipment and storage medium
JPH11250256A (en) Graphic recognizing/processing method, and record medium recorded with the program
JP3190794B2 (en) Character segmentation device
CN116580417A (en) Method and related device for identifying form data in image
Yoo et al. Information extraction from a skewed form document in the presence of crossing characters

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080721

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090721

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090721

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100721

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100721

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110721

Year of fee payment: 11

EXPY Cancellation because of completion of term