JP2569132B2 - How to determine special character lines - Google Patents
How to determine special character linesInfo
- Publication number
- JP2569132B2 JP2569132B2 JP63180284A JP18028488A JP2569132B2 JP 2569132 B2 JP2569132 B2 JP 2569132B2 JP 63180284 A JP63180284 A JP 63180284A JP 18028488 A JP18028488 A JP 18028488A JP 2569132 B2 JP2569132 B2 JP 2569132B2
- Authority
- JP
- Japan
- Prior art keywords
- line
- character
- special
- row
- width
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Character Input (AREA)
Description
【発明の詳細な説明】 〔産業上の利用分野〕 この発明は、画像処理技術を利用してルビ・アンダー
ライン・傍点および傍線が含まれる文書中から、これら
の特殊文字行または列(単に、特殊行とも云う。)を、
行幅の狭い文字行として検出し、それが前後のどちらの
文字行に付随するものなのか、あるいはどちらにも属さ
ないノイズ行なのかを判別する判別方法に関する。DETAILED DESCRIPTION OF THE INVENTION [Industrial Application Field] The present invention uses an image processing technique to extract a special character line or column (simply, Special rows.)
The present invention relates to a method for detecting a character line having a narrow line width and determining whether the character line is attached to any one of the preceding and following character lines or a noise line that does not belong to any of the character lines.
この種の検出判別方法として、出願人は先に各文字行
間のピツチを調べ、これをもとに得られる標準ピツチと
各文字行間のピツチとを比較してピツチの狭い文字行の
組を見つけ出し、2つの文字行の行幅をそれぞれ調べる
ことにより、一方の幅が文書中で標準とされている行幅
に比べて或る比率以下のときは、その幅の狭い文字行を
幅の広い方の文字行に付随するルビ・アンダーライン・
傍点または傍線からなる特殊行として検出判別する方法
を提案している(特願昭63-19595号参照)。As a detection and discrimination method of this kind, the applicant first examines the pitch between each character line, compares the standard pitch obtained based on this with the pitch between each character line, and finds a set of character lines with a narrow pitch. By examining the line widths of two character lines, if one of the widths is less than a certain ratio compared to the standard line width in the document, the narrower character line is Ruby underline attached to the character line
A method of detecting and determining a special line consisting of a side point or a side line has been proposed (see Japanese Patent Application No. 63-19595).
しかしながら、このような方法では文書中に特殊行の
含まれる比率が高くなると、特殊行があることによつて
生じる狭いピツチが標準ピツチ算出に与える影響が大き
くなり、得られた標準ピツチと、特殊行と通常行との間
の狭いピツチとの差異が小さくなり、特殊行の検出精度
が低下すると云う問題が残されている。However, in such a method, when the ratio of special lines included in a document is high, the influence of the narrow pitch caused by the presence of the special lines on the calculation of the standard pitch becomes large, and the obtained standard pitch and the special pitch are compared. There is a problem that the difference between the narrow pitch between the row and the normal row is reduced, and the detection accuracy of the special row is reduced.
例えば、極端な場合としてルビの振られた1行のみを
読ませようとしても、ピツチが1つしか存在しないの
で、その行に振られたルビの検出はできないことにな
る。For example, in an extreme case, even if it is attempted to read only one line with ruby, since there is only one pitch, ruby on that line cannot be detected.
したがつて、この発明は文書中に特殊行が含まれる割
合の多少にかゝわりなく、特殊行を安定かつ正確に検出
して、それが前後のどちらの文字行に付随するものなの
か、あるいはどちらにも属さないノイズ行なのかを判別
し得るようにすることを目的とする。Therefore, the present invention detects the special line stably and accurately regardless of the ratio of the special line included in the document, and determines whether the special line is attached to the preceding or following character line, or An object of the present invention is to be able to determine whether a noise row belongs to neither of them.
上記目的達成のため、本発明では、文書を画像処理し
て文字行を切り出すとともにその各々の行方向の幅(行
幅)を求め、該行幅を行切出しの過程で抽出された標準
文字サイズから決まる第1のしきい値と比較して行幅の
狭い文字行を探し出した後、該行幅の狭い文字行をその
前,後の文字行とそれぞれ統合した2つの統合文字行に
つき、その各行幅を標準サイズから決まる第1のしきい
値とは異なる第2のしきい値とそれぞれ比較し、その比
較結果に基づき、行幅の狭い文字行が前,後の文字行の
いずれに付随する特殊文字行か、あるいはノイズ行かを
判別するようにした。In order to achieve the above object, according to the present invention, a character line is cut out by performing image processing on a document, a width (line width) in each line direction is obtained, and the line width is determined by a standard character size extracted in a line cutting process. After searching for a character line with a narrow line width by comparing with a first threshold value determined from the above, two integrated character lines obtained by integrating the character line with the narrow line width with the character lines before and after the character line are obtained. Each line width is compared with a second threshold value different from the first threshold value determined from the standard size, and based on the comparison result, a character line with a narrow line width is attached to either the preceding or following character line. It is now determined whether the line is a special character line or a noise line.
文書中に特殊行が含まれる割合の多少に全く影響され
ずに特殊行を検出し、それが前後どちらの文字行に付随
するものなのか、あるいはどちらにも属さないノイズ行
なのかを判別することができる。Detects special lines without any influence on the percentage of special lines included in the document, and determines whether they are attached to the previous or next character line or a noise line that does not belong to either be able to.
第1図はこの発明の実施例を示すフローチヤートであ
る。同図に示すように、このフローチヤートは下記
(1)〜(4)のステツプからなつている。FIG. 1 is a flow chart showing an embodiment of the present invention. As shown in the figure, this flowchart comprises the following steps (1) to (4).
(1)良く知られている画像処理技術を利用して、文書
中より文字行を切出す。このとき、その行方向の幅(行
幅)の最大のものまたは最頻値を、切出し領域内の標準
文字サイズとする。(1) A character line is cut out from a document using a well-known image processing technique. At this time, the largest or most frequent value in the line direction (line width) is set as the standard character size in the cutout area.
(2)切出された文字行の行幅Wiを求め、文書中で標準
とされる文字サイズから決定されるしきい値Th1と各文
字行の行幅Wiを比較し、このしきい値以下である文字行
を特殊行の候補とする。(2) cut out to determine the line width Wi of character line, to compare the line width Wi of each character row with a threshold Th 1, which is determined from the character size that is standard in the document, this threshold The following character lines are considered as special line candidates.
(3)特殊行の候補とされた行に対して、その前の行お
よび後の行とそれぞれ結合して1つの行とみなした場合
の行(結合文字行)の行幅を求める。(3) The line width of a line (combined character line) in the case where a line that is a special line candidate is combined with the preceding and subsequent lines and regarded as one line is determined.
(4)得られた行幅(前の行と統合した行幅をWB,後の
行と統合した行幅をWAとする)と、文書中で標準とされ
ている文字サイズとから得られるしきい値Th2との大小
関係により、その特殊行候補がどのような行であるかを
以下のように判定する。(4) Obtained from the obtained line width (the line width integrated with the previous line is W B , and the line width integrated with the subsequent line is W A ) and the character size standardized in the document the magnitude relation between the threshold value Th 2 for judges as follows what kind of line is the special line candidate.
WBTh2かつWATh2の場合〔(41)のケース〕 前後どちらの行にも付随しないノズル行 WB,WAのどちらか1方<Th2の場合 〔(42)のケース〕 条件を満たす方の行を構成している通常行に付随する特
殊行 WB<Th2かつWA<Th2の場合 〔(43)のケース〕 行幅の小さい方の構成をしている通常行に付随する特殊
行つまり、WBとWAを比較し、例えばWB>WAならば後の行
に付随する特殊行と判定する。For W B Th 2 and W A Th 2 nozzle rows W B of [the case (41)] unattached to either row adjoining either 1-way of W A <For Th 2 [Case of (42)] Special row attached to the normal row constituting the row that satisfies the condition When W B <Th 2 and W A <Th 2 [Case (43)] Normal with the smaller row width determining special row associated with the row that is, it compares the W B and W a, for example, W B> W a special line associated with row after if.
こゝで、特殊行検出の対象文書として、第2図の文書
が与えられた場合について説明する。なお、同図におけ
るYi,yi(i=1〜11)は、それぞれ切り出された行の
開始,終了座標である。これら切出された各行の座標を
もとに、行幅Wiを、 Wi=yi−Yi(i=1〜11) により求める。それらと同時に、文書中で標準とされる
文字サイズCSから、例えば、 Th1=αCS(α:定数) によりルビ・アンダーライン等の特殊行の検出しきい値
Th1を求める。このしきい値Th1と各行の行幅Wiを比較
し、特殊行の候補となる行を検出する。第2図の場合で
は適切なαの値を用いることにより、容易に行3および
行9が特殊行の候補として他の通常行と分離できる。Here, the case where the document shown in FIG. 2 is given as the target document for the special line detection will be described. It should be noted that Y i and y i (i = 1 to 11) in the figure are the start and end coordinates of the cut-out line. Based on the coordinates of each of the extracted lines, a line width Wi is obtained by Wi = y i −Y i (i = 1 to 11). At the same time, from the standard character size C S in the document, for example, a threshold value for detecting a special line such as ruby underline by Th 1 = αC S (α: constant)
Seek Th 1. Comparing the threshold Th 1 and row line widths Wi, it detects a candidate to become the line of the special lines. In the case of FIG. 2, by using an appropriate value of α, the rows 3 and 9 can be easily separated from other normal rows as special row candidates.
このようにして得られた特殊行の候補に対して該候補
がルビ・アンダーラインなのかノイズ行なのかを判別す
る。すなわち、特殊行の候補として分離された行3およ
び行9に対して、その前後の行と統合した場合の行幅、
例えば行3の場合についていえば、 W3B=y3−Y2,W3A=y4−Y3 によつてW3B,W3Aを求める。この様子を第3図に拡大し
て示す。そして、このW3BおよびW3Aを、例えば、 Th2=βCS(β:定数) によつて得られたしきい値Th2と比較して、この特殊行
候補の行3が前後どちらの行に付随するものなのか、あ
るいはどちらにも属さないノイズ行なのかを判断する。
この場合も、適切なβを用いることにより、行3が行4
に付随する特殊行であると判定するのは容易である。同
様の手順により行9は行10に付随する特殊行であると判
定できる。For the special row candidate obtained in this way, it is determined whether the candidate is a ruby underline or a noise row. That is, the line width when the lines 3 and 9 separated as the special line candidates are integrated with the lines before and after them,
For example, in the case of row 3, W 3B = W 3 -Y 2 and W 3A = Y 4 -Y 3 are used to determine W 3B and W 3A . This is shown in an enlarged manner in FIG. Then, W 3B and W 3A are compared with, for example, a threshold Th 2 obtained by Th 2 = βC S (β: constant), and the row 3 of this special row candidate It is determined whether the noise line is a noise line that does not belong to any of them.
Again, by using the appropriate β, row 3 becomes row 4
It is easy to determine that this is a special line associated with. By the same procedure, row 9 can be determined to be a special row accompanying row 10.
以上は横書きの例であるが、縦書きの場合でも同様の
方法を用いて検出することが可能である。ただし、縦書
きの場合には横書の場合のアンダーラインのような、前
の行(縦書の場合は左側の行)に付随する特殊行は存在
しないので、前の行に付随すると判定された特殊行はノ
イズ行とする。The above is an example of horizontal writing, but it is also possible to detect vertical writing using the same method. However, in the case of vertical writing, there is no special line attached to the previous line (the left line in the case of vertical writing), such as the underline in the case of horizontal writing, so it is determined to be attached to the previous line. The special row is a noise row.
この発明によれば、ルビ・アンダーライン等の特殊行
を行ピツチを利用することなく検出するようにしたの
で、文書中に特殊行の含まれる割合の多少にかかわらな
い、安定した検出が可能となる。According to the present invention, special lines such as ruby and underline are detected without using line pitch, so that stable detection can be performed regardless of the ratio of the special lines included in the document. Become.
【図面の簡単な説明】 第1図はこの発明の処理手順を示すフローチヤート、第
2図はこの発明の実施例を具体的に説明するための説明
図、第3図はその一部を拡大して示す拡大図である。 符号説明 WA,WB,W3A,W3B……行幅、Th1,Th2……しきい値、Y1〜Y
11……行の開始座標、y1〜y11……行の終了座標。BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is a flowchart showing the processing procedure of the present invention, FIG. 2 is an explanatory view for specifically explaining an embodiment of the present invention, and FIG. FIG. Description of symbols W A , W B , W 3A , W 3B …… line width, Th 1 , Th 2 …… threshold, Y 1 to Y
11 ...... start coordinates of the line, y 1 ~y 11 ...... end coordinates of the line.
Claims (1)
もにその各々の行方向の幅(行幅)を求め、該行幅を行
切出しの過程で抽出された標準文字サイズから決まる第
1のしきい値と比較して行幅の狭い文字行を探し出した
後、該行幅の狭い文字行をその前,後の文字行とそれぞ
れ統合した2つの統合文字行につき、その各行幅を標準
サイズから決まる第1のしきい値とは異なる第2のしき
い値とそれぞれ比較し、その比較結果に基づき、行幅の
狭い文字行が前,後の文字行のいずれに付随する特殊文
字行か、あるいはノイズ行かを判別することを特徴とす
る特殊文字行の判別方法。An image processing of a document cuts out a character line, obtains a width in each line direction (line width), and determines the line width from a standard character size extracted in a line cutting process. After searching for a character line with a narrow line width in comparison with the threshold value, for each of two integrated character lines in which the narrow character line is integrated with the preceding and following character lines, the respective line widths are standardized. Are compared with a second threshold value different from the first threshold value determined based on the first and second threshold values. Alternatively, a special character line determination method characterized by determining whether the line is a noise line.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63180284A JP2569132B2 (en) | 1988-07-21 | 1988-07-21 | How to determine special character lines |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63180284A JP2569132B2 (en) | 1988-07-21 | 1988-07-21 | How to determine special character lines |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0231286A JPH0231286A (en) | 1990-02-01 |
JP2569132B2 true JP2569132B2 (en) | 1997-01-08 |
Family
ID=16080523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63180284A Expired - Lifetime JP2569132B2 (en) | 1988-07-21 | 1988-07-21 | How to determine special character lines |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2569132B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4162195B2 (en) * | 2002-08-29 | 2008-10-08 | 株式会社リコー | Image processing apparatus and image processing program |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6048582A (en) * | 1983-08-25 | 1985-03-16 | Fujitsu Ltd | Character cutting-out method of character recognizer |
JPS61269778A (en) * | 1985-05-24 | 1986-11-29 | Agency Of Ind Science & Technol | Character line extracting device |
-
1988
- 1988-07-21 JP JP63180284A patent/JP2569132B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH0231286A (en) | 1990-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2822189B2 (en) | Character recognition apparatus and method | |
EP0513220A1 (en) | Method for identification and segmentation of touching characters | |
JP2569132B2 (en) | How to determine special character lines | |
JP2569103B2 (en) | Character detection method | |
JP2630261B2 (en) | Character recognition device | |
JP2565150B2 (en) | Character cutting method | |
JP2683116B2 (en) | Ruled line removal method | |
JPH11203405A (en) | Character recognition device, its method and program recording medium | |
JPS59160274A (en) | Character cutting system | |
JP3665435B2 (en) | Character recognition device and character recognition method | |
JPS61105680A (en) | Letter separating method for optical character reader | |
JP3193573B2 (en) | Character recognition device with brackets | |
JP3712825B2 (en) | Image processing method, apparatus, and recording medium | |
JP3190794B2 (en) | Character segmentation device | |
JPH09106437A (en) | Device and method for segmenting character | |
JP3220226B2 (en) | Character string direction determination method | |
JPH10214308A (en) | Character discrimination method | |
JPH04260980A (en) | Device for recognizing graphic | |
JPH0676103A (en) | Sentence area extracting device for document image | |
JPH10187887A (en) | Device, method for identifying type face and information recording medium | |
JPH0855185A (en) | Character recognition device | |
JPH0731713B2 (en) | Keyword detection method | |
JP3349243B2 (en) | String reader | |
JPH09326009A (en) | Serial sepcific number segmenting device for license plate | |
JPH03225576A (en) | Device for segmenting word |