JP2569103B2 - 文字検出方法 - Google Patents

文字検出方法

Info

Publication number
JP2569103B2
JP2569103B2 JP63019595A JP1959588A JP2569103B2 JP 2569103 B2 JP2569103 B2 JP 2569103B2 JP 63019595 A JP63019595 A JP 63019595A JP 1959588 A JP1959588 A JP 1959588A JP 2569103 B2 JP2569103 B2 JP 2569103B2
Authority
JP
Japan
Prior art keywords
character
ruby
line
underline
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63019595A
Other languages
English (en)
Other versions
JPH01196685A (ja
Inventor
正年 岡田
章子 紺野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Electric Co Ltd
Original Assignee
Fuji Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Electric Co Ltd filed Critical Fuji Electric Co Ltd
Priority to JP63019595A priority Critical patent/JP2569103B2/ja
Publication of JPH01196685A publication Critical patent/JPH01196685A/ja
Application granted granted Critical
Publication of JP2569103B2 publication Critical patent/JP2569103B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は、公知の画像処理技術を利用して縦書また
は横書の文書、特に傍点,傍線,ルビまたはアンダーラ
インを含む文章から、これらか付された文字を検出する
ための方法に関する。
〔従来の技術〕
従来、文書中から文字列または文字行を切出す方法と
しては、傍点,傍線,ルビまたはアンダーラインの存在
を特に意識せずに文字切出しを行ない、切出された文字
列または文字行の幅を対象となる文字領域の標準文字の
大きさと比較し、これが所定幅以下のときはその文字列
または文字行をノイズを含むものとして除去する方法が
知られている。なお、縦書文章と横書文章における傍
点,傍線,ルビまたはアンダーラインの関係を図示する
と第7図の如くなる。
〔発明が解決しようとする課題〕
しかしながら、このような方法ではルビやアンダーラ
インを含む列または行は、その幅から云つて除去の対象
となつてしまい、しかも一度除去されてしまうと、それ
らに関する情報は全く失なわれてしまうことになる。ま
た、特にルビの場合、所定幅以上の幅をもつものは除去
の対象とはならないが、その切出し結果の文字列または
文字行はルビではない他の文字列または文字行と全く同
等、すなわち独立した1つの文字列または文字行として
扱われることゝなる。本来、ルビは他の文字列または文
字行に付随するものであり、それ単独で意味をなすもの
ではないので、従来の方法を使用して文書の読取りを行
なうと、結果として文脈上無意味な行があちこちに挿入
されてしまうことになる。
このように、傍点,傍線,ルビ,アンダーライン等は
跡形もなく消滅してしまうか、あるいは他と全く独立し
た1個の(しかも無意味な)列または行として存在する
かのいずれかであつた。
したがつて、この発明は傍点,傍線,ルビまたはアン
ダーライン等の情報が失なわれないようにするとゝも
に、これらが付された文字の検出を可能にし、文字読取
り性能を向上させることを目的とする。
〔課題を解決するための手段〕
画像処理装置により対象となる文書領域内の文字列
(または文字行)を切出し、隣接する2つの文字列(ま
たは文字行)間の各ピッチから標準ピッチを求め、該標
準ピツチから求められるピツチのしきい値と各文字列
(または文字行)間のピツチとを比較し、しきい値以下
のピツチをもつ2つの文字列(または文字行)の幅をそ
れぞれ標準文字の大きさと比較して一方の文字列(また
は文字行)の幅だけが所定値以下のとき、幅の狭い方の
文字列(または文字行)を傍点,傍線,ルビまたはアン
ダーラインを含む列(または行)として検出した後、こ
の列(または行)から個々の要素の切出しを行なう一、
文字列または文字行からも個々の文字の切出しを行な
い、両者の結果を比較することにより傍点,傍線,ルビ
またはアンダーラインが付されている文字を検出する。
〔作用〕
各切出し文字列(または文字行)間のピツチおよび各
文字列(または文字行)の幅を利用して通常の文字列
(または文字行)と傍点,傍線,ルビまたはアンダーラ
インを含む列(または行)とを分離した後、傍点,傍
線,ルビまたはアンダーライン列に対してその垂直方向
にとつた投影結果より個々の要素の位置を検出し、この
位置と文字列(または文字行)の各文字位置とを比較す
ることにより、傍点,傍線,ルビまたはアンダーライン
等の付く文字を検出できるようにし、読取り性能を向上
させる。
〔実施例〕
第1図はこの発明の実施例を示す概略フローチャー
ト、第2図はその詳細を示すフローチャートで、以下、
第2図に沿つて説明する。なお、具体的な例として第3
図の縦書文章を考える。
(第2図のに対応、以下同様)文字列の切出し結果
の切出し座標(開始座標Ai,終了座標Bi)をもとに、文
字列の中心軸間の距離(ピツチ)Piを、 Pi=(Ai+1+Bi+1)/2−(Ai+Bi)/2 により求める(第3図のP0〜P5参照)。
得られたピツチPiからその平均値 または中央値もしくは最頻値を求め、それを標準ピツチ
とする。
Paの値からPth=αPa(α:定数)によつてピツチの
しきい値Pthを求め、Pthと各ピツチPiとを比較する。
2文字列の幅をそれぞれ求める。
しきい値Pth以下のピツチをもつ2文字列に対し、そ
れぞれの文字列の幅を標準文字の大きさをもとに得られ
る所定の幅しきい値と比較する。
比較した結果、2つの文字列のうち1方の文字列の幅
のみが所定幅に満たない場合、その2つの文字列を通常
の文字列と傍点,傍線,ルビあるいはアンダーライン
(以下、ルビ,アンダーライン等ともいう。)の組であ
るとみなす。
以上の操作を、例えば第3図のごとく文字列の切出し
が行なわれた場合について考える。ピツチP0〜P5により
例えば平均値Paとそのしきい値Pthが求められ、PthとP0
〜P5をそれぞれ比較して、こゝでは小さいピツチP0およ
びP4を検出する。ピツチP0は文字列C0と文字列C1の間の
ピツチ、P4は文字列C4文字列C5の間のピツチである。こ
うして幅の狭いピツチを検出したら、次はその両端の文
字列の幅を調べることになる。例えばピツチP0について
であれば、文字列C0と文字列C1の幅を調べる。この場
合、文字列C0の幅w0=B0−A0に比して文字列1の幅w1
B1−A1は小さいのでw0が標準文字の大きさ程度の幅をも
つ通常文字列であれば、適当なしきい値(例えば、標準
文字サイズの0.8倍)によつて文字列C0はしきい値以
上、文字列C1はしきい値以下と判定され、これら2つの
文字列は通常の文字列と傍点,傍線,ルビ,アンダーラ
インとの組であるとされる。文字列C4と文字列C5に対し
ても、同様の手順で検出が行なわれることになる。
こうして検出された通常文字列とルビ,アンダーライ
ン等の組に対して、以下の手順によりルビ,アンダーラ
イン等の位置検出が行なわれる。
2つの文字列のうち、幅の広い方の文字列(第3図で
いえば、文字列C0や文字列C4)に対しては、文字切出し
アルゴリズムに従つて文字切出しを行なう。なお、文字
切出しアルゴリズムについてはよく知られているので、
ここでは省略する。
幅の狭い方の文字列(第3図でいう文字列C1や文字列
C5)に対しては、傍点,傍線,ルビ,アンダーライン文
字列であると考えられるので、傍点,傍線,ルビ,アン
ダーラインの切出しを行なう。この切出しも通常の文字
列と同様、文字切出しアルゴリズムに従う。ただし、こ
の場合、ルビの文字を1文字1文字切出すことはせず、
文字間隔(文字の終了位置と次の文字の開始位置との距
離:第4B図のDr)が所定の大きさ以下であるものについ
ては、1つの単語にふられているルビ1まとまりとみな
し、ルビの最初の文字の開始位置(第4B図のXr)および
最後の文字の終了位置(第4B図のYr)をもつてルビの位
置とする。ここで、ルビ,傍点列と傍線,アンダーライ
ン列とは列の投影(線の本数または黒点の長さの投影)
により区別する。また、ルビと傍点とは線の本数で区別
する。
通常文字の切出しによる各文字の位置とルビ,アンダ
ーライン等の切出しによるルビ,アンダーライン等の位
置との比較を行ない、ルビまたはアンダーライン等の引
かれている文字を見つけ出す。具体的な操作手順を、第
4A図のように切出し結果が得られた場合を例にとつて説
明する。たゞし、こゝではルビだけが付された例を示
す。
−1)各文字の開始座標Si(第4C図のS0〜S5)を値の
小さなものから順にルビ開始座標Xrと比較していき、最
初にXr<SiとなるSiを見つける。第4C図でいえば、これ
はS3となる。
−2)XrとSiおよびSi-1との距離Di,Di-1の算出する
(第4C図のD3,D2)。
−3)DiとDi-1とを比較し、 Di-1<Diならば、Si-1を開始座標としてもつ文字を、 Di-1Diならば、Siを開始座標してもつ文字を、 それぞれルビのふられている単語の最初の文字とす
る。第4C図の例でいうと、D2<D3であるので、S2を開始
座標としてもつ「漢」が最初の文字となる。
次に、同様の比較を最終座標についても行う。
−4) 各文字の終了座標Tiを値の小さなものから順
にルビ終了座標Yrと比較していき、最初にYr<Tiとなる
Tiを見つける。第4D図の例でいうとT3となる。
−5) YrとTiおよびTi-1との距離Ei,Ei-1を算出す
る。
−6) Ei-1<EiならばTi-1を終了座標としてもつ文
字を、 Ei≦Ei-1ならばTiを終了座標としてもつ文字を、それぞ
れルビのふられている単語の最後の文字とする。第4D図
の例でいうと、E3<E2であるので、T3を最終座標として
もつ「字」が最後の文字となる。
−7) 以上、−1)〜−6)までの操作を切出
されたすべてのルビ,アンダーライン等に対して行な
う。
以上の如く操作を行ない、ルビ,アンダーライン等に
対しての位置情報を得る。第5図は文字認識にこの発明
による方法を適用し、得られた認識結果においてルビの
ふられている単語の前後にルビマークを挿入するという
処理を加えて結果を出力した例である。傍点マーク,傍
線マークまたはアンダーラインマークについても同様な
処理が行なわれる。なお、第5図と対応する入力文書を
第6図に示す。
〔発明の効果〕
この発明によれば、傍点,傍線,ルビまたはアンダー
ラインを検出することによりこれらの情報が失なわれる
のを防ぐとゝもに各々の位置を検出し、その検出結果と
これらが本来付くべき文字列(または文字行)の文字切
出し結果との比較を行なうことにより、どの文字に傍
点,傍線,ルビまたはアンダーラインのいずれが付され
ているかを検出するようにしたので、読取り性能が著し
く向上すると云う利点がもたらされる。
【図面の簡単な説明】
第1図はこの発明の実施例を示す概略フローチヤート、
第2図はその詳細を示すフローチヤート、第3図は各文
字列のピツチの求め方の具体例を説明するための説明
図、第4A図ないし第4D図は傍点,傍線,ルビまたはアン
ダーラインの付く文字を検出する方法の具体例を説明す
るための説明図、第5図はルビの付されている文字を検
出してルビマークを付した例を説明するための説明図、
第6図は第5図と対応する文章例を示す説明図、第7図
は縦書文,横書文と傍点,傍線,ルビまたはアンダーラ
インとの関係を説明するための説明図である。 符号説明 Ai……文字列の切出し開始座標、Bi……文字、Pi……文
字列の距離(ピツチ)、Pa……標準ピツチ、Pth……ピ
ツチのしきい値、Ci……文字列、w0,w1……文字列の
幅、Xr……ルビの最初の文字の開始位置、Yr……ルビの
最後の文字の終了位置、Si……各文字の開始座標、Ti
…各文字の終了座標。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】画像処理装置により、対象となる文書領域
    内の文字列(または文字行)を切出し、隣接する2つの
    文字列(または文字行)間の各ピッチから標準ピッチを
    求め、該標準ピッチから求められるピッチのしきい値と
    各文字列(または文字行)間のピッチとを比較し、しき
    い値以下のピッチをもつ2つの文字列(または文字行)
    の幅をそれぞれ標準文字の大きさと比較して一方の文字
    列(または文字行)の幅だけが所定値以下のとき、幅の
    狭い方の文字列(または文字行)を傍点,傍線,ルビま
    たはアンダーラインを含む列(または行)として検出し
    た後、該列(または行)から傍点,傍線,ルビまたはア
    ンダーライン等の切出しによる傍点,傍線,ルビまたは
    アンダーライン等の個々の位置と文字列(または文字
    行)の切出しによる各文字の位置との比較を行うことに
    より、どの文字に傍点,傍線,ルビまたはアンダーライ
    ン等のいずれが付されているかを検出することを特徴と
    する文字検出方法。
JP63019595A 1988-02-01 1988-02-01 文字検出方法 Expired - Lifetime JP2569103B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63019595A JP2569103B2 (ja) 1988-02-01 1988-02-01 文字検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63019595A JP2569103B2 (ja) 1988-02-01 1988-02-01 文字検出方法

Publications (2)

Publication Number Publication Date
JPH01196685A JPH01196685A (ja) 1989-08-08
JP2569103B2 true JP2569103B2 (ja) 1997-01-08

Family

ID=12003592

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63019595A Expired - Lifetime JP2569103B2 (ja) 1988-02-01 1988-02-01 文字検出方法

Country Status (1)

Country Link
JP (1) JP2569103B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3019683B2 (ja) * 1993-09-20 2000-03-13 株式会社日立製作所 永久電流スイッチ及び超電導マグネットシステム
JP6281329B2 (ja) * 2014-03-06 2018-02-21 ブラザー工業株式会社 画像処理装置
JP6464891B2 (ja) * 2015-03-31 2019-02-06 富士通株式会社 傍線問題採点方法、傍線問題採点プログラム及び傍線問題採点装置
JP6676955B2 (ja) * 2015-12-18 2020-04-08 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS588024B2 (ja) * 1978-10-19 1983-02-14 工業技術院長 ルビ付文字の検出切出装置
JPS6048582A (ja) * 1983-08-25 1985-03-16 Fujitsu Ltd 文字認識装置の文字切出し方法
JPS61269778A (ja) * 1985-05-24 1986-11-29 Agency Of Ind Science & Technol 文字行抽出装置

Also Published As

Publication number Publication date
JPH01196685A (ja) 1989-08-08

Similar Documents

Publication Publication Date Title
JP3452774B2 (ja) 文字認識方法
JP5600723B2 (ja) 様々な文字幅を有するテキスト行の文字を分割するための方法及びシステム
JPH05242292A (ja) 分離方法
US5033098A (en) Method of processing character blocks with optical character reader
JP2569103B2 (ja) 文字検出方法
JP2002015280A (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JPH0410087A (ja) 基本ライン抽出方法
JP3798179B2 (ja) パターン抽出装置及び文字切り出し装置
JP3090342B2 (ja) 文字列方向判別装置
JP2915175B2 (ja) 単語間スペース検出方法
JP2000090194A (ja) 画像処理方法および画像処理装置
JP3537570B2 (ja) 日英混在文書のスペース検出方法、ピッチ書式判定方法及び定ピッチ英数文字列のスペース検出方法
CN115410207B (zh) 一种针对竖排文本的检测方法及装置
KR910007032B1 (ko) 한글 문서 인식장치의 문자열과 개별문자 절출방법
JP2520174B2 (ja) 文字自動抽出装置
JPH08161432A (ja) 文字切り出し方法および文字切り出し装置
JP2612383B2 (ja) 文字認識処理方式
JP2001266070A (ja) 文字認識装置、文字認識方法および記憶媒体
JPH02230484A (ja) 文字認識装置
JP2569132B2 (ja) 特殊文字行の判別方法
JP3111521B2 (ja) 認識文字修正方法
JPH09282417A (ja) 文字認識装置
JPH10162104A (ja) 文字認識装置
JP3190794B2 (ja) 文字切り出し装置
JP2683116B2 (ja) 罫線の除去方法