JPH01209586A - 倍角文字・半角文字混在文章の文字認識方式 - Google Patents

倍角文字・半角文字混在文章の文字認識方式

Info

Publication number
JPH01209586A
JPH01209586A JP63034356A JP3435688A JPH01209586A JP H01209586 A JPH01209586 A JP H01209586A JP 63034356 A JP63034356 A JP 63034356A JP 3435688 A JP3435688 A JP 3435688A JP H01209586 A JPH01209586 A JP H01209586A
Authority
JP
Japan
Prior art keywords
width
characters
character
size
double
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63034356A
Other languages
English (en)
Inventor
Katsumi Tanaka
克己 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP63034356A priority Critical patent/JPH01209586A/ja
Publication of JPH01209586A publication Critical patent/JPH01209586A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [概要] 読込んだ文章から個々の文字毎に文字の大きさを認識す
る倍角文字・半角文字混在文章の文字認ノル式に関し、 切出した文字の大きさを正確に認識することを目的とし
、 読込んだ文章が全角と倍角の混在文(モード1)か、又
は全角と半角の混在文(モード2)であるかを判別し、
モード1の場合には倍角文字のピッチを、モード2の場
合には全角文字のピッチをそれぞれ基準にして文字の切
出しを行い、切出した文字について、分離しているか分
離していないかを調べ、分離していた場合においてはモ
ード1の場合とモード2の場合とで所定の比較式を用い
て文字の大きさの認識を行うように構成する。
[産業上の利用分野] 本発明は、読込んだ文章から個々の文字毎に文字の大き
さを認識する倍角文字・半角文字混在文章の文字認識方
式に関する。
原稿中に書かれた文章をイメージセンサ等で読取った文
章から文字を判読するために、先ず読取った文字の大き
さをmR(判別)することが行われる。ところで、文章
は、全ての文字が同じ大きさで書かれているとは限らず
、又、1個の文字も例えば「発」のようにそれ自体分離
していない文字と、例えば「い」、[化]、「旧」のよ
うに1個の文字でも左右に分離している文字もある。従
って、このような文章から文字の大きさを正確に分離す
ることが重要となる。
[従来の技術] ワードプロセッサ等でmかれた全角文字のピッチは全て
等しい。そこで、従来は文字を所定ピッチ毎に切出して
認識を行っている。
[発明が解決しようとする課題] しかしながら、書かれた文章は必ずしも全角文字だけで
はなく、倍角文字、半角文字が混在しているのが通常で
ある(特に全角文字と半角文字は混在している)。この
ように、倍角文字、半角文字等が混在している文章を単
純に同一ピッチで切出すと不具合が生じる。例えば、倍
角文字を全角文字のピッチで切出づことは不可能であり
、半角文字を切出す時には、分離した全角文字(例えば
「い」や[門]等)との区別が困難である。このような
場合には、いずれの場合にも正確な文字の切出しができ
ない。
本発明はこのような課題を解決するためになされたもの
であって、切出した文字の大きさを正確に認識すること
ができる倍角文字・半角文字混在文章の文字認識方式を
提供することを目的としている。
[課題を解決するための手段] 第1図は、本発明方式の原理を示すフローチャートであ
る。本発明は、原稿中の文章を読取り、読取った文章中
の文字の大きさを認識する方式において、 読込んだ文章が全角と倍角の混在文(モード1)か、又
は全角と半角の混在文(モード2)であるかを判別し、
モード1の場合には倍角文字のピッチを、モード2の場
合には全角文字のピッチをそれぞれ基準にして文字の切
出しを行い、切出した文字について、分離しているか分
離していないかを調べ、分離していた場合においてはモ
ード1の場合とモード2の場合とで所定の比較式を用い
て文字の大きさの認識を行うように構成する。
[作用] 原稿上の文章は、行単位でみると全角と倍角が混在した
文章、全角と半角が混在した文章であることが多く、全
角9倍角、半角の3種が混在している例はまれである。
その理由は、倍角文字は文章の見出しに使われることが
多いことによる。そこで、読込んだ文章が全角と倍角の
混在文章か、又は全角と半角との混在文章であるかを判
別し、判別した文章毎に所定の文字認識アルゴリズムを
用いて文字の大きさの認識を行う。これにより、全ての
文字について、その大きさを正確に認識することができ
る。
[実施例] 以下、図面を参照して本発明の実施例を詳細に説明する
第2図は、本発明方式の詳細を示す70−チャートであ
る。以下、このフローチャートに沿って詳細に説明する
。先ず、原稿中の文章をイメージスキャナで読取る(ス
テップ1)。次に読取った文章を2値化する(ステップ
2)。ここで2111化とは読取ったアナログ信号を、
A/D変換器等を用いてディジタルデータに変換するこ
とをいう。
ディジタルデータに変換された文章画像は、逐次メモリ
に格納される。メモリに格納されたデータから1行分の
文字行を切出す(ステップ3)。
切出した行について、行内垂直ヒストグラムにより行内
最大文字ピッチaを捜す(ステップ4)。
第3図は、行内最大文字ピッチ検出の説明図である。図
に示すような文字行があったものとする。
図の上方向から例えば光を当て、下方向にできた影から
文字のピッチを検出するものである。このようにして1
gられた最大ビッヂをaとする。次に読込んだ文章は全
角十倍角か、又は全角十半角であるかどうかを判定する
(ステップ5)。
先ず、判定の結果、全角と倍角の混在文であった場合に
ついて説明する。この場合には、先ず倍角文字の文字ピ
ッチ(ピッチa)を基準にして切出しを行う(ステップ
6)。次に切出した文字が分離しているかどうかをチエ
ツクする(ステップ7)。分離していなかった場合には
、1個の倍角であることは間違いないので、倍角文字と
判定する(ステップ8)。分離している場合には、例え
ば「門」のように左右が分離した倍角文字である場合と
、「えおJのように全角文字゛2文字の場合がある。こ
れらの判定は、以下に示すようなアルゴリズムにより行
われる。
倍角文字ビッヂをa9分離部分のピッチをそれぞれb、
cとする(ステップ9)。゛第4図は、倍角と全角混在
文章の文字切出しの説明図である。
ここで、 a>b+cであるかどうかをチエツクする(ステップ1
0)。チエツクの結果、そうである場合には切出し文字
は倍角であると判定しくステップ11)、そうでない場
合には切出し文字は全角の2文字であると判定する(ス
テップ12)。
a>b+cである場合には倍角文字と判定する理由につ
いて説明する。例えば、第4因の「い」について説明す
ると、分離部分すとCはピッチa内に必ず含まれる。従
って、b+cはbとCの間にあいた隙間弁だけaよりも
短いことになる。よって、切出し文字が倍角文字の場合
にはa>b+Cが必ず成り立つことになる。
次にa<b+Cである場合には全角文字2文字と判定す
る理由について説明する。例えば第4図の「えお」につ
いて説明すると、分離部分すとCはそれぞれが1個の文
字であり、その個々のピッチは比較的大きい。従って、
この場合には必ずa<b+cが成立する。
なお、行内文字列は必ずしも第4図に示すような場合だ
けとは限らず、第5図に示すようにその先頭が全角1文
字の場合もある。この場合には、「口あ」で切出しく口
は全角のスベ・ニスを表す)、前述のアルゴリズムを用
いるとよい。
次に、判定の結果、全角と半角の混在文であった場合に
ついて説明する。先ず、ステップ6の場合と同様にして
、全角文字の文字ピッチ(ピッチa)を基準に切出しを
行い(ステップ13)、切出した文字が分離しているか
どうかをチエツクする(ステップ14)。チエツクの結
果、分離していた場合には全角文字であることに間違い
ないので、全角文字と判定する(ステップ15)。分離
している場合には、例えば「門」のように左右が分離し
た全角文字である場合と、「えお」のように半角文字2
文字の場合がある。これらの判定は、以下に示すような
アルゴリズムにより行われる。
全角文字ピッチをa0分離部分のピッチをそれぞれb、
cとする(ステップ16)。第6図は、全角と半角混在
文章の文字切出しの説明図である。
ここで、 a>b+cであるかどうかをチエツクする(ステップ1
7)。チエツクの結果、そうである場合には切出し文字
は全角であると判定しくステップ18)、そうでない場
合には切出し文字は半角の2文字であると判定する(ス
テップ19)。
a>b+cである場合には倍角文字と判定する理由及び
a<b+cである場合には全角文字2文字と判定する理
由については、ステップ10〜12について説明したの
と同様であるので、その説明は省略する。また、この場
合にも第7図に示すように第5図の場合と同様に先頭が
半角の1文字の場合がある。この時の切出しも、前述の
場合と同様にして「ロア」の形で切出した後、同じアル
ゴリズムを用いて文字の認識を行う。
このようにして、読込んだ全ての文字についての大きさ
を認識処理が終了したら、入カバターンの拡大処理を行
う(ステップ20)。
次に入カバターンの拡大処理について説明する。
切出した文字が何という文字であるかを最終的には判断
する必要がある。このため、切出した文字を予め用意し
ておいた標準パターンと比較することが行われる。この
標準パターンは、全角のJISコード文字全てに対応す
るが、従来、倍角及び半角に対応する標準パターンとい
うものはない。
この場合において、切出した文字の大きさ毎に標準パタ
ーンを持つものとすると、全角の標準パターンに加えて
倍角、半角用にそれぞれ標準パターンを持つ必要がある
。倍角、半角文字の標準パターンを作成することはデー
タmも膨大になり、認識速度も低下する。しかも、極め
て人容最のメモリを用意する必要がある。このことは、
はぼ同様のパターンを3種類も用意することになり、い
かにも無駄である。そこで、本発明では、標準パターン
は全角用のものを1個用意し、倍角、半角もこの全角用
の標準パターンを使えるようにした。
先ず、第8図に示すように予め標準パターンのイメージ
を2×2の大きさに拡大して特徴間を抽出しておく。す
ると、入力文字パターンが全角文字の場合には第9図(
イ)に示すように縦横をそれぞれ2倍し、入力文字パタ
ーンが倍角文字の場合には(ロ)に示すように縦方向の
み2倍し、入力文字パターンが半角文字の場合には(ハ
)に示すように縦横をそれぞれ4倍する。この結果、拡
大されたパターンの大きさは全て第8図に示す拡大され
た標準フォーマットと等しくなり、パターン比較が可能
となる。
入カバターンの拡大処理が終わったら、この拡大パター
ンの特徴間を抽出しくステップ21)、標準パターンと
のマツチングをとり(ステップ22)、マツチングによ
りセレクトした候補文字を出力する(ステップ23)。
このようにして出力された候補文字の認識率は99%に
もなった。
第10図は、本発明方式を実施するシステム構成図であ
る。図において、1は全体の制御動作を行うCPLJ、
2は原稿から文章を読取るイメージスキャナ、3は読取
った文章および拡大処理後のパターンを格納するメモリ
、4は読取った情報等を表示するデイスプレィ、5は最
終的に認識が終了した文字データを格納するディスク装
置、6はこれらを相互接続するバスである。イメージス
キャナ2で読込んだ画像は、−旦メモリ3に格納される
。CPU1は、メモリ3に格納されている文字データを
行単位で読出し、読出した文章から文字を切出しその大
きさを認識する。次に認識した文字パターンを、メモリ
3に格納されている標準パターンと比較し、比較処理に
より決定した候補文字をディスク装置f5に格納すると
共に、デイスプレィ4上に表示する。
第11図は、本発明に基づく文字認m装置の一実施例を
示す構成ブロック図である。イメージスキャナ11で読
取った原稿情報は、ディジタルデータに変換された後、
イメージメモリ12に格納される。文字切出し回路13
は、イメージメモリ12に格納されているデータから文
字1行分を切出して読込み、前述したようなアルゴリズ
ムを用いて1文字毎の大きさを認識する。
拡大特徴抽出回路14は、文字切出し回路13の出カバ
ターンを受けて、標準パターンに合わせた拡大処理を行
い、拡大されたパターンを出力する。同時にイメージメ
モリ12にも格納する。マツチング回路15は、拡大特
徴抽出回路14の出力と、イメージメモリ12に格納さ
れている標準パターンとを付き合わせてマツチングをと
る。そして、マツチングがとれたものについて、候補文
字として出力する。
第12図は、拡大特徴抽出回路14の一部であって、文
字の大きさを認識する比較演算回路の具体的構成例を示
す図である。前述の文字ピッチa。
b、cは、それぞれレジスタ21A、218.210に
格納される。これらレジスタ21A、21B、2ICに
格納されたデータは、セレクタ22に入っている。比較
1路23は、セレクタ22からピッチデータa、b、c
を順次受けて、aとb十Cとの比較演算を行う。そして
、比較の結果に応じて、切出した文字が倍角文字である
か、全角文字であるか或いは半角文字であるかを出力す
る。
[発明の効果] 以上、詳細に説明したように、本発明によれば読み込ん
だ文章を、■全角と倍角の混在文、■全角と半角の混在
文の2つに分類し、これら2つの文章について所定のア
ルゴリズムを用いることにより、切出した文字の大きさ
を正確1に認識することができる倍角文字・半角文字混
在文章の文字認識方式を提供することができる。
【図面の簡単な説明】
第1図は本発明方式の原理を示すフローヂャート、 第2図は本発明方式の詳細を示すフローヂャート、 第3図は行内最大文字ピッチ検出の説明図、第4図は倍
角と全角混在文章の文字切出しの説明図、 第5図は先頭が全角1文字の場合の文字切出しの説明図
、 第6図は全角と半角混在文章の文字切出しの説明図、 第7図は先頭が半角1文字の場合の文字切出しの説明図
、 第8図は標準パターンの拡大の説明図、第9図は入カバ
ターンの拡大の説明図、第10図は本発明方式を実施す
るシステム構成゛図、 第11図は文字認識装置の一実施例を示す構成プロツク
図、 第12図は比較演算回路の具体的構成例を示す図である
。 第11図において、 11はイメージスキャナ、 12はイメージメモリ、 13は文字切出し回路、 14は拡大特徴抽出回路、 15はマツチング回路である。 本発明方式の原理を示すフローチャート第1図 L  L   I  IJ 繭4図 角何ら 図 第6図 角■7図 2×2拡大 標章パターンの拡大の説用図 第8図

Claims (2)

    【特許請求の範囲】
  1. (1)原稿中の文章を読取り、読取つた文章中の文字の
    大きさを認識する方式において、 読込んだ文章が全角と倍角の混在文(モー ド1)か、又は全角と半角の混在文(モード2)である
    かを判別し(ステップ[1])、モード1の場合には倍
    角文字のピッチを、 モード2の場合には全角文字のピッチをそれぞれ基準に
    して文字の切出しを行い(ステップ[2])、 切出した文字について、分離しているか分 離していないかを調べ(ステップ[3])、分離してい
    た場合においてはモード1の場 合とモード2の場合とで所定の比較式を用いて文字の大
    きさの認識を行う(ステップ[4])ようにしたことを
    特徴とする倍角文字・半角文字混在文章の文字認識方式
  2. (2)前記ステップ[4]において、モード1の場合に
    おいては倍角文字ピッチを、モード2の場合においては
    全角文字ピッチをそれぞれaとし、分離部分のピッチを
    それぞれb、cとして、 (モード1の場合) a>b+cならば切出し文字は倍角 a<b+cならば切出し文字は全角の2文字(モード2
    の場合) a>b+cならば切出し文字は全角 a<b+cならば切出し文字は半角の2文字と認識する
    ようにしたことを特徴とする請求項1記載の倍角文字・
    半角文字混在文章の文字認識方式。
JP63034356A 1988-02-17 1988-02-17 倍角文字・半角文字混在文章の文字認識方式 Pending JPH01209586A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63034356A JPH01209586A (ja) 1988-02-17 1988-02-17 倍角文字・半角文字混在文章の文字認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63034356A JPH01209586A (ja) 1988-02-17 1988-02-17 倍角文字・半角文字混在文章の文字認識方式

Publications (1)

Publication Number Publication Date
JPH01209586A true JPH01209586A (ja) 1989-08-23

Family

ID=12411881

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63034356A Pending JPH01209586A (ja) 1988-02-17 1988-02-17 倍角文字・半角文字混在文章の文字認識方式

Country Status (1)

Country Link
JP (1) JPH01209586A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010039615A (ja) * 2008-08-01 2010-02-18 Hitachi Omron Terminal Solutions Corp 文字認識方法及び文字認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010039615A (ja) * 2008-08-01 2010-02-18 Hitachi Omron Terminal Solutions Corp 文字認識方法及び文字認識装置

Similar Documents

Publication Publication Date Title
CA2116600C (en) Methods and apparatus for inferring orientation of lines of text
US5384863A (en) Methods and apparatus for automatic modification of semantically significant portions of a document without document image decoding
CN113610068B (zh) 基于试卷图像的试题拆解方法、系统、存储介质及设备
JPH01209586A (ja) 倍角文字・半角文字混在文章の文字認識方式
JPH0991371A (ja) 文字表示装置
JP3537570B2 (ja) 日英混在文書のスペース検出方法、ピッチ書式判定方法及び定ピッチ英数文字列のスペース検出方法
JPH04211884A (ja) 文字切り出し方法
JPS6154569A (ja) 文書画像処理方式
JP2746345B2 (ja) 文字認識の後処理方法
JP2796140B2 (ja) 自然言語処理用データ編集支援装置
JPH05174185A (ja) 日本語文字認識装置
JPH04260980A (ja) 図形認識装置
JP2851102B2 (ja) 文字切出し方法
JPH02230484A (ja) 文字認識装置
JP2972443B2 (ja) 文字認識装置
JPH09269970A (ja) 文字認識方法とその装置
JP3116453B2 (ja) 英文字認識装置
JPH0950488A (ja) 異サイズ混在文字列の読取り方法
JP3243389B2 (ja) 文書識別方法
JPS61206090A (ja) 文字読取装置
JPH0576666B2 (ja)
JPS63245760A (ja) 文書整形装置
JPH0981672A (ja) 文書読取装置
JPH07271911A (ja) 文字認識装置
JPH07193710A (ja) 文章画像処理装置