JPS588024B2 - ルビ付文字の検出切出装置 - Google Patents
ルビ付文字の検出切出装置Info
- Publication number
- JPS588024B2 JPS588024B2 JP53127855A JP12785578A JPS588024B2 JP S588024 B2 JPS588024 B2 JP S588024B2 JP 53127855 A JP53127855 A JP 53127855A JP 12785578 A JP12785578 A JP 12785578A JP S588024 B2 JPS588024 B2 JP S588024B2
- Authority
- JP
- Japan
- Prior art keywords
- circuit
- character
- ruby
- characters
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 239000010979 ruby Substances 0.000 title claims description 32
- 229910001750 ruby Inorganic materials 0.000 title claims description 32
- 238000001514 detection method Methods 0.000 title claims description 15
- 238000000926 separation method Methods 0.000 claims description 27
- 238000006243 chemical reaction Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000013139 quantization Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 5
- 238000000034 method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Landscapes
- Character Input (AREA)
- Facsimile Scanning Arrangements (AREA)
Description
【発明の詳細な説明】
この発明は文字検出切出装置に係り、特にルビ付文字の
ルビと文字とを分離するルビ付文字の検出切出装置に関
する。
ルビと文字とを分離するルビ付文字の検出切出装置に関
する。
従来漢字OCRが対象にしていた日本語文章はルビなし
文章であったため1行づつの分離とか文字つつの分離の
ふでよかったが、小説とか参考書のような一般的な日本
語文章を読み取ろうとする場合ところどころの文字には
ルビが付されていることが多いだめ、文字を最善の状態
で読み取るには文字とルビとを分離しなければならない
。
文章であったため1行づつの分離とか文字つつの分離の
ふでよかったが、小説とか参考書のような一般的な日本
語文章を読み取ろうとする場合ところどころの文字には
ルビが付されていることが多いだめ、文字を最善の状態
で読み取るには文字とルビとを分離しなければならない
。
まだ、ルビ付文字を含む日本語文章は従来の検出切出し
方法では困難な場合も生じる。
方法では困難な場合も生じる。
たとえば「田舎」に付されるルビ「いなか」のうち「な
」は文字「田」と「舎」の中間に位置する。
」は文字「田」と「舎」の中間に位置する。
したがって「田」と「舎」の間の空白部を検知して両文
字を分離することはできない。
字を分離することはできない。
この発明は上記事情に鑑みて為されたものであり、その
目的は上記点を解決したルビ付文字の検出切出装置を提
供するにある。
目的は上記点を解決したルビ付文字の検出切出装置を提
供するにある。
この発明によれば、ルビ付文字混りの日本語文章が印刷
された読取帳票を光学的に走査する光電変換回路と、と
の光電変換回路によって得られた電気信号を量子化する
量子化回路と、上記帳票の1行分の文章に対応する量子
化信号を蓄える1行文字バツファ回路と、この1行文字
バツファ回路に収容された1行分の文章のうちルビが付
されない側の端部の位置を検出する行文字端部検出回路
と、前記1行文字バツファ回路内の文章のうち前記行文
字端部検出回路によって検出された前記端部より所定幅
の範囲について文字の分離位置を検出する文字分離回路
と、この文字分離回路の検出した文字分離位置を記憶す
る記憶回路と、この記憶回路が記憶する前記文字分離位
置に従って文字とルビとを分離するルビ分離回路とを備
えている。
された読取帳票を光学的に走査する光電変換回路と、と
の光電変換回路によって得られた電気信号を量子化する
量子化回路と、上記帳票の1行分の文章に対応する量子
化信号を蓄える1行文字バツファ回路と、この1行文字
バツファ回路に収容された1行分の文章のうちルビが付
されない側の端部の位置を検出する行文字端部検出回路
と、前記1行文字バツファ回路内の文章のうち前記行文
字端部検出回路によって検出された前記端部より所定幅
の範囲について文字の分離位置を検出する文字分離回路
と、この文字分離回路の検出した文字分離位置を記憶す
る記憶回路と、この記憶回路が記憶する前記文字分離位
置に従って文字とルビとを分離するルビ分離回路とを備
えている。
第1図はこの発明の一実施例を示すブロック図である。
1はルビ付文字混りの日本語文章が印字された帳票であ
り、2はその1行分の文字例を表わす。
り、2はその1行分の文字例を表わす。
帳票1は光電変換回路3によって光学的に走査され文字
例2は電気信号に変換される。
例2は電気信号に変換される。
光電変換回路3より得られた電気信号は2値化回路4に
供給されて2値信号に量子化される。
供給されて2値信号に量子化される。
この2値信号は行分離回路5を介して1行分の文字例に
対応する2直信号かバツファ回路6に格納される。
対応する2直信号かバツファ回路6に格納される。
すなわち、バツファ回路6は1行分の文字列を蓄える容
量を持つ。
量を持つ。
第2図a〜dは帳票1の入力方向を示す図である。
第2図a,bは帳票1が横組に印字されている場合であ
り、第2図e+ dは帳票1が縦組に印字されている場
合である。
り、第2図e+ dは帳票1が縦組に印字されている場
合である。
また第2図b,dは帳票1が逆向きで(文章の最後から
)入力される場合を示している。
)入力される場合を示している。
いずれの場合でも帳票1は矢印の方向を上記として、光
電変換回路3は右方向へ走査を左上端から開始するもの
として示した。
電変換回路3は右方向へ走査を左上端から開始するもの
として示した。
このように帳票1の入力方向についての制限を許容する
と、例えば第2図bのように横組で印字された帳票を逆
向きに入力した場合には、バツファ回路6には第3図a
のように逆向きの文字列を収容することとなる。
と、例えば第2図bのように横組で印字された帳票を逆
向きに入力した場合には、バツファ回路6には第3図a
のように逆向きの文字列を収容することとなる。
このような逆向きの文字列を第3図bに示すような通常
の文字列に変換することをアドレス変換と呼ぶ。
の文字列に変換することをアドレス変換と呼ぶ。
再び第1図において、7はフオーマツド指定回路であり
、帳票1の入力方向が正常であるか逆向きであるかを指
示する。
、帳票1の入力方向が正常であるか逆向きであるかを指
示する。
この指示は例えば操作者が帳票1の入力方向をみて図示
しないスイッチ操作によって行なうことができるし、ま
た帳票1上の適当な箇所に予じめ設けた基準マークの向
きを検知してもよい。
しないスイッチ操作によって行なうことができるし、ま
た帳票1上の適当な箇所に予じめ設けた基準マークの向
きを検知してもよい。
フォーマット指定回路7が逆向きであることを指示して
いれば、バソファ回路6の内容はアドレス変換回路8を
介して正常な向きに変換される。
いれば、バソファ回路6の内容はアドレス変換回路8を
介して正常な向きに変換される。
アドレス変換回路8は例えば図示しない1行文の文字列
を収容できる他のバツファ回路を有し、バツファ回路6
から順次取り出した2値信号を逆向きに順次収容される
ことにより実現できる。
を収容できる他のバツファ回路を有し、バツファ回路6
から順次取り出した2値信号を逆向きに順次収容される
ことにより実現できる。
次にバツファ回路6の内容又はアドレス変換回路8の出
力は1行底部検出回路9へ供給され文字列の1行底部が
検出される。
力は1行底部検出回路9へ供給され文字列の1行底部が
検出される。
ここで1行定部とは文字列においてルビが付されていな
い側であって、文字列をその配列方向に走査したとき文
字信号(黒)が存在する最丁の走査線の位置を表わして
いる。
い側であって、文字列をその配列方向に走査したとき文
字信号(黒)が存在する最丁の走査線の位置を表わして
いる。
1行底部検出回路9は、第4図aに示すように、文字列
20を走査線21で順次下から上に走査して最初に文字
信号が得られた走査線が第何番目であるかを検知するこ
とによって求められる。
20を走査線21で順次下から上に走査して最初に文字
信号が得られた走査線が第何番目であるかを検知するこ
とによって求められる。
次にこの情報は文字分離回路10へ供給され、1行分の
文字列を1文字毎に分離するために用いられる。
文字列を1文字毎に分離するために用いられる。
文字分離回路10は、第4図bに示すように、文字列2
0の1行底部を基準として距離yで表わされる所定の走
査範囲を走査線22で示すように縦方向に順次走査する
。
0の1行底部を基準として距離yで表わされる所定の走
査範囲を走査線22で示すように縦方向に順次走査する
。
距離yは帳票1に印字された文字の大きさによって予じ
め適当な値に定めてかくことができる。
め適当な値に定めてかくことができる。
このような縦方向の走査により各文字の投影データが得
られ、その中心から所定の幅の位置(文字分離位置)b
1,b2・・・bi・・・bnを求める。
られ、その中心から所定の幅の位置(文字分離位置)b
1,b2・・・bi・・・bnを求める。
この文字分離位置データは第1図において記憶回路11
に収容される。
に収容される。
文字分離位置データがかわると各文字を1文字毎に容易
に切り出すことができる。
に切り出すことができる。
例えばb2とb3を指定すればその間の2値信号「成」
を表わす文字信号のみである。
を表わす文字信号のみである。
ルビ分離回路にはこのように連続する2つの文字分離位
置データbiとbi+1を順次記憶回路11から取り出
し、それが規定する範囲を行方向に走査する。
置データbiとbi+1を順次記憶回路11から取り出
し、それが規定する範囲を行方向に走査する。
すなわち第4図Cに示すように、1行底部より走査線2
3で順次上方に走査する。
3で順次上方に走査する。
走査線23中に文字信号(黒)が全く検出されず白信号
のみが検出されたときに走査を終了することによってル
ビを除いた文字のみが切り出され、第4図dに示すよう
なルビ分離給果が得られる。
のみが検出されたときに走査を終了することによってル
ビを除いた文字のみが切り出され、第4図dに示すよう
なルビ分離給果が得られる。
ルビ分離回路によって得られた分離文字は文字アドレス
変換回路1.3を介して認識部14へ供給されて認識さ
れる。
変換回路1.3を介して認識部14へ供給されて認識さ
れる。
文字アドレス変換回路13はフォーマット指定回路15
の指定に基づいて分離文字のアドレス変換を行なう。
の指定に基づいて分離文字のアドレス変換を行なう。
このアドレス変換は、第5図aに示すような縦組で印字
された文字(第2図C又はd)を第5図bに示すように
90度回転させるものである。
された文字(第2図C又はd)を第5図bに示すように
90度回転させるものである。
すなわち、フォーマット指定回路7により帳票1が縦組
である率合に文字アドレス変換回路13は上述の処理を
行ない、横組である場合にはそのまま分離文字を出力す
る。
である率合に文字アドレス変換回路13は上述の処理を
行ない、横組である場合にはそのまま分離文字を出力す
る。
第6図は第1図に示す実施例の主要部の一構成例を示す
図である。
図である。
バツファ回路6に1行分の文字列が収容されると、走査
回路30の出力する信号CPIに同期して2値信号が順
次取り出され1行白黒判定回路31及びゲート32を介
してバツファ回路33へ供給される。
回路30の出力する信号CPIに同期して2値信号が順
次取り出され1行白黒判定回路31及びゲート32を介
してバツファ回路33へ供給される。
以下 2値信号が文字信号(黒)のとき“1”空白(白
)のとき“0”とする。
)のとき“0”とする。
1行白黒判定回路31は第4図aの符号21で示す1本
の走査線中に1つでも黒が検出されると端子Aに出力信
号( “1” )を出力し、すべて白の場合に端子Bに
出力信号を出力する。
の走査線中に1つでも黒が検出されると端子Aに出力信
号( “1” )を出力し、すべて白の場合に端子Bに
出力信号を出力する。
端子Aの出力信号は、ゲート34を介してフリップフロ
ツプ35をセットする。
ツプ35をセットする。
したがって、バツファ回路6の内容の走査を開始して黒
が検出されるとゲート32が開かれ、以後バツファ回路
6の内容は順次バソファ回路33へ収容される。
が検出されるとゲート32が開かれ、以後バツファ回路
6の内容は順次バソファ回路33へ収容される。
このときバツファ回路33の内容は1行底部以下の情報
を持たない。
を持たない。
なお第6図において走査回路30の出力する信号E1は
第4図aに示すように、各走査線23の同期信号である
。
第4図aに示すように、各走査線23の同期信号である
。
一方、計数回路36は黒を含む走査線の本数を計数し、
所定の個数例えば5個以上であると出力信号(“1”
)を出力する。
所定の個数例えば5個以上であると出力信号(“1”
)を出力する。
いま計数回路36の計数値が4で次の走査線はすべて白
であったとすると、1行白黒判定回路31の端子Bに出
力信号が得られてゲート31が開かれる。
であったとすると、1行白黒判定回路31の端子Bに出
力信号が得られてゲート31が開かれる。
ゲート37の出力信号はフリツプフロツプ.35及びバ
ツファ回路33をリセットする。
ツファ回路33をリセットする。
これは1行の文字列がブランクである場合でかつよごれ
等によって黒が検出された場合、バツファ回路6に収容
されている内容はブランクであるとして次の処理に移る
だめである。
等によって黒が検出された場合、バツファ回路6に収容
されている内容はブランクであるとして次の処理に移る
だめである。
さて、バツファ回路33には文字列の1行底部を基底と
してデータが収容されているので、走査回路38はゲー
ト39を介して第4図bに示す幅yの走査線22に対応
する信号CP2を出力して、バツファ回路33のデータ
を順次射影回路40へ.供給する。
してデータが収容されているので、走査回路38はゲー
ト39を介して第4図bに示す幅yの走査線22に対応
する信号CP2を出力して、バツファ回路33のデータ
を順次射影回路40へ.供給する。
射影回路40は各走査線中に黒が含まれていれば信号“
1”を出力する。
1”を出力する。
射影回路40の出力信号は走査回路38の出力する走査
線22の本数を規定する信号E2とともに文字分離位置
計算回路41へ供給される。
線22の本数を規定する信号E2とともに文字分離位置
計算回路41へ供給される。
文字分離位置計算回,路41へ供給される。
文字分離位置計算回路41は信号E2を計数するととも
に、射影回路40の出力信号が“1”→“0”及び“0
”→“1”へ変化したときの信号E2の計幹値a,bか
ら各文字の中心位置Aを計算する。
に、射影回路40の出力信号が“1”→“0”及び“0
”→“1”へ変化したときの信号E2の計幹値a,bか
ら各文字の中心位置Aを計算する。
第1図に示すようにこの中心位置Aに予じめ求めておい
た所定値ΔBを加えた位置を文字分離位置bi として
求める。
た所定値ΔBを加えた位置を文字分離位置bi として
求める。
なお第7図において24は射影回路4Dの出力信号を表
わしている。
わしている。
このようにして得られた文字分離位置データは順次記憶
回路42に収各される。
回路42に収各される。
次に記憶回路42内の連続する2つの文字分離位置デー
タb1 ,b2をそれぞれ先頭位置レジスタ43及び最
終位置レジスタ44にセットする。
タb1 ,b2をそれぞれ先頭位置レジスタ43及び最
終位置レジスタ44にセットする。
レジスタ44には走査回路45より同期信号CP 3が
供給され、それぞれ供給されたCP3の個数がb1
、 b2に一致すると出力信号を発生する。
供給され、それぞれ供給されたCP3の個数がb1
、 b2に一致すると出力信号を発生する。
レシスタ43の出力がフリソプフロツプ46をセットと
、レジスタ44の出力がフリツプフロツプ46をリセッ
トすることによって、、フリツプフロツプ46の出力信
号は第4図Cに符号25で示すマスク信号が得られる。
、レジスタ44の出力がフリツプフロツプ46をリセッ
トすることによって、、フリツプフロツプ46の出力信
号は第4図Cに符号25で示すマスク信号が得られる。
このマスク信号によって規定される期間CP3はケート
47.39を介してバツファ回路33を走査するととも
に、白検知回路48及び文字バソファ回路49を駆動す
る。
47.39を介してバツファ回路33を走査するととも
に、白検知回路48及び文字バソファ回路49を駆動す
る。
すなわちバツファ回路33から順次取り出されたデータ
は順次文字バツファ回路49へ収容される。
は順次文字バツファ回路49へ収容される。
一方、マスク信号によってゲート50が開かれ、走査回
路45からの走査線23の本数に対応する信号E3が走
査線数計数回路51に供給されて、走行線(2)の本数
が計数される。
路45からの走査線23の本数に対応する信号E3が走
査線数計数回路51に供給されて、走行線(2)の本数
が計数される。
走査線数計数回路51は計数値が所定の値Hになるとフ
リツプフロツプ52をセットし、H+△になるとフリツ
プフロツプ52をリセットする。
リツプフロツプ52をセットし、H+△になるとフリツ
プフロツプ52をリセットする。
すなわち、H−H+△の間ゲート53が開かれる。
この間に白検知回路48により、第4図Cに示す走査線
23において、すべてが白であることが検知されると、
ゲート53.54を介して文字バツファ回路49ヘデー
タの格納を停止する。
23において、すべてが白であることが検知されると、
ゲート53.54を介して文字バツファ回路49ヘデー
タの格納を停止する。
またH−H+△の間に白検知回路48が出力信号を出さ
ない場合にも同様に停止する。
ない場合にも同様に停止する。
したがって第4図Cに示す、C1 よりCmまで走査線
に対応するデータのみが文字バツファ回路49へ格納さ
れ、ルビが分離される。
に対応するデータのみが文字バツファ回路49へ格納さ
れ、ルビが分離される。
以上のようにこの発明によれば、ルビ付き文字のルビと
文字とを分離することができ、文字読取装置の読取対象
文字を大きく拡げることができる。
文字とを分離することができ、文字読取装置の読取対象
文字を大きく拡げることができる。
また認識部の構成を何ら変更することなくルビ付き文字
の読み取りが可能となる。
の読み取りが可能となる。
上記実施例ではルビを除き文字のみを取り出すように構
成したがルビ部分も検出切出しして認識部に供給するこ
ともできる。
成したがルビ部分も検出切出しして認識部に供給するこ
ともできる。
このような構成によれば例えばルビを認識することによ
り、対応する文字の認識処理を著しく軽減させることが
できる。
り、対応する文字の認識処理を著しく軽減させることが
できる。
その他種々変形して実施できることは言うまでもない。
第1図はこの発明の一実施例を示す図、第2図a 、
b、 c、 d、第3図a 、 b 、第4図a、b,
c,d、第5図a、b及び第7図はこの発明の一実施例
の動作を説明するための図、第6図はこの発明の一実施
列の主要部の一構成図である。 1・・帳票、3・−・光電変換回路、6・・・バツフア
回路、9・・・1行底部検出回路、10・・・文字分離
回路、11・・・記憶回路、12・・・ルビ分離回路。
b、 c、 d、第3図a 、 b 、第4図a、b,
c,d、第5図a、b及び第7図はこの発明の一実施例
の動作を説明するための図、第6図はこの発明の一実施
列の主要部の一構成図である。 1・・帳票、3・−・光電変換回路、6・・・バツフア
回路、9・・・1行底部検出回路、10・・・文字分離
回路、11・・・記憶回路、12・・・ルビ分離回路。
Claims (1)
- 1 ルビ付文字混りの日本語文章が印字された帳票を光
学的に走査して電気信号に交換する光電変換回路と、こ
の光電変換回路より得られる電気信号を量子化する量子
化回路と、この量子化回路より得られる量子化信号のう
ち、前記日本語文章の1行分の文字列に対応する量子化
信号を収容するバツファ回路と、このバツファ回路の前
記文字列の底部の位置を検出する手段と、この手段によ
って検出された底部の位置を基準として前記文字列の配
列方向と垂直な方向に所定幅の範囲の量子化信号につい
て射影を求める射影回路と、この射影回路によって得ら
れた射影結果より前記文字列の分離位置を計算する分離
位置計算回路と、この分離位置により区切 れだ範囲内
の前記量子化信号を順次検知して前記ルビ付文字のルビ
と文字とを分離するルビ分離回路とを備えたことを特徴
とするルビ付文字の検出切出装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP53127855A JPS588024B2 (ja) | 1978-10-19 | 1978-10-19 | ルビ付文字の検出切出装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP53127855A JPS588024B2 (ja) | 1978-10-19 | 1978-10-19 | ルビ付文字の検出切出装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS5556257A JPS5556257A (en) | 1980-04-24 |
| JPS588024B2 true JPS588024B2 (ja) | 1983-02-14 |
Family
ID=14970328
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP53127855A Expired JPS588024B2 (ja) | 1978-10-19 | 1978-10-19 | ルビ付文字の検出切出装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS588024B2 (ja) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6484395A (en) * | 1987-09-26 | 1989-03-29 | Toshiba Corp | Character recognizing device |
| JP2569103B2 (ja) * | 1988-02-01 | 1997-01-08 | 富士電機株式会社 | 文字検出方法 |
-
1978
- 1978-10-19 JP JP53127855A patent/JPS588024B2/ja not_active Expired
Also Published As
| Publication number | Publication date |
|---|---|
| JPS5556257A (en) | 1980-04-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US8428356B2 (en) | Image processing device and image processing method for generating electronic document with a table line determination portion | |
| US7321688B2 (en) | Image processor for character recognition | |
| JPS58103266A (ja) | 文字画像処理装置 | |
| US5307422A (en) | Method and system for identifying lines of text in a document | |
| JPS63158678A (ja) | 単語間スペ−ス検出方法 | |
| GB1338867A (en) | System for analysing engineering drawings or like documents | |
| JPS588024B2 (ja) | ルビ付文字の検出切出装置 | |
| JPH0291789A (ja) | 文字認識方法 | |
| JPS6033333B2 (ja) | 原稿読取装置 | |
| JP4866184B2 (ja) | 画像処理装置、画像方向判別方法、および画像方向判別プログラム | |
| JPH0564396B2 (ja) | ||
| JPS5831028B2 (ja) | 文字認識装置 | |
| JPH0514952B2 (ja) | ||
| JP2626011B2 (ja) | 図面読取処理方法 | |
| JP2721415B2 (ja) | 文字画像抽出方法 | |
| JPS6248941B2 (ja) | ||
| JPS63137383A (ja) | 文字読取装置 | |
| JPS59158477A (ja) | 光学的文字読取装置 | |
| JPS6111888A (ja) | 文書読取装置 | |
| JP2002259909A (ja) | 文字読取装置 | |
| JPH05174185A (ja) | 日本語文字認識装置 | |
| JPH04288773A (ja) | 属性判別方法 | |
| JPS5932065A (ja) | 文字読取装置 | |
| JPS62177686A (ja) | 光学的文字読取装置 | |
| JPS6259832B2 (ja) |