JPH1011542A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH1011542A
JPH1011542A JP8159402A JP15940296A JPH1011542A JP H1011542 A JPH1011542 A JP H1011542A JP 8159402 A JP8159402 A JP 8159402A JP 15940296 A JP15940296 A JP 15940296A JP H1011542 A JPH1011542 A JP H1011542A
Authority
JP
Japan
Prior art keywords
character
writing
characters
dictionary
horizontal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8159402A
Other languages
English (en)
Inventor
Koji Kurokawa
浩司 黒川
Hiroshi Kamata
洋 鎌田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP8159402A priority Critical patent/JPH1011542A/ja
Publication of JPH1011542A publication Critical patent/JPH1011542A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

(57)【要約】 【課題】 入力文字の認識速度および認識精度を向上さ
せる。 【解決手段】 すべての文字を横書き専用文字、横書き
縦書き共通文字および縦書き専用文字に範囲を区分して
認識用辞書6に予め格納しておき、切り出された文字の
位置情報から文字の横書き縦書きを判別し、判別した横
書きまたは縦書きに基づいて認識用辞書6の照合範囲を
選択する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力する文字範囲
を判別し文字範囲に対応する認識用辞書の範囲を選択し
て照合する文字認識装置に関する。文字認識装置におい
ては、入力する文字と認識用辞書内のすべての文字の照
合を行っているため、例えば横書き文字の認識時に縦書
き専用文字と誤認識したり、英文の認識時に英字を漢字
に認識するときがあり、認識精度および認識速度の低下
を招いていた。このような不都合を解消して認識精度お
よび認識速度を向上させることが要望されている。
【0002】
【従来の技術】従来の文字認識装置としては、例えば図
8に示すようなものがある。図8において、101は入
力部であり、入力部101は文字を読み取って二値化部
102に出力する。二値化部102は入力した文字を二
値化情報に変換して文字切出部103に出力する。文字
切出部103は二値化情報から文字の切出しを行い、矩
形情報として特徴抽出部104に出力する。特徴抽出部
104は文字の矩形情報から入力文字の特徴を抽出して
入力文字特徴格納部105に出力する。抽出された文字
の特徴は、入力文字特徴格納部105に格納された後に
照合部106に出力される。照合部106は抽出された
文字特徴と認識用辞書107内のすべての文字とを照合
し、文字認識を行って認識結果格納部108に格納す
る。認識結果格納部108に格納された認識文字は出力
部109から出力される。
【0003】
【発明が解決しようとする課題】しかしながら、このよ
うな従来の文字認識装置にあっては、抽出した文字特徴
と認識用辞書内にすべての文字との照合を行っているた
め、照合のために要する時間が長く、また、横書き文字
の認識時に縦書き専用文字と誤認識したり、英文の認識
時に英字を漢字に誤認識するときがあり、認識精度およ
び認識速度の低下が生じていた。
【0004】本発明は、このような従来の問題点に鑑み
てなされたものであって、認識精度および認識速度を向
上させることができる文字認識装置を提供することを目
的とする。
【0005】
【課題を解決するための手段】この目的を達成するため
に、本発明は、図1のように構成する。本発明は、図1
(A)に示すように、入力文字の切出しを行った後に切
出した文字の特徴を抽出して文字の照合を行う際、すべ
ての文字を横書き専用文字、横書き縦書き共通文字およ
び縦書き専用文字に範囲を区分して認識用辞書6に格納
しておき、切り出された文字の位置情報から文字の横書
き縦書きを判別し、判別した横書きまたは縦書きに基づ
いて認識用辞書6の照合範囲を選択する。
【0006】横書き縦書き判別手段4は、切り出した文
字の行方向の間隔aと列方向の間隔bを比較し、間隔a
>間隔bのときは縦書きであると判別し、間隔b>間隔
aのときは横書きであると判別する。認識用辞書6は、
横書き専用文字と横書き縦書き共通文字を連続して配置
し、横書き縦書き共通文字に続いて縦書き専用文字を連
続して配置する。
【0007】認識用辞書6は格納された横書き専用文字
として半角文字を含み、また、格納された縦書き専用文
字として新聞用書体を含む。辞書範囲選択手段5は、横
書きであると判別されたときは認識用辞書6において横
書き専用文字および横書き縦書き共通文字を照合範囲と
して選択し、縦書きであると判別されたときは縦書き専
用文字および横書き縦書き共通文字を照合範囲として選
択する。
【0008】さらに、本発明は、図1(B)に示すよう
に、入力文字の切出しを行った後に切出した文字の特徴
を抽出して文字の照合を行う際、すべての文字を英文と
日本語に範囲を区分して認識用辞書6に格納しておき、
英文日本語判別手段18により抽出された文字の特徴か
ら文字が英文か日本語かを判別し、判別した英文または
日本語に基づいて認識用辞書6の照合範囲を選択する。
【0009】このような本発明の文字認識装置によれ
ば、認識用辞書6の照合を行う際に、認識用辞書6の照
合範囲を制限することになり、余分な照合を行わないの
で、認識速度および認識精度を向上させることができ
る。また、認識用辞書6の照合範囲が連続して配置され
ているので、認識速度をさらに向上させることができ
る。
【0010】
【発明の実施の形態】図2は本発明の一実施形態を示す
ブロック図である。図2において、1は入力部であり、
入力部1により読み取られた文字データは、二値化部2
で二値化情報に変換される。二値化情報から文字切出部
3において文字が切り出され、矩形の位置情報が得られ
る。4は横書き縦書き判別手段としての横書き縦書き判
別部であり、横書き縦書き判別部4は文字切出部3で切
り出された矩形の位置情報に基づいて横書き縦書きを判
別する。
【0011】図3は横書き縦書き判別部4による横書き
縦書きの判別の説明図である。図3(A),(B)にお
いて、12は切り出された文字の矩形であり、行方向の
矩形12と矩形12の間隔をaとし、列方向の矩形12
と矩形12の間隔をbとする。図3(A)に示すように
行方向の間隔aは非常に小さく、列方向の間隔bが大き
いとき、すなわち、間隔b>間隔aのときは入力文字は
横書きであると判別する。また、図3(B)に示すよう
に、行方向の間隔aが大きく、列方向の間隔bが非常に
小さいとき、すなわち間隔a>間隔bのときは入力文字
は縦書きであると判別する。すなわち、横書きの場合に
は、行と行との間隔が大きく、縦書きの場合には列と列
との間隔が大きいことに着目して切り出した矩形の位置
情報により横書きか縦書きかを判別する。
【0012】図2に戻って、横書き縦書き判別部4で判
別した横書きまたは縦書きに基づいて、辞書範囲選択手
段としての辞書範囲選択部5は認識用辞書6における照
合範囲を選択する。認識用辞書6にはすべての文字を横
書き専用文字、横書き縦書き共通文字および縦書き専用
文字に範囲を区分して格納される。すなわち、図4に示
すように、認識用辞書6内には横書き専用文字13が格
納され、これに連続的に横書き縦書き共通文字14が格
納され、さらにこれに連続的に縦書き専用文字15が格
納される。横書き専用文字13と横書き縦書き共通文字
14が横書き用辞書16を構成し、横書き縦書き共通文
字14と縦書き専用文字15が縦書き用辞書17を構成
している。したがって、認識用辞書6は横書き用辞書1
6と縦書き用辞書17により構成される。横書き縦書き
判別部4で入力文字が横書きであると判別したときは、
辞書範囲選択部5は、認識用辞書6のうちの横書き用辞
書16を選択し、入力文字が縦書きであると判別したと
きは、認識用辞書6のうちの縦書き用辞書17を選択す
る。
【0013】認識用辞書6の範囲を横書き専用文字1
3、横書き縦書き共通文字14および縦書き専用文字1
5に区分したのは、図5に示すように、横書き専用の文
字と縦書き専用の文字があり、半角文字は横書き専用文
字であり、新聞用書体は縦書き専用文字であるからであ
る。図5(A)は円かっこを示し、横書き専用文字の例
である。この横書き専用の円かっこは、左方向または右
方向に半円で湾曲しており、横書きのとき用いられる。
図5(B)はひらがなの「あ」を示し、横書き縦書き共
通文字の例である。この文字は横書きにも縦書きにも使
用される。図5(C)は円かっこを示し、縦書き専用文
字の例である。この円かっこは上方または下方に半円で
湾曲しており、縦書きのとき用いられる。図5(D)は
左側に英字Aで示される全角文字の例を、右側に同じく
英字Aで示される半角文字の例をそれぞれ示す。右側の
半角文字は、横書き専用文字である。図5(E)は左側
に通常の書体を示し、右側に新聞用書体をそれぞれ示
す。通常の書体のひらがなの「こ」は上と下が分離され
ているが、新聞書体では上と下がつながっていることが
ある。右側に示す新聞書体は縦書き専用文字である。
【0014】再び図2において、7は特徴抽出部であ
り、特徴抽出部7は文字切出部7は文字切出部3で切り
出された文字から特徴を抽出し、入力文字特徴格納部8
に格納する。照合部9は入力文字特徴格納部8に格納さ
れた文字の特徴と認識用辞書6と照合を行い、文字を認
識する。この場合、照合部9は入力文字が横書きの場合
には横書き専用文字13と横書き縦書き共通文字14の
みの横書き用辞書16の範囲で、また入力文字が縦書き
の場合には横書き縦書き共通文字14と縦書き専用文字
15のみの縦書き用辞書17の範囲で認識用辞書6との
照合を行う。照合部9で照合し文字を認識した結果は、
認識結果格納部10に格納され、出力部11から出力さ
れる。
【0015】次に、動作を説明する。入力データは入力
部1により読み取られ、二値化部2で二値化した情報に
変換される。変換された二値化情報から文字切出部3は
文字を切り出し矩形の位置情報を得る。横書き縦書き判
別部4は、文字切出部3で切り出した矩形の位置情報に
基づいて入力文字が横書きであるか縦書きであるかを判
別する。切り出された矩形12の行方向の間隔aが列方
向の間隔bより小さいときは、横書きであると判別し
(図3(A)、参照)、行方向の間隔aが列方向の間隔
bより大きいときは縦書きであると判別する(図3
(B)、参照)。横書き縦書き判別部4による横書き縦
書きの判別結果により辞書範囲選択部5において、認識
用辞書6の使用範囲を決定する。すなわち、横書きのと
きは、認識用辞書6において、横書き専用文字13と横
書き縦書き共通文字14からなる横書き用辞書16を使
用し、縦書きのときは横書き縦書き共通文字14と縦書
き専用文字15からなる縦書き用辞書17を使用する。
【0016】一方、文字切出部3で切り出された文字
は、特徴抽出部7で文字の特徴が抽出されて、入力文字
特徴格納部8に格納される。照合部9は入力文字特徴格
納部8に格納された文字の特徴と認識用辞書6とを照合
する、この場合、照合部9は入力文字が横書きのときは
横書き専用文字13と横書き縦書き共通文字14からな
る横書き用辞書16の範囲で、入力文字が縦書きのとき
は横書き縦書き共通文字14と縦書き専用文字15から
なる縦書き用辞書17の範囲で認識用辞書6と照合を行
って、入力文字を認識する。照合部9で照合して認識し
た文字は、認識結果格納部10内に格納され、その後出
力部11上に出力される。
【0017】このように、入力文字の特徴と認識用辞書
6との照合を行う際に、横書きか縦書きかを判別して横
書きのときは横書き用辞書16の範囲を使用し、縦書き
のときは縦書き用辞書17の範囲を使用して、認識用辞
書6の使用範囲を制限する。このため、余分な照合を行
わないので、認識速度を向上させることができ、横書き
のとき縦書きでしか使われない文字と誤認識されること
がなくなり、縦書きのとき横書きでしか使われない文字
と誤認識されることがなくなり、認識精度を向上させる
ことができる。また、認識用辞書6内において、横書き
専用文字13、横書き縦書き共通文字14および縦書き
専用文字15が連続して位置されているため、照合する
範囲は一つにまとまっているので、認識速度をさらに向
上させることができる。
【0018】図6は本発明の他の実施形態を示すブロッ
ク図である。本実施形態においては、入力文字が英文か
日本語かを判別して、英文のときは、英文用辞書の範囲
を使用し、日本語のときは日本語用辞書の範囲を使用す
る。図6において、1は入力部であり、入力部1は入力
データを読み取って二値化部2に出力される。二値化部
2は入力部1で読み取った文字データを二値化情報に変
換して文字切出部3に出力する。文字切出部3は二値化
情報から文字を切り出し、文字の矩形情報を求めて特徴
抽出部7に出力する。特徴抽出部7は文字の矩形情報に
基づいて文字の特徴を抽出する入力文字特徴格納部8に
出力するとともに、英文日本語判別手段としての英文日
本語判別部18に出力する。英文日本語判別部18は文
字の特徴に基づいて入力文字が英文であるか日本語であ
るかを判別する。英文日本語判別部18は、例えば第1
行目または第1列目における切り出された文字の特徴の
一つ一つを順次判別して一つでも英文でないことを判別
したときは、入力文字が日本語であると判別し、一方、
第1行目の終りまたは第1列目の終りまで英文であるこ
とを判別したときは、入力文字が英文であると判別す
る。
【0019】5は辞書範囲選択手段としての辞書範囲選
択部であり、辞書範囲選択部5は英文日本語判別部18
で判別した英文であるか日本語であるかの判別結果に基
づいて認識用辞書6の使用範囲を決定する。認識用辞書
6には、すべての文字を英文と日本語に範囲を区分して
格納されている。図7は認識用辞書6の内部構成例を示
す図である。
【0020】図7において、認識用辞書6の使用範囲は
英文用辞書19と日本語用辞書20により構成されてい
る。英文用辞書19は、例えば半角記号、半角数字、半
角英字により構成され、日本語用辞書20は、例えば半
角カナ、記号、数字、英字、ひらがな、カタカナ、漢字
により構成されている。英文用辞書19と日本語用辞書
20の構成をここでは上記のようにしたが、上記のよう
な構成に限定されるものではなく、認識用辞書6として
は、英文用辞書19と日本語用辞書20の2つの使用範
囲に区分されていれば良い。入力文字が英文であると判
別されたときは、辞書範囲選択部5により、認識用辞書
6の英文用辞書19を使用範囲として選択し、入力文字
が日本語であると判別されたときは、辞書範囲選択部5
により認識用辞書6の日本語用辞書20を使用範囲とし
て選択する。
【0021】図6に戻って、9は照合部であり、照合部
9は入力文字特徴格納部8に格納された入力文字の特徴
と認識用辞書6を照合する。このとき、照合部9は入力
文字が英文のとき配分用辞書19のみの範囲で、入力文
字が日本語のときは日本語用辞書20のみの範囲で認識
用辞書6との照合を行う。照合部9は認識用辞書6との
照合によって入力文字を認識し、認識結果を認識結果格
納部10に格納する。認識結果格納部10に格納された
認識文字は、出力部11から出力される。
【0022】次に、動作を説明する。入力部1で読み取
られた入力データは、二値化部2により二値化情報に変
換される。変換された二値化情報は文字切出部3により
文字の外接矩形が切り出され、特徴抽出部7により入力
文字の特徴が抽出される。抽出された文字の特徴のより
英文日本語判別部18により入力文字が英文か日本語か
判別される。入力文字が英文と判別されたときは、辞書
範囲選択部5により、認識用辞書6の使用範囲として英
文用辞書19が選択され、入力文字が日本語と判別され
たときは、使用範囲として日本語用辞書20が選択され
る。
【0023】一方、特徴抽出部7で抽出された入力文字
の特徴は入力文字特徴格納部8に格納され、照合部9に
より格納された文字の特徴を認識用辞書6との照合で行
われる。このとき、照合部9は入力文字が英文のとき
は、英文用辞書19のみの範囲で、また、入力文字が日
本語のときは、日本語用辞書20のみの範囲で、認識用
辞書6との照合を行う。照合部9で照合し、文字認識を
行った認識結果は、認識結果格納部10に格納された後
に、出力部11から出力される。
【0024】本実施形態においては、入力文字の特徴を
認識用辞書6との照合を行うとき、入力文字が英文が日
本語かによって認識用辞書6の使用範囲を制限する。こ
のため、余分な照合を行わないので、認識速度を向上さ
せることができる。また、英文の認識時に英文を漢字に
認識するようなことがなくなり、認識精度を向上させる
ことができる。
【0025】
【発明の効果】以上説明してきたように、本発明によれ
ば、認識用辞書との照合を行う際に、認識用辞書の使用
範囲を制限するようにしたため、余分な照合を行うこと
がなく、認識速度および認識精度を向上させることがで
きる。
【図面の簡単な説明】
【図1】本発明の原理説明図
【図2】本発明の一実施形態を示すブロック図
【図3】横書き縦書きの判別方法の説明図
【図4】認識用辞書の内部構成例を示す図
【図5】横書き専用文字、横書き縦書き共通文字、縦書
き専用文字の例を示す図
【図6】本発明の他の実施形態を示すブロック図
【図7】認識用辞書の内部構成例を示す図
【図8】従来例を示す図
【符号の説明】
1:入力部 2:二値化部 3:文字切出部 4:横書き縦書き判別部(横書き縦書き判別手段) 5:辞書範囲選択部(辞書範囲選択手段) 6:認識用辞書 7:特徴抽出部 8:入力文字特徴格納部 9:照合部 10:認識結果格納部 11:出力部 12:文字の矩形 13:横書き専用文字 14:横書き縦書き共通文字 15:縦書き専用文字 16:横書き用辞書 17:縦書き用辞書 18:英文日本語判別部(英文日本語判別手段) 19:英文用辞書 20:日本語用辞書

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】入力文字の切出しを行った後に切出した文
    字の特徴を抽出して文字の照合を行う文字認識装置にお
    いて、 すべての文字を横書き専用文字、横書き縦書き共通文字
    および縦書き専用文字に範囲を区分して格納した認識用
    辞書と、 切り出された文字の位置情報から文字の横書き縦書きを
    判別する横書き縦書き判別手段と、 該横書き縦書き判別手段で判別した横書きまたは縦書き
    に基づいて前記認識用辞書の照合範囲を選択する辞書範
    囲選択手段と、を備えたことを特徴とする文字認識装
    置。
  2. 【請求項2】請求項1記載の文字認識装置において、 前記横書き縦書き判別手段は、切り出した文字の行方向
    の間隔aと列方向の間隔bを比較し、間隔a>間隔bの
    ときは縦書きであると判別し、間隔b>間隔aのときは
    横書きであると判別することを特徴とする文字認識装
    置。
  3. 【請求項3】請求項1記載の文字認識装置において、 前記認識用辞書に、前記横書き専用文字と前記横書き縦
    書き共通文字を連続して配置し、前記横書き縦書き共通
    文字に続いて前記縦書き専用文字を連続して配置したこ
    とを特徴とする文字認識装置。
  4. 【請求項4】請求項1記載の文字認識装置において、 前記認識用辞書は格納された横書き専用文字として半角
    文字を含むことを特徴とする文字認識装置。
  5. 【請求項5】請求項1記載の文字認識装置において、 前記認識用辞書は、格納された縦書き専用文字として新
    聞用書体を含むことを特徴とする文字認識装置。
  6. 【請求項6】請求項1記載の文字認識装置において、 前記辞書範囲選択手段は、横書きであると判別されたと
    きは認識用辞書において横書き専用文字および横書き縦
    書き共通文字を照合範囲として選択し、縦書きであると
    判別されたときは縦書き専用文字および横書き縦書き共
    通文字を照合範囲として選択することを特徴とする文字
    認識装置。
  7. 【請求項7】入力文字の切出しを行った後に切出した文
    字の特徴を抽出して文字の照合を行う文字認識装置にお
    いて、 すべての文字を英文と日本語に範囲を区分して格納した
    認識用辞書と、 抽出された文字の特徴から文字が英文か日本語かを判別
    する英文日本語判別手段と、 該英文日本語判別手段で判別した英文または日本語に基
    づいて前記認識用辞書の照合範囲を選択する辞書範囲選
    択手段と、を備えたことを特徴とする文字認識装置。
JP8159402A 1996-06-20 1996-06-20 文字認識装置 Pending JPH1011542A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8159402A JPH1011542A (ja) 1996-06-20 1996-06-20 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8159402A JPH1011542A (ja) 1996-06-20 1996-06-20 文字認識装置

Publications (1)

Publication Number Publication Date
JPH1011542A true JPH1011542A (ja) 1998-01-16

Family

ID=15692995

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8159402A Pending JPH1011542A (ja) 1996-06-20 1996-06-20 文字認識装置

Country Status (1)

Country Link
JP (1) JPH1011542A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009223556A (ja) * 2008-03-14 2009-10-01 Omron Corp 文字認識プログラム、文字認識電子部品、文字認識装置、文字認識方法、およびデータ構造

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6254380A (ja) * 1985-08-20 1987-03-10 Matsushita Electric Ind Co Ltd 文字認識装置
JPH03252894A (ja) * 1990-03-02 1991-11-12 Ricoh Co Ltd 文字認識装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6254380A (ja) * 1985-08-20 1987-03-10 Matsushita Electric Ind Co Ltd 文字認識装置
JPH03252894A (ja) * 1990-03-02 1991-11-12 Ricoh Co Ltd 文字認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009223556A (ja) * 2008-03-14 2009-10-01 Omron Corp 文字認識プログラム、文字認識電子部品、文字認識装置、文字認識方法、およびデータ構造

Similar Documents

Publication Publication Date Title
US5359673A (en) Method and apparatus for converting bitmap image documents to editable coded data using a standard notation to record document recognition ambiguities
CA1208784A (en) Method and apparatus for character recognition accommodating diacritical marks
US7162086B2 (en) Character recognition apparatus and method
JP2713622B2 (ja) 表形式文書読取装置
JP3452774B2 (ja) 文字認識方法
JPH0772906B2 (ja) 文書認識装置
JPH1011542A (ja) 文字認識装置
JP3467437B2 (ja) 文字認識装置及びその方法とプログラム記録媒体
JPS592191A (ja) 手書き日本語文の認識処理方式
JPH10134141A (ja) 文書照合装置および方法
JP3151866B2 (ja) 英文字認識方法
JPS5927381A (ja) 文字認識方式
Leishman Shape-free statistical information in optical character recognition
JP2931485B2 (ja) 文字切出し装置及び方法
JP3428504B2 (ja) 文字認識装置
JP2851102B2 (ja) 文字切出し方法
JPH06119497A (ja) 文字認識方法
JP2972443B2 (ja) 文字認識装置
JP3064508B2 (ja) 文書認識装置
JPH06139277A (ja) 電子辞書装置
JPH11134439A (ja) 単語認識方法
JPS61153787A (ja) 情報処理装置
JPH0711820B2 (ja) オンライン文字認識装置
JPH05165817A (ja) 文書処理装置
JPH04242491A (ja) 光学文字読取装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20020702