JPH03230288A - 情報処理装置 - Google Patents

情報処理装置

Info

Publication number
JPH03230288A
JPH03230288A JP2026297A JP2629790A JPH03230288A JP H03230288 A JPH03230288 A JP H03230288A JP 2026297 A JP2026297 A JP 2026297A JP 2629790 A JP2629790 A JP 2629790A JP H03230288 A JPH03230288 A JP H03230288A
Authority
JP
Japan
Prior art keywords
character
character area
area
information processing
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2026297A
Other languages
English (en)
Inventor
Toru Ishikawa
石河 融
Hiroshi Yoshida
浩史 吉田
Koichi Higuchi
浩一 樋口
Yoshiyuki Yamashita
山下 義征
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2026297A priority Critical patent/JPH03230288A/ja
Publication of JPH03230288A publication Critical patent/JPH03230288A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) この発明は、媒体上の文書から得た情報を処理して例え
ば文字認識等を行う情報処理装置に閏するものである。
(従来の技術) 機械が媒体上の文書から該文書が持つ情報を正確に得る
ことか出来れば、種々の機能を持つ′清報処理装置、例
えば文字認識装置、認識した文字を音声により出力する
ような装!、認識した文字を翻訳する装置等のu4簗が
可能になる。
このため、このような情報処理装置のある種のものは、
媒体からの光信号を光電変換し量子化して媒体上の文書
の画像データを得る光電変換部、該画像データより文字
領域を抽出する文字領域抽出部、抽出された文字領域に
対応する画像データを処理する情報処理部とを具えてい
た。なあ、ここで云う情報処理部とは、情報処理装置か
例えば文字認識装置の場合なら文字認識部としての構成
を有するもののことであり、情報処理装置か認識した文
字を音声により出力する装置の場合なら文字認識部及び
音声合成部としての構成を有するもののことである。
このような情報処理装置であって、情報処理部壱文字認
識部で構成した情報処理装置の従来例としては、例えば
文献(電子情報通信学会技術研究報告PRLJ86−3
3)に開示され是書式未知文書の自動読取装置かあった
。ここで書式未知文書とは、例えば新聞、雑誌等のよう
な媒体上に見られる文書のことであり、書式が決められ
た帳票等に記載された文書とは異り、レイアウトか状況
によって変る文書のことである。
この文献に開示されている装置においては、図表を含む
上述のような書式未知文書の認識を行うために文字領域
と図表領域とを分離した後文字領域の認識が行われてい
た。
(発明が解決しようとする課題) しかしながら、上述した文献に開示された装置を含む従
来の情報処理装置では、文書から抽出した各文字領域を
どのような接続順序で処理してゆけば良いかを積極的に
然も自動的に決定する機能か無かった。
それは、例えば新聞等においては、書式か未知といえど
、文書は基本的には右上から左方向及び下方向に貫かれ
るという暗黙の原則かあり、また、1式か未知の英文に
おいては、書式か未知といえど、文書は基本的には左上
から下及び右方向に害かれるという暗黙の原則があるた
め、抽出した各文字領域はこの原則に従った接続順序で
処理される構成とされていたからである。
しかし、各文字領域か例えば第3図に示した媒体30上
の英文文書のようにレイアウトされている場合、即ち文
書か図中左上の第2文字領域32→図中右上の第3文字
領域33→図中左下の第2文字領域32→図中右下の第
4文字領域34という順で1かれている場合、この文書
から抽出した各文字領域を上記暗黙の原則(菓1文字領
域31→第2文字領tf1.32→第3文字領域33→
第4文字領域34という処理順序の原則)に従い認識処
理すると、この認識結果は意味の通らないものとなる。
具体例で云えば、例えば、○CR(光学的文字読取り装
置I)と翻訳装置とを組合せた○CR翻訳システム、O
C巳と音声合成装置とを組合せたOCR朗読システム等
のような情報処理装置において上述のような文字領域の
つなげ方の誤りか°あると、前者のシステムでは翻訳か
不能となり、後者のシステムでは聞き手か朗読内容を理
解出来ない等の問題が生しる。
これを回避するために、抽出した各文字領域の接続関係
をオペレータかライトベン、マウスまたはタブレット等
の入力手段を介し予め指定することも考えられるが、こ
のような処理を行うことは、情報処理装置の操作性の低
下及び処理効率の低下を招くので好ましいことではない
この発明はこのような点に鑑みなされたものであり、従
ってこの発明の目的は、文字領域のレイアウトに規則性
の無い文書の情報処理も精度良く行うことか出来る情報
処理袋M%提供することにある。
(課題を解決するための手段) この目的の達成を図るため、この発明によれば、媒体か
らの光信号を光電変換し量子化して媒体上の文書の画像
データを得る光電変換部、該画像データより文字領域を
抽出する文字領域抽出部及び抽出された文字領域に対応
する画像データを処理する情報処理部とを具える情報処
理装置において、 文字領域抽出部で抽出された各文字領域毎の先頭からj
文字目までの文字及び末尾からに文字目までの文字をそ
れぞれ切り出し、 前述のj文字目までの文字及びに文字目までの文字それ
ぞれの認2%行い、 これら認識結果に基づき各文字領域の接続関係を決定し
該接続関係を満足する順に各文字領域に対応する画像デ
ータを情報処理部に出力する文字領域Wt続部を具えた
こと を特徴とする(但し、J及びに各々は、1以上の正数で
ある)。
なお、この発明の実施に当たり、前述の文書を英文文書
とし、 前述の文字領域接続部を、 (A)着目文字領域の末尾の文字の認識結果かピリオド
「、」の場合、該着目文字領域の後に接続される文字領
域は、先頭文字の認識結果か英大文字またはダブルコー
テーション「”」である文字領域の中から決定し、及び (B)着目文字領域の末尾の文字の認識結果が英小文字
またはハイフン「−」の場合、該着目文字領域の後に接
続される文字領域は、先頭文字の認識結果が英小文字、
英大文字「I」、またはダブルコーテーション「”」で
ある文字領域の中から決定する構成とするのが好適であ
る。
(作用) この発明の情報処理装置によれば、レイアウトに規則性
の無い文書であっても、この文書から抽出されたある文
字領域(着目文字領域)に接続される文字領域は、例え
ば着目文字領域以外の文字領域(候補文字領域)の先頭
文字と着目文字領域の末尾文字との文法的な接続関係、
または、着目文字領域の先頭文字と候補文字領域の末尾
文字との文法的な接続関係等に基づいて自動的に決定さ
れる。
(実施例) 以下、この発明を文字認識装置に適用した例によつ実施
例の説明を行う。
″′1η識2 の  のL8 第1図は、実施例の情報処理装置としての文字認識装置
の一構成を概略的に示したブロック図である。
この文字認識装置10は、文字、図表等を含む文書か記
載された媒体(第1図では図示せず。)からの光信号り
を光電変換し量子化して媒体上の文書の画像データを得
る光電変換部12、該画像データより文字領域を抽出す
る文字領域抽出部14、抽出された文字領域に対応する
画像データを処理する情報処理部としての文字認識部1
6及び認識した文字名等を例えば外部コンピュータや外
部表示装置に出力するための出力端子18ヲ具える。さ
らに、この文字認識装置110は、文字領域抽出部14
で抽出された各文字領域毎の先頭から]文字目までの文
字及び末尾からに文字目までの文字をそれぞれ切り出し
、これらコ文字目までの文字及びに文字目までの文字そ
れぞれの認識を行い、これら認識結果に基づき各文字領
域の接続関係を決定し該接続関係を満足する順に各文字
領域に対応する画像データを情報処理部である文字認識
部16に出力する文字領域接続部20を具えている。な
お、上述の〕及びに各々は、1以上の正数である。
ここで、光電変換部12は、従来公知のイメージセンサ
等で構成出来、この場合例えば文字線部を画素1「1」
の黒ヒツト及び背景部を画素値「0」の白ビットとして
各画素毎に2値のディジタル信号で表現した画像データ
を作成し、文字領域抽出部14に出力する構成としであ
る。
次に、文字領域抽出部14は、光電変換部12から入力
された画像データから文字領域を抽出する。
この文字領域抽出部14は、従来公知の種々のもので構
成出来る。その−例としてこの実施例では、画像データ
の周辺分布を求めてこれより文字領域を抽出する構成と
している。その詳細については、後述の動作説明の項に
おいて説明する。
次に、この実施例の文字領域接続部20は、第2図に示
すように、文字領域抽出部14から出力される各文字領
域の先頭から1文字目及び末尾から1文字目の各文字を
各文字領域から切り出すための先頭・末尾文字切り出し
部20aと、当該切り出された文字バタンを記憶するバ
タンレジスタ20bと、バタンレジスタ20bに記憶さ
れている文字バタンについての特徴抽出処理及び該文字
バタンの認wiを行う識別部20cと、着目文字領域の
後に接続されるべき正当な文字領域を識別部20cの識
別結果に基づいて決定する文字領域接続決定部20dと
、該決定された接続関係を満足するように各文字領域の
画像データを記憶する文字領域記憶部20eとを具える
構成としである。そして、この文字領域接続部20は、
決定された接続関係を満足するように各文字領域の画像
データを文字認識部16の行切り出し部16aに出力す
る。
なお、この実施例のバタンレジスタ20bは、文字バタ
ンの文字領域における各画素の信号をこの領域の2次元
座標通りに再現出来る形式で記憶出来るものであり、1
28X128画素分のデータを記憶できる容量を有して
いる。
また、この実施例の文字領域接続決定部20dは、英文
文書から抽出された各文字領域の接続関係を決定するの
に好適な構成としである。具体的には、 (A)着目文字領域の末尾の文字の認識結果がピリオド
「、」、の場合、該着目文字領域の後に接続される文字
領域は、先頭文字の認識結果か英大文字またはダブルコ
ーテーション「”」である文字領域の中から決定し、及
び (8)着目文字領域の末尾の文字の認識結果が英小文字
またはハイフン「−」の場合、該着目文字領域の後に接
続される文字領域は、先頭文字の認識結果が英小文字、
英大文字の「I」 (主語を意0未する「I」)または
ダブルコーテーション「゛」である文字領域の中から決
定する構成としである。
文字領域接続部20の詳細は、後述の動作説明の項にお
いて説明する。
次に、情報処理部としての文字認識部16は、文字領域
接続部20の文字領域接続決定部20dから出力される
画像データにより文字の認識を行うものである。その構
成は、従来公知の種々のもので良いが、この実施例の場
合、行切り出し部16aと、ラインバッファ+6bと、
文字切り出し部16cと、バタンレジスタ+6dと、識
別部16eとを具える構成としている。
行切り出し部16aは、文字領域接続決定部20dから
切り出された文字領域の画像データから行単位の画像デ
ータを切り出しラインバッファ+6bに記憶させる。ラ
インバッファ+6bは、この実施例の場合、128X4
096画素分のデータを格納出来る容量を有するもので
構成しである。文字切り出し部16cは、ラインバッフ
ァ+6bに格納された行単位の画像データから1文字分
づつの文字バタンを切り出しバタンレジスタ+6dに記
憶させる。バタンレジスタ+6dは、この実施例の場合
、128X128画素分のデータを格納出来る容量を有
するもので構成しである。識別部16eは、バタンレジ
スタ+6dに格納された文字バタンについて特徴抽出処
理及び該文字バタンの認識を行う。
S−舌η;社    若日 次に、実施例の文字認識装置の理解を深めるために、第
1図〜第4図を参照して実施例の文字認識装置の動作説
明を行なう。ここて、第4図は、文字領域接続部20の
動作を概略的に示した流れ図である。なお、説明の理解
を容易にするため、情報処理の対象を第3図に示した媒
体30として動作説明を行う。
まず、光電変換部12は、第3図に示す英文文書が書か
れた媒体30からの光信号りより文字線部を画素1「1
」の黒ビット及び背景部を画素値「0」の白ビットとし
た各画素毎に2俤のディジタル信号で表現した画像デー
タを得これを文字領域抽出部14に出力する。
次に、文字領域抽出部14は、画像データを縦方向(こ
の場合、第3図の英文文書における第1文字領域31か
ら第2文字領域32に向う方向。以下、縦方向とはこの
方向とする。)ヲ主走査方向としこれに直交する方向(
横方向と称する。以下、同様、)ヲ副走査方向としで走
査し各主走査線毎の黒ビット数で示される周辺分布を作
成する。そして、この黒ビットの分布においで、黒ビッ
ト数が0から1以上に変化する位M(主走査線)より黒
ヒツト数か1以上からOに変化する直前の位置(主走査
線)までを列方向の1つの領域(文字線部が列方向で連
続している領域)として検出する。
次に、検出された列方向の各領域毎の画像データについ
て、今度は横方向を主走査方向及び縦方向を副走査方向
として走査して周辺分布を作成する。次に、この分布に
おいて黒ビット数か1以上からOに変化する位置から黒
ビット数か0から1以上に変化する直前の位置までの領
域(即ち、背景部か行方向で連続している領i6.)を
検出する。
そして、検出した各領域の幅(副走査した座標差と考え
て良い。)か、ある閾値TH,よりも大きく別のあるn
伯TH2(但し、T H2>T H+ )以下であるな
らば、当該幅を文字領域間の境界部分としこれに基づき
文字領域を抽出する。また、前記幅かTH2より大きい
ならば、当該幅の領域は境界部分以外の領域例えば図表
領域等と判断し当該傾城は分離する。なお、この実施例
では、閾値T H+は、列方向の領域中の横方向の周辺
分布中に存在する黒ビット数がOから1以上に変化する
位置より1以上から0に変化する位置の直前の位置まで
の領域のうちのその幅が最小となる領域の幅の3倍の値
とし、TH2は5倍の値としである。各閾値をこのよう
に決定するとした場合、第3図に示した媒体の場合では
、TH,=141、TH2=235になる。そして、上
述のような手順及び閾値により、第3図に示した媒体3
0から文字領域の抽出を行うと、第3図に示すように第
1〜第4文字領域31〜34が抽出される。
次に、文字領域決定部20は、上述の如く抽出された各
文字領域間の接続関係を以下に説明するように決定する
。この説明においては第4図を譬照されたい。
文字領域接続決定部20は、文字領域抽出部14から1
文字領域分の画像データを読み込み(第4図のステ・ン
ブ41)、次に、この文字領域に文字領域番号S%付与
する(ステップ43)。次に、文字領域数を示す変数で
あるmaxを文字領域番号Sとする(ステップ45)。
次に、当該文字領域の先頭行及び最終行を切り出しくス
テップ47)、続いて先頭行及び最終行来々から文字切
り出しを行うことにより当該文字領域の先頭文字の文字
バタン及び末尾文字の文字バタンそそれぞれ切り出す(
ステップ49)。
先頭行及び最終行の切り出し及び先頭文字及び末尾文字
の切り出しは、先頭・末尾文字切り出し部2Ga  (
第2図参照)においで以下に説明するように行う。
先頭・末尾文字切り出し部20aは、ます、当該文字領
域の横方向の周辺分布中の黒ビット数かOから1以上に
変化する位置より1以上からOに変化する位置の直前の
位置までを1行分の領域とし当該文字領域から各行を切
り出す、そして、切り出された各行のうち縦方向の座標
が最も小さい行を先頭行とし座標が最も大きい行を最終
行とする。
次に、上述の如く切り出された先頭行(または最終行)
の画像データについて縦方向を主走査方向とし横方向を
副走査方向として黒ビット数で示される周辺分布を作成
する。そして、該周辺分布中の黒ビット数が0から1以
上に変化する位置より1以上からOに変化する位置の直
前の位置までを1文字分の領域とし、先頭行の先頭の文
字バタン(または最終行の末尾の文字バタン)を切り出
す。
切り出された先頭文字の文字バタン及び末尾文字の文字
バタンは、バタンレジスタ20bに、順次に格納される
(ステップ51)。
次に、文字領域接続決定部20の識別部20cは、バタ
ンレジスタ20bに格納されでいる文字バタンを読み込
みこれについての特徴抽出処理及び認識を行う(ステ・
ンブ53)、特徴抽出は、従来公知の種々の方法により
行うことが出来るが、この実施例の場合以下に説明する
ような方法で行う。
先ず、文字バタンについてその文字線部に外接する例え
ば方形の枠を検出し、これを文字枠とすそれぞれ行われ
る。
ステップ67にお(λての着目文字領域に候補文字領域
か接続するか杏かの決定は、この実施例の場合、以下の
(A)及び(B)の基準に従い行う。
(^)着目文字領域の末尾の文字の認識結果がピリオド
「、」の場合は、候補文字領域の先頭文字の認識結果か
英大文字またはダブルコーテーション「”」である場合
に該候補文字領域は着目文字領域に接続すると決定する
(6)着目文字領域の末尾の文字の認識結果が英小文字
またはハイフン「−」の場合は、候補文字領域の先頭文
字の認識結果が英小文字、主語を意0未する「I」、ま
たはダブルコーテーション「°゛」である場合に該候補
文字領域は着目文字領域に接続すると決定する。
なお、上記(A)及び(B)の条件による判定動作にに
おける各文字の字種の判定は、例えばJISの文字名コ
ードを用いることにより容易に行える。
ここで、現在候補文字領域とされている第2文字領域3
2について上記条件(A)またはCB)の適用を考えた
場合、着目文字領域とされている第1の文字領域31の
末尾文字はハイフン「−」てあり、また、第2文字領域
32の先頭文字は英大文字の「F」であるので、第2文
字領域32は上記(8)の条件を満足せず、箇2文字領
域32は第1文字領域31に接続されないと決定される
。そして、現在候補文字領域とされている文字領域が着
目文字領域に接続されないと決定された場合は、次の候
補文字領域か選ばれる。この実施例では、現在の候補文
字領域の文字領域番号に1を加えた番号で示される文字
領域(第3図に示した媒体30の場合は第3文字領域3
3)が次の候補文字領域とされ(ステップ69)る、そ
して、この新たな候補文字領域に対してステップ61〜
67の処理が前の候補文字領域の場合と同様になされる
次の候補文字領域である第3文字争tv!t33は、先
頭文字か英小文字の「f」であるので、第1文字領域3
1の末尾文字であるハイフン「−」に対し上記(B)の
条件を満足する。この結果、第1文字領域3131の後
に接続される文字領域は第3文字領域33であると決定
される。
文字領域接続決定部2Qdは、着目文字領域の後に接続
される文字領域の決定8Fえたら着目文字領域を示す変
数lに格納された文字領域番号Sを文字領域記憶部20
eに出力する(ステップ71)。
次に、文字領域接続決定部20dは、着目文字領域の後
に接続すると決定された文字領域(この場合は第3文字
領域33)を次の着目文字領域とし、即ち現在候補文字
領域とされていた文字領域を次の着目文字領域としくβ
=r、ステ・ンブ73)、その債、ステップ59〜73
の処理を繰り返す。
上述の手順に従うことにより、第3図に示した媒体30
における各文字領域の接続順序は、第1文字領域31−
第3文字領域33→第2文字領域32→第4文字領域3
4の順とされる。
なお、着目文字領域の復に接続される文字領域かなんら
かの理由で決定されなかった場合、または、全文字領域
の接続順序が決定された場合(ステップ61においてY
の場合)は、着目文字領域を示す変数βに格納されてい
る文字領域番号Sを文字領域記憶部20eに出力する(
ステップ81)。次に、文字領域番号2から順に最大文
字領域番号までの各文字領域について当該文字領域の後
に接続される文字領域の決定処理がなされたか否かを確
認する(ステップ83,85,87.89 ) 。
全文字領域についての接続順序が決定されたら文字領域
接続部20は、文字認識部16に対し、決定された接続
順序に従い各文字領域の画像データを順次に出力する。
文字認識部16の行切り出し部16aは、文字領域決定
部20から出力される各文字領域の画像データを順次読
み込み、ざらにこの画像データを横方向を主走査方向と
し及び縦方向を副走査方向としで走査して黒ヒツト数で
示される周辺分布を作成する。そして、この周辺分布に
おいて、黒ビット数かOから1以上に変化する位置よつ
1以上から○に変化する位置の直前の位置までを1行の
文字行領域として切り出しでこれに対応する画像データ
部分を行画像データとしてラインバッファ+6bに格納
する。ここで、文字行領域とは、媒体上における文字が
記載される1行分の領域のことである。ラインバッファ
+6bは、上記行画像データにおける各画素の信号を文
字行領域の2次元座標通りに再現出来る形成で記憶する
次に、文字認識部160文字切り出し部16cは、ライ
ンバッファ+6bから行画像データを読み込みこの行画
像ブータラ縦方向を主走査方向とし及び横方向を副走査
方向として走査して黒ビット数で示される周辺分布を作
成する。そして、この周辺分布において黒ピット数かO
から1以上に変化する位置より1以上からOに変化する
位置の直前の位置までを1文字分の領域として文字バタ
ンを切り出しこれをバタンレジスタ+6dに格納する。
このバタンレジスタ+6dは、文字バタンの1文字分の
領域の画像データにおける各画素の信号をこの領域の2
次元座標通りに再現出来る形式で記憶する。
次に、文字認識部16の識別部16eは、バタンレジス
タ+6dに格納されている文字バタンを読み込みこれに
ついての特徴抽出処理及び認mt行う。
しかし、識別部16eの処理は、文字領域接続部20の
識別部20cての処理と同じであるので、その説明を省
略する。
文字認識部16の識別部16eは、識別した文字名(J
ISコード等)を出力端子18よつ外部製画に出力する
上述においては、この発明の情報処理装置の実施例につ
き説明したか、この発明は上述の実施例のみに限られる
ものではなく以下に説明するような種々の変更を加える
ことが出来る。
上述の実施例においては、文字領域接続部20は、文字
領域抽出部14で抽出された各文字領域毎の先頭文字及
び末尾文字をそれぞれ切り出しこれらの認識を行いこれ
ら認識結果に基づき各文字領域の接続順序を決定する構
成としていた。しかし、各文字領域から切り出す文字数
は1文字に限られるものではなく設計に応じ変更出来る
。ざらに、各文字領域から先頭単語及び末尾単語を切り
出しこれら単語の接続関係を用いて各文字領域間の接続
順序を決定しても良い。
また、上述の実施例ではこの発明を文字認識装置に適用
していたか、この発明は、文字領域の接続順序を決定し
この順序に従い文字領域を順次に出力する画像処理装置
、ざらに、先に説明した。
0日翻訳システム、00日朗読システム等の情報処理装
置等に適用出来る。さらに、文字領域の接続関係を抽出
して文書のレイアウト構造を抽出する装置等にも適用出
来る。
(発明の効果) 上述した説明からも萌らかなように、この発明の情報処
理装置によれば、書式未知文書が書かれた媒体からの光
信号を光電変換し媒体上の文書の画像データを得、該画
像データより文字領域を抽出した後、該抽出された各文
字領域毎の先頭からj文字目までの文字及び末尾からに
文字目までの文字をそれぞれ切り出しこれら文字を識別
しこの識別結果に基づいて各文字領域の接続関係を決定
出来る。
従って、文書から抽出した各文字領域をとのような接続
順序で処理してゆけば良いかを積極的に然も自動的に決
定するので、例外的なレイアウト構造の書式未知文書て
あっても文章の流れに即して情報を精度良く得られる。
このため、この発明を00日翻訳システム、OCR朗読
システム等に適用した場合、オペレータか文字領域の接
続関係を指示する必要かなくなるので、オペレータの負
担軽減、システムの操作性及び処理効率の向上か図れる
【図面の簡単な説明】
第1図は、実施例の情報処理装置の全体構成を概略的に
示したブロック図、 第2図は、実施例の文字領域接続部の構成を概略的に示
したブロック図、 第3図は、従来技術の問題点及び実施例の説明に供する
媒体を示した図、 第4図は、実施例の文字領域接続部の動作説明に供する
図である。 0・・・文字認識装置、 4・・・文字領域抽出部、 6a・・・行切り出し部、 6c・・・文字切り出し部、 6e・・・識別部、 20・・・文字領域接続部 20a・・・先頭・末尾文字切り出し部20b・・・バ
タンレジスタ、20c・・・識別部20d・・・文字領
域接続決定部 20e・・・文字領域記憶部、30・・・媒体31・・
・第1文字領域、  32・・・第2文字領域33・・
・第3文字領域、  34・・・第4文字領域。 2・・・光電変換部 6・・・文字認識部 6b・・・ラインバッファ 6d・・・バタンレジスタ 8・・・出力端子

Claims (2)

    【特許請求の範囲】
  1. (1)媒体からの光信号を光電変換し量子化して媒体上
    の文書の画像データを得る光電変換部、該画像データよ
    り文字領域を抽出する文字領域抽出部及び抽出された文
    字領域に対応する画像データを処理する情報処理部とを
    具える情報処理装置において、 文字領域抽出部で抽出された各文字領域毎の先頭からj
    文字目までの文字及び末尾からk文字目までの文字をそ
    れぞれ切り出し、 前記j文字目までの文字及びk文字目までの文字それぞ
    れの認識を行い、 これら認識結果に基づき各文字領域の接続関係を決定し
    該接続関係を満足する順に各文字領域に対応する画像デ
    ータを情報処理部に出力する文字領域接続部を具えたこ
    と を特徴とする情報処理装置(但し、j及びk各々は、1
    以上の正数である。)。
  2. (2)請求項1に記載の情報処理装置において、前記文
    書を英文文書とし、 前記文字領域接続部を、 (A)着目文字領域の末尾の文字の認識結果がピリオド
    「.」の場合、該着目文字領域の後に接続される文字領
    域は、先頭文字の認識結果が英大文字またはダブルコー
    テーション「”」である文字領域の中から決定し、及び (B)着目文字領域の末尾の文字の認識結果が英小文字
    またはハイフン「−」の場合、該着目文字領域の後に接
    続される文字領域は、先頭文字の認識結果が英小文字、
    英大文字「I」、またはダブルコーテーション「”」で
    ある文字領域の中から決定する構成としたこと を特徴とする情報処理装置。
JP2026297A 1990-02-06 1990-02-06 情報処理装置 Pending JPH03230288A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2026297A JPH03230288A (ja) 1990-02-06 1990-02-06 情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2026297A JPH03230288A (ja) 1990-02-06 1990-02-06 情報処理装置

Publications (1)

Publication Number Publication Date
JPH03230288A true JPH03230288A (ja) 1991-10-14

Family

ID=12189397

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2026297A Pending JPH03230288A (ja) 1990-02-06 1990-02-06 情報処理装置

Country Status (1)

Country Link
JP (1) JPH03230288A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002366892A (ja) * 2001-06-05 2002-12-20 Sharp Corp 光学式文字認識装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57199066A (en) * 1981-06-02 1982-12-06 Toshiyuki Sakai File forming system for cutting of newspaper and magazine
JPS60169984A (ja) * 1984-02-15 1985-09-03 Hitachi Ltd 文章読取装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57199066A (en) * 1981-06-02 1982-12-06 Toshiyuki Sakai File forming system for cutting of newspaper and magazine
JPS60169984A (ja) * 1984-02-15 1985-09-03 Hitachi Ltd 文章読取装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002366892A (ja) * 2001-06-05 2002-12-20 Sharp Corp 光学式文字認識装置

Similar Documents

Publication Publication Date Title
US6005680A (en) Method for capturing a document image, a scanner using the method and a document image management system using the scanner
US7321688B2 (en) Image processor for character recognition
US20080174815A1 (en) Image forming apparatus capable of creating electronic document data with high browsing capability
JPS58146973A (ja) 文字行および文字の切出し方法
JPH03230288A (ja) 情報処理装置
JPH05303619A (ja) 電子スクラップブック
Aparna et al. A complete OCR system development of Tamil magazine documents
JPH08237404A (ja) 光学文字認識モードの選択方法
JPH05151388A (ja) 処理領域及び処理条件の指定方式
JPS62121589A (ja) 文字切出し方法
JP2893781B2 (ja) 文字認識装置
JP2730073B2 (ja) 表題一覧作成装置
JPH06243285A (ja) 文字認識方法
JPS5831028B2 (ja) 文字認識装置
JP3157534B2 (ja) 表認識方法
JPH0473192B2 (ja)
JPH08202824A (ja) 文書画像認識装置
JPH1049602A (ja) 帳票認識方法
JPH0997252A (ja) 訳語出力装置
JPH01269171A (ja) 画像処理装置
JPH0459668B2 (ja)
JPH01245376A (ja) 文字読取装置の文字切出し装置
JPH1097588A (ja) 罫線認識方法、表処理方法および記録媒体
JPS6327990A (ja) 文字認識方法
JPH10177621A (ja) 文書処理方法、罫線認識方法及び記録媒体