JPS5837779A - 文書処理装置 - Google Patents

文書処理装置

Info

Publication number
JPS5837779A
JPS5837779A JP56136480A JP13648081A JPS5837779A JP S5837779 A JPS5837779 A JP S5837779A JP 56136480 A JP56136480 A JP 56136480A JP 13648081 A JP13648081 A JP 13648081A JP S5837779 A JPS5837779 A JP S5837779A
Authority
JP
Japan
Prior art keywords
characters
character
document
handwritten
handwriting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP56136480A
Other languages
English (en)
Inventor
Akira Sakurai
彰 桜井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP56136480A priority Critical patent/JPS5837779A/ja
Priority to US06/410,119 priority patent/US4516262A/en
Publication of JPS5837779A publication Critical patent/JPS5837779A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • G06V30/2455Discrimination between machine-print, hand-print and cursive writing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は、文書上に文字(数字や特殊記号も含む。以下
同様)で表現されたデータを処理する文書処理装置に関
する。
各種案内や商業通信文など、書式が定形化しており、一
部を変更するのみで繰り返し発行される文書類は少なく
ない。このような定形書式の文書の作成は、可能な限シ
機械化するのが望まれる。
その場合、予め印刷された定形書式に必要事項だけを手
書き記入すれば、後は機械的に活字印刷された文書を作
成することができれば、極めて便利である。
また、手書きによる自由回答形式のアンケート類の回答
集計処理や、ダラ刷りを手書きによる校正記入にしたが
って修正編集する処理等も機械化できれば利益は大きい
しかし、在来の文書処理装置では上述のような要求に応
えることができなかった。
本発明はかかる要請に鑑みてなされたもので、文書上の
活字文字と手書き文、字とを区別して処理可能な文書処
理装置を提供することにある。
しかして本発明による文書処理装置の特徴は、文書を読
み取る手段と、読み取られた文書の画像から個々の文字
を切り出す手段と、切り出した各文字が活字文字か手書
き文字かを識別する手段を備える点にある。
第1図は本発明にかかる文書処理装置の一例を示す概略
プロ、り図である。
100はスキャナであ夛、文書を光学的に走査して文書
画像を画素単位で読み取シ、アナログの画像信号を出力
する。このアナログ画像信号は2値化部101で2値化
され、ディジタル画像信号として入カパッファ102に
順次蓄積される。
文字切出部103は入カパッファ102内の文書画像か
ら個々の文字を切シ出す。例えば、文書画像の各主走査
ラインの黒画素の個数を計数し、所定数以上の黒画素を
含む−続きのライン群を文・生竹として切シ出す。そし
て、この文字行について副走査ライン上の黒画素を計数
することによシ、文字行上の個々の文字を切シ出す。文
字切出しの技術については種々提案されているので、こ
れ以上の説明は省略する。
文字切出部103で切シ出された文字は、1文字単位で
活字/手書き識別部104および処理部105に送られ
る。活字/手書き識別部104は、入力文字が活字文字
であるか手書き文字であるか識別し、あるいは更にその
文字の字種(漢字、仮名等)を判別し、その結果を処理
部105へ送る。
活字/手書き識別部104の詳細は後述する。
字文字への変換や、仮名文字の漢字への変換、活字文字
の校正、そのほか集計や編集等の目的の処理を実行し、
その結果を出力部107へ出力する部分である。このよ
うな処理部105のハードウェア構成は従来の文書作成
機等と同様でよく、処理操作の具体的手順はソフトウェ
ア技術によって実現できるので、これ以上は説明しない
。また出力部107は、公知のブロックやCRTディス
ゾレイ等の出力装置を用いればよい。
活字/手書き識別部104の一例を第2図に示し、説明
する。
第2図において、文字切出部103で切シ出された文字
はストローク抽出回路110とノ4ラメータ計算回路1
12に入力される。
ストローク抽出回路110は入力文字を構成するストロ
ークを抽出し、その本数を求める回路である。このよう
なストローク抽出を行なう技術は種々提案されているの
で、その−例について以下に簡単に説明するに止める。
入力された文字は先ず細線化される。ついで、文字中の
線の端点と交点を検出し、交点と交点、交点と端点、端
点と端点の間の線分をそれぞれストロークとして抽出す
る。そして、抽出したストo−りの本数を字種判別回路
111に与える。
字種判別回路111はストローク数から文字の字種、こ
こでは仮名と漢字の別を判別する。すなわち、ストロー
ク本数nを閾値2.と比較し、n≧toなら漢字と判定
し、n<Loなら仮名と判定する。字種判別結果は信号
線114を通じて処理部105へ送られ、また判定論理
回路113へ入力される。
パラメータ計算回路112は、活字文字と手書き文字と
の差を反映する・ぐラメータを入力される個々の文字に
ついて計算する。ここで求めるノ4ラメータとしては、
文字の全体的形状に関するものと、文字の内部の画素配
列に関するもの等、種々考えられる。ここでは、文字の
外接方形の縦横比P1と、境界画素の配列に関するパラ
メータである白画素率P2、直両索車psの3つのパラ
メータヲ・クラメータ計算回路112で計算するものと
する。
ノぐラメータ”I  r P、# psは次のように定
義される。
縦横比P、二文字に外接する方形の縦方向サイズと横方
向サイズの比である。すなわち、第4図に系すように、
文字(あ)に外接する方形1のサイズV、Hの比V/)
(である。
白画素率P4 :注目する境界画素を中心とする3×3
画素領域を観察し、注目境界画素Xに第5図(イ)のよ
うに境界画素が隣接するか、ちるいはこれを45°ずつ
回転した第5図(ロ)〜(1)のように境界画素が隣接
するとき、注目境界画素Xを曲シ画素と判定する。なお
、第5図(イ)〜(イ)において斜線の画素は境界画素
、白地の画素は非境界画素(白画素も含む)を示す。ま
た、境界画素とは文字を構成する黒画素のうちで、上、
下、左、右のいずれかに白画素が隣接する黒画素のこと
である。しかして、1つの文字中の全境界画素に占める
曲り画素の割合が白画素率である。換言すれば、境界画
素の屈折曲率Cを第6図のように定義したとき、C=3
の境界画素の割合を示す指標が白画素率である。
直両索車P5 :屈折曲率Cが4(第6図)のパターン
で配列する境界画素を直画素と判定する。
そして、1文字中の全境界画素に占める直画素の割合が
直両索車である。なお、c=4のノやターンとしては、
第6図に示すものを45°ずつ回転した計8個の/IP
ターンを含む。
各種の文字について、活字と手書きのそれぞれに対する
パラメータPl  r P4  + psの分布を調べ
た結果を第7図、第8図、第9図にそれぞれ示す。これ
らの図から、ノ母うメータPl+P4+P5はそれぞれ
活字、手書きの別、および字種の別によって分布が相当
に異なっていることが判る。
なお、第7図〜第9図において、横軸は・ぐラメータの
値を100倍して目盛っておシ、縦軸は各パラメータ値
の出現頻度である。
さて第2図に戻って、判定論理回路113は次の手順で
活字/手書きの判定を実行する。
まず、字種判別回路111で仮名と判別された文字につ
いてはノ4ラメータ計算回路112で算出された白画素
率P4 (100倍値)を閾値t、と比較し、P4(1
00倍値)≧t、ならばその文字を手書き(仮名)と判
定する。そうでなければ活字(仮名)と判定する。これ
でこの文字の判定は終了である。
一方、字種判別回路111で漢字と判別された文字につ
いては、まず白画素率P4(100倍値)を閾値t2と
比較する。P4(100倍値)≧t2ならば手書き(漢
字)と判定してその文字の判定を終了する。そうでなけ
れば縦横比P。
(100倍値)を閾値ts、t4と比較し、P。
(100倍値)<tstたはp、(100倍値)≧t4
ならば手書き(漢字)と判定し、その文字の判定を終了
する。そうでなければ、直両索車P、(100倍値)を
閾値t5と比較する。P5(100倍値)くt5ならば
手書き(漢字)と判定し、そうでなければ活字(漢字)
と判定し、その文字の判定を終了する。
上記の閾値t。−t5は、例えばl 6 ” 14 r
t、=45.t2=35.t3=90.t4=120゜
ts=45に選ばれる 第3図は、活字/手書き識別部104における前述の判
定手順を示す流れ図である。
なお、第2図に示した活字/手書き識別部の構成はあく
まで一例である。つまシ、字種は漢字、仮名(ひらがな
、カタカナ)の2種を判別したが、3つ以上の字種を判
別するように構成してもよい。
また、各字種に対する活字/手書きの判定手順も上側に
限られるものではなく、当然のこととして判定に用いる
パラメータも上側のものに限定されない。
以上に説明した本発明による文書処理装置によって可能
な文書処理の例を、第11図ないし第12図によって説
明する。
第10図は部分的に手書き記入した定形書式の文書を読
み取シ、活字印刷の書類を完成する処理を示している◎ まず、手書き記入部以外を活字印刷した文書20に、文
書21のように必要事項を記入する。
太字部分が手書き記入された文字である。
文書21を本発明の文書処理装置に入力すると、手書き
文字が活字に変換され、完成した文書22が印刷出力さ
れる。手書き文字から活字文字への変換は、処理部10
5(第2図)で行なわれる。
第11図は校正処理の一例を示している。ケ゛う刷シ2
3の訂正すべき文字(例えば°゛木″にアンダーライン
を引いて、その下に正しい文字(例えば1本#)を手書
きで記入する。このrう刷りを本発明の文書処理装置に
入力すると、アンダーライン上の文字をその下に手書き
された文字の活字に訂正した文書が出力される。
第12図は、手書きによる自由回答形式のアンケートの
回答集計を行なう場合を示している。アンケート用“紙
(251〜25nを本発明の文書処理装置に順次入力し
、設問側に手書き回答をまとめ、回答リスト26を作成
する。
本発明による文書処理装置は、以上に述べたように文書
上の活字文字と手書文字とを識別し、それぞれを区別し
て処理できるので、前述のような定形文書の作成、校正
、編集やアンケート類の回答集計等を従来よシも容易に
行なうことができる等の多くの効果を奏する。
【図面の簡単な説明】
第1図は本発明にかかる文書処理装置の一例を示す概略
ブロック図、第2図は活字/手書き識別部の一例を示す
ブロック図、第3図は第2図の活字/手書き識別部の作
用を説明するための流れ図、第4図ないし第6図は活字
文字と手書き文字とを判定するために用いるパラメータ
について説明するだめの図、第7図ないし第9図は字種
別に活字文字と手書き文字について調べた各パラメータ
の分布を示す図、第10図ないし第12図は本発明にか
かる文書処理装置によシ実行可能な文書処理の例を説明
するための図である。 100・・・スキャナ、101・・・2値化部、102
・・・入カバ、ファ、103・・・文字切出部、104
・・・活字/手書き識別部、105・・・処理部、10
7・・・出力部、110・・・ストローク抽出回路、1
11・・・字種判別回路、112・・・パラメータ計算
回路、113・・・判定論理回路。 第1図 第2rl!J 第3図 □ 第10図 第11図

Claims (1)

    【特許請求の範囲】
  1. 1、文書上に文字(数字や特殊記号も含む)で表現され
    たデータを処理する文書処理装置において、文書を読み
    取る手段と、この手段で読み取られた文書の画像から個
    々の文字を切り出す手段と、この手段で切り出された個
    々の文字が活字文字であるか手書き文字であるか識別す
    る手段とを備え、文書上の活字文字と手書き文字とを区
    別して処理可能としたことを特徴とする文書処理装置。
JP56136480A 1981-08-31 1981-08-31 文書処理装置 Pending JPS5837779A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP56136480A JPS5837779A (ja) 1981-08-31 1981-08-31 文書処理装置
US06/410,119 US4516262A (en) 1981-08-31 1982-08-20 Character data processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56136480A JPS5837779A (ja) 1981-08-31 1981-08-31 文書処理装置

Publications (1)

Publication Number Publication Date
JPS5837779A true JPS5837779A (ja) 1983-03-05

Family

ID=15176115

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56136480A Pending JPS5837779A (ja) 1981-08-31 1981-08-31 文書処理装置

Country Status (2)

Country Link
US (1) US4516262A (ja)
JP (1) JPS5837779A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6227887A (ja) * 1985-07-30 1987-02-05 Fujitsu Ltd 文字種分離方式
JPS63103389A (ja) * 1986-10-20 1988-05-09 Fujitsu Ltd 字体識別方式
JPS63261486A (ja) * 1987-04-20 1988-10-28 Nec Corp 書体識別装置

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0650538B2 (ja) * 1984-03-28 1994-06-29 株式会社日立製作所 手書き文字・図形認識の認識モード指定方法
US4610025A (en) * 1984-06-22 1986-09-02 Champollion Incorporated Cryptographic analysis system
JPS6126192A (ja) * 1984-07-17 1986-02-05 Oki Electric Ind Co Ltd ハングル字母列からのハングル文字認識方法
US4829583A (en) * 1985-06-03 1989-05-09 Sino Business Machines, Inc. Method and apparatus for processing ideographic characters
JPS63262749A (ja) * 1987-04-20 1988-10-31 Hitachi Ltd 文書編集装置
US4850026A (en) * 1987-10-13 1989-07-18 Telecommunications Laboratories Dir. Gen'l Of Telecom. Ministry Of Communications Chinese multifont recognition system based on accumulable stroke features
US5181255A (en) * 1990-12-13 1993-01-19 Xerox Corporation Segmentation of handwriting and machine printed text
US5402504A (en) * 1989-12-08 1995-03-28 Xerox Corporation Segmentation of text styles
US5167016A (en) * 1989-12-29 1992-11-24 Xerox Corporation Changing characters in an image
CA2027253C (en) * 1989-12-29 1997-12-16 Steven C. Bagley Editing text in an image
US5237628A (en) * 1991-06-03 1993-08-17 Nynex Corporation System and method for automatic optical data entry
US5553162A (en) * 1991-09-23 1996-09-03 Eastman Kodak Company Method for detecting ink jet or dot matrix printing
US5521985A (en) * 1992-08-13 1996-05-28 International Business Machines Corporation Apparatus for recognizing machine generated or handprinted text
US5425110A (en) * 1993-04-19 1995-06-13 Xerox Corporation Method and apparatus for automatic language determination of Asian language documents
US5444797A (en) * 1993-04-19 1995-08-22 Xerox Corporation Method and apparatus for automatic character script determination
US5375176A (en) * 1993-04-19 1994-12-20 Xerox Corporation Method and apparatus for automatic character type classification of European script documents
JP3360695B2 (ja) * 1993-06-17 2002-12-24 ソニー株式会社 画像データの量子化回路
US5835616A (en) * 1994-02-18 1998-11-10 University Of Central Florida Face detection using templates
US5781650A (en) * 1994-02-18 1998-07-14 University Of Central Florida Automatic feature detection and age classification of human faces in digital images
US5734761A (en) * 1994-06-30 1998-03-31 Xerox Corporation Editing scanned document images using simple interpretations
TW338815B (en) * 1995-06-05 1998-08-21 Motorola Inc Method and apparatus for character recognition of handwritten input
US5655027A (en) * 1996-05-22 1997-08-05 Dunn; Harold P. Continuous extraction and processing of document fields
JP2000181993A (ja) * 1998-12-16 2000-06-30 Fujitsu Ltd 文字認識方法および装置
US6549664B1 (en) * 1998-12-31 2003-04-15 Siros Technologies, Inc. Sparse modulation codes for holographic data storage
US20150356173A1 (en) * 2013-03-04 2015-12-10 Mitsubishi Electric Corporation Search device

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3613080A (en) * 1968-11-08 1971-10-12 Scan Data Corp Character recognition system utilizing feature extraction
US4003025A (en) * 1975-12-24 1977-01-11 International Business Machines Corporation Alphabetic character word upper/lower case print convention apparatus and method

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6227887A (ja) * 1985-07-30 1987-02-05 Fujitsu Ltd 文字種分離方式
JPS63103389A (ja) * 1986-10-20 1988-05-09 Fujitsu Ltd 字体識別方式
JPS63261486A (ja) * 1987-04-20 1988-10-28 Nec Corp 書体識別装置

Also Published As

Publication number Publication date
US4516262A (en) 1985-05-07

Similar Documents

Publication Publication Date Title
JPS5837779A (ja) 文書処理装置
WO2020259060A1 (zh) 试卷信息提取方法、系统及计算机可读存储介质
EP1052593B1 (en) Form search apparatus and method
EP0854434B1 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
CN110414563A (zh) 考试成绩统计方法、系统及计算机可读存储介质
CN112446259A (zh) 图像处理方法、装置、终端和计算机可读存储介质
JP4756447B2 (ja) 教材処理装置、教材処理方法および教材処理プログラム
EP0144006B1 (en) An improved method of character recognitionand apparatus therefor
JP4807487B2 (ja) 教材処理装置、教材処理方法および教材処理プログラム
JP3268552B2 (ja) 領域抽出方法、宛名領域抽出方法、宛名領域抽出装置、及び画像処理装置
JP3955467B2 (ja) 画像処理プログラム及び画像処理装置
JP3276555B2 (ja) フォーマット認識装置及び文字読取り装置
JP4894184B2 (ja) 教材処理装置、教材処理方法および教材処理プログラム
JP2917427B2 (ja) 図面読取装置
JPH0581474A (ja) 文字列抽出方法および文字領域検出方法
JPS5837777A (ja) 活字/手書き識別方法
JPH0916713A (ja) 画像領域分割方法
JP4863057B2 (ja) 画像処理装置、画像処理プログラムおよび画像処理方法
JP2978801B2 (ja) 手書き文字認識の文字入力方式
JPH0981743A (ja) 文字・図形処理装置及び文字・図形処理方法
JP4807488B2 (ja) 教材処理装置、教材処理方法および教材処理プログラム
JPS62194590A (ja) 文字認識方式
JPS5837775A (ja) 活字/手書き識別方法
JPH0773273A (ja) パターン切出しおよび認識方法とそのシステム
JPH0498586A (ja) 画像生成装置