JPH09185673A - 文字認識結果出力方法 - Google Patents

文字認識結果出力方法

Info

Publication number
JPH09185673A
JPH09185673A JP7342218A JP34221895A JPH09185673A JP H09185673 A JPH09185673 A JP H09185673A JP 7342218 A JP7342218 A JP 7342218A JP 34221895 A JP34221895 A JP 34221895A JP H09185673 A JPH09185673 A JP H09185673A
Authority
JP
Japan
Prior art keywords
character
output
characters
recognition result
font
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7342218A
Other languages
English (en)
Inventor
Takuya Okamoto
卓哉 岡本
Masanori Kato
雅則 加藤
Hisafumi Azuma
尚史 東
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP7342218A priority Critical patent/JPH09185673A/ja
Publication of JPH09185673A publication Critical patent/JPH09185673A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】文字認識した場合、「へ」などの同形文字の識
別が困難である。これらの認識誤りの修正に際し、同形
文字の出力手段として、字種ごとのフォントの変更、あ
るいは、カタカナを半角文字で表現することで、容易に
同形文字の字種の識別を実現する。 【解決手段】画像データ(101)が、文字認識装置
(102)に入力されると、画像解析手段(103)に
より、画像中から文字パターンを抽出される。抽出され
た文字パターンは、文字認識手段(104)により、特
徴量辞書(105)とマッチングすることで、文字認識
される。認識結果は、出力文字制御手段(106)に入
力される。出力文字制御手段では、同形文字を識別でき
るよう、文字を出力するフォント、あるいは、出力文字
列を変更する。出力文字は、フォント出力手段(10
7)で、文字パターンに変換される。各文字ごとに出力
されたデータを、認識結果文字出力手段(108)で出
力し、認識結果(109)が得られる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書データを画像
として入力し文字認識を行う、文字認識装置に係る。そ
のなかでも特に、認識結果に対する、人手によるチェッ
クに利用する文字認識結果出力方法に関するものであ
る。
【0002】
【従来の技術】日本語の文字には、「カ」(かたかな)
「力」(漢字の「ちから」)のように、同形文字が存在
し、これらの文字は、文字コードとしては異なっていて
も、文字パターンとして表示されると人手によるチェッ
クでも区別がつかない。したがって、文字認識した結果
をチェックしようとしても、認識結果が正しいか否かを
判定できないため不都合が生じる場合がある。このよう
な問題を解決する為、従来から、文字認識結果を出力す
る際に、類似文字を識別しやすくする方法として、字種
ごとに色を変える方法(特開平03−156516号公
報「データ入力システム」)、アンダーラインなどの付
加情報を利用して、字種を区別する方法(特開平05−
46803号公報「認識結果の出力方法」)などが開示
されている。また、同形文字を持つ場合に、認識結果を
強調表示することで、チェックを促す方法として、特開
平01−14684号公報「手書文字認識装置の同形異
字種文字の表示選択方法」などが開示されている。
【0003】
【発明が解決しようとする課題】文字認識結果として出
力された文字に同形文字が存在する場合、これらの文字
の識別手段として、字種毎に表示色を変更する方式は、
モノクロディスプレイや、単色のプリンタなど、単色し
か出力できない媒体では利用できない。また、字種毎に
異なったアンダーラインを利用するなど、文字に付加情
報を付ける方法は、(1)一見して識別しにくい、
(2)プリンタによっては出力できるアンダーラインの
種類に制約があるため利用できない、などの問題があ
る。さらに、ディスプレイ上に、文字認識の候補文字を
複数表示して、ここから正解文字を選択する場合も、各
候補文字がどの文字種であるかを、一見して判るように
することで、修正効率を向上できる。
【0004】
【課題を解決するための手段】文字認識対象の文字を、
仮名文字、漢字とした場合、同形文字の組合せは、”
カ”(かたかな)−”力”(漢字)、”ト”(かなか
な)−”卜”(漢字)、”ヘ”(ひらがな)−”へ”
(カタカナ)など、カタカナ−漢字、カタカナ−ひらが
なという組合せになっていることが分かる。従って、カ
タカナが識別できれば、字種の識別が可能となる。
【0005】ここで、カタカナを他の文字とは異なるフ
ォント(文字種、サイズなどを変更する)で出力するこ
とで、認識結果に付加情報を加えることなく文字種を容
易に判別することができる。さらに、カタカナは、半角
文字で表現できるため、濁音、半濁音についても、半角
文字の組合せで出力することで、単一フォントしか持た
ない表示手段であっても、認識結果の字種を識別でき
る。
【0006】ワープロなどで作成した文書には、半角カ
タカナが使用される場合があるが、新聞や雑誌などの印
刷文書では、半角カタカナは利用されないため、このよ
うな文書を認識する用途では、認識結果を半角カタカナ
で出力しても紛らわしさは発生しない。また、半角カタ
カナが存在する文書であっても、認識結果のチェックの
際には全角文字として処理し、最終結果を半角で出力す
ることで、本手法の適用が可能である。
【0007】また、英数字においても、「0」(零)や
「O」(オー)、「1」(一)や「l」(エル)などは
識別が難しいという問題がある。これらについても、フ
ォントあるいは全半角の区別をつけることで同様の識別
が可能となる。このように本発明では所定の文字種の文
字の出力形式を他と区別して出力する。
【0008】フォントを変更する、あるいは半角文字を
組み合わせて、文字認識結果の文字種を表現すること
で、複数の色を利用できない、あるいは、アンダーライ
ン、網かけなど、文字に対する付加情報を利用できない
表示手段を用いた場合にでも、同形文字を持つ文字の識
別が可能となる。
【0009】
【発明の実施の形態】図1は、本発明の実施例の処理内
容を示すブロック図である。
【0010】本実施例では、文字認識結果を出力する際
に、同形文字については、文字種ごとに、出力する文字
のフォントを変更することで、同形文字を持つ文字の文
字種の識別を可能にする。また、認識結果としては、ひ
らがな、かたかな、漢字を設定しているが、英数字が含
まれる場合も同様の手法で、実現することが可能であ
る。
【0011】画像データ(101)が、文字認識装置
(102)に入力されると、ここから、画像解析手段
(103)によって、画像中から文字パターンを抽出す
る。
【0012】次に、文字認識手段(104)によって、
抽出された文字パターンを、特徴量辞書(105)に格
納された標準パターンとマッチングすることで認識し、
文字コードを出力文字制御手段(106)に出力する。
出力文字制御手段(106)では、同形文字を持つ文字
を判定し、出力する文字の文字種にしたがって使用する
フォントを変更するなど、文字出力方法を制御する。フ
ォント出力手段(107)では、出力文字制御手段で指
定されたフォントで認識結果の文字を認識結果文字出力
手段(108)に出力する。認識結果文字出力手段(1
08)では、ディスプレイ、プリンタなどの出力装置
に、認識結果をレイアウトして表示あるいは印刷する。
文字認識装置(102)は、認識結果文字出力手段の出
力結果を認識結果(109)として出力する。
【0013】画像から文字を抽出する画像解析手段は、
「横書き日本語文書における個別文字の抽出」電子通信
学会論文誌 '85/11,Vol.J68-D,No.11,pp.1899-1909 な
どで用いられている方法を利用することで実現する。
【0014】また、文字認識手段についても、特願平0
4−51305号公報「文字認識方式」などで開示され
ている方法を利用する。
【0015】図2は、106の出力文字制御手段の処理
内容の1例を示すフローチャートである。本例では、同
形文字を持つ文字を、図3に示した同形文字テーブル
(301)に従って判定し、文字種ごとに出力するフォ
ントを切り替える。同形文字テーブル(301)は、同
形文字を持つ文字の文字コード(302)とその文字種
(303)の情報により構成される。以下、図2のフロ
ーチャートにしたがって、106の出力文字制御手段の
処理内容を説明する。
【0016】201の出力文字読み出しでは、認識結果
の文字を1文字ずつ読み出す。202で、図3の同形文
字テーブル(301)から、文字コード(302)を順
次読み出す。認識結果の文字コードが、例えば、文字コ
ード「カ」(302−a)と一致すれば、同形文字が存
在するため、203の文字種情報読み出し処理に移る。
同形文字テーブル(301)に、登録されていない文字
ならば、210の処理で文字出力フォントを標準フォン
トとする。203の文字フォント読み出しでは、例え
ば、202の処理で認識結果と一致した文字コードが、
「カ」(302−a)であれば、これに対応する文字種
情報「カタカナ」(303−a)を読み出す。204か
ら206の処理で、文字種情報(303−a)に従っ
て、文字ごとに使用するフォントを決定する。204で
は、文字種が「ひらがな」なら、207の処理で出力フ
ォントをフォントAに切り替える。205では、204
と同様に、文字種が「漢字」なら、208の処理で出力
フォントをフォントBに切り替える。206でも、同様
に、文字種が「カタカナ」なら、209の処理で出力フ
ォントをフォントCに切り替える。
【0017】いずれでもなければ、同形文字がない場合
と同様に、210の処理で出力フォントを標準フォント
とする。
【0018】また、漢字−ひらがなの同形文字が存在し
ないことから、フォントAとフォントBを同一のフォン
トにし、漢字、ひらがなを1つのフォントで表現するこ
とで、使用するフォント数を削減することができる。
【0019】図4は、実施例1により出力された認識結
果である。401は、認識対象の画像、402は、文字
認識結果である。403の「ベ」のように、同形文字を
持つ場合は、カタカナであれば、ゴシック体で認識結果
を表示し、そうでない場合は明朝体を使用するなど、使
用するフォントを切り替えることで、同形文字を持つ文
字の文字種の判別が容易になる。この場合は、ゴシック
体で認識結果が表示されているので、カタカナであると
判別できる。
【0020】本実施例では、同形文字を持つ文字のみ
を、同形文字テーブル(301)に登録し、フォントの
変更を行なったが、本テーブルをすべての文字について
文字種を登録したテーブルに置き換えることで、文字種
ごとにフォントを変更して出力することも可能である。
【0021】第2の実施例では、カタカナを出力する際
に、半角カナの文字列を利用して、同形文字を持つ文字
の判別を可能にする場合の処理内容について説明する。
【0022】本実施例では、図1のブロック図に従って
処理を行ない、106の出力文字制御手段での処理内容
として、図5のフローチャートに示した出力文字変換処
理を行う。出力文字変換処理では、同形文字を持つ文字
を、図6に示した変換文字テーブル(601)にしたが
って判定し、認識結果の文字コードを、他の識別しやす
い文字あるいは文字列に変換して出力する処理を行う。
【0023】図6の変換文字テーブル(601)は、同
形文字を持つ文字の文字コード(602)と、変換文字
列(603)の情報より構成される。変換文字列には、
半角2文字、あるいは、認識結果として用いられない全
角文字1文字を登録する。
【0024】以下、図5のフローチャートにしたがっ
て、出力変換処理の処理内容を説明する。501の出力
文字読み出しでは、認識結果の文字を1文字ずつ読み出
す。502では、図6に示した変換文字テーブル(60
1)の文字コード(602)を順次読み出して、認識結
果の文字コードと比較する。認識結果の文字コードが、
例えば、「カ」(602−a)と一致すれば、認識結果
は、同形文字を持つカタカナであるため、503の変換
文字列読み出し処理に移る。変換文字テーブル(60
1)の文字コード(602)に登録されていない文字な
らば特に処理は行なわず、505の処理で、出力フォン
トを標準フォントに設定し、本処理を終える。503の
変換文字列読み出しでは、例えば、502の処理で認識
結果と一致した文字コードが「カ」(602−a)であ
れば、これに対応する変換文字列「カ 」(603−a)
を読み出す。504の認識結果置き換えで、認識結果と
して出力する文字を、読み出した文字列と置き換える。
505で、出力するフォントを標準フォントに設定す
る。
【0025】このように、漢字−ひらがなの同形文字が
存在しないことから、カタカナのみを、半角文字を利用
して出力することで、107のフォント出力手段で、単
一フォントのみを用いて、認識結果を出力しても、同形
文字の文字種を識別することが可能である。
【0026】図7は、実施例2により出力された認識結
果である。701は認識対象の画像、702は文字認識
結果である。703の半角の「べ」のように、カタカナ
として認識された文字を、半角文字2文字の文字列で表
現することで、同形文字の判別を実現する。
【0027】本実施例では、同形文字を持つカタカナの
みを変換文字テーブル(601)に登録して認識結果の
出力内容の変更を行なったが、実施例1の場合と同様
に、例えば、変換文字テーブル(601)の内容を、全
てのカタカナに対する変換文字列を登録したテーブルに
置き換えることで、すべてのカタカナを半角文字の組み
合わせなど、別の文字列で出力することも可能である。
また、ディスプレイ上に文字認識結果を表示し、マウス
などで選択することで、認識候補を出力するシステムに
おいても、実施例1、実施例2いずれかの方法を用いる
ことで、同形文字の識別が可能になる。図8は実施例2
の手法を用いた例を示している。同形文字を持つ候補文
字のうち、カタカナについては、半角文字の組み合わせ
で表現している。したがって、認識結果として出力され
た文字「べ」(801)はひらがな、候補選択文字(8
02)(半角のべ)は、カタカナである。
【0028】第3の実施例として、外字の出力方式につ
いて述べる。外字は、一般に外字領域のコードを割り当
てるが、ディスプレイ、プリンタに出力する際は、フォ
ントパターンを作成しなければ、文字として見ることは
できない。文字認識する際に入力されたデータを処理す
るシステム上では、フォントパターンを作成する必要が
あるが、コード体系の違いや、フォントデータの形式の
違い等から、作成したフォントデータが、認識結果を出
力するプリンタや、データ入力に利用するシステム上で
そのまま利用できるとは限らない。このような場合、実
施例2の手法を適用して、外字に2文字分の半角文字コ
ードを割り当てる。例えば、図9に示したように「山
竒」(2文字で1文字を表現している。「崎」の俗字)
(901)を外字として登録する場合、認識用の辞書デ
ータに対する文字コードを「サキ」(902)のようにカ
タカナの半角コード2文字分を外字用のコードとして割
り当てることで、新たにフォントパターンを登録しなく
ても、外字を含めた認識結果の判別が可能となる。
【0029】
【発明の効果】色の変更や文字に対する付加情報を利用
せずに、同形文字を持つ文字を識別することができる。
また、認識結果の表示用の外字パターンを新たに登録し
なくても、外字を識別することが可能となる。
【図面の簡単な説明】
【図1】実施例のシステムのブロック図である。
【図2】実施例1の処理内容フローチャートである。
【図3】実施例1で用いる同形文字テーブルの構成であ
る。
【図4】実施例1の処理結果である。
【図5】実施例2の処理内容フローチャートである。
【図6】実施例2で用いる変換文字テーブルの構成であ
る。
【図7】実施例2の処理結果である。
【図8】実施例2を利用した認識結果複数候補文字表示
の例である。
【図9】実施例3の外字認識結果の出力結果である。
【符号の説明】
101…画像データ、 102…文字認識装置、 1
03…画像解析手段、104…文字認識手段、 105
…特徴量辞書、106…出力文字制御手段、 1
07…フォント出力手段、108…認識結果文字出力手
段、 109…認識結果、301…同形文字テーブ
ル、 302…文字コード、303…文字種、
601…変換文字テーブル、602…
文字コード、 603…変換文字列、80
1…選択された文字認識結果、 802…文字認識候補
文字、901…外字パターン、 902…外
字の認識結果。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】文書中の画像から文字を抽出し認識する文
    字認識装置において、 前記文字認識装置で抽出された文字を認識するとともに
    文字種を区別し、 前記区別された文字を出力する際に、所定の文字種の文
    字の出力形式を他の文字種と区別することを特徴とする
    文字認識結果出力方法。
  2. 【請求項2】文書中の画像から文字を抽出し認識する文
    字認識装置において、 認識候補の文字を出力する際に、認識結果として出力す
    る文字において、所定の文字については、出力内容を認
    識結果として用いられない文字、あるいは複数の文字の
    組合せにより表現した文字列に変更して出力することを
    特徴とする文字認識結果出力方法。
  3. 【請求項3】請求項1に記載の文字認識結果出力方法に
    おいて、 出力形式を他の文字種と区別する文字は、同形文字を持
    つ文字であることとする文字認識結果出力方法。
  4. 【請求項4】請求項1に記載の文字認識結果出力方法に
    おいて、 出力形式を区別するために、文字種毎にフォントを変更
    することを特徴とする文字認識結果出力方法。
JP7342218A 1995-12-28 1995-12-28 文字認識結果出力方法 Pending JPH09185673A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7342218A JPH09185673A (ja) 1995-12-28 1995-12-28 文字認識結果出力方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7342218A JPH09185673A (ja) 1995-12-28 1995-12-28 文字認識結果出力方法

Publications (1)

Publication Number Publication Date
JPH09185673A true JPH09185673A (ja) 1997-07-15

Family

ID=18352036

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7342218A Pending JPH09185673A (ja) 1995-12-28 1995-12-28 文字認識結果出力方法

Country Status (1)

Country Link
JP (1) JPH09185673A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017040857A (ja) * 2015-08-21 2017-02-23 富士通株式会社 情報処理装置及び情報処理プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017040857A (ja) * 2015-08-21 2017-02-23 富士通株式会社 情報処理装置及び情報処理プログラム

Similar Documents

Publication Publication Date Title
US4610025A (en) Cryptographic analysis system
EP0028533B1 (en) Method and apparatus for producing ideographic text
US20060217959A1 (en) Translation processing method, document processing device and storage medium storing program
JPH03161891A (ja) 表形式文書読取装置
US20120230590A1 (en) Image processing apparatus, non-transitory computer-readable medium, and image processing method
JP4807618B2 (ja) 画像処理装置及び画像処理プログラム
JP2740575B2 (ja) 文字処理装置
JPS6126192A (ja) ハングル字母列からのハングル文字認識方法
US20020181779A1 (en) Character and style recognition of scanned text
CN102096828B (zh) 文字辨识装置及文字辨识方法
JPH09185673A (ja) 文字認識結果出力方法
JP3159087B2 (ja) 文書照合装置および方法
JPH064717A (ja) 漢字住所補正処理方法
JP4759963B2 (ja) 複数の認識辞書を利用した文字認識装置
JP2974346B2 (ja) 漢字処理装置
JPS592191A (ja) 手書き日本語文の認識処理方式
JP3663865B2 (ja) 帳票処理装置及び記憶媒体
JPH06223221A (ja) 文字認識装置
JPH08241314A (ja) 文書ファイリングシステム
JPH11120294A (ja) 文字認識装置および媒体
JPH04293185A (ja) ファイリング装置
JPH0728957A (ja) 英文字認識装置
JPH08235305A (ja) 光学文字読取装置
JPS63244286A (ja) 文字認識方式
JP2003085477A (ja) 文字認識装置および文字認識結果の訂正方法