JPH06223221A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH06223221A
JPH06223221A JP5010211A JP1021193A JPH06223221A JP H06223221 A JPH06223221 A JP H06223221A JP 5010211 A JP5010211 A JP 5010211A JP 1021193 A JP1021193 A JP 1021193A JP H06223221 A JPH06223221 A JP H06223221A
Authority
JP
Japan
Prior art keywords
character
recognition
unit
reading
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5010211A
Other languages
English (en)
Inventor
Etsuo Ito
悦雄 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP5010211A priority Critical patent/JPH06223221A/ja
Publication of JPH06223221A publication Critical patent/JPH06223221A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】本発明は、オペレータにより文字認識の誤りを
簡単に見付け出すことができる文字認識装置を提供す
る。 【構成】読取り部4で読取られた原稿のイメージデータ
について文字認識部5で文字認識を行い、この認識結果
を文字種判定部7に転送し、所定の対応テーブルを参照
することで文字属性を判定し、この判定された文字種を
表示部2に表示する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、原稿に記載された文字
を読取るための文字認識装置に関するものである。
【0002】
【従来の技術】近年の文書処理の電子化傾向は目覚まし
いものがあり、紙などに印刷された文書を読取り、電子
メディア化する文字認識装置が実用化されている。
【0003】しかして、従来の文字認識装置では、スキ
ャナなどの読取り部を各種文書が記載された原稿面に沿
って走査することにより、原稿に記載された文字を読取
るようにしている。
【0004】この場合、読取り部では、原稿を文字の集
りとして捕えるのではなく、点の集りからなる画像デー
タとして読み取り、この読取り部が読取った画像データ
に応じて文字認識部で任意の範囲を取出し、認識用辞書
に格納している標準文字パターンとの照合処理を行う。
そして、この結果として文字認識のための照合が行われ
れば、この認識された文字は、出力部より出力されると
とともに、記録紙などに記録される。
【0005】ところで、このような文字認識装置では、
認識結果として数字の「0」とアルファベットの「O」
や、ひらがなの「へ」とかたかなの「ヘ」のような類似
した文字の場合、これら文字間に曖昧性が残るため、こ
れが原因で読取りの間違いを起こすおそれがあった。
【0006】そこで、このような認識対象となる文書の
文字の一部に曖昧性があることを想定して、認識した結
果をオペレータに呈示して、誤り部分について正しい文
字への修正を促す機能を設けるようにしている。
【0007】しかし、従来の文字認識装置においては、
認識結果として文字のみがオペレータに対し呈示される
だけなので、読取った文字が正しい文字であるか否かを
判断するのが難しく、特に、出力部の性能によっては異
なる文字種の見分けが殆ど不可能な場合すらあった。
【0008】このため、従来では、例えば、長音記号
「ー」が来るべきところにマイナス記号「−]が来た場
合のように、文字種の見分けが殆ど不可能な場合で読み
取った文書を人間が使用する上で余り問題にならないよ
うな場合には、そのまま文書として通用させていた。
【0009】しかし、このような誤った文字種が混入し
たの文書を機械翻訳などの原文として使用することにな
ると、正しい翻訳を得られないなど、この違いが決定的
なものとなる。
【0010】
【発明が解決しようとする課題】このように従来の文字
認識装置にあっては、認識した結果として文字のみをオ
ペレータに呈示しているので、読取った文字が正しい文
字であるか否かを判断するのが難しく、特に、出力部の
性能によっては異なる文字種の見分けが殆ど不可能にな
るような問題点があった。本発明は、上記事情に鑑みて
なされたもので、オペレータにより文字認識の誤りを簡
単に見付け出すことができる文字認識装置を提供するこ
とを目的とする。
【0011】
【課題を解決するための手段】本発明は、入力されたイ
メージデータについて文字認識を行う文字認識手段と、
この文字認識手段の認識結果より文字属性を判定する判
定手段と、この判定手段で判定された文字属性を表示す
る表示手段により構成されている。
【0012】また、本発明は、入力されたイメージデー
タについて文字列の認識を行う文字認識手段と、この文
字認識手段の認識結果より文字列の属性を判定する判定
手段と、この判定手段で判定された文字列の属性を表示
する表示手段により構成されている。
【0013】
【作用】この結果、本発明によれば、認識結果とともに
文字種などの文字属性または品詞などの文字列属性を表
示することができるので、オペレータは、認識結果が正
しいものであるか否かの判断を適確に行うことができ、
誤り箇所を簡単に見付け出すことができるとともに、こ
の誤り箇所の修正を確実に行うことができる。
【0014】
【実施例】以下、本発明の実施例を図面に従い説明す
る。
【0015】図1は、本発明における文字認識装置の一
実施例の概略的構成を示すものである。図において、1
は入力部で、この入力部1は、コマンドを入力したり、
認識結果に関する修正文字を入力するためのもので、通
常、キーボードやマウス、タッチパネルなどが用いられ
る。
【0016】そして、この入力部1からの入力データは
制御部8に送られる。この制御部8は、表示部2、記録
部3、文字認識部5、文字種判定部7を接続していて、
これら表示部2、記録部3、文字認識部5、文字種判定
部7の制御やデータの受渡しを行うようにしている。
【0017】ここで、表示部2は、入力部1より入力さ
れたコマンドや文字列を表示したり、後述する読取り部
4からの読取り結果や文字認識部5による文字認識の途
中状態や認識結果などを表示したり、文字種判定部7の
データを表示したりするもので、通常ビットマップディ
スプレイなどが用いられる。なお、表示部2は、オペレ
ータが装着したゴーグルや壁面に投射するようにしたも
のでもよい。記録部3は後述する読取り部4で読取った
画像データや文字認識部5による文字認識の途中経過や
最終結果を記録するためのものである。
【0018】文字認識部5は、読取り部4と認識用辞書
6を接続している。ここでの読取り部4は、原稿を読取
るためのもので、例えばラインイメージセンサを備えた
スキャナなどが用いられる。文字認識部5は、読取り部
4が原稿を読取った結果得られた画像のイメージデータ
を文字として認識するもので、データの任意の範囲を対
象にして認識用辞書6に予め記録している標準文字パタ
ーンとのパターン照合を行うことにより文字の判定を行
うようにしている。
【0019】文字種判定部7は、文字認識部5で認識さ
れた結果に対して所定の対応テーブルを参照して文字種
を判定し、予め決められた方法で表示部2に表示するた
めのものである。ここでの対応テーブルとしては、例え
ば、JISコード表と文字種の対応関係を記憶したもの
が用いられる。図2は、このように構成した文字認識装
置全体における処理の流れを示すものである。
【0020】原稿データを電子化するには、原稿を読取
り部4により読取る(ステップ201)。この場合、読
取り部4として、例えばラインイメージセンサを備えた
スキャナが用いられる場合は、原稿面に沿ってスキャナ
が走査され、原稿が読取られるようになる。
【0021】次に、読取り部4で読取った結果を文字認
識部5に送り、文字認識を行う(ステップ202)。こ
の場合、文字認識部5は、読取り部4が読取った結果と
して画像データが与えられて、この画像データの任意の
範囲を対象にして認識用辞書6に予め記録している標準
文字パターンとのパターン照合を行うことにより文字の
判定を行う。
【0022】この文字認識部5での認識結果を文字種判
定部7に転送し文字種を判定する(ステップ203)。
そして、文字認識部5で得られた認識結果と文字種判定
部7で得られた文字種を合せて表示部2に転送し、これ
らを表示する(ステップ204)。
【0023】図3は、文字種判定部7での文字種判定処
理の流れを示すものである。この場合、文字種判定部7
では、まず、制御部8から送られてきた文字認識部5で
認識された1文字分の文字データをAとして読込む(ス
テップ301)。そして、このAについて、その文字種
を判定し(ステップ302)、この判定結果に応じたフ
ラグをAに付加する(ステップ303〜307)。
【0024】ここで、文字データAに対する文字種の判
定方法は、様々な方法があるが、例えば、読込んだ文字
データAがJISコード体系のものであれば、JISコ
ード表と文字種の対応テーブルを予め作成しておき、こ
の対応テーブルを参照することにより文字種の判定が可
能になる。次に、文字認識結果とその文字種を表示部2
に表示する例を説明する。
【0025】まず、図4は、文字認識結果を表示する際
に、各文字種ごとに色を変えることによって、文字種を
表す例を示している。図示例の場合、ひらがなを赤、か
たかなを青、漢字を橙、記号を緑でそれぞれ表示するよ
うにしている。この場合、各文字種を一斉に色表示する
のでなく、各文字種ごとに順に色表示できるようにして
もよい。
【0026】図5は、文字認識結果を表示する際、各文
字種ごとに輝度を変えることによって、文字種を表す例
である。図示例の場合、かたかな、ひらがな、漢字、記
号の順で輝度を変化させるようにしている。なお、文字
種が漢字の場合、一般に格数が多いので高い輝度を与え
ると画面上での文字が読みにくくなる恐れがある。
【0027】図6は、文字認識結果を表示する際、各文
字種ごとにフォントを変えることによって、文字種を表
す例である。図示例の場合、かたかなを斜体文字、ひら
がなをゴシック体、漢字を明調体でそれぞれ表示するよ
うにしている。
【0028】図7は、文字認識結果を表示する際、文字
種を示す記号を各文字の近傍に合せて表示することによ
り、文字種を表す例である。図示例の場合、かたかなに
は○、ひらがなには△、漢字には□、記号には×を、そ
れぞれ対応する文字の下に表示するようにしている。
【0029】以上の表示例では、全ての文字に対して、
それぞれ文字種を表示しているが、例えば「表」や
「を」などの文字については、他に紛らわしい文字がな
く、オペレータは文字を見ただけで正誤の判断を容易に
できるものがあるのに対して、「ー(長音記号)」「−
(マイナス)」「‐(ハイフン)」などのようにそれぞ
れの区別が紛らわしく、文字種を表示する必要があるも
のもある。そこで、このように、互いの区別が難しい文
字についてのみ、それぞれの文字種を表示するようにも
できる。
【0030】この場合、紛らわしい文字の有無は、テー
ブルに定義し、参照することもできるし、文字認識処理
において複数の文字候補が近差で得られた場合に有ると
定義することもできる。図8は、「ー」にのみ第2認識
候補が得られた場合のにおける文字種表示を、上述した
図7の方法を用いて表示した例を示している。
【0031】以上の例では、文字認識結果を表示する際
に、この認識結果に合せて文字種を表示するようにして
いるが、例えば、オペレータから要求があった場合の
み、文字種を表示するようにもできる。
【0032】図9は、このような場合の処理の流れを示
すものである。この場合、オペレータが文字種要求コマ
ンドを入力部1から入力すると(ステップ901)、文
字種要求のあった文字を指定する(ステップ902)。
【0033】次に、この指定のあった文字を文字種判定
部7に転送し、その文字種を判定する(ステップ90
3)。そして、この文字種判定部7で得られた文字種を
表示部2に転送し、表示する(ステップ904)。図1
0は、図9に示す処理によって、文字「ー」の文字種を
要求した場合の表示部2における表示例を示している。
この場合、文字「ー」の近傍には、ポップアップウイン
ドウが表示され、このウインドウ中に文字種として「長
音記号」であることが表示されている。
【0034】ところで、オペレータが文字の判定を行う
必要があるのは、文字認識部5による文字認識結果とし
て文字を一意に決定できなかった場合が多い。そこで、
このような場合に、オペレータがある文字の他の認識候
補を要求した際に、その文字種を表示するようにもでき
る。
【0035】図11は、このような場合の処理の流れを
示すものである。この場合、オペレータが、他の候補要
求コマンドを入力部1から入力すると(ステップ110
1)、要求のあった文字を指定する(ステップ110
2)。
【0036】次に、この指定のあった文字を記録部3へ
転送し、指定文字に対する他の文字候補を得る(ステッ
プ1103)。そして、これら指定文字と他の文字候補
を文字種判定部7に転送して、その文字種を判定し(ス
テップ1104)、さらに、この文字種判定部7で得ら
れた文字種を表示部2に転送し表示する(ステップ11
05)。
【0037】図12は、図11に示す処理によって得ら
れた文字種の表示例を示している。この場合、かたかな
の「ハ」に対する他の文字候補として漢字の「八」が表
示されている。
【0038】また、図13は、他の表示例を示すもの
で、ここでは、ひらがな「へ」の他の候補の文字種を表
示した場合である。この場合、ひらがな「へ」の他の候
補として、かたかなの「ヘ」、濁音、半濁音なども表示
されている。
【0039】このようにして、表示する文字種は「ひら
がな」「かたかな」などのに止まらず、さらにそれを分
類した「清音」「濁音」「半濁音」、あるいは、「ぁ」
「っ」などの小文字(拗音など)も表示することができ
る。これら文字種の判定は、前述したコード・文字種対
応テーブルを、さらに詳細化することにより実現するこ
とができる。次に、図14、図15は、図11で述べた
処理を用いて、文字種の分類を、さらに詳細化した場合
の表示例を示している。この場合、図14は、全角文字
・半角文字の表示例であり、図15は記号や英数字の詳
細かな表示例である。
【0040】これまで説明したものは、文字認識結果を
オペレータが特定しやすいように、文字種を表示する場
合であるが、文字種を特定するために文字の読みを表示
するようなこともできる。
【0041】この場合、図16に示すように、文字種判
定部7は、コード文字種テーブル161とコード読みテ
ーブル162を接続している。ここで、コード文字種テ
ーブル161は、図17に示すように文字コードと文字
種の関係が格納され、コード読みテーブル162は、図
18に示すように文字コードと読みの関係が格納されて
いる。
【0042】図19、図20は、このような文字種判定
部7を用いて文字種判定を行った場合の文字種の表示例
を示すもので、図19では、かたかな「タ」と、他の候
補として漢字の「夕」が表示されている。また、上記実
施例では、1文字の文字属性を表示する例であったが、
図20に示すように複数文字による文字列の文字列属性
を表示するようにもできる。この場合、文字列属性とし
て数度「200」と他の候補として単語「ZOO」が表
示されている。
【0043】その他に、表示されている文字や、他の候
補文字を特定するために、文字のコードを直接オペレー
タに対して表示することもできる。ここで表示されるコ
ードは、JISコード、シフトJISコード、ASCI
Iコード、EUCコード、UNIコードなどであり、こ
れらコードをオペレータが適宜選択できるようにするこ
ともできる。
【0044】また、上述では、全て日本語の例である
が、「B」と「β」のように他の言語の文字に付いて
も、コード文字種テーブルを作成することによって容易
に対応できる。その他、本発明は、上記実施例にのみ限
定されず、要旨を変更しない範囲で適宜変形して実施で
きる。
【0045】
【発明の効果】以上説明したように、本発明にによれ
ば、認識結果とともに文字種などの文字属性または品詞
などの文字列属性を表示することができるので、オペレ
ータは、認識結果が正しいものであるか否かの判断を適
確に行うことができ、この判断に基づいて認識結果の誤
り箇所を簡単に見付け出すことができるとともに、この
箇所の修正を確実に行うことができるなど、一連の文字
認識作業を効率よく行うことができる。これにより、こ
のような文字認識装置により得られた認識結果を機械翻
訳などの原文として使用すると、正しい翻訳を得られる
ようにもなる。
【図面の簡単な説明】
【図1】本発明の一実施例の概略構成を示す図。
【図2】一実施例の処理の流れを示すフローチャート。
【図3】一実施例の文字種判定部の処理の流れを示すフ
ローチャート。
【図4】一実施例の表示部での表示例を示す図。
【図5】一実施例の表示部での表示例を示す図。
【図6】一実施例の表示部での表示例を示す図。
【図7】一実施例の表示部での表示例を示す図。
【図8】一実施例の表示部での表示例を示す図。
【図9】一実施例の文字種判定部での異なる処理の流れ
を示すフローチャート。
【図10】図9の処理による表示部での表示例を示す
図。
【図11】一実施例の文字種判定部での異なる処理の流
れを示すフローチャート。
【図12】図11の処理による表示部での表示例を示す
図。
【図13】図11の処理による表示部での表示例を示す
図。
【図14】図11の処理による表示部での表示例を示す
図。
【図15】図11の処理による表示部での表示例を示す
図。
【図16】一実施例の文字種判定部の異なる概略構成を
示す図。
【図17】図16の文字種判定部のコード文字種テーブ
ルの一例を示す図。
【図18】図16の文字種判定部のコード読みテーブル
の一例を示す図。
【図19】図16の文字種判定部による表示部での表示
例を示す図。
【図20】図16の文字種判定部による表示部での表示
例を示す図。
【符号の説明】
1…入力部、2…表示部、3…記録部、4…読取り部、
5…文字認識部、6…認識用辞書、7…文字種判定部、
8…制御部、161…コード文字種テーブル、162…
コード読みテーブル。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 入力されたイメージデータについて文字
    認識を行う文字認識手段と、 この文字認識手段の認識結果より文字属性を判定する判
    定手段と、 この判定手段で判定された文字属性を表示する表示手段
    とを具備したことを特徴とする文字認識装置。
  2. 【請求項2】 入力されたイメージデータについて文字
    列の認識を行う文字認識手段と、 この文字認識手段の認識結果より文字列の属性を判定す
    る判定手段と、 この判定手段で判定された文字列の属性を表示する表示
    手段とを具備したことを特徴とする文字認識装置。
JP5010211A 1993-01-25 1993-01-25 文字認識装置 Pending JPH06223221A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5010211A JPH06223221A (ja) 1993-01-25 1993-01-25 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5010211A JPH06223221A (ja) 1993-01-25 1993-01-25 文字認識装置

Publications (1)

Publication Number Publication Date
JPH06223221A true JPH06223221A (ja) 1994-08-12

Family

ID=11743938

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5010211A Pending JPH06223221A (ja) 1993-01-25 1993-01-25 文字認識装置

Country Status (1)

Country Link
JP (1) JPH06223221A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006301296A (ja) * 2005-04-20 2006-11-02 Sharp Corp 文書表示装置及び方法
CN104680160A (zh) * 2013-11-26 2015-06-03 冲电气工业株式会社 信息处理装置、系统、以及方法
JP2017040857A (ja) * 2015-08-21 2017-02-23 富士通株式会社 情報処理装置及び情報処理プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006301296A (ja) * 2005-04-20 2006-11-02 Sharp Corp 文書表示装置及び方法
CN104680160A (zh) * 2013-11-26 2015-06-03 冲电气工业株式会社 信息处理装置、系统、以及方法
JP2015103082A (ja) * 2013-11-26 2015-06-04 沖電気工業株式会社 情報処理装置、システム、方法、及び、プログラム
JP2017040857A (ja) * 2015-08-21 2017-02-23 富士通株式会社 情報処理装置及び情報処理プログラム

Similar Documents

Publication Publication Date Title
EP0028533B1 (en) Method and apparatus for producing ideographic text
US6393443B1 (en) Method for providing computerized word-based referencing
US4933979A (en) Data reading apparatus for reading data from form sheet
JPH11110480A (ja) テキストの表示方法およびその装置
JPH03161891A (ja) 表形式文書読取装置
KR100934780B1 (ko) 인식된 육필 패턴의 제공 방법 및 장치
EP0519713B1 (en) Character input method and apparatus
JPS60142792A (ja) 多種文字認識装置
JPH06223221A (ja) 文字認識装置
JPH0696288A (ja) 文字認識装置及び機械翻訳装置
JP3457376B2 (ja) 光学式読み取り装置における文字修正方法
JPS63146187A (ja) 文字認識装置
EP0692768A2 (en) Full text storage and retrieval in image at OCR and code speed
JPH0562008A (ja) 文字認識方法
JP3310063B2 (ja) 文書処理装置
JPS60217483A (ja) 文字認識装置
JPH04293185A (ja) ファイリング装置
JP2002245470A (ja) 言語特定装置及び翻訳装置及び言語特定方法
JP2829186B2 (ja) 光学的文字読取装置
JPH07134750A (ja) 文書画像認識装置
JPS6326789A (ja) 文字認識装置
JPS62269263A (ja) 日本語文書処理装置における仮名漢字変換処理方式
JPH03156516A (ja) データ入力システム
JPH08202811A (ja) 文字読取装置
JPH09185673A (ja) 文字認識結果出力方法