JPH06325214A - 文字認識後処理装置 - Google Patents

文字認識後処理装置

Info

Publication number
JPH06325214A
JPH06325214A JP5113083A JP11308393A JPH06325214A JP H06325214 A JPH06325214 A JP H06325214A JP 5113083 A JP5113083 A JP 5113083A JP 11308393 A JP11308393 A JP 11308393A JP H06325214 A JPH06325214 A JP H06325214A
Authority
JP
Japan
Prior art keywords
character
recognition
character string
character recognition
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5113083A
Other languages
English (en)
Inventor
Hideto Yamamoto
英人 山本
Takatoshi Yoshikawa
隆敏 吉川
Masayoshi Okamoto
正義 岡本
Hiroshi Horii
洋 堀井
Takayuki Kowada
孝之 古和田
Kimio Nagasawa
喜美男 長沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP5113083A priority Critical patent/JPH06325214A/ja
Publication of JPH06325214A publication Critical patent/JPH06325214A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 本願発明の文字認識後処理装置は、文字認識
後処理で単語、文節などの抽出誤りを起こした場合に、
正しい文区切り位置を入力することで、文字を再入力す
るという手間をできるだけ軽減させた文字認識後処理を
実現する。 【構成】 文字列認識手段(3、4、6、7、8、9)で誤った文字
列集合が出力されたとき、文区切り位置指定手段(10、1
1、12、13)で指定された位置を確実に切れる位置として、
前記文字列認識手段で再認識を行うことで、誤認識文字
の再入力の手間を大幅に軽減する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文字認識性能の向上を
図った文字認識後処理装置に関するものである。特に単
語あるいは文節の抽出誤りを容易に修正する機能を備え
た文字認識後処理装置に関する。
【0002】
【従来の技術】情報機器の入力装置として、手書きの筆
跡データから文字を認識する文字認識装置が、認識性能
の向上と伴って広く普及し始めている。この種の装置で
は、一般にきれいに書かれた文字は正確に認識できる
が、雑に書かれた字やくずし字のように変形の著しい文
字については、かならずしも正確に認識できないのが現
状である。
【0003】そこで文字毎に複数の文字認識結果を求
め、それらを組み合わせてなる文字列を、例えば単語や
文節のように意味のある文字列として考えることで、誤
認識あるいは類似度が低い文字を救済する文字認識後処
理装置が開発されている。この種の文字認識後処理装置
には、特開昭59-105179号公報記載のように木構造単語
辞書を用い、一文字補正する毎に辞書照合しなおすもの
が既に考えられている。
【0004】しかしながら、誤った文字を再入力するこ
とは、キーボード入力あるいは手書き入力どちらの方法
でも、手間がかかるという問題がある。また多くの場合
には、単語、文節などの文区切り位置さえ確実に分かれ
ば正確な認識結果が得られる。そこで単語、文節抽出誤
りが起こった場合に確実に切れる位置を手動で指定する
手段が必要となる。
【0005】また、図2(a)に示すように、従来の帳票等
では入力領域毎に属性が設定され、ユーザに分かち書き
を強いるものが多かったが、最近ではユーザインタフェ
ースの観点から、図2(b)に示すようにべた書きを許容す
るものが主流となってきており、単語あるいは文節を正
確に切り出す必要性は高まってきている。
【0006】
【発明が解決しようとする課題】本願発明の文字認識後
処理装置は、上述の実情を考慮してなされたものであっ
て、文字認識後処理で単語、文節などの抽出誤りを起こ
した場合に、正しい文区切り位置を入力することで、文
字を再入力するという手間をできるだけ軽減させた文字
認識後処理を実現する。
【0007】
【課題を解決するための手段】本願発明の文字認識後処
理装置は、複数の文字からなる入力文字集合の各文字に
対する文字認識結果候補を蓄積する文字認識結果候補蓄
積手段(2)と、該文字認識蓄積手段に蓄積された文字認
識結果候補を組み合わせてなる文字列に基づいて、意味
のある文字列集合を認識・出力する文字列認識手段(3、
4、6、7、8、9)と、該文字列認識手段での認識に必要な
辞書(5)とを備えた文字認識後処理装置であって、前記
文字列認識手段で誤った文字列集合が出力されたとき、
正しい文区切り位置を指定する文区切り位置指定手段(1
0、11、12、13)と、該文区切り位置指定手段で指定され
た位置を確実に切れる位置として、前記文字列認識手段
で再認識を行う。
【0008】また、本願発明の文字認識後処理装置は、
複数の文字からなる入力文字集合の各文字に対する文字
認識結果候補を蓄積する文字認識結果候補蓄積手段(2)
と、該文字認識蓄積手段に蓄積された文字認識結果候補
を組み合わせてなる文字列に基づいて、意味のある文字
列集合を認識・出力する文字列認識手段(3、4、6、7、
8、9)と、該文字列認識手段での認識に必要な辞書(5)と
を備えた文字認識後処理装置であって、前記文字列認識
手段で誤った文字列集合が出力されたとき、正しい文区
切り位置を指定する文区切り位置指定手段(10、11、1
2、13)と、該文区切り位置指定手段で指定された位置を
確実に切れる位置として、前記文字列認識手段で該文区
切り位置前の文字列について再認識を行う。
【0009】
【作用】文字列認識手段で誤った文字列集合が出力され
たとき、文区切り位置指定手段で指定された位置を確実
に切れる位置として、前記文字列認識手段で再認識を行
うことで、誤認識文字の再入力の手間を大幅に軽減す
る。
【0010】
【実施例】図1は、本願発明の文字認識後処理装置の一
実施例の機能構成図である。(1)は、入力部Aである。
この入力部A(1)は、接続されたオンラインあるいはオ
フラインの文字認識装置の文字認識結果候補を入力する
インタフェース部に相当する。
【0011】(2)は、文字認識結果候補記憶部である。
この文字認識結果候補記憶部(2)は、RAM等からな
り、入力部(1)から入力された文字認識結果候補を記憶
する。(5)は、辞書である。この辞書(5)は、ROM等か
らなる公知の言語辞書で、各種の言語情報が記憶されて
いる。(9)は、結果出力部である。結果出力部(9)は、デ
ィスプレイ等からなり、文字認識後処理結果が出力、表
示される。
【0012】(3)は、文字列抽出部である。文字列抽出
部(3)は、文字認識結果候補記憶部(2)に記憶されている
文字認識結果候補を組み合わせてなる文字列を抽出し、
その文字列データを辞書照合部(4)に送出する。(4)は、
辞書照合部である。辞書照合部(4)は、文字列抽出部(3)
で得られた文字列と辞書(5)を照合し、照合した単語(あ
るいは文節)情報を、照合単語(文節)候補情報記憶部(6)
に記憶すると共に、次の文字列の要求を文字列抽出部
(3)に送り、該当する文字列を得る。このような処理を
文字列抽出部(3)で送出すべき文字列がなくなるまで行
う。
【0013】(7)は、結果判定部である。結果判定部(7)
は、照合処理を終了するか否かを判定し、終了しないな
ら辞書照合部(4)で得た照合単語(文節)候補の情報をRAM
等からなる候補記憶部(8)に記憶し、その各候補の次の
文字から順に引き続き辞書照合部(4)で照合処理を行
う。一方、終了すると判定されたら、候補記憶部(8)に
記憶されている情報に基づいて、結果を結果出力部(9)
に出力する。終了判定条件は、すべての照合が終了した
場合、あるいは照合処理続行不能になった場合である。
【0014】結果出力部(9)に出力された文字列集合に
単語あるいは文節区切り誤りがあった場合には、文区切
り位置記憶部(13)に記憶されているユーザによって設定
された文区切り位置を確実に切れる位置として、上記照
合処理を再び行う。文区切り位置記憶部(13)の文区切り
位置の設定について説明する。(10)は入力部Bで、結果
出力部(9)と重ね合わせた構造のタブレット等からな
り、電子ペン等を用いて筆跡データが入力される。
【0015】(11)は、記号認識部であり、入力部B(10)
から入力された筆跡データから、文区切り用の記号、斜
線「/」、棒線「|」、その他の形状の記号(図5の52等)を
認識する。(12)は、記号位置抽出部である。記号位置抽
出部(12)は、記号認識部(11)で認識された記号の指し示
す位置を抽出し、文区切り位置として、文区切り位置記
憶部(13)に記憶する。
【0016】筆跡データから文字と記号を区別する方法
としては、文字入力と記号入力のモードを定めても良い
し、文字と記号のストロークの形状的特徴(大きさ、形
など)から両者を区別することも可能である。この方法
を用いれば、文字入力の途中で必要に応じて、認識と再
認識を繰り返し実行することも可能となる。また、キー
ボードのキー操作によって、文区切り位置を設定するこ
とも可能だが処理の手間が増大する。
【0017】次に図2(b)に示すベタ書きされた住所に対
応する文字認識結果候補が入力部A(1)から入力された
場合の辞書照合部(4)での照合処理について説明する。
まず、都道府県について処理する。都道府県は、ほとん
ど3文字であり、4文字単語は一部であり、各文字の文字
認識結果候補を組み合わせた、3文字あるいは4文字分を
辞書と比較することで容易に適する都道府県名が抽出で
きる。ところが、下位の「市」「郡」「区」あるいはそれ以下
の「町」「村」などに対応する地名の文字数は千差万別であ
り、対応する単語候補は複数得られ、抽出誤りが発生し
やすい。
【0018】そこで「市」や「町」などの区分を表す文字に
注目して、候補単語の文字数の限定を行うことで、候補
単語数を限定することが行われている。しかし、ベタ書
きの場合、区分を表す文字でさえ正確に認識できるとは
限らない。図3では、入力文字列の3文字目の2位の文字
認識結果候補に「県」が入っているので、候補単語の文字
数は3文字と限定され、しかも1文字目、2文字目の認識
結果候補を組み合わせて都道府県名となるのは「岐阜」だ
けなので、容易に「岐阜県」が抽出できる。ところが、
「岐阜県」の下位の地名には、2文字単語から5文字単語
まで複数の地名が存在しているので、この例のように
「市」、「町」が文字認識結果候補に入らない場合には、4文
字目から8文字目までの全ての組み合わせとそれに続く
全ての組み合わせの中で、照合文字数のもっとも多いも
のを結果として出力している。
【0019】そのために正しい単語の抽出が行えないケ
ースが生じる。また、住所などの限られた対象ではな
く、一般の文章を理解する場合にはさらに顕著であり、
処理対象文字が増えれば増えるほど、単語(あるいは文
節)を正確に抽出できない場合が多くなる。そこで、文
字認識後処理で誤った文の文区切り位置を明確にして再
度後処理を実行する。つまり、べた書きされた文字列を
部分的に分かち書きされたものとして処理することであ
り、指定された文区切り位置に単語(あるいは文節)の区
切り位置がある組み合わせだけに限定できるので、誤っ
た組み合わせが結果として出力されにくくなる。
【0020】図4は図3に示す文字認識結果について文字
認識後処理を行った場合の認識誤り例である。(但し地
名データは仮想のものである) この例では、「岐阜県大垣市新田町」となるはずが「岐阜
県大垣東市田町」が後処理結果として出力されている。
この場合従来装置では、「東市田町」をエディタ等を用い
て修正していた。しかし、「岐阜県」の下で3文字単語の
地名は限られるので単語数さえ分かれば、正しい後処理
が可能である。そこで、(41)の記号を用いて文区切り位
置を明確にして再度後処理を行う。また文区切り位置の
指定は図5の例1のように複数ケ所を一度に指定するこ
とも可能である。
【0021】また、オンライン文字認識の場合に、ペン
オフ時間を認識開始のタイミングに用いている場合に
は、図5の例3のように単語あるいは文節の筆記途中で
認識が始まってしまうことがある。(この例は「文章を理
解する」と筆記する途中で、「文章を理」まで書いたとこ
ろで、認識を開始してしまった場合である) この場合には文としてなりたたないので、単語あるいは
文節抽出誤りが起こりやすい。そこで、文字認識後処理
結果あるいは筆跡の「を」と「理」の間に文区切り位置を指
定することで再度文字認識後処理を実行する。
【0022】また、以上述べたように文区切り位置を明
確にして、再度文字認識後処理を行っても正しい結果が
得られない場合でも、文区切り位置が明確になっている
ので、特公昭59-105179号公報記載の「文字認識装置にお
ける修正方式」を用いて文字入力毎に後処理を行う場合
にも、この文区切り位置情報を用いることで正確な後処
理が可能となる。
【0023】
【発明の効果】本願発明の文字認識後処理装置によれ
ば、文字認識後処理で単語、文節などの抽出誤りを起こ
した場合に正しい文区切り位置を入力することで修正作
業の手間を軽減することで、大量な入力データ(顧客リ
スト)に対する修正作業を行うオペレータの負担を軽減
させることができる。
【図面の簡単な説明】
【図1】本願発明の文字認識後処理装置の一実施例の機
能構成図である。
【図2】本願発明の文字認識後処理装置の一実施例の入
力帳票を示した図である。
【図3】本願発明の文字認識後処理装置の一実施例の文
字認識結果候補記憶部に蓄積されたデータ例を示した図
である。
【図4】本願発明の文字認識後処理装置の一実施例の文
区切り位置設定と処理動作を説明するための図である。
【図5】本願発明の文字認識後処理装置の一実施例の文
区切り位置設定に用いる記号種類と場面を説明するため
の図である。
【符号の説明】
1 入力部A 2 文字認識結果候補記憶部 3 文字列抽出部 4 辞書照合部 5 辞書 6 照合単語候補情報記憶部 7 結果判定部 8 候補単語記憶部 9 結果出力部 10 入力部B 11 記号認識部 12 記号位置抽出部 13 文区切り位置記憶部。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 堀井 洋 大阪府守口市京阪本通2丁目18番地 三洋 電機株式会社内 (72)発明者 古和田 孝之 大阪府守口市京阪本通2丁目18番地 三洋 電機株式会社内 (72)発明者 長沢 喜美男 大阪府守口市京阪本通2丁目18番地 三洋 電機株式会社内

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 複数の文字からなる入力文字集合の各文
    字に対する文字認識結果候補を蓄積する文字認識結果候
    補蓄積手段(2)と、 該文字認識蓄積手段に蓄積された文字認識結果候補を組
    み合わせてなる文字列に基づいて、意味のある文字列集
    合を認識・出力する文字列認識手段(3、4、6、7、8、9)
    と、 該文字列認識手段での認識に必要な辞書(5)とを備えた
    文字認識後処理装置であって、 前記文字列認識手段で誤った文字列集合が出力されたと
    き、正しい文区切り位置を指定する文区切り位置指定手
    段(10、11、12、13)と、該文区切り位置指定手段で指定
    された位置を確実に切れる位置として、前記文字列認識
    手段で再認識を行うことを特徴とした文字認識後処理装
    置。
  2. 【請求項2】 前記文字列認識手段での再認識は、前記
    文区切り位置指定手段での位置指定毎に行うことを特徴
    とした請求項1記載の文字認識後処理装置。
  3. 【請求項3】 前記文字列認識手段での再認識は、前記
    文区切り位置指定手段での位置指定が全て終了した時点
    で行うことを特徴とした請求項1記載の文字認識後処理
    装置。
  4. 【請求項4】 前記文区切り位置指定手段は、文区切り
    記号に対応する筆跡データを手書き入力する入力手段(1
    0)と、該入力手段から入力された文区切り記号の入力位
    置に基ずいて位置設定する位置設定手段(10、11、12、1
    3)からなることを特徴とした文字認識後処理装置。
  5. 【請求項5】 複数の文字からなる入力文字集合の各文
    字に対する文字認識結果候補を蓄積する文字認識結果候
    補蓄積手段(2)と、 該文字認識蓄積手段に蓄積された文字認識結果候補を組
    み合わせてなる文字列に基づいて、意味のある文字列集
    合を認識・出力する文字列認識手段(3、4、6、7、8、9)
    と、 該文字列認識手段での認識に必要な辞書(5)とを備えた
    文字認識後処理装置であって、 前記文字列認識手段で誤った文字列集合が出力されたと
    き、正しい文区切り位置を指定する文区切り位置指定手
    段(10、11、12、13)と、該文区切り位置指定手段で指定
    された位置を確実に切れる位置として、前記文字列認識
    手段で該文区切り位置前の文字列について再認識を行う
    ことを特徴とした文字認識後処理装置。
JP5113083A 1993-05-14 1993-05-14 文字認識後処理装置 Pending JPH06325214A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5113083A JPH06325214A (ja) 1993-05-14 1993-05-14 文字認識後処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5113083A JPH06325214A (ja) 1993-05-14 1993-05-14 文字認識後処理装置

Publications (1)

Publication Number Publication Date
JPH06325214A true JPH06325214A (ja) 1994-11-25

Family

ID=14603057

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5113083A Pending JPH06325214A (ja) 1993-05-14 1993-05-14 文字認識後処理装置

Country Status (1)

Country Link
JP (1) JPH06325214A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001013325A1 (fr) * 1999-08-11 2001-02-22 Japan Science And Technology Corporation Procede d'entree de document, support d'impression, programme d'entree de document a imprimer et dispositif d'entree de document
WO2001013324A1 (fr) * 1999-08-11 2001-02-22 Japan Science And Technology Corporation Procede de traitement de documents, support d'enregistrement d'un programme de traitement de documents et dispositif de traitement de documents

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001013325A1 (fr) * 1999-08-11 2001-02-22 Japan Science And Technology Corporation Procede d'entree de document, support d'impression, programme d'entree de document a imprimer et dispositif d'entree de document
WO2001013324A1 (fr) * 1999-08-11 2001-02-22 Japan Science And Technology Corporation Procede de traitement de documents, support d'enregistrement d'un programme de traitement de documents et dispositif de traitement de documents
US7142733B1 (en) 1999-08-11 2006-11-28 Japan Science And Technology Agency Document processing method, recording medium recording document processing program and document processing device

Similar Documents

Publication Publication Date Title
US6219453B1 (en) Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm
CN110164435B (zh) 语音识别方法、装置、设备及计算机可读存储介质
US5161245A (en) Pattern recognition system having inter-pattern spacing correction
JPH08506444A (ja) 統合辞書ベースで、ありそうな文字列の手書き認識方法
WO2001035250A2 (en) Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
KR20070010163A (ko) 핸드라이팅 인식용 장치 및 방법
TW201316187A (zh) 偵測及校正中文錯字的系統及方法
US20040250208A1 (en) Enhanced spelling checking system and method therefore
CN114281979A (zh) 生成文本摘要的文本处理方法、装置、设备以及存储介质
WO2000036530A1 (fr) Methode de recherche et dispositif correspondant, support enregistre
JP2000089786A (ja) 音声認識結果の修正方法および装置
JPH06325214A (ja) 文字認識後処理装置
US6978421B1 (en) Handwriting text input system
CN110807322B (zh) 基于信息熵识别新词的方法、装置、服务器及存储介质
CN111310457A (zh) 词语搭配不当识别方法、装置、电子设备和存储介质
JP4047895B2 (ja) 文書校正装置およびプログラム記憶媒体
JP3274014B2 (ja) 文字認識装置および文字認識方法
JP4263928B2 (ja) 文字認識装置、文字認識方法、文字認識プログラム、及び記録媒体
JP2002279353A (ja) 文字認識装置、その方法、および記録媒体
JP4318223B2 (ja) 文書校正装置およびプログラム記憶媒体
JPH0244459A (ja) 日本文訂正候補文字抽出方法
JPH11120294A (ja) 文字認識装置および媒体
JP3075808B2 (ja) 文書処理装置
JPH0944604A (ja) 文字認識処理方法
JPH087046A (ja) 文書認識装置