JP2004133565A - インターネットを利用した文字認識の後処理装置 - Google Patents

インターネットを利用した文字認識の後処理装置 Download PDF

Info

Publication number
JP2004133565A
JP2004133565A JP2002295538A JP2002295538A JP2004133565A JP 2004133565 A JP2004133565 A JP 2004133565A JP 2002295538 A JP2002295538 A JP 2002295538A JP 2002295538 A JP2002295538 A JP 2002295538A JP 2004133565 A JP2004133565 A JP 2004133565A
Authority
JP
Japan
Prior art keywords
search
internet
word
result
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002295538A
Other languages
English (en)
Other versions
JP4102153B2 (ja
Inventor
Yoshinobu Hotta
堀田 悦伸
Junko Furukawa
古川 淳子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2002295538A priority Critical patent/JP4102153B2/ja
Publication of JP2004133565A publication Critical patent/JP2004133565A/ja
Application granted granted Critical
Publication of JP4102153B2 publication Critical patent/JP4102153B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

【課題】本発明は文字認識の後処理装置に関し、インターネットベースの知識処理を行うことにより、メモリ容量や手間をかけることなく、文字認識率を向上させる。
【解決手段】手書き、若しくは活字の単語イメージデータを入力して個別文字認識を行い、その結果の複数の認識結果候補の単語に対し、インターネット空間を仮想的な知識データベースと見なしてインターネット検索を行い、検索結果を評価して単語の確信度を決定する文字認識の後処理装置であって、個別文字認識した結果の複数の認識結果候補の単語のそれぞれを用いてインターネット検索を行うインターネット検索手段31と、インターネット検索手段31の検索結果を抽出し、検索の評価値が高い単語を認識結果として採用し、文字認識結果として出力する検索結果の評価手段32とを備えている。
【選択図】    図1

Description

【0001】
【発明の属する技術分野】本発明は、インターネットを利用した文字認識の後処理装置に関する。近年、ADSLの普及とともにインターネットへの常時接続が当たり前のものになりつつある。本発明は、インターネットに接続した機器、例えば、パーソナルコンピュータ(PC)、携帯情報端末(PDA)、携帯電話など、に組み込まれた文字認識装置(OCR)の後処理に利用される文字認識の後処理装置に関する。
【0002】
一般に、文字認識装置においては、入力された文字列を認識する際、はじめに個別文字認識を行い、次に、個別文字認識で生じる誤読を低減させるために後処理として知識処理が用いられている。本発明は、この知識処理部に相当するものである。なお、本技術の適用対象は、手書き、活字を問わない。また、オフライン文字認識だけでなく、タブレットを用いるオンライン文字認識でも用いることができる。
【0003】
【従来の技術】以下、従来例について説明する。
(1) :従来例1
従来の後処理方式では、単語辞書や文法辞書を知識辞書として予めOCRシステムが保持しており、それを用いて個別文字認識結果を修正していた。このような形態での後処理方式は公知であり、非特許文献1にもその記述が見られる。
【0004】
前記非特許文献1には、次のようなことが記載されている。
◎文節レベルの後処理
文字認識の結果として言語情報に基づく知識処理を施し誤読や拒否を低減させる試みは古くから行われているが、日本語文章に対するものは漢字OCRの出現によって生まれてきた。漢字認識における後処理は日本語文字列の高精度入力にとって必要不可欠な処理であり、今後とも大いに研究されるべき事項である。
【0005】
日本文に対する後処理は、処理の範囲と深さにおいて、文字→単語→文節→構文→意味の順にレベルが高くなる。ただ、活字漢字OCRの認識率は99〜98%と、もともと高いので、文節レベルまでのローカルな処理でもかなり効果を上げられる(つまりコストパフォーマンスが良い)。また単語レベルと文字レベルの後処理では、専用ハードウェアによる実時間処理も可能である。
【0006】
文節レベルの初期のものは、複数候補を持つ読取拒否に対して前後を探索し、字種の変わり目から文節の区切りを発見し、この部分について単語辞書/文法辞書との照合を行うものであった。最近ではパターン情報(認識結果)と言語情報とを交互に参照して、より総合的な観点から後処理結果を出力する方式が開発されている。
【0007】
また、漢字部分については文字間の連接情報を用いるだけでも単語レベルと同等の効果を出せることが報告されている。後処理では読取拒否文字の過半数を正解文字に置きかえることができる。しかし誤読まで訂正するには読取結果文字列のすべてをチェックする必要があり、これは時間的制約からして現段階では相当難しい。
【0008】
そこで、後処理を適用する場合には、個別認識の決定理論を変更し、読取拒否を意識的に増やした状態で読取りを行う。こうすれば本来ならば誤読となった部分は読取拒否に変わり、かつ読取拒否の増加分は後処理部で回復されるので、システムとしての認識率はより良いものとなる。
【0009】
◎手書き漢字認識
紙に書かれた手書き漢字を読むことは、パターン認識の中でも最も難しい課題の一つである。これに対する基本的なアプローチは、活字漢字認識のそれと同じ(一般に階層構造認識)であるが、手書きでは重ね合わせ法による個別認識の性能が今ひとつ不十分であり、その分、後処理に頼っているというのが実状である。
【0010】
(2) :従来例2
従来、文字認識後処理装置として、後処理の効率を高め、無駄のない後処理を行う技術が特許文献1に記載されている。該特許文献1によれば、次のようなことが記載されている。
【0011】
文書イメージから文字切り出し部によって切り出された各切り出し部分について文字認識部により文字認識を行う。そして、候補展開部は、まず、各切り出し部分を1文字ずつとした場合の後処理を後処理部に行わせる。後処理部は、候補展開部から入力された候補文字を単語辞書と照合し、候補単語を候補展開部に出力する。
【0012】
候補展開部は、後処理部から入力された候補単語により後処理が有効であるか否かを判定する。候補展開部は、後処理部が有効であれば後処理を終了し、後処理により得られた候補単語を出力する。このようにして後処理時間を短縮し、無駄な後処理を防止する。
【0013】
【非特許文献1】
森健一監修、編著者:電子情報通信学会、発行所:社団法人 電子情報通信学会、1988年11月1日初版発行、「パターン認識」、第69−70頁.
【特許文献1】
特開平6−282678号公報
【0014】
【発明が解決しようとする課題】前記のような従来のものにおいては、次のような課題があった。
【0015】
年々、新語や造語は増大するため、OCRシステムが保持する知識辞書も年々更新する必要がある。しかし、辞書を新しく作成するのは工数がかかるだけでなく、一般にユーザが辞書を更新する作業も容易ではない。また知識辞書は、国語辞書に相当する一般知識に加え、専門用語も多く含むために辞書容量は非常に大きいものとなる。
【0016】
しかし、携帯情報端末(PDA)や携帯電話などではメモリ容量に制限があるため、容量の大きな知識辞書を搭載するのは困難な場合が多く、知識処理によって文字認識率を向上させることが難しかった。
【0017】
本発明は、このような従来の課題を解決し、インターネットベースの知識処理を行うことにより、メモリ容量や手間をかけることなく、文字認識率を向上させることができるようにすることを目的とする。
【0018】
【課題を解決するための手段】本発明は前記の目的を達成するため、次のように構成した。
【0019】
(1) :手書き、若しくは活字の単語イメージデータを入力して個別文字認識を行い、その結果の複数の認識結果候補の単語に対し、インターネット空間を仮想的な知識データベースと見なしてインターネット検索を行い、検索結果を評価して単語の確信度を決定する文字認識の後処理装置であって、前記個別文字認識した結果の複数の認識結果候補の単語のそれぞれを用いてインターネット検索を行うインターネット検索手段と、前記インターネット検索手段の検索結果を抽出し、検索の評価値が高い単語を認識結果として採用し、文字認識結果として出力する検索結果の評価手段とを備えていることを特徴とする。
【0020】
(2) :前記(1) のインターネットを利用した文字認識の後処理装置において、前記検索結果の評価手段は、検索の評価値を判定する際に、検索ヒット数を評価値に用いる機能を備えていることを特徴とする。
【0021】
(3) :前記(1) のインターネットを利用した文字認識の後処理装置において、前記インターネット検索手段の検索結果から、検索の評価値が予め設定した閾値より低い認識結果候補を抽出し、その単語を誤認識候補単語として誤認識候補単語辞書に自動登録する誤認識候補単語の登録手段と、前記誤認識候補単語辞書に登録された単語を、前記個別認識結果の認識結果候補から削除する誤認識候補単語削除手段を備えていることを特徴とする。
【0022】
(4) :前記(1) のインターネットを利用した文字認識の後処理装置において、前記インターネット検索手段は、前記インターネット検索を行う際、インターネット検索を行う単語に、既に認識結果が確定した単語を検索キーワードとして付加する機能と、前記検索キーワードを付加した単語を、それ以降に出現する単語のインターネット検索に用いる機能を備えていることを特徴とする。
【0023】
(5) :前記(1) のインターネットを利用した文字認識の後処理装置において、既に認識結果が確定した単語をインターネット検索した際の検索ヒット文書を対象にキーワード抽出を行い、単語間の共起確率を順次算出して共起確率辞書のデータを更新しておく共起確率処理手段と、前記個別文字認識した結果の複数の認識結果候補の単語に対するインターネット検索による検索評価値と、前記随時更新される共起確率辞書の共起確率に基づいて後処理の評価を行う後処理評価手段を備えていることを特徴とする。
【0024】
(作用)
前記構成に基づく本発明の作用を、図1に基づいて説明する。
(a) :前記(1) では、文字認識の後処理装置は、手書き、若しくは活字の単語イメージデータを入力して個別文字認識を行い、その結果の複数の認識結果候補の単語に対し、インターネット空間を仮想的な知識データベースと見なしてインターネット検索を行い、検索結果を評価して単語の確信度を決定する。
【0025】
この場合、インターネット検索手段(認識結果候補の単語を用いたインターネット検索手段)31は、個別文字認識した結果の複数の認識結果候補の単語のそれぞれを用いてインターネット検索を行う。次に、検索結果の評価手段32は、インターネット検索手段31の検索結果を抽出し、検索の評価値が高い単語を認識結果として採用し、文字認識結果として出力する。このように、インターネットベースの知識処理を行うことにより、メモリ容量や手間をかけることなく、文字認識率を向上させることができる。
【0026】
(b) :前記(2) では、前記(1) の検索結果の評価手段32は、検索の評価値を判定する際に、検索ヒット数を評価値に用いる。このように、インターネットベースの知識処理を行うことにより、メモリ容量や手間をかけることなく、文字認識率を向上させることができる。
【0027】
(c) :前記(3) では、誤認識候補単語の登録手段は、前記インターネット検索手段31の検索結果から、検索の評価値が予め設定した閾値より低い認識結果候補を抽出し、その単語を誤認識候補単語として誤認識候補単語辞書に自動登録する。そして、誤認識候補単語削除手段は、誤認識候補単語辞書に登録された単語を、前記個別認識結果の認識結果候補から削除する。このようにすれば、削除した単語の分だけ個別認識結果の認識結果候補の数が減るため、インターネット検索も容易になる。そして、インターネットベースの知識処理を行うことにより、メモリ容量や手間をかけることなく、文字認識率を向上させることができる。
【0028】
(d) :前記(4) では、前記インターネット検索手段は、インターネット検索を行う際、インターネット検索を行う単語に、既に認識結果が確定した単語を検索キーワードとして付加し、検索キーワードを付加した単語を、それ以降に出現する単語のインターネット検索に用いる。このように、検索キーワードを付加した単語を用いてインタフェース検索を行うことで検索が容易になり、インターネットベースの知識処理を行うことにより、メモリ容量や手間をかけることなく、文字認識率を向上させることができる。
【0029】
(f) :前記(5) では、共起確率処理手段は、既に認識結果が確定した単語をインターネット検索した際の検索ヒット文書を対象にキーワード抽出を行い、単語間の共起確率を順次算出して共起確率辞書のデータを更新しておく。そして、後処理評価手段は、前記個別文字認識した結果の複数の認識結果候補の単語に対するインターネット検索による検索評価値と、前記随時更新される共起確率辞書の共起確率に基づいて後処理の評価を行う。このように、インターネットベースの知識処理を行うことにより、メモリ容量や手間をかけることなく、文字認識率を向上させることができる。
【0030】
【発明の実施の形態】以下、本発明の実施の形態を図面に基づいて詳細に説明する。
【0031】
§1:文字認識の後処理装置における基本的な処理の説明
図2は基本的な処理の説明図である。文字認識の後処理装置では、インターネット空間を仮想的なデータベースと見なして活用する。そして、知識処理において用いられる「単語としての確からしさ」の尺度を、「その単語を用いてインターネットで検索したときの検索ヒット数」等で代用する。
【0032】
すなわち、図2に示したように、文書(または単語)入力(イメージデータの入力)に対して個別文字認識(ST1)を行い、その結果の認識結果候補の単語を用いてインターネットベースの知識処理を行う。この場合、個別認識結果の認識結果候補に対して、認識結果候補の単語を用いたインターネット空間へのインターネット検索を行い(ST2)、その検索結果の評価(ST3)を行って認識結果を出力する。
【0033】
このように、インターネット空間に検索をかけた結果を仮想的な知識辞書と見なすことで、文字認識装置自体は知識辞書を持つ必要がなくなり、メモリ容量の少ない機器(携帯情報端末、携帯電話等)でも知識処理を行うことができる。また、インターネットの情報は日々更新されているので、自分で更新する必要がなく手間や時間がかからない。
【0034】
§2:文字認識の後処理装置の詳細な構成の説明
図3は文字認識の後処理装置の構成図である。この文字認識の後処理装置は、文字認識の後処理装置本体1と、該文字認識の後処理装置本体1に接続されたデータ入力装置2(ダブレット、キーボード、マウス等を含む)と、表示装置3等を備えている。
【0035】
そして、文字認識の後処理装置本体1には、入力データ制御部11と、イメージメモリ12と、前処理部13と、個別文字認識部14と、候補メモリ15と、後処理部16と、インターネット情報処理部17と、インターネット接続制御部18と、検索結果メモリ19と、誤認識候補単語辞書20と、共起確率辞書21等を備えている。
【0036】
前記構成において、入力データ制御部11はデータ入力装置2から入力した入力データ(イメージデータ)をイメージメモリ12に格納する制御を行う。イメージメモリ12は、入力したイメージデータを格納するものである。前処理部13は、個別文字認識を行うための前処理(例えば、イメージメモリ12のイメージデータから認識文字領域のデータを切り出す処理等)を行うものである。
【0037】
個別文字認識部14は、前記前処理の終了したデータについて個別に文字認識処理を行うものである。候補メモリ15は、個別文字認識部14の処理結果のデータ(認識結果候補)を格納するものである。後処理部16は、候補メモリ15から取り出した認識結果候補について、文字認識の後処理を行うものである。
【0038】
インターネット情報処理部17は、後処理部16からの依頼により、インターネット接続制御部18を介してインターネット検索を行い、検索結果を抽出して文字認識結果を判定し出力するものである。インターネット接続制御部18は、インターネット情報処理部17からの依頼によりインターネットへの接続制御を行うものである。検索結果メモリ19は、インターネット検索結果のデータを格納するものである。誤認識候補単語辞書20は、インターネット検索結果のデータが誤認識であると判定した単語を登録しておくものである。共起確率辞書21は、文字認識の後処理において、インターネット検索結果と共に認識結果の確定処理に利用するものであり、単語間の共起確率を計算した場合に更新される。
【0039】
前記構成の装置は、パーソナルコンピュータ、携帯情報端末(PDA、携帯電話等で実現可能な装置の例であり、ハードディスク装置やフラッシュメモリ等の記憶手段を備えた装置の場合もある。
【0040】
なお、前記入力データ制御部11と、前処理部13と、個別文字認識部14と、後処理部16と、インターネット情報処理部17と、インターネット接続制御部18は、それぞれプログラムにより構成する。
【0041】
そして、文字認識の後処理装置は、携帯情報端末(PDA)、携帯電話、ワークステーション、パーソナルコンピュータ等の機器により実現することができるが、既に個別文字認識部を含む個別文字認識装置を備えた装置に適用可能である。
【0042】
そして、前記構成の装置において、例えば、装置に設けた記憶手段(フラッシュメモリ、ハードディスク装置等)に、前記文字認識の後処理装置の処理を実現するためのプログラムを格納しておき、このプログラムを内部のCPU(図示省略)が読み出して実行することにより、文字認識の後処理装置が行う処理を実行する。
【0043】
しかし、本発明は、このような例に限らず、例えば、前記装置内部の記憶手段に、次のようにしてプログラムを格納し、このプログラムをCPUが実行することで前記処理を行うことも可能である。
【0044】
▲1▼:他の装置で作成されたプログラムを、データ入力装置2により読み取り、前記記憶手段に格納する。
【0045】
▲2▼:通信回線を介して他の装置から伝送されたプログラム(例えば、インターネットを介して伝送されたプログラム)を、インターネット接続制御部18を介して受信し、そのデータを前記記憶手段に格納する。
【0046】
§3:文字認識の後処理装置の処理の説明
(1) :装置全体の処理
図4は装置全体の処理フローチャートである。以下、図4に基づいて装置全体(文字認識の後処理装置全体)の処理を説明する。なお、S1〜S8は各処理ステップを示す。
【0047】
先ず、オペレータが単語(単語のイメージデータ)入力を行うと、入力データ制御部11は前記入力データ(単語のイメージデータ)をイメージメモリ12に格納する。次に、前処理部13はイメージメモリ12のデータから、所定領域のデータを取り出して前処理を行う。次に、個別文字認識部14は前記前処理結果のデータを取り込み個別文字認識を行い、認識結果候補(一般的には複数ある)を候補メモリ15に格納する(S1)。
【0048】
次に、オペレータの操作により、インターネットの検索エンジンの選択を行うと(S2)、所定の検索エンジンが選択される。この時、後処理部16は、認識結果候補の単語を検索キーワードとして検索エンジンのURL(プログラム)に送付する(S3)。この場合、検索キーワードをURLに送付すると、その時点で検索エンジン側で処理を開始し、検索結果が検索キーワード送付元に返される。また、検索結果が検索結果メモリ19に格納される。
【0049】
前記のようにして検索エンジンによるインターネット検索を行い、結果が得られると、インターネット情報処理部17はインターネット接続制御部18を介して検索結果を受け取り、検索ヒット数の自動抽出を行い(S5)、結果を検索結果メモリ19に格納する。
【0050】
そして、後処理部16は候補メモリ15に検索候補があるか否かを判断し(S6)検索候補があればS3の処理へ移行する。しかし、候補メモリ15に検索候補がなくなれば、後処理部16は、検索結果メモリ19からデータを取り出し、検索結果を比較して(S7)、認識結果を出力し(S8)、この処理を終了する。
【0051】
前記処理において、S3の後に行う検索エンジンによる検索が行なわれた際に、誤認識候補単語辞書20に誤認識候補単語と判定された単語を登録しておき、S1の処理において、前記誤認識候補単語辞書20に登録されている単語を候補メモリ15から削除する処理を繰り返して行う。
【0052】
§4:具体例による詳細な処理の説明
(1) :処理の基本的な説明
文字認識の後処理装置では、個別認識結果として得られる複数の認識結果候補に対して、インターネットベースの知識処理をかけることを基本とする。そのため、検索のためのキーワードは単語であることが望ましい。但し、単語以外(例えば、短い文章や熟語等)でもインターネット検索はかけられるため、単語でなくても使用可能である。
【0053】
(2) :基本的な処理の流れ
図5はPDAを用いた場合の基本的な処理の説明図であり、A図はPDAを用いた場合の基本的な処理フローチャート、B図はインターネット検索結果例である。以下、図5に基づいて、PDAを用いた場合の基本的な処理について説明する。なお、S21〜S24は各処理ステップを示す。
【0054】
図5のA図において、PDA上のタブレットにオンラインで手書き文字を書く場合、単語を入力することができる。すなわち、オペレータがPDAのタブレット上で単語入力を行う。この時、PDAでは、入力された個々の文字について個別文字認識を行い(S21)、複数の認識結果候補の単語に対して、インターネット検索を行う(S22)。
【0055】
この時得られた検索結果に対し、検索評価値、具体的には、検索ヒット数などを用いて検索ヒット数の判定を行い(S23)、ヒット数最大の認識結果候補を、認識結果として採用(確定)し(S24)、出力する。以下、具体例について詳細に説明する。
【0056】
◎:具体例1
図5のB図に示した例(インターネット検索結果例)では、「文京区」という住所単語を個別認識した時の認識結果候補1〜4位が順に「文京区」、「文束区」、「文東区」、「又東区」だったとする。この時の検索ヒット数は図5のB図のようになるので、「文京区」(検索ヒット数=135000)を正解として採用(確定)することができる。
【0057】
また、「東京都 文京区 千駄木」といった住所のように、単語毎の意味的な連結性が強い場合には、インターネット検索を行う際に、認識結果が確定した単語を検索キーワードとして付加して検索をかけた方がよい。具体的には、「文京区」のイメージに対する認識結果候補でインターネット検索をかける際には、検索キーワードとして「東京都」も付加しておく。
【0058】
これにより、認識結果候補の1位と2位がともに実在する単語だったとしても、「東京都」というキーワードにより検索対象となるインターネット空間が制限されるため、より正確な判定を行うことができる。
【0059】
このように、インターネットを利用した文字認識の後処理装置は、インターネット検索を行う際、インターネット検索を行う単語(例えば、文京区)に、既に認識結果が確定した単語(例えば、東京都)を検索キーワードとして付加する機能と、前記検索キーワードを付加した単語(例えば、東京都文京区)を、それ以降に出現する単語のインターネット検索に用いる機能を備えている。
【0060】
◎具体例2
図6は複数の検索エンジンによる処理例であり、A図は検索結果、B図は検索評価値を示す。
【0061】
これまで単一の検索エンジンを用いた例を示したが、複数の検索エンジンの検索結果を用いる場合には、A:各検索エンジンの登録サイト数の比を検索ヒット数に掛け合わせた合計の検索ヒット数を検索評価値としても良い。B:もしくは、単純に各検索エンジンの検索結果順位を足し合わせたものを検索評価値としてもよい。
【0062】
例えば、図6のA図に示したように、登録サイト数が、100万、10万、1万であったとする。この場合、検索エンジンAでは、登録サイト数が100万であり、検索ヒット数は、文京区が1000(1) 、文束区が10(2) 、文東区が1(3) である。この場合の1000、10、1は検索ヒット数であり、括弧内の数字1、2、3は検索ヒット数の多い順番を表す。
【0063】
同様に、検索エンジンBでは、登録サイト数が10万であり、検索ヒット数は、文京区が500(1) 、文束区が3(3) 、文東区が12(2) である。検索エンジンCでは、登録サイト数が1万であり、検索ヒット数は、文京区が200(1) 、文束区が1(3) 、文東区が4(2) である。これらのデータに対する検索評価値は次の通りである。この場合の登録サイト数の比=100:10:1である。
【0064】
◎:検索評価例1(各検索エンジンの登録サイト数の比を検索ヒット数に掛け合わせた合計の検索ヒット数を検索評価値とする例)
▲1▼:重みをW1、W2、W3とすると、文京区については、検索評価値=検索ヒット数の重み付け和=1000×W1+500×W2+200×W3となる。この式に、W1=1/100、W2=1/10、W3=1/1を代入すると、検索評価値=検索ヒット数の重み付け和=(1000/100)+(500/10)+(200/1)=260となる。
【0065】
▲2▼:文束区については、検索評価値=検索ヒット数の重み付け和=(10/100)+(3/10)+(1/1)=1.4となる。
【0066】
▲3▼:文東区については、検索評価値=検索ヒット数の重み付け和=(1/100)+(12/10)+(4/1)=5.21となる。
【0067】
◎:検索評価例2(単純に各検索エンジンの検索結果順位を足し合わせたものを検索評価値とする例)
この例では、検索評価値=単純に各検索エンジンの検索結果順位を足し合わせたものであるから、▲1▼:文京区についての検索評価値=1+1+1=3、▲2▼:文束区についての検索評価値=2+3+3=8、▲3▼:文東区についての検索評価値=3+2+2=7となる。この場合の検索評価値は値が最も小さいものを採用(値が順番であるから)するので、文京区の検索評価値=3を採用し、文字認識結果とする。
【0068】
◎:具体例3
前記インターネット検索による処理を、個別文字認識による認識結果を確定する作業とは別に、誤認識されたと思われる誤認識候補単語を誤認識候補単語辞書20に自動的に登録する方式(辞書として登録しておき、以降の処理では、これと同じものを候補メモリ15から削除する方式)として用いることもできる。
【0069】
これまで、認識結果の単語が誤読しているかは人間が判断して登録していくのが一般的であった。しかし、この方式を用いれば、インターネット検索を行ったときの検索評価値が予め設定した閾値より低い場合に、それらの単語を誤認識候補単語として自動的に抽出し登録することができる。
【0070】
すなわち、入力された手書き、若しくは活字の単語イメージを個別文字認識した結果に対して、複数の認識結果候補のそれぞれを用いてインターネット検索を行い、検索の評価値が、予め定めた閾値より低い認識結果候補を誤認識単語候補として自動登録する誤認識候補単語の誤認識候補単語辞書20への登録機能を備える。
【0071】
そして、誤認識候補単語辞書に登録された単語を、前記個別認識結果の認識結果候補から削除する。このようにすれば、削除した単語の分だけ個別認識結果の認識結果候補の数が減るため、インターネット検索も容易になる。
【0072】
◎:具体例4
▲1▼:概要
この例は、文書認識時の共起確率の計算/更新処理である。インターネット検索を知識処理に用いる方式は、携帯情報端末(PDA)だけでなく、パーソナルコンピュータ(「PC」とも記す)で行ってもよい。この場合は、PCのメモリ容量に余裕があるので、従来の知識処理とインターネット検索に基づく知識処理を併用してもよい。
【0073】
特に、インターネットベースの知識処理は情報が新しい点が特徴なので、従来の知識処理で判定できないコンピュータ用語などの新語、造語などに対してインターネットベースの知識処理を用いればよい。
【0074】
文書を認識する場合は、単語単位でインターネット検索を行うことができるように、文書全体に対する個別文字認識結果に対して、はじめに形態素解析を行う。これにより名詞、助詞、助動詞、形容詞などに分別される。このうちの名詞に対して、インターネットベースの知識処理を行う。
【0075】
また、文書に多くの単語が含まれるので、単語を認識するごとに、その単語で検索ヒットした上位N位の文書を対象にキーワード抽出を行い、単語間の共起確率を計算していく。そして、検索評価値と共起確率を用いて、次の単語の認識を行っていく。
【0076】
すなわち、文字認識の後処理装置は、手書き、若しくは活字の文書を認識する際、既に認識結果が確定した単語をインターネット検索した際の検索ヒット文書を対象にキーワード抽出を行い、単語間の共起確率を順次算出し、検索評価値と随時更新される共起確率に基づいて後処理を行う機能を備えている。なお、前記共起確率とは、ある単語が文章中に存在する時、同時(同一文章中)に他の単語が存在する確率のことである。
【0077】
▲2▼:フローチャートによる共起確率を用いた処理の説明
図7は共起確率を用いた処理フローチャートである。以下、図7に基づいて、共起確率を用いた処理を説明する。なお、S31〜S38は各処理ステップを示す。
【0078】
この処理は、手書き、若しくは活字の文書を認識する際、既に認識結果が確定した単語をインターネット検索した際の検索ヒット文書を対象にキーワード抽出を行い、単語間の共起確率を順次算出し、検索評価値と随時更新される共起確率に基づいて後処理を行う例である。
【0079】
この処理では、認識対象文書の入力を行い(S31)、形態素解析を行い(S32)、この形態素解析結果の単語(名詞)をインターネット検索エンジンの入力フィールドに格納し(S33)、複数の認識結果単語候補に対して、それぞれインターネット検索を行う(S34)。
【0080】
次に、前記インターネット検索の検索結果と共起確率を用いて(共起確率辞書21を参照し)、認識結果の確定を行う(S35)。次に、確定された単語で検索ヒットした上位N位の文書中に出現するキーワードを抽出し(S36)、単語間の共起確率を計算し(S37)共起確率辞書21の情報を更新する。そして、認識対象文書中の全ての単語を認識したかどうかを判定し(S38)、認識していない場合はS33の処理へ移行し、認識している場合は、この処理を終了する。
【0081】
このように、インターネットを利用した文字認識の後処理装置は、既に認識結果が確定した単語をインターネット検索した際の検索ヒット文書を対象にキーワード抽出を行い、単語間の共起確率を順次算出して共起確率辞書のデータを更新しておく機能と、前記個別文字認識した結果の複数の認識結果候補の単語に対するインターネット検索による検索評価値と、前記随時更新される共起確率辞書21の共起確率に基づいて後処理の評価を行う機能を備えている。
【0082】
また、前記後処理での評価手段は、検索評価値と共起確率に基づいて後処理を行う際、個別文字認識によって得られる複数の認識結果候補を用いてインターネット検索したときの検索評価値の差が予め定めた閾値以下の場合に、確定した単語と共起確率の高い単語を正解として採用する機能を備えている。
【0083】
前記の説明に対し、次の構成を付記する。
(付記1)
手書き、若しくは活字の単語イメージデータを入力して個別文字認識を行い、その結果の複数の認識結果候補の単語に対し、インターネット空間を仮想的な知識データベースと見なしてインターネット検索を行い、検索結果を評価して単語の確信度を決定する文字認識の後処理装置であって、
前記個別文字認識した結果の複数の認識結果候補の単語のそれぞれを用いてインターネット検索を行うインターネット検索手段と、
前記インターネット検索手段の検索結果を抽出し、検索の評価値が高い単語を認識結果として採用し、文字認識結果として出力する検索結果の評価手段とを備えていることを特徴とするインターネットを利用した文字認識の後処理装置。
【0084】
(付記2)
前記検索結果の評価手段は、
検索の評価値を判定する際に、検索ヒット数を評価値に用いる機能を備えていることを特徴とする(付記1)記載のインターネットを利用した文字認識の後処理装置。
【0085】
(付記3)
前記インターネット検索手段の検索結果から、検索の評価値が予め設定した閾値より低い認識結果候補を抽出し、その単語を誤認識候補単語として誤認識候補単語辞書に自動登録する誤認識候補単語の登録手段と、
前記誤認識候補単語辞書に登録された単語を、前記個別認識結果の認識結果候補の単語から削除する誤認識候補単語削除手段を備えていることを特徴とする(付記1)記載のインターネットを利用した文字認識の後処理装置。
【0086】
(付記4)
前記インターネット検索手段は、
前記インターネット検索を行う際、インターネット検索を行う単語に、既に認識結果が確定した単語を検索キーワードとして付加する機能と、
前記検索キーワードを付加した単語を、それ以降に出現する単語のインターネット検索に用いる機能を備えていることを特徴とする(付記1)記載のインターネットを利用した文字認識の後処理装置。
【0087】
(付記5)
既に認識結果が確定した単語をインターネット検索した際の検索ヒット文書を対象にキーワード抽出を行い、単語間の共起確率を順次算出して共起確率辞書のデータを更新しておく共起確率処理手段と、
前記個別文字認識した結果の複数の認識結果候補の単語に対するインターネット検索による検索評価値と、前記随時更新される共起確率辞書の共起確率に基づいて後処理の評価を行う後処理評価手段を備えていることを特徴とする(付記1)記載のインターネットを利用した文字認識の後処理装置。
【0088】
(付記6)
前記検索結果の評価手段は、検索の評価値を判定する際に、複数のインターネット検索エンジンを用いて、それらの検索ヒット数の重み付け和を用いる機能を備えていることを特徴とする(付記1)記載の文字認識の後処理装置。
【0089】
(付記7)
前記検索結果の評価手段は、前記重み付け和を算出する際に、各インターネット検索エンジンの検索対象サイト数の比を重みとして用いる機能を備えていることを特徴とする(付記6)記載の文字認識の後処理装置。
【0090】
(付記8)
前記後処理評価手段は、検索評価値と共起確率に基づいて後処理を行う際、個別文字認識によって得られる複数の認識結果候補を用いてインターネット検索したときの検索評価値の差が予め定めた閾値以下の場合に、確定した単語と共起確率の高い単語を正解として採用する機能を備えていることを特徴とする(付記5)記載の文字認識の後処理装置。
【0091】
(付記9)
コンピュータに、
個別文字認識した結果の複数の認識結果候補の単語のそれぞれを用いてインターネット検索を行うインターネット検索手段と、
前記インターネット検索手段の検索結果を抽出し、検索の評価値が高い単語を認識結果として採用し、文字認識結果として出力する検索結果の評価手段の機能を実現させるためのプログラム、又は該プログラムを記録したコンピュータ読み取り可能な記録媒体。
【0092】
【発明の効果】以上説明したように、本発明によれば次のような効果がある。
(1) :知識処理用の知識辞書を装置又はシステムが持つのではなく、インターネット空間を仮想的なデータベースと見なし、インターネット検索した結果をもとに知識処理を行う。これにより、携帯情報端末(PDA)や携帯電話などのメモリ容量が少ない機器については後処理のための知識辞書を持たずに、擬似的な知識処理を行うことが可能である。
【0093】
(2) :前記のように、知識辞書の更新が不要であるため、ユーザにとってはメンテナンスフリーという利点がある。また、メーカにとっては、知識辞書の作成コスト、更新コストを削減することができ、製品単価を安くできる効果がある。更に、知識処理での情報が常に新しいという効果もある。
【0094】
(3) :海外のインターネットサイトも検索対象とできるので、この技術は言語フリーという大きな効果がある。
【0095】
前記効果の他に、各請求項では次のような効果がある。
(4) :請求項1では、文字認識の後処理装置は、手書き、若しくは活字の単語イメージデータを入力して個別文字認識を行い、その結果の複数の認識結果候補の単語に対し、インターネット空間を仮想的な知識データベースと見なしてインターネット検索を行い、検索結果を評価して単語の確信度を決定する。
【0096】
この場合、インターネット検索手段は個別文字認識した結果の複数の認識結果候補の単語のそれぞれを用いてインターネット検索を行う。そして、検索結果の評価手段はインターネット検索手段の検索結果を抽出し、検索の評価値が高い単語を認識結果として採用し、文字認識結果として出力する。このように、インターネットベースの知識処理を行うことにより、メモリ容量や手間をかけることなく、文字認識率を向上させることができる。
【0097】
(5) :請求項2では、検索結果の評価手段は検索の評価値を判定する際に、検索ヒット数を評価値に用いる。このように、インターネットベースの知識処理を行うことにより、メモリ容量や手間をかけることなく、文字認識率を向上させることができる。
【0098】
(6) :請求項3では、誤認識候補単語の登録手段はインターネット検索手段の検索結果から、検索の評価値が予め設定した閾値より低い認識結果候補を抽出し、その単語を誤認識候補単語として誤認識候補単語辞書に自動登録する。そして、誤認識候補単語削除手段は、誤認識候補単語辞書に登録された単語を個別認識結果の認識結果候補の単語から削除する。
【0099】
このようにすれば、削除した単語の分だけ個別認識結果の認識結果候補の数が減るため、インターネット検索も容易になる。そして、インターネットベースの知識処理を行うことにより、メモリ容量や手間をかけることなく、文字認識率を向上させることができる。
【0100】
(7) :請求項4では、インターネット検索手段はインターネット検索を行う際、インターネット検索を行う単語に、既に認識結果が確定した単語を検索キーワードとして付加し、検索キーワードを付加した単語をそれ以降に出現する単語のインターネット検索に用いる。このようにすれば、インターネット検索が容易になり、インターネットベースの知識処理を行うことにより、メモリ容量や手間をかけることなく、文字認識率を向上させることができる。
【0101】
(8) :請求項5では、共起確率処理手段は既に認識結果が確定した単語をインターネット検索した際の検索ヒット文書を対象にキーワード抽出を行い、単語間の共起確率を順次算出して共起確率辞書のデータを更新しておく。そして、後処理評価手段は個別文字認識した結果の複数の認識結果候補の単語に対するインターネット検索による検索評価値と、随時更新される共起確率辞書の共起確率に基づいて後処理の評価を行う。このように、インターネットベースの知識処理を行うことにより、メモリ容量や手間をかけることなく、文字認識率を向上させることができる。
【図面の簡単な説明】
【図1】本発明の原理説明図である。
【図2】本発明の実施の形態における基本的な処理の説明図である。
【図3】本発明の実施の形態における文字認識の後処理装置の構成図である。
【図4】本発明の実施の形態における装置全体の処理フローチャートである。
【図5】本発明の実施の形態におけるPDAを用いた場合の基本的な処理の説明図であり、A図はPDAを用いた場合の基本的な処理フローチャート、B図はインターネット検索結果例である。
【図6】本発明の実施の形態における複数の検索エンジンによる処理例であり、A図は検索結果、B図は検索評価値を示す。
【図7】本発明の実施の形態における共起確率を用いた処理フローチャートである。
【符号の説明】
1 文字認識の後処理装置本体
2 データ入力装置
3 表示装置
11 入力データ制御部
12 イメージメモリ
13 前処理部
14 個別文字認識部
15 候補メモリ
16 後処理部
17 インターネット情報処理部
18 インターネット接続制御部
19 検索結果メモリ
20 誤認識候補単語辞書
21 共起確率辞書
31 認識結果候補の単語を用いたインターネット検索手段
32 検索結果の評価手段
ST1 個別文字認識
ST2 認識結果候補の単語を用いたインターネット検索
ST3 検索結果の評価

Claims (5)

  1. 手書き、若しくは活字の単語イメージデータを入力して個別文字認識を行い、その結果の複数の認識結果候補の単語に対し、インターネット空間を仮想的な知識データベースと見なしてインターネット検索を行い、検索結果を評価して単語の確信度を決定する文字認識の後処理装置であって、
    前記個別文字認識した結果の複数の認識結果候補の単語のそれぞれを用いてインターネット検索を行うインターネット検索手段と、
    前記インターネット検索手段の検索結果を抽出し、検索の評価値が高い単語を認識結果として採用し、文字認識結果として出力する検索結果の評価手段とを備えていることを特徴とするインターネットを利用した文字認識の後処理装置。
  2. 前記検索結果の評価手段は、
    検索の評価値を判定する際に、検索ヒット数を評価値に用いる機能を備えていることを特徴とする請求項1記載のインターネットを利用した文字認識の後処理装置。
  3. 前記インターネット検索手段の検索結果から、検索の評価値が予め設定した閾値より低い認識結果候補を抽出し、その単語を誤認識候補単語として誤認識候補単語辞書に自動登録する誤認識候補単語の登録手段と、
    前記誤認識候補単語辞書に登録された単語を、前記個別認識結果の認識結果候補から削除する誤認識候補単語削除手段を備えていることを特徴とする請求項1記載のインターネットを利用した文字認識の後処理装置。
  4. 前記インターネット検索手段は、
    前記インターネット検索を行う際、インターネット検索を行う単語に、既に認識結果が確定した単語を検索キーワードとして付加する機能と、
    前記検索キーワードを付加した単語を、それ以降に出現する単語のインターネット検索に用いる機能を備えていることを特徴とする請求項1記載のインターネットを利用した文字認識の後処理装置。
  5. 既に認識結果が確定した単語をインターネット検索した際の検索ヒット文書を対象にキーワード抽出を行い、単語間の共起確率を順次算出して共起確率辞書のデータを更新しておく共起確率処理手段と、
    前記個別文字認識した結果の複数の認識結果候補の単語に対するインターネット検索による検索評価値と、前記随時更新される共起確率辞書の共起確率に基づいて後処理の評価を行う後処理評価手段を備えていることを特徴とする請求項1記載のインターネットを利用した文字認識の後処理装置。
JP2002295538A 2002-10-09 2002-10-09 インターネットを利用した文字認識の後処理装置 Expired - Fee Related JP4102153B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002295538A JP4102153B2 (ja) 2002-10-09 2002-10-09 インターネットを利用した文字認識の後処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002295538A JP4102153B2 (ja) 2002-10-09 2002-10-09 インターネットを利用した文字認識の後処理装置

Publications (2)

Publication Number Publication Date
JP2004133565A true JP2004133565A (ja) 2004-04-30
JP4102153B2 JP4102153B2 (ja) 2008-06-18

Family

ID=32285745

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002295538A Expired - Fee Related JP4102153B2 (ja) 2002-10-09 2002-10-09 インターネットを利用した文字認識の後処理装置

Country Status (1)

Country Link
JP (1) JP4102153B2 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006202068A (ja) * 2005-01-21 2006-08-03 Hitachi Ltd 単語認識装置および単語認識方法
JP2009163689A (ja) * 2008-01-10 2009-07-23 Nec Corp 住所認識方法及び装置、並びに郵便あて名区分機
JP2009245464A (ja) * 2009-07-30 2009-10-22 Fujitsu Ltd 単語認識プログラム、単語認識方法、単語認識装置
JP2013097498A (ja) * 2011-10-31 2013-05-20 Denso It Laboratory Inc 住所検索表示装置
KR101273711B1 (ko) 2011-05-13 2013-06-17 후지쯔 가부시끼가이샤 키워드 획득 방법 및 디바이스
JP2016115229A (ja) * 2014-12-17 2016-06-23 株式会社富士通コンピュータテクノロジーズ 文字認識支援プログラム、文字認識支援方法及び文字認識支援装置
JP2016189174A (ja) * 2015-03-30 2016-11-04 ブラザー工業株式会社 情報特定プログラム、及び情報特定方法
JP6057112B1 (ja) * 2016-04-19 2017-01-11 AI inside株式会社 文字認識装置、方法およびプログラム
JP6870159B1 (ja) * 2020-11-04 2021-05-12 ファーストアカウンティング株式会社 データ処理装置、データ処理方法及びプログラム
WO2023139650A1 (ja) * 2022-01-18 2023-07-27 三菱電機株式会社 図面読取システム、図面読取方法、及び図面読取プログラム

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006202068A (ja) * 2005-01-21 2006-08-03 Hitachi Ltd 単語認識装置および単語認識方法
JP2009163689A (ja) * 2008-01-10 2009-07-23 Nec Corp 住所認識方法及び装置、並びに郵便あて名区分機
JP2009245464A (ja) * 2009-07-30 2009-10-22 Fujitsu Ltd 単語認識プログラム、単語認識方法、単語認識装置
KR101273711B1 (ko) 2011-05-13 2013-06-17 후지쯔 가부시끼가이샤 키워드 획득 방법 및 디바이스
JP2013097498A (ja) * 2011-10-31 2013-05-20 Denso It Laboratory Inc 住所検索表示装置
JP2016115229A (ja) * 2014-12-17 2016-06-23 株式会社富士通コンピュータテクノロジーズ 文字認識支援プログラム、文字認識支援方法及び文字認識支援装置
JP2016189174A (ja) * 2015-03-30 2016-11-04 ブラザー工業株式会社 情報特定プログラム、及び情報特定方法
JP6057112B1 (ja) * 2016-04-19 2017-01-11 AI inside株式会社 文字認識装置、方法およびプログラム
JP6870159B1 (ja) * 2020-11-04 2021-05-12 ファーストアカウンティング株式会社 データ処理装置、データ処理方法及びプログラム
WO2022097189A1 (ja) * 2020-11-04 2022-05-12 ファーストアカウンティング株式会社 データ処理装置、データ処理方法及びプログラム
WO2023139650A1 (ja) * 2022-01-18 2023-07-27 三菱電機株式会社 図面読取システム、図面読取方法、及び図面読取プログラム
JP7383209B1 (ja) 2022-01-18 2023-11-17 三菱電機株式会社 図面読取システム、図面読取方法、及び図面読取プログラム

Also Published As

Publication number Publication date
JP4102153B2 (ja) 2008-06-18

Similar Documents

Publication Publication Date Title
JP4421134B2 (ja) 文書画像検索装置
KR101201037B1 (ko) 키워드와 웹 사이트 콘텐츠 사이의 관련성 검증
KR100630886B1 (ko) 문자 스트링 식별
US9875254B2 (en) Method for searching for, recognizing and locating a term in ink, and a corresponding device, program and language
Corazza et al. LINSEN: An efficient approach to split identifiers and expand abbreviations
CN112906392B (zh) 一种文本增强方法、文本分类方法及相关装置
JP2002215619A (ja) 翻訳文書からの翻訳文抽出方法
US7475005B2 (en) Translation system, dictionary updating server, translation method, and program and recording medium for use therein
JP4102153B2 (ja) インターネットを利用した文字認識の後処理装置
KR100691400B1 (ko) 부가 정보를 이용하여 형태소를 분석하는 방법 및 상기방법을 수행하는 형태소 분석기
Schaback et al. Multi-level feature extraction for spelling correction
Xiao et al. Information extraction from the web: System and techniques
CN113609841A (zh) 一种主题词生成模型的训练方法及计算设备
JP2001325104A (ja) 言語事例推論方法、言語事例推論装置及び言語事例推論プログラムが記録された記録媒体
JP4953459B2 (ja) 文字ベクトルを用いた略語生成装置、方法及びプログラム
JP2003331214A (ja) 文字認識誤り訂正方法、装置及びプログラム
JP2002259912A (ja) オンライン文字列認識装置及びオンライン文字列認識方法
JP6303508B2 (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム
KR100998291B1 (ko) 키워드 스트링을 구조화하고 검출하는 방법 및 장치
Yu High accuracy postal address extraction from web pages
JP2006139659A (ja) 単語認識装置、単語認識方法、単語認識プログラム
Nam et al. KNE: An Automatic Dictionary Expansion Method Using Use-cases for Morphological Analysis
Li et al. An Error Classification-Based Query Error Correction Method in Chinese Search Engine
JPH0757059A (ja) 文字認識装置
CN115221283A (zh) 意图识别方法、意图识别装置、存储介质与电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050112

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070911

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071105

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071211

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080109

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20080218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080318

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080321

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110328

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110328

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120328

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130328

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140328

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees