JP2005284716A - 文字認識システム、文字認識方法およびそのプログラム - Google Patents

文字認識システム、文字認識方法およびそのプログラム Download PDF

Info

Publication number
JP2005284716A
JP2005284716A JP2004097686A JP2004097686A JP2005284716A JP 2005284716 A JP2005284716 A JP 2005284716A JP 2004097686 A JP2004097686 A JP 2004097686A JP 2004097686 A JP2004097686 A JP 2004097686A JP 2005284716 A JP2005284716 A JP 2005284716A
Authority
JP
Japan
Prior art keywords
character
converted
image data
dot pattern
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004097686A
Other languages
English (en)
Inventor
Katsumi Tsubota
克己 坪田
Muneyuki Baba
宗之 馬場
Tomohiro Kumazawa
朋宏 熊澤
Kazuhiro Onodera
一宏 小野寺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2004097686A priority Critical patent/JP2005284716A/ja
Publication of JP2005284716A publication Critical patent/JP2005284716A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】 手書きで入力された文字を、電子ペンを用いて電子データとして取得し、文字認識を実行する際に、外字の検索、作成、登録を容易に行い、かつ一連の作業として支援する手段を提供すること。
【解決手段】 記入位置を特定可能に作成された用紙に記入された情報を筆記情報として取得する電子ペン1を用いた文字認識システムであって、文字コードに変換できない文字、つまり認識できない文字がある場合に、この認識できない文字のドットパターンを作成し、このドットパターンをドット単位で修正または予め格納された文字を構成する部品を用いて修正して新規の外字として登録する文字認識システムを課題の解決手段とする。
【選択図】 図1

Description

本発明は、電子ペンを用いて取得した筆記イメージを文字コードに変換する文字認識技術に関し、殊に筆記イメージに外字が含まれる場合に外字の検索および新規外字の作成を支援できる文字認識システム、文字認識方法およびそのプログラムに関する。
近年、自治体の窓口などにおいて申請業務の電子化が進み、申請書をはじめとする帳票への記載事項を、電子データとして効率的に取得する方法が求められている。例えば、記載事項が記入された帳票を、イメージデータとして取得し、OCR(Optical Character Recognition)技術を用いて記載事項を文字コードに変換する方法が広く用いられており、電子ペンなどにより、帳票フォーマットと筆記イメージデータとを直接対応付けて記載事項を電子データとして取得することも可能となっている。
ところで、このように電子ペンを用いて取得したイメージデータを、文字認識技術を用いて文字コードに変換する際には、文字のイメージデータと文字コードを対応付けて格納した辞書を参照するが、帳票の記入項目には人名や住所が含まれることが多く、これらにはJIS(Japan Industrial Standard)などの規格によりコンピュータシステムで用いる文字として定められた標準文字以外の「外字」と呼ばれる通常の辞書に無い文字が含まれることがある。このような「外字」を、電子データに変換しようとした場合、従来は、外字管理担当者が外字一覧表を用いた目視による同定作業、もしくは外字と部首検索等により検索した文字群の文字との同定作業を行う必要があった。さらに、変換対象の外字に、予め登録されていない外字が含まれていた場合、人手による外字フォント作成作業を行う必要があった。
この外字フォント作成作業は、外字管理担当者がドットパターンマップにキーボードまたはマウスなどの入力手段を用いてドットパターンを作成することが多く、手間がかかるだけでなく、ディスプレイなどに表示した際に、見易さにおいて予め格納された文字フォントと品質の差が出ることが多かった。このように、公共機関や行政機関などでは外字同定・作成作業に多くの時間を要しており、業務上の大きな負担となっていた。
この問題を解決するために、特許文献1、特許文献2および特許文献3に開示された発明が提案されている。
特許文献1には、文字を構成する部品コードと位置情報の組からなる文字情報を対話的に入力し、辞書に登録されている字形を検索する方法が提案されている。
また、特許文献2には、OCR技術の機能を利用し、入力文字パターンと用意された候補文字パターンとを合成したパターンを外字パターンとして登録する方法が提案されている。
さらに、特許文献3には、入力された外字の字形のストロークを特定し、特定されたストローク間の相対位置を解析し、解析結果と各文字のストロークおよび相対位置を有する辞書にある文字とを比較し、入力された外字を検索する方法が提案されている。
特開平7−36872号公報(段落0008、図1) 特開平8−248941号公報(段落0018〜0029、図4) 特開2001−337946号公報(段落0017〜0019、図1)
特許文献1、特許文献2および特許文献3に開示されているように、外字同定・作成作業を支援する方法として、部分的に種々の方法が提案されている。しかしながら、検索・同定と外字作成作業を一貫して行う処理を支援する方法として有用なものは、これまで提案されていなかった。
部分的な技術としても、前記特許文献1に記載の外字登録・検索方法では、部品コードや位置情報といった検索時に利用する属性情報を人間が判断しながら、入力しなければならず、外字を検索し、登録する作業が煩雑になるという欠点があった。
また、特許文献2に記載の文字処理システムでは、OCRの技術を利用しているため、イメージスキャナなどの入力装置での読み込みとなり手間がかかり、合成したパターンに修正が発生する場合は、ドット単位での修正となるため、修正作業が煩雑となるという問題があった。
さらに、特許文献3に記載の外字登録システムでは、公共機関や行政機関などの申請業務における申請書類に外字が含まれている場合、含まれている外字は、手書きの文字の形態が、そのままであるため、形状特徴データベースとの照合において一致せず文字の検索・登録が行えないことがあり、手書きの形状特徴データベースを登録しても別の人間が書いた同じ外字を認識できるとは限らないという問題があった。
したがって、本発明の目的は、前記した問題点を解決し、手書きで入力される文字を、電子ペンを用いて電子データとして取得し、文字認識を実行する際に、外字の検索、作成、登録を容易に行い、かつ一連の作業として支援する手段を提供することにある。
前記した課題を解決するためになされた本発明に係る文字認識システムは、記入位置を特定可能に作成された用紙に記入された情報を筆記情報として取得する電子ペンを用いた文字認識システムにおいて、文字コードに変換できない文字つまり認識できない文字がある場合に、この認識できない文字のドットパターンを作成し、このドットパターンをドット単位で修正または予め格納された文字を構成する部品を用いて修正して新規の外字として登録することを特徴としている。
このように構成された本発明によると、字体の整った外字を迅速に作成することが可能となる。
また、前記した文字認識システムは、文字コードに変換する文字、つまり認識対象の文字の画数およびレイアウトパターンを算出して、はじめに、この画数およびレイアウトパターンを用いて参照する文字群を検索して絞り込み、この文字群を参照して認識対象の文字を文字コードに変換することを特徴としている。
このように構成された本発明によると、文字認識の精度が向上するとともに、文字認識の速度が向上する。
本発明に係る文字識別システム、文字識別方法およびそのプログラムによると、文字認識の精度および速度を向上しつつ筆記情報の取得から新規外字の作成までを一連の処理として効率良く行うことが可能となる。
本発明によると、電子ペンを用いて用紙に記入された筆記情報を取得することで、新規に外字を作成する際に、筆記情報から作成したイメージデータに基づいてドットパターンを作成し、文字を構成する部品を用意して、このドットパターンに修正を加えることで、迅速に字体の整った外字を作成することが可能となる。
本発明の実施の形態を、添付した図面を用いて詳細に説明する。本実施の形態は、公共機関における申請業務において、申請用紙である帳票に記入された情報を電子化して格納する帳票入力システムに、本発明に係る文字認識システムを適用した例である。
なお、以下の本実施の形態の説明において、「文字認識」とは、帳票に記入された文字を文字コードに変換することと同義で用いる。
はじめに、図1は、本発明が適用される帳票入力システムの構成図の例である。図1に示すように、本実施の形態の帳票入力システムは、記入する位置を特定可能なように特殊なドットパターンが印刷された帳票2に記入するストロークデータを取得してペンサーバ3に送信する電子ペン1と、電子ペン1から送信されるストロークデータを、帳票2の帳票項目と対応付けて文字コードに変換して格納するペンサーバ3とから主に構成される。
次に、図1に示した帳票入力システムの各構成要素について詳しく説明する。
(電子ペン)
本実施の形態で用いる電子ペン1は、使用者が帳票2に記入した情報(筆跡)を電子データであるストロークデータに変換して、ペンサーバ3に送信する。
詳しく説明すると、図2は、本実施の形態で用いる電子ペン1の構成を例示した図である。図2に示すように、電子ペン1は、特殊なドットパターンが印刷された帳票2に必要事項を記入するための筆記手段であるペン10、帳票2に印刷されたドットパターンを読取るカメラ11、記入時にペン10に作用する筆圧を検出する圧電素子12、カメラ11および圧電素子12からのデータを処理して、記入により移動するペン先の位置を帳票2のドットパターンと関連付けた情報であるストロークデータを作成する処理装置13、作成されたストロークデータの蓄積などを行うメモリ14およびストロークデータを他の装置などに送信する伝送装置16を含んで構成されている。
さらに、電子ペン1は、入力状況や入力エラーを表示する表示画面15や、入力エラーを利用者に振動で伝える振動モータ17なども有している。
この伝送装置16の例としては、短距離無線伝送技術の一種であるブルートゥース(登録商標)の通信プロトコルに従い、所定の周波数帯域の電波を利用してデータを送受信する装置があげられるが、その他の無線技術や、無線LAN(Local Area Network)、あるいは、有線通信技術の通信プロトコルに従ってデータを送受信する装置であってもよい。また、処理装置13は、CPU(Central Processing Unit)などから構成されており、電子ペン1を統括的に制御する。具体的には、カメラ11において取得した画像情報に含まれる帳票2のドットパターンからストロークデータを作成することや、このストロークデータをペンサーバ3に送信することや、表示画面15および振動モータ17を制御することなどがあげられる。
(帳票)
電子ペン1により記入される帳票2は、特殊なドットパターンが印刷されることで、電子処理用ペーパとして機能する。
このドットパターンは、紙面を所定サイズの格子に区切った場合に、その位置を特定できるようにドットが配置されており、このドットパターンを用いることで、帳票2に記入した筆跡を、電子ペン1により特定することができる。さらに帳票2の上面には、帳票2の紙面情報が印刷されており、帳票2の記入者は、この紙面情報を目視して、記入内容や記入位置などを特定して帳票2に記入することができる。
なお、この帳票2は、請求項の用紙に相当している。また、本実施の形態で用いる帳票2を、図3に例示するが、この説明については後記する。
(ペンサーバ)
次に、請求項の文字処理装置に相当するペンサーバ3の構成について説明する。
図1に示すように、ペンサーバ3は、様々な処理を実行するCPU30、ペンサーバ3が実行可能なプログラムが展開されるRAM(Random Access Memory)31、電子ペン1の伝送装置16(図2参照)から送信されるストロークデータなどを受信するペンレシーバ32、図示しないディスプレイなどへのインタフェイスである出力手段33および様々なデータやプログラムなどが格納されたストレージ34から主に構成され、例えばサーバ用コンピュータにより実現される。
ペンサーバ3のストレージ34は、文字解析手段35、文字検索手段36、表示作成手段37、ドットパターン化手段38、外字検索・作成手段39、外字登録手段40およびデータ登録手段41として機能するプログラムが格納され、帳票定義ファイル42、本字辞書ファイル43、外字辞書ファイル44および文字部品ファイル45とが格納され、帳票データ格納部46として区画されたデータ保存領域を含んで構成される。
なお、文字解析手段35、文字検索手段36、表示作成手段37、ドットパターン化手段38、外字検索・作成手段39、外字登録手段40およびデータ登録手段41として機能するプログラムは、ペンサーバ3のRAM31に展開されてCPU30が実行することで、各手段として機能する。
次に、ペンサーバ3のストレージ34に格納され、CPU30が実行することで各手段を実現するプログラムについて詳しく説明する。
文字解析手段35は、電子ペン1から受信した帳票2に記入されたストロークデータをイメージデータ(以下、記入イメージデータと呼ぶ)に変換し、帳票定義ファイル42に格納された後記する項目属性情報を参照して、記入イメージデータを1文字ごとに分解して、文字検索手段36に受け渡す。
さらに、文字解析手段35は、この1文字ごとの記入イメージデータから、文字レイアウトパターンを算出し、ストロークデータを用いて、この文字の画数を算出する文字解析処理を実行して、この文字解析処理の結果を文字検索手段36に受け渡す。
なお、文字レイアウトパターンとは、その文字の「部首の区分け」を示す情報であり、文字解析手段35は、各文字がどのような「部首の区分け」を有しているかを判別して文字レイアウトパターンを算出する。
例えば、図4は、「部首の区分け」による分類の例を示した図であり、符号50は「偏」を有する文字、符号51は「冠」を有する文字、符号52は「にょう」を有する文字、符号53は「垂れ」を有する文字そして符号54は「構え」を有する文字を示しており、本実施の形態では、各文字はどの「部首の区分け」を有しているかに応じて5つに分類され、この分類結果の情報が文字レイアウトパターンとなる。
文字検索手段36は、本字辞書ファイル43および外字辞書ファイル44を参照して、記入イメージデータを文字コードに変換する文字認識処理を実行する。この文字検索手段36では、はじめに、文字解析手段35から送られる認識対象の文字の文字レイアウトパターンおよび画数を用いて、本字辞書ファイル43および外字辞書ファイル44に格納された文字のうち文字レイアウトパターンおよび画数が同じ文字を、変換候補の文字群として検索して絞り込む。
次に、文字解析手段35から送られた認識対象の文字の記入イメージデータを、絞り込まれた文字群の文字イメージデータを参照して文字コードに変換する文字認識処理を実行する。
この文字認識処理において、文字コードへの変換に成功した場合は、この記入イメージデータと文字コードとを表示作成手段37に受け渡す。
また、この文字認識処理において文字コードへの変換に失敗した場合は、この記入イメージデータをドットパターン化手段38および外字検索・作成手段39に受け渡し、絞り込まれた文字群の情報を、外字検索・作成手段39に受け渡す。
なお、文字認識処理において、本字辞書ファイル43および外字辞書ファイル44に格納された文字の中から、文字コードへの変換確定する方法は、従来技術である文字認識技術の手法を用いることができる。例えば、認識対象の文字と絞り込まれた文字群の中の文字との類似度を算出し、所定の閾値以上であれば、その文字であると判定する方法を用いることができる。
表示作成手段37は、帳票定義ファイル42に格納された情報と、文字解析手段35から送られた認識対象の文字の記入イメージデータと、文字検索手段36および外字登録手段40から送られた認識対象の文字の認識結果とを対応づけて、後記する帳票確認画面81(図8参照)を作成し、出力手段33に出力する。
ドットパターン化手段38は、文字検索手段36の文字認識処理において文字コードへの変換に失敗した場合、認識対象の文字のドットパターンの作成処理を実行する。ドットパターン化手段38では、文字検索手段36から受け取った認識対象の文字の記入イメージデータを、ドットパターンマップ上にプロットしたドットパターンとして作成し、このドットパターンと記入イメージデータを外字検索・作成手段39に受け渡す。
請求項の外字作成手段に相当する外字検索・作成手段39は、文字部品ファイル45から文字を構成する部品群のドットパターンを取得し、文字検索手段36から送られた、絞り込まれた文字群の情報と、ドットパターン化手段38から送られた認識対象の文字のドットパターンおよび記入イメージデータとを用いて後記する外字検索・作成画面71(図7参照)を作成し、出力手段33から出力する。また、この外字検索・作成画面71には、文字検索手段36から受け取った変換候補の文字群の情報も、認識対象の文字の認識候補として選択可能に表示する。
この外字検索・作成画面71により、利用者はドットパターン化された文字に対して、ドット単位の修正を行ったり、文字を構成する部品群のドットパターンより部品を選択して、ドットパターン化された文字の部品と置換したり、適当な部品を追加することなどで、認識できなかった文字の変換または新規の外字の作成・登録をすることなどができる。
外字登録手段40は、外字検索・作成手段39が出力手段33から出力する外字検索・作成画面71(図7参照)において、帳票入力システムの利用者が認識対象の文字を新規の外字としてドットパターンを確定した場合には、新規に文字コードを発生させ、この文字の文字レイアウトパターン、画数およびこの確定したドットパターンを、発生させた文字コードと対応付けて外字辞書ファイル44に登録し、認識対象の文字の記入イメージデータと、新規に発生した文字コードとを表示作成手段37に受け渡す。
また、外字検索・作成手段39が出力手段33から出力する外字検索・作成画面71(図7参照)において、帳票入力システムの利用者が認識対象の文字を変換候補の文字群から選択した場合には、認識対象の文字の記入イメージデータと、選択された文字の文字コードとを表示作成手段37に受け渡す。
データ登録手段41は、表示作成手段37が作成した後記する帳票確認画面81(図8参照)において帳票2に入力される情報が確定すると、各文字の記入イメージデータと文字コードとを、帳票2の帳票項目に対応付けて帳票データ格納部46に格納する処理を実行する。
次に、ストレージ34に格納された各ファイルを説明する。
帳票定義ファイル42は、帳票2のドットパターンと帳票2の上面に印刷された紙面情報を対応付けた情報を含み、この情報は、文字解析手段35において電子ペン1から送信されるストロークデータを記入イメージデータに変換する際に利用され、さらに、前記した各手段において電子ペン1から送信されるストロークデータと帳票2の帳票項目との対応付けを行う際などに利用される。
ここで、例えば、図3は、自治体などの窓口において公文書の開示を請求する際に記入する帳票2である公文書公開請求書を例として、帳票定義ファイル42の構造を説明する図である。図3を参照して、帳票2には、図示しない特殊なドットパターンが印刷されており、さらにその上には氏名や住所などの帳票項目を目視にて確認できる紙面情報が印刷されている。また、帳票2の帳票項目には、記入領域を示す破線の枠が設定されており、この破線の枠内に記入されたストロークデータは、この帳票項目と対応付けて記入イメージデータに変換されて最終的にデータ登録手段41により帳票データ格納部45に格納される。
なお、実際の帳票2には、この破線は印刷されていない。また、帳票2の下部には、この帳票2への記入終了時に記入するチェックボックス21が設けられており、記入者は、このチェックボックス21にチェックを記入することで、帳票2への記入終了をペンサーバ3に送信することができる。
さらに、帳票2の破線で囲まれた領域には、それぞれ、その領域に記入される情報を定義した項目属性情報22が設定されている。図3に示した項目属性情報22の例では、氏名の「名」を記入する領域について、上から順に、この項目属性情報22が収納されたファイル名を示す「帳票定義ファイル名」、この帳票項目を特定できるIDである「帳票項目ID」、この帳票項目の名前の情報である「帳票項目名」、この帳票項目への記入が必須であるか否かを示す情報である「記入必須」、この帳票項目に記入される情報の種類を示す情報である「属性」、この帳票項目に入力される最大の文字数を示す情報である「最大文字数」およびこの帳票項目に記入可能な行数を示す情報である「記入可能行数」を含んで構成されていることがわかる。
なお、項目属性情報22に含まれる情報のうち、「属性」の欄には、その帳票項目に記入される情報の種類を示しており、図3に示した例では、「名」の帳票項目に記入される情報が「文字」であることを示している。例えば、この「属性」の欄を「画像」と設定することで、記入イメージデータを文字コードに変換せず、そのまま格納する設定にすることも可能である。
本字辞書ファイル43には、記入イメージデータの文字コードへの変換の際に、文字検索手段36が参照する標準の文字(例えば、JIS第1水準およびJIS第2水準の文字)のイメージデータ、文字レイアウトパターンおよび画数が、文字コードと対応付けられて格納されている。
また、外字辞書ファイル44には、本字辞書ファイル43に格納されていない文字のイメージデータ、文字レイアウトおよび画数が、文字コードと対応付けられて格納されている。なお、外字登録手段40にて登録される新規の外字のドットパターン(イメージデータ)、文字レイアウトパターンおよび画数も、新たに作成された文字コードに対応付けられて、この外字辞書ファイル44に格納される。
なお、本実施の形態では本字辞書ファイル43および外字辞書ファイル44を備える構成としたが、1つの辞書ファイルに本字および外字のデータを格納した構成であってもよい。
文字部品ファイル45には、外字検索・作成手段39において使用される、新規に作成する外字を構成する部品群のドットパターンが格納されている。この外字を構成する部品群としては、様々な部首のドットパターンやさらに細かに区分された漢字を構成する部品のドットパターンなどが格納されている。
さらに、ストレージ34の中に区画された領域である帳票データ格納部46には、データ登録手段41により、電子ペン1から送信されたストロークデータを変換した記入イメージデータおよびこの記入イメージデータを変換した文字コードが、帳票2の帳票項目と対応付けて格納される。
(帳票データ登録過程)
次に、前記した本実施の形態の帳票入力システムを使用して、公文書の公開を請求する請求者の、図3に示した帳票2である公文書公開請求書(以下、帳票2とする)に電子ペン1を用いて記入した情報を、ペンサーバ3において文字コードに変換して格納する手順を、図5に示したフローチャートを参照して説明する(適宜、図1、図3参照)。
はじめに、自治体などの窓口で、公文書の公開請求をする請求者は、図3に示した帳票2に、電子ペン1を用いて必要事項を記入する。この帳票2に電子ペン1を用いて入力された情報は、逐次、電子ペン1によりストロークデータとしてペンサーバ3に送信され、ペンサーバ3は、ペンレシーバ32から、この帳票2に電子ペン1を用いて入力されたストロークデータを受信する(ステップS101)。
そして、ペンサーバ3は、この受信したストロークデータの中で、帳票2の筆記終了を示すチェックボックス21にチェックが記入されたか否かを判定し(ステップS102)、チェックボックス21に記入されたストロークデータが検出されない場合は(ステップS102でNoの場合)、チェックボックス21にチェックが入力されるまで、ステップS101のストロークデータの受信を続ける。
そして、帳票2の筆記終了を示すチェックボックス21に、記入されたストロークデータを検出すると(ステップS102でYesの場合)、文字解析手段35は、それまでに受信したストロークデータを、帳票定義ファイル42に格納されたこの帳票2の帳票定義情報を参照して1文字単位の記入イメージデータに変換する(ステップS103)。
そして、文字解析手段35は、この1文字単位の記入イメージデータから、その文字の文字レイアウトパターンを算出し、その文字のストロークデータから画数を算出する文字解析処理を実行して、その結果をその文字の記入イメージデータと合わせて文字検索手段36に受け渡す(ステップS104)。
なお、このステップS103およびステップS104の処理は、ステップS102の判定に関係なく、逐次実行する構成とすることもできる。
次に、ペンサーバ3の文字検索手段36は、1文字ごとに、文字解析手段35から送られる認識対象の文字の文字レイアウトパターンおよび画数を用いて、本字辞書ファイル43および外字辞書ファイル44から、変換候補となる同じ文字レイアウトパターンおよび画数を有する文字群を検索して絞り込む(ステップS105)。
次に、文字検索手段36は、認識対象の文字の記入イメージデータから、ステップS105で絞り込まれた文字群を参照して、認識対象の文字を文字コードに変換する文字認識処理を実行する(ステップS106)。
そして、ステップS106の文字認識処理において、絞り込まれた文字群から文字認識が成功したか否かを判定する(ステップS107)。この判定は、例えば、認識対象の文字と絞り込まれた文字群の文字との類似度を算出して、所定の閾値よりも類似度が高い文字があるか否かにより行われる。
ステップS107の判定において、文字の認識に成功した場合は(ステップS107においてYesの場合)、認識された文字の文字コードとその記入イメージデータとを表示作成手段37に受け渡し(ステップS110)、全ての認識対象の文字の認識が終了したかを判定するステップS112に進む。
また、文字の認識に失敗した場合は(ステップS107においてNoの場合)、ステップS105で絞り込まれた文字群だけでなく、本字辞書ファイル43および外字辞書ファイル44に含まれる全ての文字を参照して文字認識処理を実行する(ステップS108)。
そして、ステップS108の文字認識処理を実行して、本字辞書ファイル43および外字辞書ファイル44に含まれる全ての文字を参照した文字認識に成功したか否かを判定する(ステップS109)。この判定において、文字の認識に成功した場合は(ステップS109においてYesの場合)、認識された文字の文字コードとその記入イメージデータを表示作成手段37に受け渡し(ステップS110)、全ての認識対象の文字の認識が終了したかを判定するステップS112に進む。
また、文字の認識に失敗した場合は(ステップS109においてNoの場合)、ドットパターン化手段38および外字検索・作成手段39を用いて外字の検索・作成処理を実行する(ステップS111)。
ここで、図6は、ステップS111の外字の検索・作成処理の手順を詳しく説明するフローチャートである。図6を参照して、ステップS111の外字の検索・作成処理を詳しく説明する。
ここでは、電子ペン1を用いて、帳票2に例えば、「かん」(字体は、門構えに“月”)という文字を記入して、この「かん」という文字が本字辞書ファイル43および外字辞書ファイル44に登録されていない場合を想定する。
ステップS109において、「かん」という文字の文字認識に失敗したペンサーバ3は、ステップS111の外字検索・作成処理を実行する。
はじめに、ペンサーバ3のドットパターン化手段38は、文字検索手段36から認識できない「かん」という文字の記入イメージデータを受け取る(ステップS201)。
そして、ドットパターン化手段38は、この「かん」という文字の記入イメージデータを、例えば「32×32」ドットのグリッド上にドットパターンとして変換し、外字検索・作成手段39に受け渡す(ステップS202)。
次に、外字検索・作成手段39は、文字検索手段36から受け取った、ステップS105において実行された「かん」という文字の変換対象となる文字の絞り込みの結果と、ドットパターン化手段38から受け取った、「かん」という文字のドットパターンと、文字部品ファイル45に格納された漢字の部品のイメージデータとを用いて外字検索・作成画面71(図7参照)を作成し、出力手段33に出力する(ステップ203)。
ここで、図7は、外字検索・作成手段39が作成する文字検索・作成画面71の例である。図7を参照すると、文字検索・作成画面71は、電子ペン1を用いて入力された「かん」という文字の記入イメージデータが表示される記入イメージデータ表示領域72と、デフォルトでドットパターン化手段38から受け取ったドットパターンが表示されるドットパターン表示領域73と、文字部品ファイル45に格納された漢字の部品が表示される部品選択領域74と、文字検索手段36から受け取った変換対象となる文字群が表示される変換候補表示領域75と、ドットパターン表示領域73に表示された外字の入力を確定する登録ボタン76とから主に構成される。
操作者は、この文字検索・作成画面71を見て、「かん」という文字が変換候補表示領域75に表示されているかを確認できる。
なお、もしも、この変換候補表示領域75に変換される文字が表示されている場合には、その文字を図示しないマウスなどのポインティングデバイスを用いて選択することにより、認識対象の文字の記入イメージデータと選択された文字とを応付けることができる。
また、変換候補表示領域75に表示される変換候補の文字群は、操作者の検索の効率をさらに向上させるために、ドットパターン表示領域73に表示されたドットパターンと類似度が高いものから順に表示させることが望ましい。
この例では、変換候補表示領域75に、「かん」という文字が表示されていないため、新たに外字として登録することになる。この場合、ドットパターン表示領域73に表示された「かん」という文字のドットパターンをドット単位で修正することや、部品表示領域74に表示された部品をドットパターン表示領域73にドラッグして、正確な「かん」という文字の部品に置換することにより、ドットパターン表示領域に表示される「かん」という文字のドットパターンを所望の字体に修正して、「かん」という文字の記入イメージデータと修正されたドットパターンとが対応付けられる。
なお、このドットパターンの修正の過程において、修正の度に、ドットパターン表示領域73に表示されたドットパターンと類似度の高い文字の候補を本字辞書ファイル43および外字辞書ファイル44から算出して、変換候補表示領域75に表示させることもでき、これにより外字の重複登録を防止することができる。
次に、ドットパターンの修正を終えた操作者が、文字検索・作成画面71の登録ボタン76をクリックすると、外字検索・作成手段39は、文字検索・作成画面71によって対応付けられた「かん」という文字の記入イメージデータとそれに対応する確定したドットパターンを、外字登録手段40に受け渡す(ステップS204)。
そして、外字登録手段40は、文字検索・作成画面71において「かん」という文字の記入イメージデータに対応付けられたドットパターンが、変換候補表示領域75から選択されたドットパターンか否か、つまり本字辞書ファイル43または外字辞書ファイル44に格納された文字か否かを判定する(ステップS205)。
この例では、文字の記入イメージデータに対応付けられたドットパターンが、変換候補表示領域75から選択されたドットパターンではないため(ステップS205においてNo)、外字登録手段40は、外字検索・作成画面71において作成されたドットパターンと「かん」という文字の文字レイアウトデータおよびその画数とを新規に発生させた文字コードに対応させて外字辞書ファイル44に登録する(ステップS206)。
そして、外字登録手段40は、この「かん」という文字の記入イメージデータとステップS206で対応付けた新規に発生させた文字コードとを表示作成手段37に受け渡す(ステップS207)。
なお、ステップS204において受け渡されたドットパターンが、変換候補表示領域75から選択されたものである場合は(ステップS205においてYesの場合)、ステップS207に進み、記入イメージデータと選択された文字の文字コードが表示作成手段37に受け渡される。
以上の過程により、図5に示したフローチャートのステップS109までに文字認識されなかった文字は、新規の外字として外字辞書ファイル44に格納される。もしくは、本字辞書ファイル43または外字辞書ファイル44に格納された文字と対応付けられる、
図5のフローチャートに戻って、ステップS110の認識された文字の記入イメージデータおよびそれに対応する文字コードを表示作成手段に受け渡す処理が終了するか、ステップS111の外字検索・作成処理が終了すると、文字解析手段35は、電子ペン1を用いて入力された全ての文字が文字コードに変換されたか否かを判定する(ステップS112)。
ここで、全ての文字の文字コードへの変換が終了していない場合は(ステップS112においてNoの場合)、ステップS104に戻って、さらに次の文字の文字認識を実行する。
また、全ての文字の文字コードへの変換が終了した場合(ステップS112においてYesの場合)、表示作成手段37は、ステップS112までの変換結果から、変換結果を確認する帳票確認画面81を作成し、出力手段33に出力する(ステップS113)。
ここで、図8は、表示作成手段37によって作成される帳票確認画面81の例を示している。図8に示した帳票確認画面81において、画面左側の符号82で示した表示領域には、帳票2の紙面情報に、記入イメージデータを合成して表示されている。また、画面右側の符号83で示した表示領域には、帳票2の帳票項目ごとに、記入イメージデータおよびそれを変換した文字コードに対応する本字イメージデータまたは外字イメージデータが表示されている。さらに、記入イメージデータの変換結果を帳票データ格納部46に登録する際にクリックする確認ボタン85が設けられている。
この帳票確認画面81において、符号84で示した「氏名2」の帳票項目は、図6に示したフローチャートのステップS207において受け渡された「かん」という文字の記入イメージデータとこれに対応する文字コードに基づいて、上段に記入イメージデータが、下段に外字辞書ファイル44に格納されたこの文字コードに対応する文字の外字イメージデータがそれぞれ表示されている。
ペンサーバ3の操作者は、符号83で示した表示領域に表示された、記入イメージデータと本字イメージデータまたは外字イメージデータとを目視して、変換に誤りがある場合は、その項目を修正することができる。
この帳票確認画面81により、記入イメージデータが正しく文字コードに変換されたかを確認することができ、ペンサーバ3の操作者は、記入イメージデータの文字コードへの変換を確認すると、確認ボタン85をクリックする。これにより、ペンサーバ3のデータ登録手段41の機能により、各帳票項目の記入イメージデータからの変換結果である文字コードは、帳票入力データとして帳票データ格納部46に格納される(ステップS114)。
前記した過程を経て、帳票2に電子ペン1を用いて入力されたストロークデータは、ペンサーバ3において、帳票2の帳票項目と対応付けて記入イメージデータに変換され、本字辞書ファイル43および外字辞書ファイル44を参照して最終的に文字コードに変換されて帳票データ格納部46に格納される。
以上、説明した本実施の形態の帳票入力システムによると、帳票2に記入された情報を電子データとして迅速に取得することができる。また、その過程で、記入イメージデータを文字コードに変換する際に、記入イメージデータから算出した文字レイアウトパターンおよびストロークデータから算出した文字の画数を用いて、変換候補となる文字群を絞り込んで文字認識を実行することで、変換の精度が上昇するとともに変換の速度が向上する。
さらに、文字コードに変換できない記入イメージデータがあった場合でも、変換候補となる文字群を表示することで、操作者が容易に本字辞書ファイル43および外字辞書ファイル44に格納された文字の中から変換される文字を検索することができる。また、記入イメージデータが、本字辞書ファイル43および外字辞書ファイル44に格納されていない新規の外字であった場合にも、ドットパターンの修正と文字を構成する部品を用いることで、迅速に字体の整った外字イメージデータを作成することができる。
以上、本発明に係る文字認識システムを適用した好適な実施の形態を通して本発明を説明したが、本発明に係る文字認識システムは、本発明の属する技術分野の通常の知識を有する者であれば、電子ペンまたはOCRなどを用いた様々な文字の入力システムに適用可能であり、前記した実施の形態は、その一実施形態にすぎない。したがって、本発明は特許請求の範囲に記載された技術的思想により定められる。
本発明に係る文字認識システムが適用された帳票入力システムの構成図である。 本実施の形態の電子ペンの構成図である。 文字レイアウトパターンの分類例を説明する図である。 帳票とその帳票項目に対応付けられた項目属性情報を説明する図である。 本実施の形態の帳票入力システムの動作を説明するフローチャートである。 新規の外字を検索・作成する手順を説明するフローチャートである。 新規の外字を検索・作成する外字作成画面を表す図である。 帳票に入力された情報を確定する帳票確認画面を表す図である。
符号の説明
1 電子ペン
2 帳票
3 ペンサーバ
35 文字解析手段
36 文字検索手段
37 表示作成手段
38 ドットパターン化手段
39 外字検索・作成手段
40 外字登録手段
41 データ登録手段
42 帳票定義ファイル
43 本字辞書ファイル
44 外字辞書ファイル
45 文字部品ファイル
46 帳票データ格納部
71 外字検索・作成画面
81 帳票確認画面

Claims (5)

  1. 記入位置を特定可能に作成された用紙に手書きで記入する情報を筆記情報として取得する電子ペンと、
    前記電子ペンから受信した前記筆記情報から、変換対象の文字の記入イメージデータを作成する文字解析手段、文字イメージデータを文字コードに対応付けて格納した文字記憶手段、および前記文字記憶手段を参照して前記記入イメージデータを文字コードに変換する文字変換手段を有する文字処理装置とを含んで構成される文字認識システムであって、
    前記文字処理装置は、
    文字を構成する部品群のドットパターンを格納した文字部品記憶手段と、
    前記文字変換手段が変換対象の文字を文字コードに変換できない場合に、前記記入イメージデータからドットパターンを作成するドットパターン化手段と、
    前記ドットパターン化手段が作成したドットパターンを、ドット単位の修正または前記文字部品記憶手段に格納された部品群のドットパターンを用いた修正が可能に構成された表示画面を作成する外字作成手段と、
    前記表示画面で変換対象の文字のドットパターンが確定すると、このドットパターンを新たに発生させた文字コードと対応付けて前記文字記憶手段に格納する外字登録手段とを含んで構成されること、
    を特徴とする文字認識システム。
  2. 前記文字記憶手段は、さらに文字のレイアウトパターンおよび文字の画数を前記文字コードに対応付けて格納し、
    前記文字解析手段は、前記筆記情報から変換対象の文字の画数および前記記入イメージデータから変換対象の文字のレイアウトパターンをさらに算出し、
    前記文字変換手段は、前記文字解析手段が算出した変換対象の文字の画数およびレイアウトパターンを用いて、前記文字記憶手段から同じ画数およびレイアウトパターンを有する文字群を変換候補として検索し、その検索した文字群を参照して前記記入イメージデータを文字コードに変換し、
    前記外字登録手段は、前記文字変換手段が変換対象の文字を文字コードに変換できない場合には、前記表示画面で変換対象の文字のドットパターンが確定すると、このドットパターンと合わせて変換対象の文字の画数およびレイアウトパターンを、前記新たに発生させた文字コードと対応付けて前記文字記憶手段に格納すること、
    を特徴とする請求項1に記載の文字認識システム。
  3. 前記外字作成手段は、前記文字変換手段が検索した前記文字群を、前記表示画面に変換対象の文字の変換候補として選択可能に表示し、
    前記外字登録手段は、前記表示画面において前記文字群の文字が選択されると、選択された文字の文字コードを、変換対象の文字の文字コードとして出力すること、
    を特徴とする請求項2に記載の文字認識システム。
  4. 記入位置を特定可能に作成された用紙に手書きで記入する情報を筆記情報として取得する電子ペンから受信した筆記情報を文字コードに変換する文字変換手段と、文字のイメージデータ、画数およびレイアウトパターンを文字コードに対応付けて格納した文字記憶手段と、文字を構成する部品群のドットパターンを格納した文字部品記憶手段とを有する文字認識装置における文字認識方法であって、
    前記電子ペンから前記筆記情報を取得するステップと、
    前記筆記情報から変換対象の文字の記入イメージデータを作成し、この記入イメージデータから変換対象の文字のレイアウトパターンと前記筆記情報から変換対象の文字の画数を算出するステップと、
    算出された変換対象の文字の画数およびレイアウトパターンを用いて、前記文字記憶手段から、同じ画数およびレイアウトパターンを有する文字群を変換候補として検索するステップと、
    検索された文字群を参照して前記記入イメージデータを文字コードに変換するステップと、
    文字コードへの変換ができない場合に、前記記入イメージデータから変換対象の文字のドットパターンを作成するステップと、
    作成された変換対象の文字のドットパターンを、ドット単位で修正または前記文字部品記憶手段に格納された部品群のドットパターンを用いて修正が可能に表示し、検索された前記文字群を、変換対象の文字の変換候補として選択可能に表示するように構成された表示画面を作成するステップと、
    前記表示画面において変換対象の文字のドットパターンが確定すると、この確定したドットパターンと変換対象の文字の画数およびレイアウトパターンとを、新たに発生させた文字コードに対応付けて前記文字記憶手段に格納するステップと、
    前記表示画面において前記文字群の文字が選択されると、選択された文字の文字コードを、変換対象の文字の文字コードとして出力するステップとを含むこと、
    を特徴とする文字認識方法。
  5. 文字イメージデータ、文字の画数および文字のレイアウトパターンを文字コードに対応付けて格納した文字記憶手段と、文字を構成する部品群のドットパターンを格納した文字部品記憶手段とを有し、位置を特定可能に作成された用紙に手書きで記入する情報を筆記情報として取得する電子ペンから受信した筆記情報を文字コードに変換する装置に用いられるコンピュータを、
    前記筆記情報から変換対象の文字の記入イメージデータを作成し、前記筆記情報から変換対象の文字の画数および前記記入イメージデータから変換対象の文字のレイアウトパターンを算出する文字解析手段、
    前記文字解析手段が算出した画数およびレイアウトパターンを用いて、前記文字記憶手段から同じ画数およびレイアウトパターンを有する文字群を変換候補として検索し、そして、この検索された文字群を参照して前記記入イメージデータを文字コードに変換する文字変換手段、
    前記文字変換手段が変換できない文字の前記記入イメージデータからドットパターンを作成するドットパターン化手段、
    前記ドットパターン化手段が作成したドットパターンを、ドット単位の修正または前記文字部品記憶手段に格納された部品群のドットパターンを用いた修正が可能に表示し、前記文字変換手段が検索した前記文字群を、変換対象の文字の変換候補として選択可能に表示するように構成された表示画面を作成する外字作成手段、
    前記表示画面において変換対象の文字のドットパターンが確定すると、この確定したドットパターンと前記文字解析手段が算出した変換対象の文字の画数およびレイアウトパターンとを、新たに発生させた文字コードに対応付けて前記文字記憶手段に格納し、前記表示画面において前記文字群の文字が選択されると、選択された文字の文字コードを、変換対象の文字の文字コードとして出力する外字登録手段、
    として機能させることを特徴とする-文字認識プログラム。
JP2004097686A 2004-03-30 2004-03-30 文字認識システム、文字認識方法およびそのプログラム Pending JP2005284716A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004097686A JP2005284716A (ja) 2004-03-30 2004-03-30 文字認識システム、文字認識方法およびそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004097686A JP2005284716A (ja) 2004-03-30 2004-03-30 文字認識システム、文字認識方法およびそのプログラム

Publications (1)

Publication Number Publication Date
JP2005284716A true JP2005284716A (ja) 2005-10-13

Family

ID=35183026

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004097686A Pending JP2005284716A (ja) 2004-03-30 2004-03-30 文字認識システム、文字認識方法およびそのプログラム

Country Status (1)

Country Link
JP (1) JP2005284716A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102227881B1 (ko) * 2019-12-02 2021-03-15 순천향대학교 산학협력단 이미지를 이용한 특수문자 검색 장치 및 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102227881B1 (ko) * 2019-12-02 2021-03-15 순천향대학교 산학협력단 이미지를 이용한 특수문자 검색 장치 및 방법

Similar Documents

Publication Publication Date Title
JP5402099B2 (ja) 情報処理システム、情報処理装置、情報処理方法およびプログラム
US8156427B2 (en) User interface for mixed media reality
JPH08305731A (ja) 文書格納等の方法及び文書サーバ
US20090019010A1 (en) Document Search Device, Imaging Forming Apparatus, and Document Search System
JP2007317022A (ja) 手書文字処理装置及び手書文字処理方法
US20200104586A1 (en) Method and system for manual editing of character recognition results
EP3555809B1 (en) Digitized handwriting sample ingestion systems and methods
KR20080031455A (ko) 혼합 미디어 환경에서의 이미지 정합 방법 및 시스템
US20220222292A1 (en) Method and system for ideogram character analysis
JP4897795B2 (ja) 処理装置、インデックステーブル作成方法及びコンピュータプログラム
KR100960640B1 (ko) 전자 문서에 핫스폿을 임베딩하는 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
CN109726369A (zh) 一种基于标准文献的智能模板化题录技术实现方法
JP2020087112A (ja) 帳票処理装置および帳票処理方法
JP6763173B2 (ja) 文書修正方法、文書修正装置、およびコンピュータプログラム
JP2005284716A (ja) 文字認識システム、文字認識方法およびそのプログラム
JP2006039866A (ja) 類似単語検索装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、および、情報検索装置
JP2022101136A (ja) 情報処理装置、情報処理方法およびプログラム
JP2022011019A (ja) データ入力支援装置、データ入力支援方法及びプログラム
WO2016170690A1 (ja) 入力制御プログラム、入力制御装置、入力制御方法、文字修正プログラム、文字修正装置、及び文字修正方法
JP2017045276A (ja) 携帯図面表示装置、図面表示システム
JP2020115260A (ja) 情報処理装置、及び情報処理プログラム
JPH1063813A (ja) イメージ文書管理方法及びその装置
JP2020047031A (ja) 文書検索装置、文書検索システム及びプログラム
JP2013182459A (ja) 情報処理装置、情報処理方法及びプログラム
JP7304604B1 (ja) 帳票のデータ入力を支援する方法