JP6364051B2

JP6364051B2 - ガイダンス付き文書情報取得方法、プログラム、及び携帯端末装置

Info

Publication number: JP6364051B2
Application number: JP2016180204A
Authority: JP
Inventors: 敏郎松村; 陽介江田; 正太名手
Original assignee: 株式会社アイエスピー
Priority date: 2016-09-15
Filing date: 2016-09-15
Publication date: 2018-07-25
Anticipated expiration: 2036-09-15
Also published as: JP2018045480A

Description

本発明は、携帯端末装置を用いて文書から情報を取得するための方法等に関する。特に、情報の取得の状況や必要なユーザ操作を適切に提示することで、ユーザ操作を容易にしながら確実に文書から情報を取得する方法、プログラム、及び携帯端末装置に関する。

従来から、紙文書の情報をＯＣＲ（Optical Character Recognition：光学文字認識）により電子化して種々の目的に活用する試みが行われている。据え置き型のスキャナ等を要する専用のＯＣＲ装置だけでなく、近年は、スマートフォン等携帯端末装置がＯＣＲソフトウェア（ＯＣＲエンジン）を備えることで活用の幅が広がっている。例えば、携帯端末装置のカメラで、名刺を撮影して記載された情報をテキストデータに変換して検索可能に管理したり、運転免許証を撮影してデータ入力を容易にしたりする技術が知られている。

携帯端末装置を用いることは手軽であるが、携帯端末装置のカメラでユーザが撮影する画像は必ずしもＯＣＲ処理に適さない。例えば、携帯端末に搭載されるデジタルカメラの解像度が低い（ＶＧＡ解像度等）ため文字認識することができなかったり、認識可能な文字数が制限される場合がある。また、解像度や光学系の品質が十分であっても、ユーザが携帯端末装置を手で保持して撮影ボタンを押す動作が不安定であるため、取得される文書画像の向きは、概して、歪みや回転要素を含む。結果として、成功裏にＯＣＲ処理を行うことが困難である場合がある。

従来、自動車保険証券等について、その記載情報を誤りなく確実に取得して顧客対応等に活用するために、携帯端末で保険証券を撮影してサーバへ送信し、サーバにおいてＯＣＲ処理を行い、所定の枠内で認識された文字数に基づいて撮影が正しく行われたかどうかを判断し、正しく撮影されていない場合は携帯端末にその旨を送信して撮影のやり直しを指示する保険証券情報取得システムが提案された（特開２０１５−４６０２７公報：特許文献１）。

また、タッチパネルディスプレイとカメラを備えたタブレット型計算機により対象文書を撮影し画像を取得する際に、撮影者に対し文字認識のために適切な撮影条件（どの位置を、どのような大きさになるように、どのような角度で撮影するか等）を教示して文字認識精度の向上を図るために、撮影対象の表のフォーマットに従って、カメラからの映像にガイド枠データ（撮影すべき枠や大分類項目などの文字）を重畳表示することで、画像のゆがみがないかを容易に判断できるようにする文字認識処理方法が提案された（特開２０１６−４３３５公報：特許文献２）。

特開２０１５−４６０２７公報特開２０１６−４３３５公報

従来のように、撮影された画像がＮＧであることをサーバから携帯端末へ返信すれば撮影のやり直しが可能であるが、どのように撮影すればＯＫなのか撮影の操作を行う担当者が知ることができないため、ＮＧの撮影が繰り返される恐れがあった。

適切な撮影を教示するように画面にガイドを表示させるためには、多種多様な表のそれぞれのガイドが必要になり、汎用性に乏しかった。また、タッチパネルディスプレイで表示画像を確認しながら表示された枠にあわせて端末装置を移動させ、撮影する表の位置や大きさ、傾きが撮影補助枠と重なったときにシャッターボタンを押すことは、ユーザにとって煩雑であった。さらに、必要な情報が実際に読み取りできたかどうか、ユーザが把握できないという問題があった。

上記に鑑みて本発明は、ユーザが携帯端末装置を文書にかざす容易な操作で、文書から情報を取得することができる方法を提供することを目的とする。携帯端末装置をかざすためのガイダンスを出力することにより、必要な情報を確実に取得できる方法を提供することを目的とする。また、情報取得結果を報知し、ユーザが取得状況を都度ないし早急に判別できる方法を提供することを目的する。そのような文書情報取得アプリケーションプログラム、及び該プログラムを備えた携帯端末装置を提供することを目的とする。

上記課題を解決するための本発明の一つの態様は、携帯端末装置の撮影手段を用いて文書から項目名とその値を含む情報を取得するための文書情報取得方法であって、文書にかざされた携帯端末装置の撮影手段により文書の少なくとも部分を含む文書画像が連続して撮影される間に、連続して撮影される文書画像から取得される第１の文書画像から少なくとも一つの項目名に対応する値を取得するための情報取得ステップであって、文書から取得すべき項目名一覧に基づいて一つの項目名が取得されたときに対応する値が取得される、情報取得ステップと、項目名一覧に含まれるすべての項目名にそれぞれ対応するすべての値のうち一つ以上の値が取得されないとき、所定のタイミングで、文書画像が文書の所定の部分を含むように誘導するためのガイダンスを出力するステップと、を含む。

このようにすることで、ユーザは、携帯端末装置を文書にかざすだけで、撮影ボタンを押下したり予め撮影のためのガイドを確認したりする必要がなく、自動的にその文書から取得すべき情報データを得ることができる。読取対象の文書の大きさによって、文書全体を撮影した文書画像（例えば、免許証等）、又は文書の一部分を撮影した文書画像（例えば、保険契約書等）の文字サイズのいずれかがＯＣＲ（光学文字認識）に適するため、文書画像は、ＯＣＲに適するように、文書全体又は文書のいずれかの部分を含むことが好ましい。また、情報が取得されないときは、情報が取得できるように誘導するガイダンスが出力されるので、ガイダンスに従って必要な情報データを確実に得ることができる。

上記において、第１の文書画像から少なくとも一つの値が取得されないときに、ガイダンスを出力するか否かが決定されることが好ましい。

また、第１の文書画像について情報取得ステップが行われる前に、連続して撮影される文書画像のうちの一つ以上の文書画像について情報取得ステップが行われ、且つ項目名に対応する値が一つ以上取得されなかったときに、ガイダンスが出力されることが好ましい。

このようにすることで、値が取得される間はガイダンスを出力することがなく、情報の取得の状況に応じて必要なガイダンスを出力することができる。

ガイダンスは、選択された一つの項目名に携帯端末装置をかざすように指示するものであってよい。また、ガイダンスは、音声によるガイダンスであってよい。

このようにすることで、ユーザは容易にガイダンスの内容を把握することができ、撮影すべき文書の部分を撮影することができる。例えば、ユーザは音声ガイダンスを聞きながら、撮影される画面にガイダンスに係る項目名が含まれるかどうか視認することができ、処理に必要な文書画像を取得するように携帯端末装置を正しくかざすことができる。

好適に、本発明に係る方法は、対応する値が取得されたときに、該取得及び／又は取得された値を報知するステップをさらに含む。情報の取得が都度報知されることで、ユーザは実際に情報が取得されたことや、取得された内容を知ることができ、情報の取得状況をリアルタイムで把握することができる。このことによって、かざす操作が適切かどうかが分かり、適切でない場合は修正することができる。

値は、項目名の位置に関して取得されることが好ましい。このようにすることで、文書によって情報の配置等が異なっても項目名毎に値を取得することができ、多種多様な文書に対応し得る。

本発明において、情報処理ステップは、第１の文書画像について光学文字認識を行うことを含み、好適に、該光学文字認識のために第１の文書画像の文字列の傾きを検出することがない。

このことに関し、概して、ユーザが携帯端末装置を文書にかざす間に撮影される画像（例えば、プレビュー画像）は、画像の法線ベクトル方向を中心軸にして文字列の方向が回転する、いわゆるスキュー（傾き）を含む。精度よく光学文字認識（ＯＣＲ）を行うために、文字をＯＣＲ方向に対して正立させるように、一般に、スキューの検出と、検出したスキューに応じた回転画像の生成が行われる。

本発明に係る発明者は、スキューの検出を行わないことで処理サイクル当たりの時間を短縮し、時間当たりの処理対象の画像の数を増大させることで、高速且つ高精度に情報を取得できることを見出した。すなわち、本発明において、ユーザに必要な操作は携帯端末装置を文書に対してかざすことだけなので、ユーザ操作により文書の文字列方向を携帯端末装置の画面の幅や高さ方向（ＯＣＲ読取方向）に合わせやすい。また、連続して撮影される画像について略連続して読取処理を行うことで、スキューを検出するまでもなく、ＯＣＲ処理に適した画像（スキューを含まないか、ＯＣＲ処理可能な範囲の微小なスキューを含む）が得られる。

なお、携帯端末装置により撮影される画像は、スキューだけでなく、文書の高さに対して携帯端末装置が傾くことにより、遠近方向（台形）の歪みを含む場合がある。このため、ＯＣＲ処理のためには、一般に、台形補正を行うことが好ましいとされる。しかしながら、本発明では、処理サイクル当たりの時間を短縮する目的のために、台形補正も行わなくてよい。遠近方向に歪んだ画像であっても、概して、画像の一部（例えば、画像の中央付近）は文字認識可能であり、情報の取得が可能だからである。

本発明に係る方法は、文書が所定の文書群から選択されるステップを含んでよい。概して、文書はその分類に従って取得すべき情報が決定されるので、所定の文書群の各文書について項目名一覧を予め設定することで、幅広い文書に対応することができる。

本発明のもう一つの態様は、上記の情報取得方法を携帯端末装置のコンピュータに実行させるプログラムである。

本発明のさらにもう一つの態様は、撮影手段を備え、文書から項目名とその値を含む情報を取得するように構成される携帯端末装置であって、文書から取得すべき項目名一覧を記憶する記憶手段と、文書にかざされた撮影手段により文書の少なくとも部分を含む文書画像が連続して撮影される間に、連続して撮影される文書画像から取得される第１の文書画像から少なくとも一つの項目名に対応する値を取得するための情報取得手段であって、項目名一覧に基づいて一つの項目名が取得されたときに対応する値を取得する、情報取得手段を備える。

携帯端末装置は、さらに、文書画像が文書の所定の部分を含むように誘導するガイダンスを出力するためのガイダンス手段を備えることが好ましい。

携帯端末装置は、さらに、値の取得毎に報知を行うための報知手段を備えることが好ましい。

本発明によれば、携帯端末装置を文書にかざすだけの容易なユーザ操作により、種々の文書から必要な情報データを取得することができる。取得された情報データは、種々の目的のために活用され得る。

必要な情報が取得されなければ、取得されない情報を個別に示すガイダンスが出力されるので、ユーザは携帯端末装置を適切にかざすことができ、文書画像から確実に情報を得ることができる。また、情報の取得状況が都度提示されるので、ユーザは処理の手応えを得ることができ、情報取得アプリケーションに係るユーザ満足度を向上させることができる。

図１は本発明の情報取得方法に係る処理対象である例示的な文書を示す。図２は本発明に係る情報取得方法を説明する図である。図３は本発明に係る一つの実施形態の携帯端末装置を示すブロック図である。図４は本発明に係る情報取得に伴う処理を概略的に説明する図である。図５Ａは本発明に係る文書情報取得方法の一つの実施例を表すフロー図である。図５Ｂは本発明に係る文書情報取得方法の他の実施例を表すフロー図である。

以下、図面を参照しながら、本発明のさまざまな特徴が、本発明の限定を意図するものではない好適な実施例とともに説明される。図面は説明の目的で単純化され、尺度も必ずしも一致しない。

初めに、図１に、本発明に係る情報取得の対象である、例示的な文書１が示される。図示の例において、文書１は、その大分類を「自動車保険証券」とするものである。文書は、例えば、生命保険証券、健康診断票、名刺、運転免許証等であってもよく、これらに限定されない。

紙文書の形態はさまざまであり、紙のサイズやデザイン、情報の配置の仕方や記載順等は統一されていない。しかしながら、大分類（自動車保険証券、健康診断票等）に従って、情報の内容は略統一されている。例えば、自動車保険証券であれば「保険期間」等の契約内容や「ノンフリート等級」等の割引・割増条件等が記載される。健康診断票であれば、「身長」、「体重」、「視力」、「聴力」等が記載される。

例示的な文書１において、破線で囲まれた部分に、情報の見出しである項目名２（例えば、保険期間、ノンフリート等級、氏名、住所、年齢、免許証の色、年齢条件、車名、車体番号、及び初度登録等）がそれぞれ記載される。また、一点鎖線で囲まれた部分に、項目名に対応する値３がそれぞれ記載される。本明細書において「値」とは、見出しである項目名に対応する具体的な情報内容を表す文字列や数値等を指す。例えば、項目名が「氏名」であれば、値は具体的な氏名を表す文字列であり、項目名が「視力」であれば、値は具体的な視力を表す小数であり得る。値は、文字列、整数、小数、日付（和暦及び西暦）、電話番号、郵便番号、金額、及び記号等の幅広いフォーマットを含む。また、本明細書において、情報４は、実線で囲まれた部分のように、項目名と該項目名に対応する値のセットを含む。従って本発明の処理の対象となる文書は、項目名とその値から成る情報を含む紙文書や印刷物全般を含み得る。

このような文書１に対して、図２のように、ユーザの手（図示せず）等によって保持される携帯端末装置１００がかざされる。本明細書において、「かざす」とは、一般的な意味と同じく、「物の上へおおうように差し出す」等を意味する。

文書１のサイズやユーザのかざし方、例えば、携帯端末装置１００と文書１との位置関係によって、撮影される画像（プレビュー画像）２００は、文書１のいずれかの部分を含む場合がある。ユーザは、携帯端末装置１００を文書１に対してかざすとき、白抜きの矢印で示される左右上下方向や、図面の法線に沿った高さ方向、又はそれらの組み合わせの方向へ、自由に移動させることができる。あるいは後述するように、ガイダンスに従って、画像２００が文書中の所定の部分を含むように、携帯端末装置１００をかざすことができる。

なお、図２において、携帯端末装置１００を文書１に対して十分に高く保持するとき、撮影される画像は文書全体を含み得る。しかしながら、携帯端末装置１００で撮影される画像の一般的な解像度（例えば、３００ｄｐｉ〜４００ｄｐｉ程度）で、文書１のサイズが比較的大きい場合（例えば、Ｂ５サイズ以上、Ａ４サイズ以上等）、画像２００が文書全体を含むと文字のサイズが小さくなり過ぎてＯＣＲ処理に適さない場合がある。文書画像２００に含まれる文字のサイズは、本発明に係る情報取得方法に適するように、２４×２４ドット以上であることが好ましい。

図３に、本発明に係る文書情報取得アプリケーションプログラムを備えた携帯端末装置１００の構成が概略的に示されている。携帯端末装置１００は、例えば、カメラを内蔵したスマートフォン、携帯情報端末（ＰＤＡ)、タブレットＰＣ等の小型コンピュータ装置であってよい。

携帯端末装置１００は、制御手段１０と、入力手段１１と、表示手段１２と、音声手段１３と、撮影手段１４と、通信手段１５と、記憶手段１６と、情報取得手段１７と、取得報知手段１８と、ガイダンス手段１９とを備える。各手段は電子機器、電子回路及び／又はプログラムから構成される。

制御手段１０は、ＣＰＵ（Central Processing Unit）を備え、携帯端末装置１００の全体動作を制御する。

入力手段１１及び表示手段１２は、公知のタッチパネル等を備える。入力手段１１として、タッチパネルに表示された画面上で本発明に係るアプリケーションプログラムの処理動作開始指令を行うことができる。例えば、画面上のアイコンをタップすることで、本発明に係る情報取得処理が開始される。表示手段１２は、所定の画面の解像度（例えば、３２０×４８０画素、６４０×９６０画素、１０８０×１９２０画素等）を有し、カメラで連続して撮影されるプレビュー画像等を表示することができる。

音声手段１３は、公知のスピーカ等を備え、効果音や音声を発することができる。

撮影手段１４は、携帯端末装置１００に搭載されるデジタルカメラから構成され、撮影対象物である文書を撮影してデジタル画像データに変換することができる。撮影手段１４は起動されると、概して、秒間１０〜３０フレームの撮影を連続して行い、プレビュー画像として表示させることができる。本発明においては、プレビュー画像から抜粋された画像に対して情報取得のための処理が行われる。

通信手段１５は、インターネット等通信ネットワークを介して遠隔サーバと送受信を行うように、無線通信の送受信回路から構成される。

記憶手段１６は、フラッシュメモリ、ハードディスク（ＨＤＤ）、ＲＡＭ及びＲＯＭ等のメモリから主として構成される。記憶手段１６は、本発明に係る情報取得アプリケーションプログラムを記憶する。記憶手段１６は種々のデータベースを記憶することができ、文書毎の情報テーブル１６１を記憶する。

情報テーブル１６１は、文書１に応じた項目名一覧を含む。また、好適に、項目名や値が横書きか、あるいは縦書きか、及び、項目名と値の位置関係（項目名及び値が横一行又は縦一列に位置する、及び／又は項目名の位置に対して値が上下左右のいずれかの行／列に位置する等）を定義する定義情報を含む。記憶手段１６は、文書の大分類（自動車保険証券、健康診断票等）毎に情報テーブルを記憶する。あるいは、文書の大分類よりも細かい分類（特定企業の自動車保険証券等）毎に情報テーブルを記憶してもよい。例示的な情報テーブル１６１が以下の表１に示される。

情報取得手段１７は、ＯＣＲ処理部１７１及び情報取得部１７２を含む。ＯＣＲ処理部１７１は、公知のＯＣＲ処理を行うものであってよく、例えば、取得（抜粋）される画像（ＢＭＰ、ＪＰＥＧ等）の明るさ、ハイライトを調整して白黒二値化し、レイアウト解析し、罫線を除去し、文字を切り出し、パターン辞書、フォント辞書等を用いて文字認識し、認識された各文字の外接矩形の座標を出力する。

ＯＣＲ処理部１７１において、文書画像の文字列のＯＣＲ読取り方向に対する傾きによっては、文字認識できない場合がある。ＯＣＲ処理部１７１は、概して、文字列の傾きが微小（例えば、±３度以内）であれば、これを許容範囲として、文字認識することができる。しかしながら、許容範囲の傾きを超えるとイメージ（イラスト等）と認識し、文字認識を行うことができない。このため従来は、ＯＣＲ処理に先立って、文書画像の文字列の傾き（スキュー）を検出し、検出された傾きに応じて回転画像を生成し、該生成された回転画像をについてＯＣＲ文字認識が行われた。

本発明に係る方法では、ユーザは画面の幅又は高さ方向（ＯＣＲ読取り方向）と文字列方向とを合わせるように意識して携帯端末装置を文書にかざすことができ、傾きが極端に大きく（例えば、４５度近く）なることは少ない。比較的多くの場合で、上記許容範囲内（例えば、±３度以下）となる。

また、本発明では、項目名毎に値を取得するので、文書画像が文書の全体を含む必要がない。一つの文書画像ですべての項目名やその値を取得する必要もない。一つ以上の項目名と値とのセットを含む複数の文書画像のそれぞれから、順次必要な項目名／値が取得されればよい。複数の文書画像を処理する場合、いずれかの文書画像の文字列の傾きが、ＯＣＲ処理の許容範囲の範囲内にあれば、成功裏に文字認識し得る。ユーザが手で携帯情報端末を保持して文書にかざすので、連続して撮影される画像は、画像毎に傾きが少しずつ変化しやすく、複数画像のうちのいずれかで文字がＯＣＲ読取可能に正立することも考えられる。

概して、ｉＯＳやＡｎｄｒｏｉｄのカメラ（撮像手段）では、プレビューのための画像が所定のフレームレートで撮影される。例えば、フレームレートが２０ｆｐｓであり、本発明に係る１サイクルの情報処理に要する時間が５０ミリ秒であれば、連続して撮影されるプレビュー画像のすべてが連続して処理され得る。実施例では、一つの文書画像に係る一つの処理サイクル、すなわち、値の取得のための処理や取得された場合の報知、値が取得されない場合のガイダンスのために要する時間は、２００〜３００ミリ秒である。例えば、フレームレートが２０ｆｐｓであり、一つの処理サイクル時間が平均２００ミリ秒である場合、プレビューの４枚のうち１枚の画像について、略連続して値の取得処理が行われることになる。このように、第１の文書画像についてＯＣＲ文字認識できない場合は、第２の画像、第３の画像・・・についてＯＣＲ文字認識を行い、文字認識されたときに、項目名と、それに対応する値を取得するため、本発明では、傾きの検出や回転画像の生成を行うことなく、文書画像当たりの処理時間を十分に低減させるようにしている。

文字が正立した画像のラスター解析では、例えば、２Ｍの画像で文字サイズが２４×２４ドットである場合、最大で（１０８０×１９２０）／（２４×２４）＝３６００文字を読取りし得る。いわゆる台形歪みを含む画像であっても、画像の中央付近等では、例えば、１９２０／２４＝８０文字、文字間スペースを考慮しても７０文字程度を読取りすることができ、容易に項目名や値を抽出し得る。

本発明に係る情報取得部１７２は、情報テーブル１６１の項目名一覧に基づいて、ＯＣＲ処理の結果認識された文字から項目名を抽出する。また、抽出された項目名に対応する値を抽出する。値の抽出は、項目名の抽出毎に行われる。

具体的に、図４（ａ）を参照して、画像の左上を原点とするラスター解析の結果、文書画像の部分２００ａから「免」、「許」、「証」、「の」、「色」、「青」の各文字と、各文字の外接矩形（破線で示す）の左下の座標が出力され得る。座標は外接矩形の左下に限定されず、四隅のいずれでも、矩形の中心であってもよい。情報取得部１７２は、定義情報に基づいて、各文字のＹ座標が等しいか、又は予め設定された差の範囲内（例えば、ｙ_ｎ＋１−ｙ_ｎ≦ｘ_ｎ＋１−ｘ_ｎ）にあるとき、各文字が横書きの同じ行に属すると判定し得る。横一行にあり、さらに、Ｘ座標を参照して、隣り合うまとまった文字列と判定される「免許証の色」が、項目名一覧に含まれる項目名として抽出される。さらに、情報テーブル１６１の定義情報に基づいて、当該項目名と横一行に位置する文字「青」を、項目名の値として取得することができる。

他の例として、図４（ｂ）を参照し、ラスター解析により、健康診断票の文書画像の部分２００ｂから、「右」、「０」、「．」、「６」、「視」、「力」、「左」、「０」、「．」、「５」の各文字と、各文字の外接矩形（破線で示す）の左下の座標が出力され得る。また、予め設定された、同一行と判定されるＹ座標の誤差範囲等に基づいて、「６」と「視」の間、及び「力」と「左」の間に改行コードが出力される。健康診断票の視力や血圧のように、左右や上下それぞれの複数の値が想定される項目名については、定義される値の位置情報は、横一行に限らず上及び／又は下の行を含み得る。図示の例では、健康診断票に対応する所定の情報テーブル（図示せず）に従って「視力」の項目名が抽出され、該項目名の位置に関して「上（前）の行」と「下（後）の行」にそれぞれ位置する、「右」及び「０．６」の小数、及び「左」及び「０．５」の小数が、項目名に対応する値として取得される。

取得報知手段１８は、効果音生成部１８１及び値描画部１８２を含み得る（図３）。

効果音生成部１８１は、聴覚的に認識可能に取得結果を生成する。項目名の値が取得され、情報テーブル１６１の値入力欄に入力される毎に、可聴音（「ポン」、「シャラン」、「ズキューン」等）を生成して音声手段１３を介して出力させることができる。ユーザが携帯端末装置を文書にかざして撮影する文書画像がＯＣＲに適しているとき、項目名とその値のセットが多く取得され、多くの効果音が出力され得る。効果音が情報の取得毎に生成されるので、ユーザは効果音の有無やその多少によりかざし方が適正かそうでないか把握することができ、適正でないときは、かざし方を直感的に変更・調整することができる。

取得される値（項目名）の数に制限はなく、従って値が認識されればその数だけ効果音が発せられる。例えば、１秒間に５個の値が入力されれば、効果音も５回発せられ、３０個の値が入力されれば効果音が３０回発せられ得る。携帯端末装置の和音再生スペックによっては効果音の数が認識された値の数と比較して一つ以上欠落することも考えられるが、実質的に、認識された値の数に等しく出力され得る。

値描画部１８２は、視覚的に認識可能に取得結果を生成する。項目名に対応する値が取得されると、その値を描画して、表示手段１２に表示させることができる。値は、処理対象の画像における位置（座標）に対応するように描画され、描画された値はプレビュー画像に重畳して表示され得る。このようにすることで、ユーザは、具体的にどの値が取得されたのか把握することができる。値の描画も効果音と同様に、情報テーブル１６１の値入力欄への値の入力毎に行われ得る。

取得報知手段１８は、効果音生成部１８１と値描画部１８２とを両方備えてよく、いずれか一方を備えてもよい。あるいは、追加的ないし代替的な取得結果生成部を備え、ＬＥＤ等の発光手段やバイブレータ等の可動手段により取得結果をユーザに報知してもよい。

ガイダンス手段１９は、情報テーブル１６１の値入力欄に未入力の値があるときに、当該値を取得するため、ユーザに携帯端末装置１００を適切にかざすように正しく誘導するためのガイダンスを生成する。ガイダンスは、例えば、文書画像が必要な項目名と値のセットを含まないと考えられるときに、値が未入力である項目名を発話する形態であり得る。

本発明によれば、短時間で複数の文書画像から項目名に対応する値が抽出されるので、文書画像が所定の項目名と値のセットを含む限り、成功裏の抽出が行われやすい。言い換えると、必要な情報（所定の項目名に対応する値）が複数の処理サイクル後も未だ取得されない場合、文書画像は所定の項目名と値のセットを含んでいないことが考えられる。このため、複数の処理サイクルが経過して必要な値が情報テーブルに入力されないとき、文書画像が所定の項目名と値のセットを含むように誘導するガイダンスが有効となる。

具体的に、ガイダンス手段１９は、「複数の処理サイクルが経過して必要な値が情報テーブルに入力されない」ことを判定するために、タイマー部１９１を備えてよい。タイマー部１９１は、一つの文書画像の処理の際に情報テーブルの値入力欄の入力（情報テーブルの更新）がないときに時間の計測を開始（続行）することができる。ガイダンス手段１９は、値の入力がないまま複数の処理サイクルの経過に対応する時間が経過したとき、ガイダンスを出力することができる。ガイダンス手段１９は、タイマー部１９１に代えて、または加えて、処理サイクル数をカウントするカウンター部（図示せず）を備えてもよい。

あるいは、ガイダンス手段１９は、複数の処理サイクルの経過を待つことなく、一つの処理サイクルで情報テーブルの更新が無い場合、直ちにガイダンスを出力するようにしてもよい。

ガイダンスは未入力の値に対応する項目名をユーザに知らせる音声ガイダンスとして、音声手段１３を介して出力され得る。ユーザはガイダンスに従って携帯端末装置１００を文書にかざすことができ、未入力の値とその項目名を含む文書画像が得られる。

図５Ａに、本発明のかざし読みによる一つの実施例の情報取得のためのフロー図が示される。本発明に係る情報取得アプリケーションプログラムが開始されると（ＳＴＡＲＴ）、カメラ（撮影手段１４）が起動され、ユーザが携帯端末装置１００を文書１にかざす間、文書の少なくとも部分を含むプレビュー画像が、例えば、秒間およそ２０フレーム連続して撮影される（Ｓ３０１）。連続して撮影される画像から、情報取得処理を行うために、一つの処理サイクルのための画像が取得（抜粋）され（Ｓ３０２）、ＯＣＲ文字読取と項目名に対応する値の取得処理が行われる（Ｓ３０３ａ）。項目名と値のセットが少なくとも一つ取得されなければ、再び画像が取得され、情報取得処理が繰り返される（Ｓ３０２〜Ｓ３０３ａ）。項目名に対応する値が一つ以上取得されると、情報テーブルの値入力欄に入力される（Ｓ３０３ｂ）。情報テーブルが更新されすべての値が入力されれば処理は終了し（ＥＮＤ）、そうでない場合は再び画像が取得され（Ｓ３０２）、後続の処理が繰り返される。

例えば、ユーザが文書から取得すべき情報や、ＯＣＲ処理に適した画像を撮影するための携帯端末装置のかざし方を熟知しているならば、図５Ａのフローに従って、文書から必要な情報データを容易に取得することができ、この場合、ガイダンスや報知は行われなくてもよい。

しかしながら、多くのユーザは文書から取得すべき情報を知らず、ＯＣＲに適した画像を撮影するための携帯端末装置のかざし方を熟知していることもない。大半のユーザにとって、情報取得のためのアプリケーションプログラムを実行する際、なかなか処理が完了せず、どの程度処理が進んだのか知ることができず、どのようにすれば処理が完了するのかも分からなければ、そのようなアプリケーションは使い勝手が悪く、有用でないと感じられる。

図５Ｂに、本発明に係るガイダンスを含む実施例の情報取得フローが図示される。図中、図５Ａと同一のステップには同一の番号が付される。なお、図５ＡにおけるＳ３０３ａ〜Ｓ３０３ｂの処理は、図５Ｂにおいて、Ｓ３０３としてまとめて示される。

図５Ｂにおいて、取得された文書画像から情報、すなわち項目名一覧に含まれるいずれかの項目名に対応する値が一つ以上取得された場合、情報テーブルが更新される（Ｓ３０３）。文書画像の文字列の傾きがＯＣＲ処理の許容範囲を超えている、又は所定の項目名と値のセットを含まない等により、少なくとも一つの値が取得されなければ、情報テーブルは更新されず、タイマーが所定時間（例えば、３秒）を計測するために開始される（Ｓ３０４）。その後所定時間内に一つ以上の処理サイクルが行われ、引き続き情報テーブルの更新がないとき、ガイダンスが出力される（Ｓ３０６）。

情報テーブルが更新された場合、タイマーはリセットされる（あるいは、タイマーは開始されない）（Ｓ３０５）。このようにすることで、入力済みの値の項目名を誤ってガイダンスすることもなく、適切にガイダンスを出力することができる。情報テーブルが更新された場合、取得された値について報知が行われる（Ｓ３０７）。情報テーブルを参照して、すべての値が入力されれば処理は終了し（ＥＮＤ）、情報テーブルに一つ以上未入力の値が存在する場合は、再び画像が取得され、値の取得の有無に応じた後続の処理が繰り返される。

情報を取得したことの報知（Ｓ３０７）は、上記のように、効果音生成部１８１及び／又は値描画部１８２により、聴覚的及び／又は視覚的に行われ得る。効果音生成部１８１により効果音が出力される場合、情報テーブルに入力された値の数に等しい数だけの効果音が出力されてよい。このようにすることで、値の取得の有無ないし多少をユーザに正確に知らせることができる。あるいは、生成される効果音の数は、入力される値の数より多くても少なくてもよい。

値描画部１８２による値の描画も値の入力毎に行われてよく、入力された値の全てが表示されてよく、一部が表示されてもよい。値の表示と効果音の出力がいずれも行われる場合、値の表示と効果音の再生は同期されてよい。

本発明によれば、典型的な文書（自動車保険証券や健康診断票）について、短時間（例えば、数秒ないし数十秒以内）に情報テーブルのすべての項目名の値が取得され得る。

本発明に従って、ガイダンスにより値が未入力の項目名がユーザに提示されるとき、情報テーブルから選択された一つの項目名が提示される。例えば、値が未入力の項目名が複数存在する場合、その中からガイダンスする項目名が一つ選択される。項目名の選択順は任意であってよく、例えば、情報テーブルの項目名一覧の上から順、又は下から順等であってよい。未入力の値の項目名毎に順に提示することで、ユーザはその項目名を含む文書画像を集中的に撮影することができ、確実に情報を取得し得る。

ガイダンスは好適に音声ガイダンスであり、例えば、項目名「氏名」に対応する値が未入力である場合、ガイダンス手段１９は「氏名を（に）かざして下さい」等の発話を生成して音声手段１９に出力させる。ガイダンスは発話に限定されず、表示手段１２を介して、「氏名を（に）かざして下さい」等の文字を表示させるものであってもよい。その他、ユーザに対し値が未入力の具体的な項目名を知らせるための任意のガイダンスが生成され得る。

所定の時間間隔は、ガイダンスを出力するタイミングとして適切であるように決定され、好適に、複数の処理サイクルに要する時間に対応する。一つの処理サイクルが１秒未満で行われる場合、所定の時間間隔は、例えば、１秒であってよい。時間間隔は、限定ではなく例示的に、２秒、３秒、４秒、又は５秒等であってよく、それ以上であってもよい。ガイダンスが適切なタイミングで出力される限り、任意の時間間隔が設定可能である。

ガイダンスは、項目名一覧のすべての項目名の値が取得されるまで、必要に応じて出力される。

項目名一覧のすべての項目名について値が取得され、本発明に係る情報取得処理が完了したとき（ＥＮＤ）、完了をユーザに報知するための表示、効果音、発話等が出力されてよい。

本発明によれば、文書の分類に応じて予め定められた項目名の値を容易にすべて取得して、迅速に処理を終了させることができる。取得された値は、文字認識の誤りを含むことも考えられるが、ひとまず迅速に処理を完了することは有効である。文書からデータを取得する処理のための時間は短縮されることが好ましく、データの活用の仕方等によっては、多少の誤りは問題にならないことも多いからである。情報テーブル一覧に入力された値は、記憶手段１６に格納され管理される。入力された値が誤りを含む場合、必要に応じて、手入力で修正されてよく、本発明に係るかざし読みを項目名を指定して再度実行することにより修正されてもよい。

本発明に係る情報取得方法及びアプリケーションプログラムによれば、ユーザは携帯端末装置を文書にかざすだけで、撮影ボタンを押したり表示される撮影ガイドを注視したりする必要なく、文書のテキストデータを容易且つ確実に取得することができる。本発明によれば、取得された画像毎に文字認識を行い、認識された文字から、情報テーブルに基づいて項目名を取得し、項目名の取得毎に値を取得するので、文書によって情報の記載の位置や記載の順序等が異なっても情報データを取得することができ、汎用性に優れる。

本発明によれば、情報の取得状況に応じて携帯端末装置をかざすためのガイダンスが出力され、また、取得された情報が都度報知され得るので、ユーザは直感的な操作でデータを取得することができ、アプリケーションプラグラムに対するユーザ満足度を向上させ得る。

本発明に係る情報取得アプリケーションプログラムは、携帯端末装置にダウンロードされ、インストールされることが好ましい。本発明は、上記のようにカメラのプレビュー画像を連続して処理するものであるため、遠隔サーバとの通信を要することは処理速度や精度の低下等の恐れがあり好ましくない。

代替的に本発明は、Ｗｅｂアプリケーションの形態であってもよい。その場合、携帯端末装置で撮影した画像をネットワークを介してサーバへ送信し、サーバ側で本発明に係る情報取得処理を行い、ガイダンスや取得結果を携帯端末装置へ返してもよい。

特定の目的にデータを活用するために、携帯端末装置側で取得された情報データを、通信手段１５を介して遠隔サーバへ送信してもよい。そのようなサーバは、データベースシステムを構成し、取得された情報データを、各種のシミュレーション等を行うための入力に用いるものであってもよい。本発明により取得された情報データは、自動車保険や生命保険の見直し、見積りの作成等に活用することができる。

本発明の思想及び態様から離れることなく多くのさまざまな修正が可能であることは当業者の知るところである。したがって、言うまでもなく、本発明の態様は例示に過ぎず、本発明の範囲を限定するものではない。

１文書
２項目名
３値
４情報
１０制御手段
１１入力手段
１２表示手段
１３音声手段
１４撮影手段
１５通信手段
１６記憶手段
１７情報取得手段
１８取得報知手段
１９ガイダンス手段
１００携帯端末装置
２００文書画像

Claims

携帯端末装置の撮影手段を用いて文書から項目名と該項目名に対応する値のセットから成る情報を取得するための文書情報取得方法であって、
前記文書にかざされた前記携帯端末装置の前記撮影手段により前記文書の少なくとも部分を含む文書画像が連続して撮影される間に、前記連続して撮影される文書画像から取得される第１の文書画像について文字認識を行い、予め記憶された情報テーブルの項目名一覧に基づいて一つの項目名が取得される毎に該一つの項目名に対応する値を取得し前記情報テーブルの値入力欄に入力するための情報取得ステップと、
前記値入力欄に未入力の値があり、且つ１サイクル以上の前記情報取得ステップが経過して前記値入力欄への入力がないとき、所定のタイミングで、前記文書画像が前記情報を含むように誘導するためのガイダンスを出力するステップと、を含む文書情報取得方法。
前記第１の文書画像から少なくとも一つの値が取得されないときに、前記ガイダンスを出力するか否かが決定される、請求項１に記載された文書情報取得方法。
前記第１の文書画像について前記情報取得ステップが行われる前に、前記連続して撮影される文書画像のうちの一つ以上の文書画像について前記情報取得ステップが行われ、且つ項目名に対応する値が一つ以上取得されなかったときに、前記ガイダンスが出力される、請求項１に記載された文書情報取得方法。
前記ガイダンスが、選択された一つの項目名に前記携帯端末装置をかざすように指示することを特徴とする請求項１に記載された文書情報取得方法。
前記ガイダンスが、音声によるガイダンスであることを特徴とする請求項１に記載された文書情報取得方法。
前記対応する値が取得されたときに、該取得及び／又は取得された値を報知するステップをさらに含む、請求項１に記載された文書情報取得方法。
前記値が、前記項目名の位置に関して取得されることを特徴とする請求項１に記載された文書情報取得方法。
前記情報取得ステップが、前記第１の文書画像について光学文字認識を行うことを含み、該光学文字認識のために前記第１の文書画像の文字列の傾きを検出することがない、請求項１に記載された文書情報取得方法。
さらに、前記文書が所定の文書群から選択されるステップを含むことを特徴とする請求項１に記載された文書情報取得方法。
請求項１ないし９のいずれかに記載の情報取得方法を前記携帯端末装置のコンピュータに実行させるプログラム。
撮影手段を備え、文書から項目名と該項目名に対応する値のセットから成る情報を取得するように構成される携帯端末装置であって、
前記文書から取得すべき項目名一覧とそれぞれの項目名に対応する値を入力するための値入力欄とを含む情報テーブルを記憶する記憶手段と、
前記文書にかざされた前記撮影手段により前記文書の少なくとも部分を含む文書画像が連続して撮影される間に、前記連続して撮影される文書画像から取得される第１の文書画像について文字認識を行い、前記項目名一覧に基づいて一つの項目名が取得される毎に該一つの項目名に対応する値を取得し前記値入力欄に入力するための情報取得ステップを実行する情報取得手段と、
前記値入力欄に未入力の値があり、且つ１サイクル以上の前記情報取得ステップが経過して前記値入力欄への入力がないとき、所定のタイミングで、前記文書画像が前記情報を含むように誘導するためのガイダンスを出力するガイダンス手段と、を備えた携帯端末装置。
さらに、前記値の取得毎に報知を行うための報知手段と、を備えた請求項１１に記載された携帯端末装置。