JP4995554B2

JP4995554B2 - 光学式文字認識補正のための知識ベースを利用した個人情報の検索方法

Info

Publication number: JP4995554B2
Application number: JP2006329176A
Authority: JP
Inventors: ブレッサンマルコ; デジャンエルベ; アールダンスクリストファー
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 2005-12-12
Filing date: 2006-12-06
Publication date: 2012-08-08
Anticipated expiration: 2026-12-06
Also published as: US20070133874A1; JP2007164785A; EP1796019A1; US7826665B2

Description

本発明は、情報技術に関する。特に、携帯電話の内蔵カメラを用いて撮影した名刺から、テキストの個人情報を摘出する方法および装置に関する。本発明は、全般的には、デジタルカメラ、ハンディスキャナなどの携帯撮像機によって取得した画像からテキストの個人情報を摘出すること、および携帯撮像機をテキスト抽出技術などと組み合わせて使用して、個人情報を取得することに関する。

デジタルカメラ内蔵型携帯電話は、ビジネスマンや専門家により一般的に持ち運ばれている機器である。用途は広いが、携帯電話のデジタルカメラ部分に適用される使用法の１つとして、名刺を素早く取り込むことが挙げられる。初対面の人、または転職や昇格などによって個人情報が変更された人に会ったときに、携帯電話の内蔵カメラを使用してその人の名刺を撮影し、名刺のデジタル画像を作成できれば、ビジネスマンや専門家にとって便利である。実質的に、デジタルカメラ内蔵型携帯電話を、携帯インスタント・ドキュメント・スキャナとして使用することになる。

しかしながら、写真は画像形式なので、テキスト形式の個人用連絡先リストや他のテキスト形式のデータベースへの入力に、文字の内容をそのまま使用することはできない。

光学式文字認識（ＯＣＲ）ソフトウェアは、画像から文字情報を抽出する。したがって携帯電話の内蔵デジタルカメラで撮った名刺から、ＯＣＲを使用して文字情報を抽出すると、望ましい組み合わせになる。一旦テキストを抽出すれば、テキストの各行をデータの種別に応じて適宜タグ付けし（テキスト行を個人名、肩書き、所属団体などでタグ付けする）、必要であれば、連絡先データベースに取り込むことができる。

しかしながら実際には、デジタルカメラにより撮影した名刺画像に、ＯＣＲを効果的に適用するのは難しいことが分かっている。

１つの問題として、携帯電話における内蔵デジタルカメラの解像度が一般的に低いことが挙げられる。現存の携帯電話に内蔵されたカメラの解像度は、一般的なディスプレイモニタの荒い画素密度に対応した、いわゆるＶＧＡ解像度である場合がある。現存する携帯電話によっては、約１〜２メガピクセル以上のより高い解像度を持つものもある。画素当たりのコストが下がれば、内蔵カメラの解像度は、上がるだろうと予想されている。しかしながら、解像度が改善されても、低品質の光学系により画質は限られてしまうであろう。物理的な光学系の製造コストは電子機器と比べて高いので、製造者は限られた品質の光学系を利用しがちである。レンズの品質は、解像度と比べ実質的に改良が遅く、このような一般的な携帯電話カメラの状況は、近い将来において実質的に改善されそうにない。さらに、携帯電話は、よりコンパクトに、より薄くなる傾向にあり、光学系の小型化が要求されるので、光学的品質を高く製造することは難しくなる。低品質のレンズにおいて一般的な悪影響には、画像ノイズ、収差、アーティファクト、およびぼけが含まれる。ＯＣＲは、これらの条件下では誤りがより多くなり、不確実性がより増大する。

さらに、名刺の撮像中は、携帯電話は手で保持され、小さな名刺に焦点を合わせることになる。したがって、撮影中にカメラが不安定になり、ぼけ、アーティファクト、または他の画像劣化が生じる。撮像は、光の変化、強い影、非熟練者による使用、対象物までの距離の変化、三次元における視角の変化など、管理されない条件の下で一般的に行われる。取得された文書画像の向きには、多くの場合、縮尺、ゆがみ、および／または回転要素が実質的に含まれ、また、照度の実質的な変化が含まれる可能性がある。まとめると、カメラの物理的特性、理想的ではない撮像環境、および一般的に限られた操作者の撮影技術が重なって、一般的に携帯電話の内蔵デジタルカメラでは、比較的に実質上不備のある品質の名刺画像が取得されるので、ＯＣＲにおいて実質的な誤りや不確実性につながりやすい。

名刺のテキスト内容も、ＯＣＲを正確にする助けになるものではない。一般的なＯＣＲ処理では、対象物を認識し、文字、数字、句読点、または他の活字としてパターン照合により識別するが、文字の表現が最適ではなかったり、テキストフォントが違ったりするなどの理由により、不確実性が残ることになる。このような問題点を克服するため、ＯＣＲ処理では、不確実な言葉やフレーズを電子辞書または文法チェッカと比較し、不確実性を解決する。このような手法は、名刺のテキスト内容に対してＯＣＲ変換を適用する場合は、わりと効果が薄い。なぜなら、その内容（個人名、肩書き、団体、住所など）は、一般的に電子辞書にはなく、また通常の文法規則に従わないからである。したがって、このようなテキスト内容の性質により、ＯＣＲにおいて解決できない誤りや不確実性を生じやすい。

本発明の一態様では、連絡先データベースを更新するシステムが提供される。携帯撮像機は、名刺電子画像を取得するように構成されている。画像セグメント化部は、その名刺デジタル画像からテキスト画像セグメントを抽出するように構成されている。光学式文字認識装置（ＯＣＲ）は、各テキスト画像セグメントに対して、１つまたは複数のテキスト内容候補を生成するように構成されている。スコアリングプロセッサは、各テキスト内容候補に対するデータベースへの問い合わせの結果に基づいて、テキスト内容候補をスコアリングするように構成されている。内容セレクタは、少なくとも割り当てられたスコアに基づいて、各テキスト画像セグメントに対するテキスト内容候補を選択する。インタフェースは、選択されたテキスト内容候補に基づいて、連絡先データベースを更新するように構成されている。

本発明の他の態様では、個人情報を取得する方法が提供される。名刺画像を取得し、この名刺画像からテキスト画像セグメントを抽出する。光学式文字認識（ＯＣＲ）をテキスト画像セグメントに適用して、複数のテキスト内容候補を生成する。テキスト内容候補ごとに、少なくとも１つのデータベースへの問い合わせを実行する。少なくともこの問い合わせに対して返されたレコードに基づいて、最も可能性の高い１つのテキスト内容候補を選択する。

本発明のさらに他の態様では、光学式文字認識（ＯＣＲ）によって抽出した名刺画像のテキスト画像セグメントに対するテキスト内容候補から、テキスト内容レコードを生成するシステムが提供される。データベースへの問い合わせでは、テキスト内容候補ごとに少なくとも１つのデータベースに問い合わせを実行し、問い合わせごとに返されたレコードを収集する。内容候補スコアリングプロセッサは、収集したレコードに基づいて、テキスト内容候補にスコアを割り当てる。内容セレクタは、少なくとも割り当てられたスコアに基づいて、各テキスト画像セグメントに対するテキスト内容候補を選択する。

図１において、ビジネスマンや専門家、または他の個人が名刺１０を受け取り、連絡先データベースや連絡先リストなどに追加したいと望む。そこで、携帯撮像機１２を使用して名刺１０の画像を取得する。携帯撮像機１２として、例えば、デジタルカメラ内蔵型携帯電話、携帯デジタルカメラ、ハンディ・ドキュメント・スキャナなどが挙げられる。携帯電話は、ビジネスマンおよび専門家が会議や他の集まりの場に持ち込む一般的な携帯機器であるので、携帯撮像機１２として携帯電話の内蔵カメラを使用すると都合がよい。携帯電話の内蔵カメラまたはオートフォーカス型デジタルカメラを使用すると、シャッタボタンを押せば名刺画像を取得することができる。ただし、携帯スキャナや他のスキャンベースの携帯撮像機を用いて画像を取得することも可能である。

図示した実施形態において、名刺１０は、約５．１ × 約８．９センチメートル（２ × ３．５インチ）または他の同様のサイズの名刺であって、ビジネスマンや専門家が一般的に携帯する物理的なカードである。しかしながら、携帯撮像機によりデジタル画像化し、かつテキストの個人情報を抽出して連絡先データベースに取り入れるのに都合がよい、他の印刷された略式の個人情報も、「名刺」という用語には含まれる。例えば、ここでの「名刺」という用語は、ＯＨＰによるプレゼンテーションにおける、タイトルスライドのハードコピー上にある発表者に関する情報や、科学論文や技術論文のプレプリントなどの最初のページ上にある著者情報などを含む。名刺の個人情報の内容には、個人名、肩書き、所属先（会社名、大学名、事務所名など）、デザインされた所属先ロゴ（企業ロゴ、大学ロゴ、事務所ロゴなど）、勤務先住所情報、勤務先電話番号、勤務先ＦＡＸ番号、メールアドレスなどが一般的に含まれる。もらった名刺には、これらの内のいくつかの項目のみ、またはすべての項目が含まれる場合もあれば、付加的な情報、または他の情報が含まれる場合もある。

必要であれば、画像プレプロセッサ１４により、取得した名刺画像に対して画像事前処理を指定して行う。このような事前処理には、例えば、画像の四角化、画像のサイズ変更、ぶれ補正、影補正、反射補正、または他の補正、名刺画像のモノクロ化、画像圧縮などが含まれる。実施形態によっては、携帯電話または他の携帯撮像機１２上に設けられ、かつ実行されるモバイル・ドキュメント・イメージング・ソフトウェア（フランス、グルノーブルに所在するゼロックス社の欧州研究センタ（Xerox Research Centre Europe）より入手可能）に、画像プレプロセッサ１４を組み込む。他の実施形態では、画像プレプロセッサを、携帯撮像機１２上に設けられ、かつ実行される、他のプレプロセッサソフトウェアとすることも可能である。別の実施形態では、画像プレプロセッサ１４を、ネットワークサーバ上、パソコン上、または他のコンピュータ上で実行することもできる。その場合、画像プレプロセッサ１４は、有線または無線（ブルートゥース接続や携帯電話網接続など）の適切な通信経路を介して、携帯電話または他の携帯撮像機１２から、名刺画像を受け取るものである。

引き続き図１を参照すると共に図２においても、取得した、そして任意により事前処理した名刺画像は、画像セグメント化部１６によりセグメント化され、テキスト画像セグメント２０および任意のロゴ画像セグメント２２が抽出される。各テキスト画像セグメント２０は、名刺画像のテキスト１行中のドットマトリクス表示に適宜対応する。図２の名刺の例では、次の５つのテキスト画像セグメントを含むことになろう。つまり、「ジョンＨ．スミス（John H. Smith）」、「プロセスエンジニア」、「ＡＢＣウィジェット社」、「１２３４５メインストリート」、「ニューヨーク、ＮＹ１１１１１」である。テキスト画像セグメントは、カーニングなどのフォントの特徴を保持する。なぜなら、テキスト画像セグメントは、文字ベースではないからである。この例では、テキスト画像セグメントは、テキストの物理的な各行に対応する。ただし、名刺のレイアウトや画像セグメント化部１６に実装されたセグメント化アルゴリズムによっては、テキスト画像セグメントを実施形態により物理的なテキスト行以外のグループに対応させることもできる。

同様に、画像セグメント化部１６は、任意でロゴ画像セグメント２２も抽出することができる。図２の名刺の例では、ロゴ画像セグメント２２は、名刺の左側にある１つのロゴを含むであろう。そのロゴは、ＡＢＣウィジェット社の仕掛け（widget）製品を暗示するように、左側の「Ｗ」にＡが入って記されており、社名である「ＡＢＣ」を示している。

光学式文字認識装置（ＯＣＲ）２６は、各テキスト画像セグメント２０を処理して、文字ベースのテキスト内容候補３０を生成する。ＯＣＲ作業は、パターン認識アルゴリズム、または予期した文字の形状と比較することにより文字を認識するアルゴリズムに基づく。ＯＣＲ処理の出力には、さまざまな要因により、誤りまたは不確実性が生じることが見込まれる。例えば、印刷されている文字と予期されているパターンが理想的な合致にならない、画像品質が最適ではない（画像プレプロセッサ１４による改善にもかかわらず）、名前や住所などが通常のテキスト内容に不足している、実質的に装飾的な、または他のデザイン的な特徴により比較するのが難しいフォントである、などが挙げられる。したがって、ＯＣＲ２６は、各テキスト画像セグメントに対して、１つ、または複数（不確実性があった場合）の文字ベースのテキスト内容候補を出力する。例えば、「ジョンＨ．スミス」というテキスト画像セグメントをＯＣＲ処理すると、「ジョンＮ．スミス（John N. Smith）」、「ヨンＨ．スニス（Yohn H. Srnith）」、「ジョンＨ．スミス（John H. Smith）」など、数個の違ったテキスト内容候補を提示する可能性がある。

不確実性を解決するために、ＯＣＲ２６は、追加の情報、またはスペルチェック、文法チェックなどの変換後処理を任意で利用する。しかしながら、名刺には通常、個人名や住所などの一般的に辞書に記載されていない内容が含まれ、かつ名刺の内容は文法的に正しい形式で配置されていないので、辞書や文法チェックを用いて不確実性を解決しようとしても、本願では有効的ではない可能性が高い。

他の実施形態では、パターン合致度、および任意により、テキスト内容候補全体（またはテキスト内容候補内の単語）が辞書の用語に合致するかどうかなどの他の情報に基づいて、ＯＣＲ２６は各テキスト内容候補に信頼レベルを割り当てる。ここでも、一般的な名刺における非標準的な内容、フォント、およびテキストレイアウトにより、ＯＣＲ２６がテキスト内容候補に割り当てる信頼レベルは、他の一般的なＯＣＲアプリケーションよりも疑わしいものになるであろう。

必要であれば、セグメントタッガー３２により、テキスト画像セグメント２０にタグ付けをして、各テキスト画像セグメントが伝えている内容の種別を示すようにする。例えば、名刺のタグとして適するものには、「個人名」、「肩書き」、「団体」（会社や大学など、所属先にふさわしいタグ）、「住所」などが含まれる。セグメントタッガー３２は、テキスト画像２０にタグ付けする際にさまざまな情報を使用することができる。例えば、最初の行、および／またはフォントサイズが一番大きな行は、多くの場合個人の名前であり、その個人の情報が名刺により伝えられている。したがって、テキスト画像セグメント「ジョンＨ．スミス」の位置と大きなフォントサイズにより、タッガー３２はこのテキスト画像セグメントを個人名としてタグ付けすることができるであろう。相対的なフォントサイズは、テキスト画像セグメント２０から適宜引き出すことができる。住所情報は、多くの場合数字から始まる。したがって、テキスト画像セグメント「１２３４５メインストリート」は、タッガー３２によって住所の最初の行としてタグ付けされるであろう。テキストが数字から始まっているという認識は、文字ベースのテキスト内容候補３０から適宜引き出される。タッガー３２は、一般的にテキスト画像セグメント２０、テキスト内容候補３０、またはその両方に作動する。ＯＣＲ処理と同様に、セグメントタッガー３２が任意に割り当てるタグは、通常不確実性をある程度含んでいることは理解されるであろう。

ＯＣＲおよびタグ付けの不確実性と限られた精度を考慮すると、テキスト内容候補３０および割り当てられたタグには、通常ある程度の不確実性がある。１つのテキスト画像セグメントに対応する複数のテキスト内容候補から選択するために（例えば、テキスト画像セグメント「ジョンＨ．スミス」に対して「ジョンＮ．スミス」、「ヨンＨ．スニス」、「ジョンＨ．スミス」などから選択する）、テキスト内容候補スコアリングプロセッサ３６は、各テキスト内容候補にスコアを割り当てる。各テキスト内容候補に割り当てられるスコアは、テキスト内容候補の正確度を示す重み、確率、または他の指標を反映する。連絡先レコード内容セレクタ３８は、連絡先レコードに入れる各テキスト画像セグメント用のテキスト内容候補を、少なくとも割り当てられたスコアに基づいて選択する。テキスト内容候補スコアリングプロセッサ３６は、各テキスト内容候補にスコアを割り当てるが、そのスコアは、各テキスト内容候補ごとに実行された少なくとも１つのデータベースに対する問い合わせにより収集されたレコードに基づく。

図１に、テキスト内容候補スコアリングプロセッサ３６が問い合わせを実行するのに適している、いくつかのデータベースの概略を示す。例えば、インターネット住所録または名簿４０、あるいは企業名簿４２であり、これらは両方ともネットワーク経路４４を介してアクセス可能である。または、個人用連絡先リスト４６であり、このリストは携帯撮像機１２（例えば、携帯電話の連絡先リスト）またはビジネスマンや専門家のパソコンに備わっている場合もある。後者には、名刺１０が特定する個人を、その個人情報を取得した人はすでに知っているが、名刺１０には更新された所属先情報（例えば、名刺１０が特定する個人が最近転職した場合）、または役職（例えば、名刺１０が特定する個人が最近昇格した場合）などが含まれている場合がある。

データベースの問い合わせにより、テキスト内容候補が妥当であるかどうかの情報が提供される。例に挙げたテキスト画像セグメント「ジョンＨ．スミス」では、各テキスト内容候補「ジョンＮ．スミス」、「ヨンＨ．スニス」、「ジョンＨ．スミス」に対して問い合わせが実行され、「ヨンＨ．スニス」は容易に除外されるものである。なぜなら、ヒットがほとんどまたはまったくないであろうからである。さらに、収集されたレコードは、タグ情報を更新するために役立つであろう。例えば、収集されたレコードに個人名としてタグ付けされた「ジョンＨ．スミス」が含まれていた場合、これによりテキスト画像セグメント「ジョンＨ．スミス」が個人名としてタグ付けされる傾向が高まる。実施形態によっては、任意に抽出されたロゴ画像セグメント２２についても、ロゴデータベース４８に対して問い合わせを実行する。そのロゴの問い合わせにより、ロゴに関するメタデータが返されるであろう。図２の名刺の例では、名刺の左にあるロゴに関するロゴの問い合わせにより、ロゴとＡＢＣウィジェット社とを関連付ける団体識別メタデータが返される可能性がある。このことにより、テキスト画像セグメント「ＡＢＣウィジェット社」に対して可能性のある複数のテキスト内容候補から「ＡＢＣウィジェット社」を選択できるようになる。

連絡先レコード内容セレクタ３８は、連絡先レコードに入れるために、各テキスト画像セグメントに対して、最も可能性の高いテキスト内容候補を１つ選択する。連絡先レコードは、連絡先データベース、例えば企業名簿４２、個人用連絡先リスト４６、またはそれら両方の連絡先データベース４２、４６などに適宜保存される。必要であれば、ユーザインタフェース５０を設けて、１つまたは複数の連絡先データベース４２、４６に保存する前に、名刺１０により情報が伝えられている個人用に構築された連絡先レコードを、ユーザが確認し、任意で編集できるようにする。

前述したとおり、画像プレプロセッサ１４を、携帯撮像機１２（例えば、内蔵カメラ付き携帯電話のソフトウェアアプリケーションとして）に常駐させる場合もあるし、またはネットワークサーバやパソコンなどに常駐させる場合もある。同様に、画像セグメント化部１６、ＯＣＲプロセッサ２６、セグメントタッガー３２、スコアリングプロセッサ３６、連絡先レコード内容セレクタ３８、およびユーザインタフェース５０もさまざまな場所に設けることが可能である。実施形態によっては、処理要素１４、１６、２６、３２、３６、３８、５０のすべてを携帯撮像機１２に常駐させることも可能である。このような実施形態では、ネットワーク経路４４は、無線携帯電話接続、インターネットホットスポットへの無線接続、または他の無線部分を適宜含むものである。他の実施形態では、処理要素１４、１６、２６、３２、３６、３８、５０のいくつか、またはすべてをネットワークサーバやパソコンなどに常駐させる。処理段階の適切な時点で、データを携帯撮像機１２からネットワークサーバやパソコンなどに転送する。このような実施形態では、ネットワーク経路４４は、処理を実行するネットワークサーバやパソコンなどに適した有線または無線要素を含むであろう。後者の実施形態の１つの例として、画像プレプロセッサ１４および画像セグメント化部１６を、携帯撮像機１２に携帯電話ベースのソフトウェアとして常駐させ、携帯電話ベースの画像セグメント化部１６により出力されたテキスト画像セグメント２０および任意のロゴ画像セグメント２２を、企業ネットワーク（ネットワークサーバなど）に転送し、ＯＣＲおよびその後の処理を実行する。ネットワーク上に連絡先レコードを生成すれば、そのレコードを企業名簿４２に保存することもできるし、および／または携帯撮像機１２に返して、携帯撮像機に携帯電話連絡先リストとして常駐する個人用連絡先リスト４６に保存することもできる。

引き続き図１を参照すると共に図３においても、テキスト内容候補スコアリングプロセッサ３６の実施形態を、例として図示して説明する。データベースの問い合わせ６０は、各テキスト内容候補２０について、１つまたは複数のデータベース４０、４２、４６に対して問い合わせを実行し、問い合わせごとに返されるレコードを収集する。ローカルスコアリングプロセッサ６２は、テキスト内容候補ごとの問い合わせにより返されたレコードに基づいて、各内容候補のスコアを計算する。１つのデータベースのみに対して問い合わせが実行される場合は、テキスト内容候補に対する１つのローカルスコアｐが問い合わせにより返されるレコード数またはヒット数の合計となる。複数のデータベースに対して問い合わせが実行される場合は、テキスト内容候補に対する１つのローカルスコアｐは、次の数式により算出される。

ここで、ｋは、問い合わせを受けたデータベースを示し、スコア_k（ｐ）は、各データベースのスコアを示し（例えば、スコア_k（ｐ）は、実施形態によっては、テキスト内容候補ｐごとの問い合わせに対するデータベースｋから収集されたレコード数またはヒット数として計算されるのが適している）、またｗ_kは、データベースの重み６４の集合からデータベースｋへ割り当てられた信頼度の重みを示す。信頼度の重みｗ_kは、正しいテキスト内容候補をサポートし、誤ったテキスト内容候補をサポートしないという、データベースｋの信頼度を示す。実施形態によっては、重みｗ_kは省略され、各データベースにはローカルスコアを決定するのに等しい重みが与えられる。

実施形態によっては、問い合わせを受けるデータベースをユーザが選択することも可能であろう。例えば、名刺画像はユーザの会社の同僚に関するものであることをユーザが分かっている場合は、データベースの問い合わせ６０によって実行される問い合わせを、対応する企業データベースに任意で制限する。一方、ユーザが名刺画像を勤務先の会社外の人から会議で取得した場合は、データベースの問い合わせ６０によって実行される問い合わせは、インターネット住所名簿４０のような他のデータベースを含むように広げられるのが好適である。

実施形態によっては、式（１）のローカルスコアに基づいて、複数のテキスト内容候補の中で、どれがテキスト画像セグメントに対して正しく抽出されたテキストかを判断することは適切である。しかしながら、計算的には分かりやすいが、もっぱらローカルなだけのこの方法では、さまざまなテキスト画像セグメント２０間の相互関係によるメリットを生かすことができない可能性がある。図２の名刺を例として挙げると、名前「ジョンスミス」は、米国では一般的である。したがって、データベースの問い合わせにより、正しい「ジョンＨ．スミス」テキスト内容候補、および誤った「ジョンＮ．スミス」テキスト内容候補の両方のレコードを多数収集することになるであろう。このように、もっぱらローカルなだけの方法では、正しい「ジョンＨ．スミス」と誤った「ジョンＮ．スミス」を正確に区別することはできないであろう。このような不明確さは、テキスト画像セグメント「ＡＢＣウィジェット社」の問い合わせに対して収集されたレコードを考慮することで解決される可能性がある。正しいテキスト内容候補「ＡＢＣウィジェット社」に対して収集されたレコードには、「ジョンＨ．スミス」を含むレコードも含まれる可能性がある。なぜなら、彼はＡＢＣウィジェット社の社員だからである。そして、ＡＢＣウィジェット社にその名前の社員がいないと仮定すると、「ジョンＮ．スミス」が含まれている可能性は低い。

このため実施形態によっては、他のテキスト画像セグメント用の他のテキスト内容候補に対する問い合わせに対して返されたレコードの少なくとも１つに、第１テキスト内容候補が含まれていた場合に、グローバル調整部７０により、第１イメージセグメントに対する第１テキスト内容候補のスコアを修正する。より概略的には、グローバル調整部７０は、テキスト内容候補のスコアを、他のテキスト内容候補に対するデータベースの問い合わせの結果に基づいて、選択的に調整するように構成されている。１つの好適な実施形態において、グローバル調整部７０は、次のスコア調整を実施する。

ここで、レコードｒがテキスト内容候補ｐを含む場合は、合致（ｒ，ｐ）＝１である。含まない場合は、合致（ｒ，ｐ）＝０である。また、|テキスト画像セグメント|は、データベースの問い合わせ６０が問い合わせを実行したテキスト画像セグメント２０の総数に等しい。テキスト内容候補が他のテキスト画像セグメントに対するテキスト内容候補のレコードと合致する場合は、そのスコアは高くなる。テキスト内容候補が、名刺画像における他の各テキスト画像セグメントすべてのテキスト内容候補と合致するレコードと合致する場合は、式（２）からなるグローバル調整部７０による引き上げは最大となる。一方、テキスト内容候補が、名刺画像におけるどのテキスト内容候補にも合致しないレコードに合致した場合は、式（２）からなるグローバル調整部７０による引き上げは最小となる。任意により、引き上げ係数を、複数のレコードに対して正規化する。

必要であれば、グローバル調整部７０により、ロゴ画像セグメント２２ごとに実施される画像データベースの問い合わせ７４により返されたメタデータに基づいて、ローカルスコアを選択的に調整する。ロゴ画像を含むデータベースに問い合わせを実行し、ロゴ画像セグメント２２と関連付けられたテキストメタデータを使用してスコアを調整できる。テキストメタデータは、例えば、会社名、会社住所などを含む。

実施形態によっては、データベースの問い合わせ６０の結果を、テキスト画像セグメント２０のタグの調整にも使用する。例えば、タグ調整部７６により、テキスト内容候補に対して収集されたレコードのタグ付けに基づいて、セグメントタッガー３２によりテキスト画像セグメントに既に割り当てられているタグを調整できる。例えば図２の名刺では、セグメントタッガー３２がテキスト画像セグメント「プロセスエンジニア」に最初に誤って勤務先団体としてタグ付けした場合でも、「ジョンＨ．スミス」を含むレコードが肩書きまたは職業としてタグ付けされているテキスト「プロセスエンジニア」も含むので、タグ調整部７６は、これらのレコードのタグを使用して、テキスト画像セグメント「プロセスエンジニア」のタグ付けを適宜正しく修正する。

連絡先レコード内容セレクタ３８は、名刺１０に対するレコードに含める各テキスト画像セグメント用の、最も可能性が高いテキスト内容候補を選択するために、結果として得られたスコア８０を適宜使用する。必要であれば、ＯＣＲ信頼レベル値などの他の情報とともに用いることもできる。

引き続き図３において、実施形態によっては、データベースの重み６４の集合を、データベース重み調整部８２によって自動的に調整する。例えば、ユーザがユーザインタフェース５０を介してテキスト内容候補の誤った選択を修正したときには常に、訂正フラグ８４を立てる。これがトリガとなり、データベース重み調整部８２は、誤って間違った選択をサポートしたデータベースｋの重みｗ_kを相対的に下げる（一般的には、重みｗ_kは正規化されるので、１つの重みｗ_kが相対的に下がると、他のデータベースの重みが相対的に上がることになる）。同様に、ユーザが不適当なテキスト内容候補を正しいテキスト内容候補に置き換え、その正しいテキスト候補が他のデータベースｋ’によりサポートされていた場合は、対応する重みｗ_k’は適宜相対的に上げられる。このようにデータベースの重み６４を、テキスト内容候補のサポートにおける精度に基づいて継続的に調整することで、システムは、テキスト内容候補のサポートが多くの場合正しくないデータベースの重要度を下げ、テキスト内容候補のサポートが多くの場合正しいデータベースの重要度を上げることができる。

実施形態によっては、テキスト内容候補スコアリングプロセッサ３６が出力するスコアのみに基づいて、連絡先レコード内容セレクタ３８により、最も可能性の高いテキスト内容候補を選択することも可能である。

他の実施形態では、連絡先レコード内容セレクタ３８は、最も可能性の高いテキスト内容候補を選択するために、他の情報や基準と合わせてスコアを使用する場合もある。このような実施形態では、データベースの問い合わせに対してヒットがない場合には、スコアの影響がないように、スコア計算を任意に設定する。例えば、１つの手法としては、文字合致度などの基準や、テキスト内容候補全体またはその一部が電子辞書に登録されているなどの基準に基づき、ＯＣＲプロセッサ２６により各テキスト内容候補に対して信頼レベルを返す。テキスト内容候補プロセッサ３６が特定のテキスト内容候補に高いスコアを割り当てた場合は、ＯＣＲプロセッサ２６が割り当てる信頼レベルは上がり、一方、割り当てられた低いスコアは適宜無視される。これは、例えば、テキスト内容候補プロセッサ３６が特定のテキスト内容候補に割り当てたスコアを、ＯＣＲプロセッサ２６がテキスト内容候補に割り当てる信頼レベル値に加算することで実現できる。実施形態によっては、ＯＣＲの信頼レベルまたは他の標準に基づいて、最も可能性が高いと判断されたテキスト内容候補に対してヒットがなかった場合には、ユーザインタフェースを使用してユーザに対して警告を発行することも可能である。なぜなら、データベースにヒットが見つからないということは、テキスト内容候補の選択が誤っていることを示している可能性があるからである。

データベースの問い合わせに基づくスコアリング技術は、図３および式（１）、（２）を参照しながら図解して説明されている。熟練した技術者であれば、正確度を示すスコアをテキスト内容候補に割り当てるための他のスコアリングアルゴリズムを容易に構築できるであろう。概略的には、一般的にスコアリングは、データベースに頻繁に登場するテキスト内容候補が選択される可能性を高めるべきである。また、任意により、テキスト画像セグメントには、そのテキスト画像セグメントに対して可能性が高いテキスト内容候補に与えられたタグに合致するタグを選択する可能性を通常高める必要がある。必要であれば、スコアリングを、同じレコード内に一緒に見つかった他のテキスト画像セグメントのテキスト内容候補の正確度も選択的に高めるように構築する。なぜならこれにより、他のテキスト画像セグメントの一般的な相互関係を、スコアリングにおいて有利に考慮に入れられるからである。また、必要であれば、割り当てられたスコアを、ＯＣＲ信頼レベルや、他の指標、つまり各テキスト画像セグメントに対する最も可能性の高いテキスト内容候補を１つ選択する際の正確度を示す指標と組み合わせる。

上記開示の変更形態、他の特性および機能、またはこの代替案は、他の多くの異なるシステムやアプリケーションに所望に応じて組み込むことができることは、明白であろう。また、現時点では予想外または想定外の代替案、変更、応用、または改良は、後で当業者により行われる可能性があるが、それらも本請求項により網羅されるものとする。

名刺画像を取得し、その名刺画像を処理して連絡先レコードを構築するシステムを、概略的に示す図である。個人名、肩書き、勤務先企業、勤務先住所、および企業ロゴを含む、一般的な名刺の例を示す図である。図１のシステムにおけるテキスト内容候補スコアリングプロセッサの主要部分を、概略的に示す図である。

符号の説明

１２携帯撮像機、２０テキスト画像セグメント、２２ロゴ画像セグメント、２６光学式文字認識装置（ＯＣＲ）、３８連絡先レコード内容セレクタ、４０インターネット住所録または名簿、４２企業名簿、４６個人用連絡先リスト、４８ロゴデータベース、６０データベースの問い合わせ、６２ローカルスコアリングプロセッサ、８０スコア。

Claims

個人情報を取得する方法であって、
名刺画像を取得するステップと、
前記名刺画像から複数のテキスト画像セグメントを抽出するステップと、
光学式文字認識（ＯＣＲ）を前記各テキスト画像セグメントに適用して、各テキスト画像セグメントに対して１又は複数のテキスト内容候補を生成するステップと、
少なくとも１つのデータベースへの問い合わせにより返されたレコードに基づき、前記テキスト画像セグメントに対して生成されたテキスト内容候補の中から当該テキスト画像セグメントに含まれるテキストを選択する選択ステップと、
前記選択ステップにより一の前記テキスト画像セグメントに含まれるテキストを選択する際に返されたレコードに、他のテキスト画像セグメントに対して生成されたテキスト内容候補が含まれていた場合、その含まれていたテキスト内容候補を当該他のテキスト画像セグメントに含まれるテキストと決定する決定ステップと、
を含む方法。
さらに、前記テキスト画像セグメントに対して、当該各テキストの内容を示すタグを割り当てる割当ステップを含み、
前記決定ステップは、前記選択ステップによる問い合わせにより返されたレコードに、いずれかのタグといずれかのテキスト画像セグメントに対して生成されたテキスト内容候補とが対応付けられて含まれていた場合において、その対応付けが前記割当ステップにより割り当てられたタグとテキスト画像セグメントとの対応付けと異なる場合、前記割当ステップによる対応付けを当該レコードに含まれていた対応付けで修正する、請求項１に記載の方法。
前記選択ステップは、
少なくとも前記返されたレコードに基づき、前記各テキスト内容候補にスコアを割り当て、
前記割り当てられたスコアに基づいて、前記テキスト内容候補から最も可能性の高い１つを選択する、請求項１に記載の方法。
さらに、前記名刺画像からロゴ画像セグメントを抽出するステップと、
前記ロゴ画像セグメントごとに、少なくとも１つの画像データベースに問い合わせを実行するステップと、
を含み、
前記選択ステップは、前記ロゴ画像セグメントごとに少なくとも１つの前記画像データベースへの前記問い合わせにより返されたレコードに基づいて前記各テキスト内容候補にスコアを割り当てる、請求項３に記載の方法。