JP2016167273A

JP2016167273A - オブジェクトにおけるテキスト情報を認識するための方法およびシステム

Info

Publication number: JP2016167273A
Application number: JP2016056521A
Authority: JP
Inventors: ヒュン—イル・コ; Hyung-Il Koo; ヒュン―イル・コ; キスン・ユ; Kisun You; ヒュン—モク・チョ; Hyun-Mook Cho; ヒュン―モク・チョ
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2011-06-29
Filing date: 2016-03-22
Publication date: 2016-09-15
Also published as: CN103597500A; KR101499379B1; WO2013002955A1; KR20140010164A; JP2014524085A; EP2727048A1; US9418304B2; US20130004076A1

Abstract

【課題】撮像される様々な条件で、正確なオブジェクトにおけるテキストブロックの認識を可能にする方法を提供する。【解決手段】テキストブロックは、文字のセットを含む。オブジェクトの複数の画像は、取得され、オブジェクト画像のパターンを抽出しそして所定のパターンと抽出されたパターンを比較することによって、識別される。さらに、オブジェクト画像のオブジェクトの境界は、識別されたオブジェクトの所定のサイズ情報に基づいて、検出／検証される。オブジェクト画像におけるテキストブロックは、識別されたオブジェクトの所定の位置情報に基づいて識別される。識別されたテキストブロックにおける暫定的な文字群の複数のセットは、識別されたオブジェクトのフォーマット情報に基づいて生成される。暫定的な文字群の複数のセットに基づいて、オブジェクト内のテキストブロック内の文字群のセットが決定される。【選択図】図７

Description

関連出願の相互参照

本出願は、２０１１年６月２９日に出願された米国仮特許出願番号６１／５０２，７８１および２０１２年２月７日に出願された米国非仮特許出願番号１３／３６７，７６４からの優先権の利益に基づいており、かつそれを主張するものであって、その全体の内容は参照によりここに組み込まれる。

本開示は、一般的にテキスト情報を認識することに関する。さらに具体的に、本開示は、特定の形式を有するオブジェクトにおけるテキストブロックを認識するための方法およびシステムに関する。

今日のモバイル装置は進歩して、高速プロセッサはもとよりカメラの利用を通じて、画像取得機能を含むようになった。このような機能を利用して、モバイル装置の中には、取得した文書の画像からテキストを認識するためのテキスト認識機能を備えるようになったものもある。こういったモバイル装置のユーザは、クレジットカード、ＩＤカードなどのような紙文書の範囲を超えるオブジェクトにまでこういった機能の利用を広げて、オブジェクトにおけるテキスト情報を認識するようになった。

モバイル装置における従来のテキスト認識方法は一般的に、単一のオブジェクト画像に基づいて、オブジェクトにおけるテキストブロックを認識していた。例えば、従来のテキスト認識機能を有するモバイル装置では一般的に、ユーザがオブジェクトの単一画像を取得することができる。オブジェクト画像におけるテキストブロックは次に、オブジェクト画像を処理することによって認識される。

しかし、単一のオブジェクト画像に基づくこういった従来のテキスト認識方法は、撮像できる条件下での変化が原因で、テキストブロックにおける文字を認識する際の不正確さを欠点に持つ(suffer from)。例えば、オブジェクトの画像は、撮像された画像の質を下げる可能性のある、照明の反射、不十分な照明などのような最適な照明の条件を満たさない下で取得される場合がある。さらに、モバイル装置を設定する際に、ユーザが制御しているモバイル装置の動きが好ましくないために、画像のある部分が、焦点がずれて撮像されたりあるいは不鮮明になる可能性がある。

したがって、オブジェクト画像が撮像される様々な条件において、さらに正確にオブジェクトにおけるテキストブロックの認識を可能にするシステムおよび方法が必要である。

本開示は、一時的なフィルタリング(temporal filtering)を使用するオブジェクトにおけるテキストブロックを認識するための方法およびシステムを提供する。

本開示の１つの観点にしたがって、オブジェクトにおけるテキストブロックを認識するための方法が開示される。テキストブロックは文字のセットを有する。その方法は、オブジェクトの複数の画像を受信することを含む。オブジェクトの各画像はテキストブロックを含む。オブジェクトの画像におけるテキストブロックは識別される。文字のセットは、オブジェクトの複数の画像における識別されたテキストブロックに基づいて決定される。本開示はまた、この方法に関連するコンピュータ読み取り可能記録媒体、手段の組み合わせ、装置、機器を説明する。

図１は、本開示の１つの実施例にしたがって、クライアントデバイスおよびサーバを含む、オブジェクト画像からオブジェクトにおけるテキストブロックを認識するためのシステムのブロック図を示す。図２は、本開示の別の実施例にしたがって、オブジェクト画像からオブジェクトにおけるテキストブロックを認識するためのクライアントデバイスシステムのブロック図を示す。図３は、本開示の１つの実施例にしたがって認識されることができるテキストブロックを含むクレジットカードの形式における例示的なオブジェクトの画像を図示する。図４は、本開示の１つの実施例にしたがって認識することができるテキストブロックを含む運転免許証の形式における例示的なオブジェクトの画像を図示する。図５は、本開示の１つの実施例にしたがって、テキストブロックを有する様々なオブジェクトに関する識別および構成情報を含む例示的なオブジェクトデータベースの図である。図６は、本開示の１つの実施例にしたがって、オブジェクト画像からテキストブロックを認識するためのクライアントデバイスの詳細なブロック図を示す。図７は、本開示の１つの実施例にしたがって、オブジェクトにおけるテキストブロックを認識するための方法のフローチャートである。図８は、本開示の１つの実施例に従って、オブジェクトの所定のパターンに基づいて、オブジェクトの画像からのオブジェクトを識別するための方法のフローチャートを示す。図９は、本開示の別の実施例にしたがって、オブジェクトデータベースに基づいて、オブジェクトの画像からオブジェクトを識別するための方法のフローチャートを示す。図１０は、本開示の１つの実施例にしたがって、オブジェクトの境界を検出し、かつオブジェクトの画像におけるテキストブロックを識別するための方法のフローチャートを示す。図１１は、本開示のいくつかの実施例にしたがって、オブジェクトの検出された境界を示す。図１２は、本開示のいくつかの実施例にしたがって、オブジェクトの検出された境界を示す。図１３は、本開示の１つの実施例にしたがって、オブジェクトの検出された境界線とオブジェクトの実際の境界の間の関係を示す図である。図１４は、本開示の１つの実施例に従って、オブジェクトの識別されたテキストブロックを示す。図１５は、本開示の１つの実施例にしたがって、暫定的な文字のセットに基づいて、オブジェクト内のテキストブロック内の文字のセットを推測するための方法のフローチャートを示す。図１６は、本開示の１つの実施例にしたがって、オブジェクト内のテキストブロック内の文字のセットを決定するための時間フィルタのブロック図を示す。図１７は、本開示の１つの実施例にしたがって、暫定的な文字のセットに基づいて、オブジェクト内のテキストブロック内の文字のセットを推測する図を示す。図１８は、本開示の１つの実施例にしたがって、オブジェクト内のテキストブロック内の文字のセットを推測する際に使用するための文字ベースの暫定的な文字のセットのグループを図示する。図１９は、本開示の別の実施例にしたがって、オブジェクト内のテキストブロック内の文字のセットを推測する際に使用するための単語ベースの暫定的な文字のセットのグループを図示する。図２０は、本開示の１つの実施例にしたがって、ユーザによる認識結果を検証するための方法のフローチャートである。図２１は、本開示の１つの実施例にしたがって、ディスプレー上の中間認識結果を表示する図を示す。図２２は、本開示の１つの実施例にしたがって、ディスプレー上の最終的な認識結果を表示する図を示す。図２３は、無線通信システムにおける例示的なモバイル装置の構成を示す。

様々な実施例は次に図面を参照して説明され、そこで同じ参照番号は、全体を通して、同じエレメントを指すために使用される。

以下の説明おいて、説明のために、１つまたはそれ以上の実施形態の完全な理解をもたらすために、多数の具体的詳細が説明される。しかしながら、このような実施形態（複数の場合もある）は、これらの具体的詳細なしで実施され得ることは明白であろう。その他の事例において、周知の構造および装置は、１つまたはそれ以上の実施形態の説明を容易にするために、ブロック図で示される。

図１は、本開示の１つの実施形態に従う、オブジェクトの複数の画像からオブジェクト内のテキストブロックを認識するためのシステム１００のブロック図を示す。システム１００は、ネットワーク１３０を介して通信しているサーバ１２０およびクライアントデバイス１１０を含む。クライアントデバイス１１０は、クレジットカード、ビジネスカード、運転免許証、パスポート、身分証明文書などのような１つまたはそれ以上の特定の文字のテキストブロックを有するオブジェクトの複数の画像を撮像してオブジェクト内のテキストブロックを認識するように構成される。一実施形態において、クライアントデバイス１１０は、オブジェクト画像内の特定のパターンに基づいてオブジェクトを識別してオブジェクト識別情報をサーバ１２０に提供することができる。クライアントデバイス１１０は、例えば、カメラ、またはビデオカメラのような撮像能力、および通信ネットワークを経由する通信機能を備えるスマートフォーン、ラップトップ、タブレットコンピュータ等のような任意の適切なコンピュータまたはモバイルデバイスであり得る。

サーバ１２０は、クライアントデバイス１１０からオブジェクト識別情報を受信し、該オブジェクト識別情報に基づいてオブジェクトデータベース１４０をアクセスする。オブジェクトデータベース１４０は、物体認知のようにオブジェクトに関する情報と、オブジェクトレイアウト(layout)およびテキストブロック情報のような、構成情報を含む、複数のオブジェクトに関する情報を提供する。例えば、クレジットカードの場合、オブジェクト識別情報は、クレジットカードの種類（例えば、ＶｉｓａカードまたはＭａｔｅｒカード）、発行銀行の名前などに関する情報を含むことができる。オブジェクト構成情報は、オブジェクトのサイズ、テキストブロックの文字フォーマットおよび位置などを含むオブジェクトのレイアウトに関する情報を含むことができる。オブジェクトデータベース１４０は、図５を参照して後に説明されるように、追加の情報を含むことができる。サーバ１２０は、識別されたオブジェクトの構成情報をクライアントデバイス１００に提供する。

クライアントデバイス１１０は、オブジェクトの構成およびテキストブロックに関する関連情報を含む識別されたオブジェクトに関する構成情報を、ネットワーク１３０を介してサーバ１２０から受信することができる。受信された構成情報に基づいて、クライアントデバイス１１０は、テキストブロックを識別かつ認識し、テキストブロック内の文字を推測する。

別の実施形態において、オブジェクトデータベース１４０は、サーバ１２０の代わりに、クライアントデバイス１１０に設けてもよい。。図２は、本開示の別の実施形態にしたがって、オブジェクトの複数の画像から、オブジェクト内のテキストブロックを認識するためのオブジェクトデータベース１４０を含むクライアントデバイスシステム２００のブロック図を示す。本実施形態において、クライアントデバイス２１０は、クライアントデバイス１１０と同様の態様で動作する。クライアントデバイス２１０は、オブジェクト画像内の特定のパターンに基づいてオブジェクトを識別することができる。さらに、クライアントデバイス２１０に格納されたオブジェクトデータベース１４０から、クライアントデバイス２１０は、オブジェクトのサイズ、テキストブロックのフォーマットおよび位置などに関する情報を含む識別されたオブジェクトに関する構成情報を検索する。

本開示のシステムおよび方法は、テキスト情報を含む任意のオブジェクトに適用される。例えば、オブジェクトは、電子フォーマットまたは紙フォーマットの文書オブジェクトであってもよいし、あるいは、クレジットカード、ビジネスカード、運転免許証、身分証明文書などのような物理的なオブジェクトであってもよい。一般的に、オブジェクトは、同定情報を有することができ、他のオブジェクトと区別する構成情報に関連づけることができる。

図３は、本開示の１つの実施形態にしたがって、テキストブロック３０４、３０６、および３０８を認識するために捕捉可能なクレジットカード３００形式の例示オブジェクトの画像を示す。図示されるように、クレジットカード３００は、認識可能な英数字を含む複数のテキストブロック３０４、３０６、および３０８を含む。該テキストブロック３０４は、固有のカード番号を含み、一方、テキストブロック３０６は、月／年から成る有効期限を含む。さらに、テキストブロック３０８は、カード所有者名を含む。

クレジットカード３００はまた、カード発行者の識別情報を有するブロック３０２を含む。例えば、ブロック３０２は、オブジェクト３００をクレジットカードとして識別することができるカード発行者（例えば、ＡＢＣ銀行）のロゴまたはパターンのような画像および／またはテキスト情報を含むことができる。クレジットカード３００の特定の種類は、ブロック３０２内の識別情報および／またはカード３００内に設けられた別の識別情報またはパターンを認識することによって決定されることができる。

一般的に、クレジットカード３００のフォーマットおよびレイアウトは、カード発行者によってあらかじめ決められており、同じ発行者からの同じ種類のクレジットカードに関して同じである。特に、カード３００のサイズ、およびブロック３０２乃至３０８の位置、レイアウト、およびフォーマットのような構成情報は、同じ種類のカードに関して一般的に同じである。例えば、テキストブロック３０４乃至３０８の位置は、クレジットカード３００の参照位置に対して、上端部左隅位置および下端部右隅位置のような特定の位置によって定義されることができる。クレジットカード３００に関する識別情報および構成情報は、図５を参照して下記にさらに詳細に説明されるように、オブジェクトデータベース１４０にあらかじめ格納される。

図４は、本開示の１つの実施例にしたがって、テキストブロック４０４、４０６、４０８、および４１０を認識するために撮像可能な運転免許証４００の形式における別の例示的なオブジェクトの画像を図示する。運転免許証４００は、カード発行者の名前の識別情報を備えるブロック４０２を含む。例えば、ブロック４０２は、特定の発行当局（例えば、ＡＢＣ州）の運転免許証として、オブジェクト４００を識別することができるロゴまたはパターンのような画像および／またはテキスト情報を含む。

図示されるように、運転免許証４００はまた、複数のテキストブロック４０４乃至４１０を含む。テキストブロック４０４は免許証番号を含み、テキストブロック４０６は、月―日―年から成る有効期限を含む。さらに、テキストブロック４０８は、所有者の名前を含み、またテキストブロック４１０は、所有者の住所を含む。

一般的に、運転免許証４００のレイアウトおよびフォーマットのような構成情報はカード発行者によってあらかじめ決められ、また同じ発行者からの同じ種類の他の運転免許証に関して同じである。このような構成情報は、後にさらに詳細に説明されるように、識別情報を有するオブジェクトデータベース１４０に格納される。いくつかの実施例において、クライアントデバイス１１０（またはクライアントデバイス２１０）は、オブジェクトデータベース１４０からこのような構成情報を検索し、該構成情報に基づいて、テキストブロックを認識する。

図５は、本開示の１つの実施例にしたがって、１つまたはそれ以上のテキストブロックを有する複数のオブジェクトに関する識別および構成情報を含む例示的なオブジェクトデータベース１４０を示す。オブジェクトデータベース１４０は、生成されかつサーバ１２０および／またはクライアントデバイス２１０に格納されることができる。各オブジェクトに関して、データベース１４０は、オブジェクトの構成情報および識別情報を含む。

図５に示されるように、オブジェクトデータベース１４０は、図３におけるクレジットカード３００、図４における運転免許証４００などの識別および構成情報を含む。各オブジェクトに関する識別情報は、オブジェクト発行者または供給元の名前およびオブジェクトの種類を含む。例えば、クレジットカード３００の場合、発行者の名前「ＡＢＣ銀行」は、オブジェクトの種類である「クレジットカード」と共にオブジェクトデータベースに格納される。同様に、オブジェクトの種類「運転免許証」および発行者の名前「ＡＢＣ州」は、オブジェクトを識別するためにオブジェクトデータベース１４０に格納される。加えて、データベース１４０はまた、ロゴまたはパターンのような各オブジェクトに関する他のも種類の識別情報を格納することができる。

オブジェクトデータベース１４０はまた、認識されることができるオブジェクトのサイズ、および各テキストブロックの位置、配置、およびフォーマットを含むオブジェクトのそれぞれに関する構成情報を含む。サイズ情報は、クレジットカード３００および運転免許証４００のようなオブジェクトのアスペクト比を提供することができる。サイズ情報は、画像内のオブジェクトの検出された境界が、データベース１４０からのサイズ情報と比較して正しいかどうかを検証することができるクライアントデバイス１１０に提供され得る。クレジットカード３００のテキストブロックI、II、およびIIIがそれぞれ、図３におけるテキストブロック３０４、３０６、および３０８の位置情報を含む一方、運転免許証４００のテキストブロックI、II、III、およびIVはそれぞれ、図４におけるテキストブロック４０４、４０６、４０８、および４１０の位置情報を含む。この配置において、テキストブロックI、II、III、およびIVのそれぞれは、２つの座標に、オブジェクトの参照位置に対して各ブロックの左上頂点および右下頂点の位置を示すための特定の構成単位（例えば、オブジェクト画像におけるピクセル）を備える。この場合、各テキストブロックは方形として構成されているので、各テキストブロックの位置は、オブジェクトの左上隅の参照位置に対して、２つの座標を使うことによって識別され得る。例えば、クレジットカード３００のテキストブロックIの２つの座標（１．２，４．４）および（１２，５．４）から、クレジットカード３００のテキストブロックIの位置は、４つ頂点（１．２，４．４）、（１２，４．４）、（１２，５．４）、および（１２，５．４）の座標によって定義されることができる。したがって、テキストブロックIの幅および高さは、それぞれ１０．８（＝１２−１．２）および１（＝５．４−４．４）であると決定される。テキストブロックのこのような位置情報は、クライアントデバイス１１０に提供され、その結果クレジットカード３００や運転免許証４００等のようなオブジェクト内のテキストブロックの幾何学的な位置を識別することいができる。

オブジェクトデータベース１４０はまた、各テキストブロック内の文字数、文字の配列、および／または文字の種類のようなテキストブロックI、II、III、およびIVのそれぞれの文字フォーマットを含む。例えば、クレジットカード３００のテキストブロックIの文字フォーマットは、テキストブロック３０４における文字の配列および数を示す文字フォーマット「＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊」、およびテキストブロックにおける文字が数字であることを示す「数字」を備える。テキストブロックの文字フォーマットは、テキストブロックにおける文字を認識する際に使用するために、クライアントデバイス１１０に提供されることができる。いくつかの実施例において、構成情報はまた、オブジェクトの形、テキスト文字の色／フォント、文字の言語などを含むことができる。

図６は、本開示の１つの実施例にしたがって、図１におけるクライアントデバイス１１０の詳細なブロック図を示す。クライアントデバイス１１０は、撮像ユニット６１０、オブジェクト認識ユニット６２０、境界検出器６３０、修正ユニット６４０、マスキングユニット６５０、ＯＣＲエンジン６６０、時間フィルタ６７０、および図形処理ユニット６８０を含む。撮像ユニット６１０は、特定の構成またはレイアウトを有するオブジェクトの複数の画像（例えば、一連の画像）を撮像するための画像センサー（例えば、ビデオカメラ、デジタルカメラ）を含む。撮像ユニット６１０は、オブジェクトを識別するためのオブジェクト認識ユニット６２０に、オブジェクトの画像を提供する。オブジェクト画像から、オブジェクト認識ユニット６２０は、パターンを抽出し、かつサーバ１２０またはクライアントデバイス１１０によって備えられた様々な周知のオブジェクトの所定のパターンとそのパターンとを比較する。パターンが、周知のオブジェクトのパターンと一致することが判明すると、オブジェクトは、周知のオブジェクトであると識別される。一方、オブジェクト認識ユニット６２０は、クライアントデバイス１１０によって備えられたユーザーインターフェース（図示せず）を経由するユーザ入力から、オブジェクトの識別を受信することができる。下記でさらに詳細に説明されるように、オブジェクト識別情報は、サーバ１２０へ供給され、オブジェクトデータベース１４０から、オブジェクト構成情報を検索する。

撮像ユニット６１０は、画像内の識別されたオブジェクトの境界を検出するために境界検出器６３０に、オブジェクトの画像を供給する。境界検出器６３０はまた、サーバ１２０から、オブジェクトに関する構成情報（例えば、オブジェクトサイズまたはアスペクト比）を受信する。各画像に関して、境界検出器６３０は、受信された構成情報に基づいて、コーナーおよびエッジのようなオブジェクト領域の境界特徴を決定することによってオブジェクト領域を定義する画像内のオブジェクトの境界を識別する。識別された境界に基づいて、境界検出器６３０は、画像のそれぞれからオブジェクト領域の画像を抽出し、そのオブジェクト領域の画像を修正ユニット６４０に供給する。

撮像されたオブジェクト画像からのオブジェクト領域の画像は、オブジェクトのサイズ、形状、および／または方位を正確に反映していない可能性があるので、各オブジェクト領域は、修正ユニット６４０において修正される。修正ユニット６４０は、サーバ１２０からオブジェクトのサイズ情報（例えばアスペクト比、長さ、および幅）のような構成情報を受信し、該オブジェクトのサイズ情報に基づいてオブジェクト領域の画像を修正するように構成される。例えば、画像内のオブジェクト領域は、オブジェクトのアスペクト比に一致するように変形される。修正されたオブジェクト領域の画像は、マスキングユニット６５０に供給されることができる。

抽出および修正されたオブジェクト領域から、テキストブロックは、それらの位置をマスキングすることによって識別される。マスキングユニット６５０は、テキストブロックのサイズおよび位置などのようなオブジェクト内のテキストブロックの構成情報を、サーバ１２０から受信する。テキストブロックの構成情報に基づいて、マスキングユニット６５０は、各画像内のオブジェクト領域におけるテキストブロックを識別する。いくつかの実施例において、マスキングユニット６５０は、オブジェクト領域内のテキストブロックの位置に関する情報を利用して、オブジェクト領域内の各テキストブロックの幾何学的位置を識別する。テキストブロックの幾何学的位置を識別することによって、マスキングユニット６５０は、オブジェクト画像内の他の領域からの不必要な情報を読み込んだり、処理することを避けることができる。

オブジェクト領域内の識別されたテキストブロックのそれぞれに関して、ＯＣＲエンジン６６０は、テキストブロック内の文字を認識する。ＯＣＲエンジン６６０は、マスキングユニット６５０から各画像内の識別されたテキストブロックを受信するとともに、サーバ１２０から、テキストブロックの文字フォーマットを含むオブジェクト構成情報を受信するように構成される。オブジェクト構成情報に基づいて、ＯＣＲエンジン６６０は、各テキストブロック内の文字を認識し、各テキストブロックに関する暫定的な文字のセットを生成する。画像からのテキストブロックの暫定的な文字のセットは次に、時間フィルタ６７０に使用され、該テキストブロックに関する最終的な文字のセットを決定する。文字フォーマット情報は、各テキストブロック内の文字数、文字の配置、文字のテキストの色／フォント、文字の言語の種類などを含むことができる。この配置において、暫定的な文字のセットは、後に詳細に説明されるように、全体論的な方法またはセグメントベースの方法を用いて認識されることができる。

時間フィルタ６７０は、ある周期時間にわたって撮像されるオブジェクトの複数の画像からの暫定的な文字のセットに基づいて、オブジェクト内の各テキストブロックに関する最終的な文字のセットを決定する。初めに、時間フィルタ６７０は、ＯＣＲエンジン６６０からオブジェクト画像内の各テキストブロックに対応する暫定的な文字のセットを受信する。時間フィルタ６７０は、オブジェクトの各テキストブロックに関する暫定的な文字のセットから文字のセットを推測することによって最終的な文字のセットを決定する。最終的な文字のセットを決定する際に、文字は、暫定的な文字のセット内の各文字毎または各単語毎の発生頻度に基づいて、一文字毎に、または一単語毎に推測されることができる。したがって、テキストブロック内の各文字または各単語は、文字または単語の発生頻度が所定の閾値を超えるとき、暫定的な文字のセットから推測されることができる。

１つの実施例において、文字のセットは、テキストブロック内の文字の鮮明さを反映する暫定的な文字のセットの信頼水準に基づいて推測される。ＯＣＲエンジン６６０が暫定的な文字のセットを生成するとき、それは、ＯＣＲエンジン６６０に格納された参照文字または単語と、オブジェクト画像内のテキストブロックにおける各文字または単語との間の類似値を比較する。類似値に基づいて、もっとも大きい類似値を有する文字または単語を暫定的な文字のセット内の文字または単語として識別される。この場合、文字または単語の類似値は、テキストブロックにおける最終的な文字のセットを決定する際に信頼水準として使われることができる。

さらに、時間フィルタ６７０は、テキスト認識が実行されるのと同時に表示される文字認識結果を、図形処理ユニット６８０に供給する。クライアントデバイス１１０は、オブジェクト内の少なくとも１つのテキストブロックの認識結果を表示するためのディスプレーを含むことができる。あるいは、ディスプレーは、クライアントデバイス１１０とは別個の装置に搭載し、ネットワークを介してクライアントデバイス１１０に接続してもよい。ディスプレーは、オブジェクト内のテキストブロックに関する認識結果および／またはオブジェクト画像を出力するための、ＬＥＤ（発光ダイオード）、ＰＤＰ（プラズマディスプレーパネル）、またはＬＣＤ（液晶ディスプレー）などを含む任意の適切な電子表示装置であり得る。

図６は、サーバ１２０と通信する図１のクライアントデバイス１１０を図解しているが、図６のクライアントデバイス１１０の構成と動作は、図２のシステム２００におけるオブジェクトデータベース１４０を有するクライアントデバイス２１０に適用してもよい。

図７は、本開示の１つの実施形態に従う、オブジェクト内のテキストブロックを認識するための方法のフローチャートである。７１０において、撮像ユニット６１０は、１つまたはそれ以上のテキストブロックを含むオブジェクトの複数の画像を撮像し受信する。オブジェクトの画像は、ある周期時間にわたって撮像された一連の画像（例えば、オブジェクトのビデオフレーム）であり得る。撮像された画像は、７２０において、受信された画像におけるオブジェクトを識別するように構成されているオブジェクト認識ユニット６２０に供給される。一度オブジェクトが識別されると、オブジェクト認識ユニット６２０は、クライアントデバイス１１０に識別されたオブジェクトの構成情報を送信するサーバ１２０に、オブジェクトの識別情報を供給する。７３０において、オブジェクトの各画像のテキストブロックは、テキストブロックの位置情報のような構成情報に基づいて、テキストブロックの位置を決定することにより識別される。図１０を参照して詳細に記載するように、オブジェクト内のテキストブロックを識別する前に、各画像内のオブジェクトの境界は、オブジェクトのアスペクト比などのようなサイズ情報に基づいて、境界検出器６３０によって検出および検証されることができる。

７４０において、オブジェクト画像内の各テキストブロックに関する文字のセットは、オブジェクト画像内の識別されたテキストブロックに基づいて決定される。特に、識別されたテキストブロックの各々は、ＯＣＲエンジン６６０によって認識され、暫定的な文字のセットが生成される。該暫定的な文字のセットは、時間フィルタ６７０に供給され、テキストブロック毎に最終的な文字のセットが決定される。７５０において、図形処理ユニット６８０は、ディスプレーに出力するための最終的な文字のセットを受信し、該最終的な文字のセットがディスプレーに表示される。

図８は、本開示の一実施形態に従って、受信された画像のオブジェクトを識別するための、図７における７２０のさらに詳細なフローチャートを示す。８１０において、複数のオブジェクトを識別する所定のパターンのデータベースがクライアントントデバイス１１０に格納され、オブジェクト認識ユニット６２０にアクセス可能である。８２０において、オブジェクト認識ユニット６２０は、撮像ユニット６１０からの撮像された画像を受信し、オブジェクトを識別できる画像からパターンを抽出する。一般的に、ロゴおよび／または特徴点のセットのようなパターンは、オブジェクト（例えば、クレジットカードの発行銀行）の供給元によってあらかじめ決められ、かつ同じ種類のオブジェクト上に設けられる。したがって、所定のオブジェクトのパターンは、異なる種類の別のオブジェクトのそれらとは一般的に異なる。

いくつかの実施形態において、所定のパターンは、データベースが構築されるとき、オブジェクトの種類に特有である参照オブジェクトの一部分から抽出されることができる。特に、参照オブジェクトの一部は、逆マスク領域に設置されることができる。該逆マスク領域は、テキストブロックが設置されていない参照オブジェクト内の領域を指す。このようにして、所定のパターンは、オブジェクトの逆マスク領域から抽出され、複数の参照オブジェクトに関連したデータベースを構築することができる。

オブジェクトの識別中、オブジェクトの任意の領域をパターンの一部分として抽出することができる。テキストブロックを含むマスク領域内のパターンがオブジェクト画像から抽出されるとき、それらは、オブジェクトを識別する際に考慮される必要がない。なぜなら、所定のパターンは、オブジェクトの逆マスク領域から抽出され、この領域には、テキストブロックが設置されていないからである。すなわち、このようなマスク領域は、オブジェクトを識別するために役立つ任意のパターンを含まないとみなすことができる。したがって、オブジェクトを識別する際の正確さが改善されるのと同時に、処理時間を減らすことができる。

抽出されたパターンが与えられると、オブジェクト認識ユニット６２０は、８３０において、抽出されたパターンに一致する所定のパターンをパターンデータベースから識別する。具体的には、抽出されたパターンを、データベース内の所定のパターンと比較することにより所定のパターンが決定される。８４０において、オブジェクト認識ユニット６２０は、一致する所定のパターンに基づいて、パターンデータベースから、受信画像内のオブジェクトを識別する。８５０において、識別されたオブジェクトに関する情報は次にサーバ１２０に供給され、サーバ１２０は識別されたオブジェクトの構成情報をクライアントデバイス１１０に送信する。

他の実施形態において、パターンデータベースは、オブジェクトデータベース１４０内に設けてもよい。図９は、本開示の他の実施形態に従う、オブジェクトデータベース１４０にアクセスすることにより受信された画像のオブジェクトを識別するための、図７の７２０のさらに詳細なフローチャートを示す。９１０において、所定のパターンがオブジェクトデータベース１４０内に格納される。該オブジェクトデータベース１４は、クライアントデバイス１１０またはサーバ１２０に格納されることができる。９２０において、オブジェクトの画像におけるパターンは、図８の８２０のステップと同様な方法で、オブジェクト認識ユニット６２０によって、オブジェクトの一部分（例えば、逆マスク領域）から抽出される。この場合、オブジェクト認識ユニット６２０は、９３０において、オブジェクトデータベース１４０から、抽出されたパターンに対応する所定のパターンを取得する。

所定のパターンに基づいて、オブジェクト認識ユニット６２０は、９４０において、受信された画像内のオブジェクトを識別する。識別されたオブジェクトに関する情報は次にサーバ１２０に供給される。サーバ１２０は、識別されたオブジェクトの構成情報をクライアントデバイス１１０に送信する。クライアントデバイス１１０は次に、識別されたオブジェクトの構成情報を、クライアントデバイス１１０に格納されたオブジェクトデータベース１４０から取得する。一方、オブジェクトデータベース１４０がサーバ１２０に格納される場合、オブジェクト認識ユニット６２０は、識別されたオブジェクトをサーバ１２０に供給し、識別されたオブジェクトに関連する構成情報をサーバ１２０から受信する。図８および９は、単一画像からオブジェクトを識別することを記載するが、オブジェクト認識ユニット６２０はまた、複数の受信された画像からオブジェクトを識別するように構成することもできる。

別の方法として、オブジェクトは、ユーザ入力に基づいて識別可能である。この場合、オブジェクト認識ユニット６２０は、クライアントデバイス１１０に設けられたユーザーインターフェース（図示せず）を介するユーザ入力にしたがってオブジェクトを識別する。一実施形態において、オブジェクト認識ユニット６２０は、入手可能なオブジェクトのリストを備えることができ、その結果ユーザは、ユーザーインターフェースを介してオブジェクトの１つを選択することができる。したがって、オブジェクト認識ユニット６２０は、受信された画像からパターンを抽出するのに必要な処理なしで受信画像内オブジェクトを正確に識別することができる。

一度受信された画像のオブジェクトが識別されると、画像を処理してテキストブロックを識別することができる。図１０は、本開示の一実施形態にしたがう、オブジェクト内のテキストブロックを識別するための７３０のさらに詳細なフローチャートを示す。１０１０において、クライアントデバイス１１０は、オブジェクトデータベース１４０から識別されたオブジェクトに関する構成情報を受信する。構成情報は、オブジェクトのサイズ情報（例えば、アスペクト比、実際のサイズなど）、オブジェクトにおけるテキストブロックの位置情報、テキストブロックの文字フォーマットなどを含む。オブジェクトデータベース１４０が、サーバ１２０に格納される場合、受信された構成情報は、オブジェクト内のテキストブロックを識別かつ認識する際に使用するために、クライアントデバイス１１０内のメモリ（図示せず）に記憶することができる。例えば、境界検出器６３０、修正ユニット６４０、マスキングユニット６５０、およびＯＣＲエンジン６６０は、クライアントデバイス１１０内のメモリから、該構成をアクセスすることができる。

１０２０において、境界検出器６３０は、コーナーおよびエッジのようなオブジェクト領域内の境界特徴を決定することによって、各画像内のオブジェクトの境界を検出する。１０３０において、各画像内のオブジェクトの検出された境界を検証し、境界特徴、撮像に使用した焦点距離、およびオブジェクトのアスペクト比に基づいて、境界が正しく識別されたか否かを検証することができる。オブジェクトの識別された境界内のオブジェクト画像のそれぞれは、オブジェクト画像内のテキストブロックを識別するためにマスキングユニット６５０に供給されることができる。マスキングユニット６５０は、１０４０において、オブジェクト内のテキストブロックの位置情報を受信し、オブジェクトの各受信された画像における各テキストブロックを識別する。いくつかの実施形態において、テキストブロックを識別する前に、修正ユニット６４０は、構成情報の一部として受信されたオブジェクトのアスペクト比に一致するように各画像内のオブジェクト領域を修正することができる。

図１１および図１２は、一実施形態に従う、クレジットカード３００の、それぞれオブジェクト画像１１００および１２００から検出されたオブジェクト境界１１１０および１２１０を示す。図１１において、クレジットカード３００の検出された境界１１１０は、オブジェクト３００の境界に一致しないので不正確に識別される。この場合、境界検出器６３０は、検出された境界を破棄し、クレジットカード３００の他のオブジェクト画像から、クレジットカード３００の境界を検出することができる。したがって、もしクレジットカード３００の１つの画像から境界が不正確に識別されたなら、境界は他の画像から検出することができる。このような境界検出は、正確な境界が検出されるまで繰り返されることができる。図１２は、クレジットカード３００の検出された境界１２１０が、オブジェクト３００の実際の境界に一致する正確な境界検出の場合を示す。

図１３は、本開示の一実施形態に従う、受信された画像１３１０内の４つの点ａ、ｂ、ｃ、およびｄを有するオブジェクト領域１３２０の検出された境界１３３０と４つの点Ａ、Ｂ、Ｃ、およびＤを有する長方形オブジェクト１３４０の実際の境界との間の関係を示す図である。オブジェクト領域１３２０は、透視歪を有するように示される。この透視歪は、撮像する際に、オブジェクトに対してカメラが平行に配列されていないことにより生じ得る。図示されるように、点ａ、ｂ、ｃ、およびｄは、オブジェクト領域１３２０の検出された境界１３３０の４つの端点に対応する。カメラの基準原点１３００（例えば、カメラの中央）から、複数の線がそれぞれ、点ａ、ｂ、ｃ、およびｄを通って、点Ａ、Ｂ、Ｃ、およびＤに投影されている。この場合、点Ａ、Ｂ、Ｃ、およびＤは、オブジェクトの長方形１３４０の４つの端点を定義する。オブジェクト領域１３２０の検出された境界１３３０における４つの端点ａ、ｂ、ｃ、およびｄの座標（ｘ_１、ｙ_１）、（ｘ_２、ｙ_２）、（ｘ_３、ｙ_３）、および（ｘ_４、ｙ_４）、およびカメラの焦点距離ｆを用いて、４つの端点ａ、ｂ、ｃ、およびｄの座標は次の通り三次元の座標で表されることができる。

図示されたように、長方形１３４０のベクトル

は、カメラの基準原点１３００、端点ａ、ｂ、ｃ、およびｄで構成される検出された境界１３３０、および端点Ａ、Ｂ、Ｃ、およびＤで構成される長方形１３４０の間の幾何学的関係に基づいて下記の通り計算されることができる。

さらに、長方形オブジェクト１３４０における点ＡおよびＢを通過する線の式は、下記の通り、パラメータｔ_１を用いて表される。

ここで、点Ａの座標は、Ｏａに設定することができる。これは、その実際のサイズよりむしろ点Ａ、Ｂ、Ｃ、Ｄを構成する長方形のアスペクト比が計算されるので、実質的な相違を生じることなく地点ａの座標に等しい。さらに、ベクトル

は、式［５］および［８］にしたがって計算されることができる。同様に、パラメータｔ_２を有する長方形１３４０における線ＡＤの式は下記の通り表されることができる。

ここで、点Ａの座標はまた、上述した通りＯ_ａに設定されることができ、またベクトル

は、式［６］および［１０］にしたがって計算されることができる。

地点ｂおよびｄの２次元座標はそれぞれ、下記の通り、パラメータｔ_１およびｔ_２を構成する式［７］および［９］の座標に関して表されることができる。

上記の式［９］乃至［１２］にしたがって、未知の数ｔ_１およびｔ_２が決定されることができ、ＢおよびＤの座標を得ることができる。座標Ａ、Ｂ、およびＤの計算された座標を用いて、

のアスペクト比を計算することができる。したがって、もし計算されたアスペクト比とオブジェクトデータベース１４０から受信された実際のアスペクト比の間の差異が閾値以内である場合、境界検出器６３０は、修正すべき検出された境界を検証することができる。

境界が検出かつ検証された後、境界検出器６３０は、オブジェクト画像の検出された境界内に位置するオブジェクトの画像を抽出することができる。このような画像はオブジェクト画像のオブジェクト領域に対応する。いくつかの実施形態において、抽出された画像は、オブジェクト領域を修正する修正ユニット６４０に供給される。例えば、修正ユニット６４０は、サーバ１２０からのオブジェクトのアスペクト比のような構成情報を受信し、オブジェクトのアスペクト比に一致するオブジェクト領域を変形することによってオブジェクト領域を修正することができる。

オブジェクトの各画像におけるオブジェクト領域が修正された後、修正された画像は処理されて、修正された画像における１つまたはそれ以上のテキストブロックを識別する。図１４は、本開示の１つの実施例にしたがって、識別可能なテキストブロック１４２０、１４３０、１４４０を有する検証された境界１４１０内のクレジットカード３００の画像１４００を図示する。この場合、マスキングユニット６５０は、クレジットカード画像１４００内のテキストブロック１４２０、１４３０、１４４０の位置情報を受信する。例えば、位置情報は、テキストブロック１４２０、１４３０、１４４０の幾何学的な位置およびサイズを含むことができる。位置情報に基づいて、マスキングユニット６５０は次に、認識され得るクレジットカード３００の画像１４００内のテキストブロック１４２０、１４３０、および１４４０を識別する。識別されたテキストブロック１４２０、１４３０、１４４０を有するクレジットカード３００のこのような画像１４００は、テキストブロック１４２０、１４３０、１４４０の文字認識のためのＯＣＲエンジン６６０に供給されることができる。

図１５は、一実施形態に従う、オブジェクトの複数の画像内の対応するテキストブロックの暫定的な文字のセットに基づいて、オブジェクト内のテキストブロック内の文字のセットを決定するための、図７の７４０のさらに詳細なフローチャートを示す。ＯＣＲエンジン６６０は、各々が識別されたテキストブロックを有する、オブジェクトの複数の画像を、マスキングユニット６５０から最初に受信する。さらに、ＯＣＲエンジン６６０は、１５１０において、サーバ１２０またはクライアントデバイス１１０から、オブジェクトのテキストブロック内の文字のセットに関するフォーマット情報を受信する。例えば、フォーマット情報は、テキストブロック内の、数字、配置、文字の種類、文字の言語などのようなテキストブロックの文字フォーマットを含む。

ＯＣＲエンジン６６０は、１５２０において、フォーマット情報に基づいて、オブジェクト画像におけるテキストブロックのそれぞれを認識し、暫定的な文字のセットを生成する。一実施形態において、暫定的な文字のセットは、ホリスティックな方法(a holistic method)に基づいて生成される。ホリスティックな方法とは、オブジェクト内の１つのテキストブロック内の各単語を全体として認識することを指す。他の実施形態において、暫定的な文字のセットは、テキストブロック内の各単語を個々の文字に分割し、次に単語内の各文字を認識するセグメントベースの方法に基づいて生成される。全体論的な方法およびセグメントベースの方法は、共に、受信されたフォーマット情報に基づいて、オブジェクト画像内のテキストブロック内の暫定的な文字のセットを生成することができる。１５３０において、時間フィルタ６７０は、図１６乃至１９を参照して詳細に説明されるように、ＯＣＲエンジン６６０から、テキストブロックに関する暫定的な文字のセットを受信し、その後、受信した暫定的な文字のセットに基づいて、オブジェクト内のテキストブロックに関する文字のセットを推測する。

図１６は、本開示の１つの実施例にしたがって、オブジェクトの複数の画像におけるテキストブロックから生成された暫定的な文字のセットに基づいて、オブジェクトのテキストブロックにおける文字のセットを決定するための時間フィルタ６７０のブロック図を示す。時間フィルタ６７０は、バッファ１６１０、テキスト推測ユニット１６３０、およびテキスト表示ユニット１６５０を含む。バッファ１６１０は、ＯＣＲエンジン６６０から受信される複数のオブジェクト画像内のテキストブロックから生成された暫定的な文字のセットを記憶する。暫定的な文字のセットに基づいて、テキスト推測ユニット１６３０は、オブジェクト内のテキストブロックに関する文字のセットを決定する。テキスト表示ユニット１６５０は、テキスト推測ユニット１６３０によって認識されたテキストブロックにおける文字のセットを受信する。該文字のセットは、図形処理ユニット６８０に供給されオブジェクト内のテキストブロックに関する文字のセットをディスプレー上に表示する。時間フィルタ６７０は、テキストブロックに関する文字のセットを決定するが、オブジェクトは、複数のテキストブロックを含むことができ、テキストブロック毎に、対応する暫定的な文字のセットから文字のセットを決定することができる。すなわち、時間フィルタ６７０は、オブジェクト画像内のテキストブロックに対応する暫定的な文字のセットから、オブジェクト内のテキストブロック毎に文字のセットを決定することができる。

いくつかの実施形態において、オブジェクトのサンプル画像の数は、テキストブロックの認識の際の正確性を高めるために増加されることができる。この場合、テキスト推測ユニット１６３０は、撮像ユニット６１０にリクエストを送ってオブジェクトの追加の画像を取得し、それにより、オブジェクト内のテキストブロックに関する暫定的な文字のセットをＯＣＲエンジン６６０から生成することができる。このプロセスは、テキストブロック内の所望の精度が得られるまで継続することができる。

テキスト推測ユニット１６３０は、バッファ１６１０に記憶された暫定的な文字のセット内の各文字または単語に関する発生頻度に基づいて、１文字単位または１単語単位でテキストブロック内の文字のセットを推測することができる。さらに、テキストブロック内の文字の鮮明度、あるいは暫定的な文字のセット内の識別された文字または単語の類似度値のような、暫定的な文字のセットのそれぞれの信頼水準は、文字のセットを推測するために考慮することができる。

図１７は、本開示の一実施形態にしたがって、ある期間にわたって撮像された複数のオブジェクト画像１７００、１７０２、および１７０４から、クレジットカード３００内の例示的なテキストブロック３０４内の文字のセット１７１８を推測する図を表す。初めに、ＯＣＲエンジン６６０は、連続して、または並行して複数のクレジットカード画像１７００、１７０２、および１７０４を受信する。オブジェクト画像１７００、１７０２、および１７０４のそれぞれに関して、ＯＣＲエンジン６６０は、テキストブロック１７０６、１７０８、および１７１０に関する暫定的な文字のセット１７１２、１７１４、および１７１６をそれぞれ生成する。このプロセスにおいて、暫定的な文字のセット１７１２、１７１４、および１７１６は、図５に示されるように、テキストブロック３０４内の文字の種類、テキストブロック３０４内の文字の配置、およびテキストブロック３０４内の文字数のような文字フォーマット情報を用いて生成される。

いくつかの実施形態において、暫定的な文字のセット１７１２、１７１４、および１７１６は上述したように、全体論的な方法またはセグメントベースの方法に基づいて生成される。全体論的な方法にしたがって、例えば、テキストブロック１７０６における「１２３４」、「５６７８」、「９８７６」、および「５４３２」のような複数の単語は、単語単位で認識されかつ結合されて、暫定的な文字のセット１７１２を形成する。一方、セグメントベースの方法では、各暫定的な文字のセット１７１２、１７１４、および１７１６は、テキストブロック１７０６、１７０８、または１７１０をそれぞれ個々の文字（例えば、１、２、３など）に分割しかつ各文字を個々に認識することによって生成される。

複数の暫定的な文字のセット１７１２、１７１４、および１７１６は、次に時間フィルタ６７０内のテキストブロック３０４に関する最終的な文字のセット１７１８を推測するために使用される。時間フィルタ６７０は、ＯＣＲエンジン６６０および暫定的な文字のセット１７１２、１７１４、および１７１６のそれぞれの信頼水準から、暫定的な文字のセット１７１２、１７１４、および１７１６を受信する。テキストブロック３０４に関する最終的な文字のセット１７１８は次に、暫定的な文字のセット１７１２、１７１４、および１７１６に基づいて、文字単位または単語単位で推測される。文字ベースの方法において、例えば、最終的な文字のセット１７１８の第１文字（例えば、数字）は、それぞれ暫定的な文字のセット１７１２、１７１４、および１７１６における一番目の文字「１」、「４」、「１」に基づいて推測されることができる。最終的な文字のセット１７１８における別の文字は、暫定的な文字のセット１７１２、１７１４、および１７１６における対応する位置における文字に基づいて同様の方法で決定されることができる。単語ベースの方法では、テキストブロック３０４に関する最終的な文字のセット１７１８の１番目の単語は、暫定的な文字のセット１７１２、１７１４、および１７１６における１番目の単語「１２３４」、「４２３４」、「１２３４」に基づいて推測される。同様の方法により、最終的な文字のセット１７１８における別の単語は、暫定的な文字のセット１７１２、１７１４、および１７１６における対応する位置における単語から推測される。いくつかの実施例において、最終的な文字のセット１７１８は、下記でさらに詳しく説明されるように、暫定的な文字のセット１７１２、１７１４、および１７１６の信頼水準および／または暫定的な文字のセット１７１２、１７１４、および１７１６における単語または文字の発生数に基づいて推測されることができる。３つの暫定的な文字のセット１７１２、１７１４、および１７１６は、最終的な文字のセット１７１８を推測するために例示されるが、３つよりも多いまたはそれ未満の暫定的な文字のセットが、オブジェクトにおけるテキストブロックにおける文字のセットを決定するために使われることができる。

図１８は、本開示の１つの実施例にしたがって、文字単位ベースで、クレジットカード３００内のテキストブロック３０４に関する最終的な文字のセット内の文字を推測する際に使用する暫定的な文字群の複数のセット１８１０、１８２０、１８３０、１８４０、１８５０、１８６０、および１８７０を示す。図示するように、暫定的なセット１８１０乃至１８７０内の文字は、テキストブロック３０４内のそれらの位置にしたがって、複数のグループ１８００、１８０２、１８０４、および１８０６にグループ分けされる。例えば、グループ１８００は、暫定的な文字のセット１８１０乃至１８７０内の１番目の文字群からなる。同様に、グループ１８０２、１８０４、および１８０６は、それぞれ、暫定的なセット１８１０乃至１８７０内の２番目、３番目、および４番目の文字群を含む。

同じ位置内の文字のグループ分けに基づいて、オブジェクト内のテキストブロックに関する１つの文字が、オブジェクトの複数の画像の複数のテキストブロック内の暫定的な文字のセット内の各位置における文字の発生頻度から推測される。例えば、１番目の文字グループ１８００において、テキスト推測ユニット１６３０は、テキストブロック３０４に関する１番目の文字は、「１」の発生が、暫定的な文字群１８１０乃至１８７０内の１番目の文字の位置における任意の他の文字群のそれより大きいので、「１」であると推測する。

さらに正確さを確実にするために、テキスト推測ユニット１６３０は、ある位置におけるある文字の発生頻度が、所定の閾値（例えば、３）を超える時、１つの文字のみを推測するように構成してもよい。１番目の文字グループ１８００の場合、文字「１」の発生頻度は４であり、したがって、文字「１」がテキストブロック３０４における１番目の文字であると決定される。所定の閾値を超えなかった場合、テキスト推測ユニット１６３０は、クレジットカード３００の追加の画像を取得するための要求を、撮像ユニット６１０に送るように構成してもよい。一度、新しい暫定的な文字のセットが追加のオブジェクト画像に基づいて発生されると、テキスト推測ユニット１６３０は、新しい暫定的な文字のセットを含む新しい暫定的な文字のセット群に基づいて、テキストブロック３０４に関する最終的な文字のセットに関する文字群を推測する。

いくつかの実施例において、１オブジェクト内の１テキストブロックに関する文字の１セット内の１つの文字は、１つの暫定的な文字の信頼水準並びにオブジェクトの複数の画像からの複数のテキストブロック内の複数の暫定的な文字のセット内の対応する位置における発生頻度に基づいて推測される。例えば、１番目の文字グループ１８００において、１番目の文字群「４」、「４」、および「４」の信頼水準信頼水準の平均値（例えば、９０）は、１番目の文字群「１」、「１」、「１」、および「１」のそれ（例えば、６０）よりも高い可能性がある。この場合、テキスト推測ユニット１６３０は、信頼水準に１番目の文字「４」の発生数を乗算した信頼水準平均が、１番目の文字「１」（例えば、９０×３＝２７０＞６０×４＝２４０）のそれより大きいので、１番目の文字が「４」であると推測する。したがって、テキストブロック３０４の１番目の文字に関する推測過程は、そのテキストブロック３０４内の他の文字群のそれぞれに適用可能である。さらに、、クレジットカード３００内の他のテキストブロック群３０６および３０８内の文字群は、同様の方法で、複数のオブジェクト画像から認識された暫定的な文字群の複数のセットから推測されることができる。

図１９は、本開示の別の実施例にしたがって、単語単位ベースで、クレジットカード３００内のテキストブロック３０４に関する最終的な文字のセット内の複数の単語を推測する際に使用するための暫定的な文字群の複数のセット１９１０、１９２０、１９３０、１９４０、１９５０、１９６０および１９７を示す。図示するように、暫定的な複数のセット１９１０乃至１９７０内の単語群は、テキストブロック３０４内のそれらの位置にしたがって、複数のグループ１９００、１９０２、１９０４、および１９０６にグループ分けされる。例えば、グループ１９００は、暫定的な文字群の複数のセット１９１０乃至１９７０内の１番目の単語からなる。同様に、グループ１９０２、１９０４、および１９０６は、それぞれ暫定的な複数のセット１９１０乃至１９７０内の２番目、３番目、および４番目の単語を含む可能性がある。

同じ複数の位置内の複数の単語のグループ分けに基づいて、オブジェクト内の１つのテキストブロックに関する１つの単語が、オブジェクトの複数の画像の複数のテキストブロック内の暫定的な文字群の複数のセット内の各位置内の単語の発生頻度から推測される。例えば、１番目の単語グループ１９００では、、テキスト推測ユニット１６３０は、テキストブロック３０４に関する１番目の単語が「１２３４」であると推測する。なぜなら、「１２３４」の発生頻度は、暫定的な単語群１９１０乃至１９７０内の１番目の文字の位置内の任意の他の単語のそれより多いからである。この場合、もし発生頻度に関する所定の閾値を超えなかった場合、テキスト推測ユニット１６３０は、撮像ユニット６１０にリクエストを送って、クレジットカード３００の追加の画像を取得するように構成されることができる。この場合、新しい暫定的な文字群の複数のセットは、追加のオブジェクト画像から生成され、かつテキストブロック３０４に関する最終的な文字群のセットに関する複数の単語を推測するために利用される。

いくつかの実施例において、オブジェクト内の１つのテキストブロックに関する文字群の１セット内の１単語はまた、１つの暫定的な文字群のセットの信頼水準に基づいて推測される。例えば、１番目の単語グループ１９００において、「４２３４」の信頼水準の平均値が、「１２３４」のそれより高いと決定され得る。いくつかの場合において、「１２３４」の発生頻度が１番目の単語「４２３４」のそれより高いとしても、テキスト推測ユニット１６３０は、「４２３４」の信頼水準の平均値が「１２３４」のそれらより高いので、文字群のセット内の１番目の単語が、「４２３４」であると推測することができる。したがって、テキストブロック３０４の１番目の単語に関する推測工程は、テキストブロック３０４内の別の単語のそれぞれに適用されることができる。加えて、クレジットカード３００内の別のテキストブロック群３０６および３０８内の複数の単語は、同様の方法で、複数のオブジェクト画像から認識された暫定的な文字のセット群から推測されることができる。

一度オブジェクト内の各テキストブロック内の文字群の１つの最終的なセットが推測されると、文字群のセットは、ユーザによって検証され得る認識結果としてディスプレー上に表示されることができる。図２０は、本開示の１つの実施形態にしたがって、ユーザによって、ディスプレー上に表示された認識結果を検証するための、図７における７５０のさらに詳細なフローチャートである。２０１０において、図形処理ユニット６８０は、時間フィルタ６７０内のテキスト表示ユニット１６５０から、テキストブロック内の文字群の最終的な１のセットを受信する。２０２０において、図形処理ユニット６８０は、認識結果として文字群を表示するディスプレーに文字群の最終的な１のセットを送る。１つの実施形態において、各テキストブロックに関する最終的な文字群のセット内の１文字または１単語が、テキスト推測ユニット１６３０によって決定されるときはいつでも、決定された１文字または１単語は、図形処理ユニット６８０を介してその決定された１文字または１単語を表示するためにディスプレーに供給される。さらに、テキスト推測ユニット１６３０は、オブジェクトの新しく取得された画像を用いて生成された暫定的な文字群の１セットに基づいて、その文字群のセットに関する新しい推測を行うことによって、オブジェクト内の各テキストブロックに関する文字群または単語群を更新し、該更新された認識情報を表示のために供給することができる。このような更新工程は、オブジェクト内の各テキストブロックに関する文字群のセット内のすべての文字が認識され、ディスプレーに表示されるまで行われることができる。２０３０において、ディスプレー上に表示された認識結果は次に、ユーザによって検証される。もし認識結果がユーザによって検証されない場合、オブジェクトの追加の画像は、ユーザがその結果を最終的に検証するまでテキストブロックの認識のために取得されることができる。

図２１は、本開示の１実施形態にしたがって、ディスプレー上のクレジットカード３００に関する中間認識結果を表示する図２１００を示す。図示するように、複数のブロック２１１０、２１２０、および２１３０は、それぞれテキストブロック３０４、３０６、および３０８に関する中間認識結果を含む。この場合、中間認識結果は、１つまたはそれ以上の非認識文字を含み、非認識文字のそれぞれは、文字が認識中か、または文字を推測できないことを示すアスタリスク（例えば「＊」）として示される。非認識文字に関する文字が認識されかつ表示されるにしたがって、アスタリスクは認識文字に変更されることができる。このように、暫定的な認識結果は、テキストブロック３０４、３０６、および３０８におけるすべての文字が認識されるまで表示かつ更新されることができる。

図２２は、１実施形態にしたがって、ディスプレー上のクレジットカード３００に関する最終的な認識結果を表示する図２２００を示す。複数のブロック２２１０、２２２０、および２２３０はすべてが認識されたテキストブロック３０４、３０６、および３０８内の文字を含む。この場合、ユーザは、最終的な認識結果が、テキストブロック３０４、３０６、および３０８内の実際の文字群と比較して正しいかどうかを検証することができる。

図２３は、無線通信システムにおける例示的なモバイル装置２３００の構成を示す。モバイル装置２３００の構成は、クライアント装置１１０および２１０において実施されることができる。モバイル装置２３００は、セルラ式電話(cellular phone)、端末、ハンドセット、パーソナルデジタルアシスタント（ＰＤＡ）、無線モデム(wireless modem)、コードレス電話などであり得る。無線通信システムは、符号分割多元接続（ＣＤＭＡ）システム(Code Division Multiple Access)、グローバルシステムフォーモバイルコミュニケーション（ＧＳＭ（登録商標））（Global System for Mobile Communications)システム、広帯域ＣＤＭＡ（ＷＣＤＭＡ（登録商標））システム、ＬＴＥ(Long Term Evolution)システム、ＬＴＥアドバンストシステムなどであり得る。さらに、モバイル装置２３００は、例えば、Ｗｉ―Ｆｉダイレクト、ブルートゥース（登録商標）(Bluetooth（登録商標）)、またはフラッシュリンク(FlashLinq)テクノロジーを用いて、別のモバイル装置と直接通信することができる。

モバイル装置２３００は、受信パスおよび送信パスを介して双方向通信を提供することができる。受信パス上で、基地局によって送信された信号は、アンテナ２３１２によって受信され、受信機（ＲＣＶＲ）２３１４に提供される。

受信機２３１４は、受信された信号を調整およびデジタル化し、更なる処理のために、該調整およびデジタル化された信号のようなサンプルをデジタルセクションに提供する。送信パス上で、送信機（ＴＭＴＲ）２３１６は、送信されるべきデータをデジタルセクション２３２０から受信し、そのデータを処理および調整し、基地局にアンテナ２３１２を介して送信される変調された信号を生成する。受信機２３１４および送信機２３１６は、ＣＤＭＡ、ＧＳＭ、ＬＴＥ、ＬＴＥアドバンストなどをサポートすることができる送受信機の一部であり得る。

デジタルセクション２３２０は、例えば、モデムプロセッサ２３３２、縮小された命令設定コンピュータ／デジタルシグナルプロセッサ（ＲＩＳＣ／ＤＳＰ）２３２４、コントローラ／プロセッサ２３２６、内部メモリ２３２８、一般化された音声符号器１３３２、一般化された音声復号器２３３４、グラフィックス／ディスプレープロセッサ２３３６、および外部バスインタフェース（ＥＢＩ）２３３８のような様々な処理、インターフェース、および記憶ユニットを含む。モデムプロセッサ２３２２は、データ送受信に関する処理、例えば、符号化、変調、復調、復号を行うことができる。ＲＩＳＣ／ＤＳＰ２３２４は、モバイルデ装置２３００に関する一般的および専門的な処理を行うことができる。コントローラ／プロセッサ２３２６は、デジタルセクション２３２０内の様々な処理およびインタフェースユニットの操作を行うことができる。内部メモリ２３２８は、デジタルセクション２３２０内の様々なユニットに関するデータおよび／または命令を記憶することができる。

一般化された音声符号器２３３２は、音声ソース２３４２、マイクロフォン２３４３などからの入力信号を符号化することができる。一般化された音声復号器２３３４は、符号化された音声データを復号化することができ、スピーカ／ヘッドセット２３４４に出力信号を供給することができる。図形／ディスプレープロセッサ２３３６は、ディスプレーユニット２３４６に表示され得るテキスト、画像、ビデオ、および図形に関する処理を行うことができる。ＥＢＩ２３３８は、デジタルセクション２３２０と主要メモリ２３４８との間のデータの転送を容易にすることができる。

デジタルセクション２３２０は、１つまたはそれ以上のプロセッサ、ＤＳＰｓ、マイクロプロセッサ、ＲＩＳＣｓなどと共に実行されることができる。デジタルセクション２３２０はまた、１つまたはそれ以上の特定用途向け集積回路（ＡＳＩＣｓ）および／またはその他の種類の集積回路（ＩＣｓ）上で組み立てられることができる。

一般的に、ここで説明されたいかなる装置も、無線電話、セルラ式電話、ラップトップコンピュータ、無線マルチメディア装置、無線通信パーソナルコンピュータ（ＰＣ）カード、ＰＤＡ、外部または内部モデム、無線チャンネルを介して通信する装置などの様々な種類の装置を表すことができる。装置は、アクセス端末（ＡＴ）、アクセスユニット、加入者ユニット、モバイルステーション、モバイル装置、モバイルユニット、モバイル電話、モバイル、遠隔ステーション、遠隔端末、遠隔ユニット、ユーザ装置、ユーザ機器、ハンドヘルド装置などのような様々な名前を有することができる。ここで記述されたいずれの装置も、ハードウェア、ソフトウェア、ファームウェア、またはそれらの組み合わせと同様に命令およびデータを記憶するためのメモリを有することができる。

ここで説明された技術は様々な手段によって実行されることができる。例えば、これらの技術は、ハードウェア、ファームウェア、ソフトウェア、または、それらの組み合わせにおいて実行されることができる。当業者はさらに、ここでの開示と関連して説明されている様々な例示的な論理ブロック、モジュール、回路、アルゴリズムステップが、電子ハードウェア、コンピュータソフトウェアまたは両方の組み合わせとして実行されることができることを理解するであろう。ハードウェアとソフトウェアのこの互換性を明確に示すために、様々な例示的なコンポーネント、ブロック、モジュール、回路、およびステップが、一般的に、それらの機能性という観点から上記で説明されている。このような機能性が、ハードウェアまたはソフトウェアとして実施されるかどうかは、特定のアプリケーションおよびシステム全体に課された設計制約とに依存する。当業者は、各特定のアプリケーションに関して様々な方法で説明された機能性を実施することができるが、そのような実施の決定は、本開示の範囲からの逸脱をもたらすように解釈されるべきではない。

ハードウェアの実行に関して、技術を実行するために使用される処理ユニットは、１つまたはそれ以上のＡＳＩＣｓ、ＤＳＰｓ、デジタル信号処理デバイス（ＤＳＰＤｓ）、プログラム可能な論理デバイス（ＰＬＤｓ）、フィールドプログラム可能ゲートアレイ（ＦＰＧＡｓ）、プロセッサ、コントローラ、マイクロ―コントローラ、マイクロプロセッサ、電子装置、ここで記述された機能を実行するために設計された別の電子ユニット、コンピュータ、または、それらの組み合わせの範囲で実行されることができる。

従って、ここでの開示と関連して記述された様々な例示的な論理ブロック、モジュール、および回路は、汎用のプロセッサ、ＤＳＰ、ＡＳＩＣ、ＦＰＧＡまたは他のプログラム可能論理デバイス、ディスクリートゲートまたはトランジスタ論理、ディスクリートハードウェアコンポーネント、またはここで記述された機能を実行するために設計されたそれらのいずれかの組み合わせと共に実行または実施されることができる。汎用プロセッサはマイクロプロセッサであり得るが、代わりに、プロセッサは、従来のプロセッサ、コントローラ、マイクロコントローラ、またはステートマシンのいずれかであり得る。プロセッサはまた、コンピュータデバイスの組み合わせ、例えば、ＤＳＰとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサ、ＤＳＰコアとともに１つまたはそれ以上のマイクロプロセッサ、またはこのような構成のいずれか別のものとして実施されてもよい。

ファームウェアおよび／またはソフトウェアの実施に関して、技術は、ランダムアクセスメモリ（ＲＡＭ）、読出し―専用メモリ（ＲＯＭ）、不―揮発性ランダムアクセスメモリ（ＮＶＲＡＭ）、プログラム可能読出し―専用メモリ（ＰＲＯＭ）、電気的消去可能ＰＲＯＭ（ＥＥＰＲＯＭ（登録商標））、フラッシュメモリ、コンパクトディスク（ＣＤ）、磁気または光学データ記憶デバイスなどのようなコンピュータ―可読媒体に記憶される命令として具体化されることができる。命令は、１つまたはそれ以上のプロセッサによって実行可能であり、かつプロセッサ（１つまたは複数の）に、ここで記述された機能性の特定の観点を実行させることができる。

ソフトウェアにおいて実施される場合、この機能は、コンピュータ可読媒体上の１つまたはそれ以上の命令またはコードとして記憶または送信されることができる。コンピュータ可読媒体は、ひとつの場所から別の場所へのコンピュータ・プログラムの転送を容易にするいずれかの媒体を含む通信媒体とコンピュータ記憶媒体との両方を含む。記憶媒体は、コンピュータによってアクセスされ得るいずれかの利用可能な媒体であり得る。限定ではなく例として、このようなコンピュータ可読媒体は、命令またはデータ構造の形式における所望のプログラムコードを搬送または記憶するために使用されることができ、かつコンピュータによってアクセスされることができるＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤ−ＲＯＭまたはその他の光ディスク記憶装置、磁気ディスク記憶装置またはその他の磁気記憶装置、またはいずれか別の媒体を備えることができる。また、いずれかの接続は、適切にはコンピュータ可読媒体と呼ばれる。例えば、もしソフトウェアが、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ）、または赤外線、無線、およびマイクロ波のような無線技術を使って、ウェブサイト、サーバ、もしくはその他の遠隔ソースから送信される場合、次にこの同軸ケーブル、光ファイバーケーブル、ツイストペア、ＤＳＬ、または赤外線、無線、およびマイクロ波のような無線技術は媒体の定義に含まれる。ディスク（ｄｉｓｋ）とディスク（ｄｉｓｃ）は、ここで使用されるように、ＣＤ、レーザーディスク（登録商標）、光ディスク、デジタル汎用ディスク（ＤＶＤ）、フロッピー（登録商標）ディスク、およびブルーレイディスクを含み、ここでディスク（ｄｉｓｋｓ）は通常、磁気的にデータを再生し、一方、ディスク（ｄｉｓｃｓ）はレーザを用いて、光学的にデータを再生する。上記の組み合わせもまた、コンピュータ―可読媒体の範囲に含まれるべきである。

ソフトウェアモジュールは、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハードディスク、リムーバブルディスク、ＣＤ−ＲＯＭ、または、当技術分野において周知の記憶媒体のいずれか別の形態に属することができる。例示的な記憶媒体は、プロセッサに結合されており、その結果、プロセッサは、記憶媒体から情報を読み取ったり、また記憶媒体に情報を書き込んだりすることができる。あるいは、記憶媒体はプロセッサに一体化されることができる。プロセッサおよび記憶媒体はＡＳＩＣに属することができる。ＡＳＩＣは、ユーザ端末に属することができる。あるいは、プロセッサおよび記憶媒体は、ユーザ端末に個別のコンポーネントとして属することができる。

本開示の先の説明は、本開示を使用、または行なうことを当業者に可能にするために提供される。本開示に対する様々な変更は、当業者にとって容易に明らかであろう、またここで定義された一般的な原理は、本開示の範囲または精神から逸脱することなくその他の変化に適用されることができる。従って、本開示は、ここに記述された例に制限されることを意図しないが、ここに開示された新規の特徴および原理と一致する最も広い範囲を許可されるべきである。

例示的な実施は、１つまたはそれ以上の独立型コンピュータシステムのコンテクストにおいて目下開示された主題の観点を利用することについて述べているが、主題はそのように限定されてはおらず、むしろネットワークまたは分散されたコンピュータ環境のように、いずれかのコンピュータ環境と関連して実施されることができる。またさらに、目下開示された主題の観点は、複数の処理チップまたは装置全体にわたって、またはそれらにおいて実施されることができ、記憶媒体は同様に複数の装置全体にわたって影響される。このような装置は、ＰＣｓ、ネットワークサーバ、およびハンドヘルドデバイスを含むことができる。

主題は構造的特徴及び／または方法論的動作に特有の言葉で記述されているが、添付の特許請求の範囲において定義された主題が、上述された特有の特徴または動作に対して必ずしも限定されないことが理解されるべきである。むしろ、上述された特定の特徴および動作は特許請求の範囲を実施する実施例の形態として開示される。

主題は構造的特徴及び／または方法論的動作に特有の言葉で記述されているが、添付の特許請求の範囲において定義された主題が、上述された特有の特徴または動作に対して必ずしも限定されないことが理解されるべきである。むしろ、上述された特定の特徴および動作は特許請求の範囲を実施する実施例の形態として開示される。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］オブジェクト内のテキストブロックを認識するための方法において、前記テキストブロックは、文字群のセットを有し、
前記オブジェクトの複数の画像を受信することと、ここにおいて、前記オブジェクトの各画像は、前記テキストブロックを含む、
前記オブジェクトの前記複数の画像内の前記複数のテキストブロックを識別することと、
前記オブジェクトの前記複数の画像内の前記識別された複数のテキストブロックに基づいて前記文字群のセットを決定することと
を備える方法。
［Ｃ２］前記文字群のセットを決定することは、
前記識別された複数のテキストブロックのそれぞれに関する、暫定的な文字群の１セットを生成することと、
前記暫定的な文字群の複数のセットに基づいて、前記文字群のセットを推測することと、を含む、Ｃ１の前記方法。
［Ｃ３］前記暫定的な文字群の複数のセットを生成することは、全体論的な方法に基づいて前記暫定的な文字群の複数のセットを生成することを含む、Ｃ２の前記方法。
［Ｃ４］前記暫定的な文字群の複数のセットを生成することは、セグメントベースの方法に基づいて前記暫定的な文字群の複数のセットを生成することを含む、Ｃ２の前記方法。
［Ｃ５］前記文字群のセットを推測することは、前記暫定的な文字群の複数のセットの信頼水準に基づいて、前記文字群のセットを推測することを含む、Ｃ２の前記方法。
［Ｃ６］前記文字群のセット内の１文字は、前記暫定的な文字群の複数のセット内の対応する位置における発生頻度に基づいて推測される、Ｃ５の前記方法。
［Ｃ７］前記文字群のセット内の前記文字は、前記発生頻度が所定の閾値を超える時、推測される、Ｃ６の前記方法。
［Ｃ８］前記暫定的な文字群のセットを生成することは、前記テキストブロック内の前記文字群のセットに関するフォーマット情報を受信することと、前記受信されたフォーマット情報に基づいて前記暫定的な複数の文字のセットを生成することとを含む、Ｃ２の前記方法。
［Ｃ９］前記複数のテキストブロックを識別することは、
前記オブジェクトの前記複数の画像の各々の前記オブジェクトの境界を検出することと、
前記オブジェクトの所定のサイズ情報に基づいて前記検出された境界を検証することと、
前記オブジェクトの前記テキストブロックの所定の位置情報に基づいて前記複数のテキストブロックを識別することと、を含む、Ｃ１の前記方法。
［Ｃ１０］前記検出された境界を検証することは、前記検出された境界が前記所定のサイズ情報と一致しない場合、前記オブジェクトの新しい画像を受信することを含む、Ｃ９の前記方法。
［Ｃ１１］参照オブジェクト画像の１部分から抽出された所定のパターンに基づいて前記オブジェクトの種類を決定することをさらに備え、前記所定のパターンが、前記オブジェクトの前記種類に特有である、Ｃ９の前記方法。
［Ｃ１２］前記オブジェクトの前記複数の画像は前記オブジェクトのビデオフレームを含む、Ｃ１の前記方法。
［Ｃ１３］前記決定された文字群のセットを表示することをさらに備える、Ｃ１の前記方法。
［Ｃ１４］オブジェクトにおけるテキストブロックを認識するための装置であって、前記テキストブロックは文字群のセットを有し、
前記オブジェクトの複数の画像を撮像するように構成された撮像ユニットと、ここにおいて、前記オブジェクトの各画像は前記テキストブロックを含む、
前記オブジェクトの前記複数の画像内の前記複数のテキストブロックを識別するように構成されたマスキングユニットと、
前記オブジェクトの前記複数の画像内の前記識別された複数のテキストブロックに基づいて前記文字群のセットを決定するように構成された時間フィルタと、を備える装置。
［Ｃ１５］前記識別された複数のテキストブロックのそれぞれに関する暫定的な文字群のセットを生成するように構成されたＯＣＲ（光学文字読取装置）エンジンをさらに備え、前記文字群のセットが、前記時間フィルタによって前記暫定的な複数の文字群のセットに基づいて推測される、Ｃ１４の前記装置。
［Ｃ１６］前記ＯＣＲエンジンは、全体論的な方法に基づいて前記暫定的な文字群のセットを生成するようにさらに構成される、Ｃ１５の前記装置。
［Ｃ１７］前記ＯＣＲエンジンは、セグメントベースの方法に基づいて前記暫定的な文字群のセットを生成するようにさらに構成される、Ｃ１５の前記装置。
［Ｃ１８］前記時間フィルタは、前記暫定的な文字群のセットの信頼水準に基づいて、前記文字群のセットを推測するようにさらに構成される、Ｃ１５の前記装置。
［Ｃ１９］前記文字群のセット内の１文字は、前記暫定的な複数の文字群のセット内の前記対応する位置における発生頻度に基づいて推測される、Ｃ１８の前記装置。
［Ｃ２０］前記文字群のセット内の前記文字は、前記文字の数が所定の閾値を超える時に推測される、Ｃ１９の前記装置。
［Ｃ２１］前記ＯＣＲエンジンは、前記テキストブロック内の前記文字群のセットに関するフォーマット情報を受信し、前記受信されたフォーマット情報に基づいて前記暫定的な文字群のセットを生成するようにさらに構成される、Ｃ１５の前記装置。
［Ｃ２２］前記オブジェクトの前記複数の画像のそれぞれにおける前記オブジェクトの境界を検出し、前記オブジェクトの所定のサイズ情報に基づいて前記検出された境界を検証するように構成された境界検出器をさらに備え、前記マスキングユニットは、前記オブジェクトの前記テキストブロックの所定の位置情報に基づいて前記複数のテキストブロックを識別するようにさらに構成される、Ｃ１４の前記装置。
［Ｃ２３］前記撮像ユニットは、前記検出された境界が前記所定のサイズ情報に一致しない場合、前記オブジェクトの新しい画像を受信するようにさらに構成される、Ｃ２２の前記装置。
［Ｃ２４］参照オブジェクト画像の一部から抽出された所定のパターンに基づいて前記オブジェクトの種類を決定するように構成されたオブジェクト認識ユニットをさらに備え、前記所定のパターンが前記オブジェクトの前記種類に特有である、Ｃ１４の前記装置。
［Ｃ２５］前記オブジェクトの前記複数の画像は、前記オブジェクトの複数のビデオフレームを含む、Ｃ１３の前記装置。
［Ｃ２６］前記決定された文字群のセットを表示するように構成されたディスプレーをさらに備える、Ｃ１３の前記装置。
［Ｃ２７］オブジェクト内のテキストブロックを認識するための複数の命令を備える非一時的コンピュータ―可読媒体であって、
前記命令は、プロセッサに、
前記オブジェクトの複数の画像を受信させ、ここにおいて、前記オブジェクトの各画像は前記テキストブロックを含む、
前記オブジェクトの前記複数の画像内の前記複数のテキストブロックを識別させ、
前記オブジェクトの前記複数の画像内の前記識別された複数のテキストブロックに基づいて前記テキストブロック内の文字群のセットを決定させる、非一時的コンピュータ可読媒体。
［Ｃ２８］前記文字群のセットを決定することは、前記識別された複数のテキストブロックのそれぞれに関する暫定的な文字群のセットを生成することと、前記暫定的な文字群のセットに基づいて前記文字群のセットを推測することと、を含むＣ２７の非一時的コンピュータ可読媒体。
［Ｃ２９］前記暫定的な文字群のセットを生成することは、全体論的な方法に基づいて前記暫定的な複数の文字群のセットを生成することを含む、Ｃ２８の非一時的コンピュータ可読媒体。
［Ｃ３０］前記暫定的な文字群の複数のセットを生成することは、セグメントベースの方法に基づいて前記暫定的な複数の文字群のセットを生成することを含む、Ｃ２８の非一時的コンピュータ可読媒体。
［Ｃ３１］前記文字群の複数のセットを推測することは、前記暫定的な文字群の複数のセットの信頼水準に基づいて前記文字群のセットを推測することを含む、Ｃ２８の非一時的コンピュータ可読媒体。
［Ｃ３２］前記文字群のセット内の１文字は、前記暫定的な文字群の複数のセット内の前記対応する位置における発生頻度に基づいて推測される、Ｃ３１の前記媒体。
［Ｃ３３］前記文字群のセット内の前記文字は、前記発生頻度が所定の閾値を超えるときに推測される、Ｃ３２の前記媒体。
［Ｃ３４］前記暫定的な文字群のセットを生成することは、前記テキストブロック内の前記文字群のセットに関するフォーマット情報を受信することと、前記受信されたフォーマット情報に基づいて前記暫定的な文字群のセットを生成することと、を含むＣ２８の前記媒体。
［Ｃ３５］前記複数のテキストブロックを識別することは、
前記オブジェクトの前記複数の画像のそれぞれにおける前記オブジェクトの境界を検出することと、
前記オブジェクトの所定のサイズ情報に基づいて前記検出された境界を検証することと、
前記オブジェクトの前記テキストブロックの所定の位置情報に基づいて前記テキストブロックを識別することと、を含むＣ２７の前記媒体。
［Ｃ３６］前記検出された境界を検証することは、前記検出された境界が前記所定のサイズ情報に一致しない場合、前記オブジェクトの新しい画像を受信することを含む、Ｃ３５の前記媒体。
［Ｃ３７］前記複数のオペレーションは、参照オブジェクト画像の一部から抽出された所定のパターンに基づいて、前記オブジェクトの種類を決定することをさらに備え、前記所定のパターンが前記オブジェクトの前記種類に特有である、Ｃ２７の前記媒体。
［Ｃ３８］前記オブジェクトの前記複数の画像は、前記オブジェクトの複数のビデオフレームを含む、Ｃ２７の前記媒体。
［Ｃ３９］前記複数のオペレーションは、前記決定された複数の文字のセットを表示することをさらに備える、Ｃ２７の前記媒体。
［Ｃ４０］オブジェクトにおけるテキストブロックを認識するための装置であって、前記テキストブロックは文字群のセットを有し、
前記オブジェクトの複数の画像を撮像する手段と、ここにおいて、前記オブジェクトの各画像は、前記テキストブロックを含む、
前記オブジェクトの前記複数の画像内の前記複数のテキストブロックを識別するための手段と、
前記オブジェクトの前記複数の画像における前記識別された複数のテキストブロックに基づいて、前記文字群のセットを決定するための手段と、
を備える、前記装置。
［Ｃ４１］前記識別された複数のテキストブロックのそれぞれに関する暫定的な文字群のセットを生成するための手段をさらに備え、前記文字群のセットは、前記決定手段によって前記暫定的な文字群の複数のセットに基づいて推測される、Ｃ４０の前記装置。
［Ｃ４２］前記決定手段は、前記暫定的な文字群の複数のセットの信頼水準に基づいて、前記文字群のセットを推測する、Ｃ４１の前記装置。
［Ｃ４３］前記文字群のセット内の１文字は、前記暫定的な文字群の複数のセット内の前記対応する位置における発生頻度に基づいて推測される、Ｃ４２の前記装置。
［Ｃ４４］前記文字群のセット内の前記文字は、前記文字数が所定の閾値を超える時に推測される、Ｃ４３の前記装置。
［Ｃ４５］前記生成手段は、前記テキストブロック内の前記文字群のセットに関するフォーマット情報を受信し、前記受信されたフォーマット情報に基づいて、前記暫定的な文字群のセットを生成する、Ｃ４１の前記装置。
［Ｃ４６］前記オブジェクトの前記複数の画像のそれぞれにおける前記オブジェクトの境界を検出するための手段と、
前記オブジェクトの所定のサイズ情報に基づいて前記検出された境界を検証するための手段と、をさらに備え、
前記識別手段は、前記オブジェクトの前記テキストブロックの所定の位置情報に基づいて前記複数のテキストブロックを識別する、Ｃ４０の前記装置。
［Ｃ４７］前記撮像手段は、前記検出された境界が前記所定のサイズ情報に一致しない場合、前記オブジェクトの新しい画像を受信する、Ｃ４６の前記装置。
［Ｃ４８］参照オブジェクト画像の一部から抽出された所定のパターンに基づいて前記オブジェクトの種類を決定するための手段をさらに備え、前記所定のパターンが、前記オブジェクトの前記種類に特有である、Ｃ４０の前記装置。

Claims

オブジェクト内のテキストブロックを認識するための方法において、前記テキストブロックは、文字群のセットを有し、
前記オブジェクトの複数の画像を受信することと、ここにおいて、前記オブジェクトの各画像は、前記テキストブロックを含む、
前記オブジェクトの前記複数の画像内の前記複数のテキストブロックを識別することと、
前記オブジェクトの前記複数の画像内の前記識別された複数のテキストブロックに基づいて前記文字群のセットを決定することと
を備える方法。
前記文字群のセットを決定することは、
前記識別された複数のテキストブロックのそれぞれに関する、暫定的な文字群の１セットを生成することと、
前記暫定的な文字群の複数のセットに基づいて、前記文字群のセットを推測することと、を含む、請求項１の前記方法。
前記暫定的な文字群の複数のセットを生成することは、全体論的な方法に基づいて前記暫定的な文字群の複数のセットを生成することを含む、請求項２の前記方法。
前記暫定的な文字群の複数のセットを生成することは、セグメントベースの方法に基づいて前記暫定的な文字群の複数のセットを生成することを含む、請求項２の前記方法。
前記文字群のセットを推測することは、前記暫定的な文字群の複数のセットの信頼水準に基づいて、前記文字群のセットを推測することを含む、請求項２の前記方法。
前記文字群のセット内の１文字は、前記暫定的な文字群の複数のセット内の対応する位置における発生頻度に基づいて推測される、請求項５の前記方法。
前記文字群のセット内の前記文字は、前記発生頻度が所定の閾値を超える時、推測される、請求項６の前記方法。
前記暫定的な文字群のセットを生成することは、前記テキストブロック内の前記文字群のセットに関するフォーマット情報を受信することと、前記受信されたフォーマット情報に基づいて前記暫定的な複数の文字のセットを生成することとを含む、請求項２の前記方法。
前記複数のテキストブロックを識別することは、
前記オブジェクトの前記複数の画像の各々の前記オブジェクトの境界を検出することと、
前記オブジェクトの所定のサイズ情報に基づいて前記検出された境界を検証することと、
前記オブジェクトの前記テキストブロックの所定の位置情報に基づいて前記複数のテキストブロックを識別することと、
を含む、請求項１の前記方法。
前記検出された境界を検証することは、前記検出された境界が前記所定のサイズ情報と一致しない場合、前記オブジェクトの新しい画像を受信することを含む、請求項９の前記方法。
参照オブジェクト画像の１部分から抽出された所定のパターンに基づいて前記オブジェクトの種類を決定することをさらに備え、前記所定のパターンが、前記オブジェクトの前記種類に特有である、請求項９の前記方法。
前記オブジェクトの前記複数の画像は前記オブジェクトのビデオフレームを含む、請求項１の前記方法。
前記決定された文字群のセットを表示することをさらに備える、請求項１の前記方法。
オブジェクトにおけるテキストブロックを認識するための装置であって、前記テキストブロックは文字群のセットを有し、
前記オブジェクトの複数の画像を撮像するように構成された撮像ユニットと、ここにおいて、前記オブジェクトの各画像は前記テキストブロックを含む、
前記オブジェクトの前記複数の画像内の前記複数のテキストブロックを識別するように構成されたマスキングユニットと、
前記オブジェクトの前記複数の画像内の前記識別された複数のテキストブロックに基づいて前記文字群のセットを決定するように構成された時間フィルタと、を備える装置。
前記識別された複数のテキストブロックのそれぞれに関する暫定的な文字群のセットを生成するように構成されたＯＣＲ（光学文字読取装置）エンジンをさらに備え、前記文字群のセットが、前記時間フィルタによって前記暫定的な複数の文字群のセットに基づいて推測される、請求項１４の前記装置。
前記ＯＣＲエンジンは、全体論的な方法に基づいて前記暫定的な文字群のセットを生成するようにさらに構成される、請求項１５の前記装置。
前記ＯＣＲエンジンは、セグメントベースの方法に基づいて前記暫定的な文字群のセットを生成するようにさらに構成される、請求項１５の前記装置。
前記時間フィルタは、前記暫定的な文字群のセットの信頼水準に基づいて、前記文字群のセットを推測するようにさらに構成される、請求項１５の前記装置。
前記文字群のセット内の１文字は、前記暫定的な複数の文字群のセット内の前記対応する位置における発生頻度に基づいて推測される、請求項１８の前記装置。
前記文字群のセット内の前記文字は、前記文字の数が所定の閾値を超える時に推測される、請求項１９の前記装置。
前記ＯＣＲエンジンは、前記テキストブロック内の前記文字群のセットに関するフォーマット情報を受信し、前記受信されたフォーマット情報に基づいて前記暫定的な文字群のセットを生成するようにさらに構成される、請求項１５の前記装置。
前記オブジェクトの前記複数の画像のそれぞれにおける前記オブジェクトの境界を検出し、前記オブジェクトの所定のサイズ情報に基づいて前記検出された境界を検証するように構成された境界検出器をさらに備え、前記マスキングユニットは、前記オブジェクトの前記テキストブロックの所定の位置情報に基づいて前記複数のテキストブロックを識別するようにさらに構成される、請求項１４の前記装置。
前記撮像ユニットは、前記検出された境界が前記所定のサイズ情報に一致しない場合、前記オブジェクトの新しい画像を受信するようにさらに構成される、請求項２２の前記装置。
参照オブジェクト画像の一部から抽出された所定のパターンに基づいて前記オブジェクトの種類を決定するように構成されたオブジェクト認識ユニットをさらに備え、前記所定のパターンが前記オブジェクトの前記種類に特有である、請求項１４の前記装置。
前記オブジェクトの前記複数の画像は、前記オブジェクトの複数のビデオフレームを含む、請求項１３の前記装置。
前記決定された文字群のセットを表示するように構成されたディスプレーをさらに備える、請求項１３の前記装置。
オブジェクト内のテキストブロックを認識するための複数の命令を備える非一時的コンピュータ―可読媒体であって、
前記命令は、プロセッサに、
前記オブジェクトの複数の画像を受信させ、ここにおいて、前記オブジェクトの各画像は前記テキストブロックを含む、
前記オブジェクトの前記複数の画像内の前記複数のテキストブロックを識別させ、
前記オブジェクトの前記複数の画像内の前記識別された複数のテキストブロックに基づいて前記テキストブロック内の文字群のセットを決定させる、非一時的コンピュータ可読媒体。
前記文字群のセットを決定することは、前記識別された複数のテキストブロックのそれぞれに関する暫定的な文字群のセットを生成することと、前記暫定的な文字群のセットに基づいて前記文字群のセットを推測することと、を含む請求項２７の非一時的コンピュータ可読媒体。
前記暫定的な文字群のセットを生成することは、全体論的な方法に基づいて前記暫定的な複数の文字群のセットを生成することを含む、請求項２８の非一時的コンピュータ可読媒体。
前記暫定的な文字群の複数のセットを生成することは、セグメントベースの方法に基づいて前記暫定的な複数の文字群のセットを生成することを含む、請求項２８の非一時的コンピュータ可読媒体。
前記文字群の複数のセットを推測することは、前記暫定的な文字群の複数のセットの信頼水準に基づいて前記文字群のセットを推測することを含む、請求項２８の非一時的コンピュータ可読媒体。
前記文字群のセット内の１文字は、前記暫定的な文字群の複数のセット内の前記対応する位置における発生頻度に基づいて推測される、請求項３１の前記媒体。
前記文字群のセット内の前記文字は、前記発生頻度が所定の閾値を超えるときに推測される、請求項３２の前記媒体。
前記暫定的な文字群のセットを生成することは、前記テキストブロック内の前記文字群のセットに関するフォーマット情報を受信することと、前記受信されたフォーマット情報に基づいて前記暫定的な文字群のセットを生成することと、を含む請求項２８の前記媒体。
前記複数のテキストブロックを識別することは、
前記オブジェクトの前記複数の画像のそれぞれにおける前記オブジェクトの境界を検出することと、
前記オブジェクトの所定のサイズ情報に基づいて前記検出された境界を検証することと、
前記オブジェクトの前記テキストブロックの所定の位置情報に基づいて前記テキストブロックを識別することと、を含む請求項２７の前記媒体。
前記検出された境界を検証することは、前記検出された境界が前記所定のサイズ情報に一致しない場合、前記オブジェクトの新しい画像を受信することを含む、請求項３５の前記媒体。
前記複数のオペレーションは、参照オブジェクト画像の一部から抽出された所定のパターンに基づいて、前記オブジェクトの種類を決定することをさらに備え、前記所定のパターンが前記オブジェクトの前記種類に特有である、請求項２７の前記媒体。
前記オブジェクトの前記複数の画像は、前記オブジェクトの複数のビデオフレームを含む、請求項２７の前記媒体。
前記複数のオペレーションは、前記決定された複数の文字のセットを表示することをさらに備える、請求項２７の前記媒体。
オブジェクトにおけるテキストブロックを認識するための装置であって、前記テキストブロックは文字群のセットを有し、
前記オブジェクトの複数の画像を撮像する手段と、ここにおいて、前記オブジェクトの各画像は、前記テキストブロックを含む、
前記オブジェクトの前記複数の画像内の前記複数のテキストブロックを識別するための手段と、
前記オブジェクトの前記複数の画像における前記識別された複数のテキストブロックに基づいて、前記文字群のセットを決定するための手段と、
を備える、前記装置。
前記識別された複数のテキストブロックのそれぞれに関する暫定的な文字群のセットを生成するための手段をさらに備え、前記文字群のセットは、前記決定手段によって前記暫定的な文字群の複数のセットに基づいて推測される、請求項４０の前記装置。
前記決定手段は、前記暫定的な文字群の複数のセットの信頼水準に基づいて、前記文字群のセットを推測する、請求項４１の前記装置。
前記文字群のセット内の１文字は、前記暫定的な文字群の複数のセット内の前記対応する位置における発生頻度に基づいて推測される、請求項４２の前記装置。
前記文字群のセット内の前記文字は、前記文字数が所定の閾値を超える時に推測される、請求項４３の前記装置。
前記生成手段は、前記テキストブロック内の前記文字群のセットに関するフォーマット情報を受信し、前記受信されたフォーマット情報に基づいて、前記暫定的な文字群のセットを生成する、請求項４１の前記装置。
前記オブジェクトの前記複数の画像のそれぞれにおける前記オブジェクトの境界を検出するための手段と、
前記オブジェクトの所定のサイズ情報に基づいて前記検出された境界を検証するための手段と、をさらに備え、
前記識別手段は、前記オブジェクトの前記テキストブロックの所定の位置情報に基づいて前記複数のテキストブロックを識別する、請求項４０の前記装置。
前記撮像手段は、前記検出された境界が前記所定のサイズ情報に一致しない場合、前記オブジェクトの新しい画像を受信する、請求項４６の前記装置。
参照オブジェクト画像の一部から抽出された所定のパターンに基づいて前記オブジェクトの種類を決定するための手段をさらに備え、前記所定のパターンが、前記オブジェクトの前記種類に特有である、請求項４０の前記装置。