JP2016167273A - オブジェクトにおけるテキスト情報を認識するための方法およびシステム - Google Patents
オブジェクトにおけるテキスト情報を認識するための方法およびシステム Download PDFInfo
- Publication number
- JP2016167273A JP2016167273A JP2016056521A JP2016056521A JP2016167273A JP 2016167273 A JP2016167273 A JP 2016167273A JP 2016056521 A JP2016056521 A JP 2016056521A JP 2016056521 A JP2016056521 A JP 2016056521A JP 2016167273 A JP2016167273 A JP 2016167273A
- Authority
- JP
- Japan
- Prior art keywords
- characters
- character
- text
- text block
- character groups
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/17—Image acquisition using hand-held instruments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/142—Image acquisition using hand-held instruments; Constructional details of the instruments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/809—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Character Input (AREA)
Abstract
【課題】撮像される様々な条件で、正確なオブジェクトにおけるテキストブロックの認識を可能にする方法を提供する。【解決手段】テキストブロックは、文字のセットを含む。オブジェクトの複数の画像は、取得され、オブジェクト画像のパターンを抽出しそして所定のパターンと抽出されたパターンを比較することによって、識別される。さらに、オブジェクト画像のオブジェクトの境界は、識別されたオブジェクトの所定のサイズ情報に基づいて、検出/検証される。オブジェクト画像におけるテキストブロックは、識別されたオブジェクトの所定の位置情報に基づいて識別される。識別されたテキストブロックにおける暫定的な文字群の複数のセットは、識別されたオブジェクトのフォーマット情報に基づいて生成される。暫定的な文字群の複数のセットに基づいて、オブジェクト内のテキストブロック内の文字群のセットが決定される。【選択図】図7
Description
本出願は、2011年6月29日に出願された米国仮特許出願番号61/502,781および2012年2月7日に出願された米国非仮特許出願番号13/367,764からの優先権の利益に基づいており、かつそれを主張するものであって、その全体の内容は参照によりここに組み込まれる。
本開示は、一般的にテキスト情報を認識することに関する。さらに具体的に、本開示は、特定の形式を有するオブジェクトにおけるテキストブロックを認識するための方法およびシステムに関する。
今日のモバイル装置は進歩して、高速プロセッサはもとよりカメラの利用を通じて、画像取得機能を含むようになった。このような機能を利用して、モバイル装置の中には、取得した文書の画像からテキストを認識するためのテキスト認識機能を備えるようになったものもある。こういったモバイル装置のユーザは、クレジットカード、IDカードなどのような紙文書の範囲を超えるオブジェクトにまでこういった機能の利用を広げて、オブジェクトにおけるテキスト情報を認識するようになった。
モバイル装置における従来のテキスト認識方法は一般的に、単一のオブジェクト画像に基づいて、オブジェクトにおけるテキストブロックを認識していた。例えば、従来のテキスト認識機能を有するモバイル装置では一般的に、ユーザがオブジェクトの単一画像を取得することができる。オブジェクト画像におけるテキストブロックは次に、オブジェクト画像を処理することによって認識される。
しかし、単一のオブジェクト画像に基づくこういった従来のテキスト認識方法は、撮像できる条件下での変化が原因で、テキストブロックにおける文字を認識する際の不正確さを欠点に持つ(suffer from)。例えば、オブジェクトの画像は、撮像された画像の質を下げる可能性のある、照明の反射、不十分な照明などのような最適な照明の条件を満たさない下で取得される場合がある。さらに、モバイル装置を設定する際に、ユーザが制御しているモバイル装置の動きが好ましくないために、画像のある部分が、焦点がずれて撮像されたりあるいは不鮮明になる可能性がある。
したがって、オブジェクト画像が撮像される様々な条件において、さらに正確にオブジェクトにおけるテキストブロックの認識を可能にするシステムおよび方法が必要である。
本開示は、一時的なフィルタリング(temporal filtering)を使用するオブジェクトにおけるテキストブロックを認識するための方法およびシステムを提供する。
本開示の1つの観点にしたがって、オブジェクトにおけるテキストブロックを認識するための方法が開示される。テキストブロックは文字のセットを有する。その方法は、オブジェクトの複数の画像を受信することを含む。オブジェクトの各画像はテキストブロックを含む。オブジェクトの画像におけるテキストブロックは識別される。文字のセットは、オブジェクトの複数の画像における識別されたテキストブロックに基づいて決定される。本開示はまた、この方法に関連するコンピュータ読み取り可能記録媒体、手段の組み合わせ、装置、機器を説明する。
様々な実施例は次に図面を参照して説明され、そこで同じ参照番号は、全体を通して、同じエレメントを指すために使用される。
以下の説明おいて、説明のために、1つまたはそれ以上の実施形態の完全な理解をもたらすために、多数の具体的詳細が説明される。しかしながら、このような実施形態(複数の場合もある)は、これらの具体的詳細なしで実施され得ることは明白であろう。その他の事例において、周知の構造および装置は、1つまたはそれ以上の実施形態の説明を容易にするために、ブロック図で示される。
図1は、本開示の1つの実施形態に従う、オブジェクトの複数の画像からオブジェクト内のテキストブロックを認識するためのシステム100のブロック図を示す。システム100は、ネットワーク130を介して通信しているサーバ120およびクライアントデバイス110を含む。クライアントデバイス110は、クレジットカード、ビジネスカード、運転免許証、パスポート、身分証明文書などのような1つまたはそれ以上の特定の文字のテキストブロックを有するオブジェクトの複数の画像を撮像してオブジェクト内のテキストブロックを認識するように構成される。一実施形態において、クライアントデバイス110は、オブジェクト画像内の特定のパターンに基づいてオブジェクトを識別してオブジェクト識別情報をサーバ120に提供することができる。クライアントデバイス110は、例えば、カメラ、またはビデオカメラのような撮像能力、および通信ネットワークを経由する通信機能を備えるスマートフォーン、ラップトップ、タブレットコンピュータ等のような任意の適切なコンピュータまたはモバイルデバイスであり得る。
サーバ120は、クライアントデバイス110からオブジェクト識別情報を受信し、該オブジェクト識別情報に基づいてオブジェクトデータベース140をアクセスする。オブジェクトデータベース140は、物体認知のようにオブジェクトに関する情報と、オブジェクトレイアウト(layout)およびテキストブロック情報のような、構成情報を含む、複数のオブジェクトに関する情報を提供する。例えば、クレジットカードの場合、オブジェクト識別情報は、クレジットカードの種類(例えば、VisaカードまたはMaterカード)、発行銀行の名前などに関する情報を含むことができる。オブジェクト構成情報は、オブジェクトのサイズ、テキストブロックの文字フォーマットおよび位置などを含むオブジェクトのレイアウトに関する情報を含むことができる。オブジェクトデータベース140は、図5を参照して後に説明されるように、追加の情報を含むことができる。サーバ120は、識別されたオブジェクトの構成情報をクライアントデバイス100に提供する。
クライアントデバイス110は、オブジェクトの構成およびテキストブロックに関する関連情報を含む識別されたオブジェクトに関する構成情報を、ネットワーク130を介してサーバ120から受信することができる。受信された構成情報に基づいて、クライアントデバイス110は、テキストブロックを識別かつ認識し、テキストブロック内の文字を推測する。
別の実施形態において、オブジェクトデータベース140は、サーバ120の代わりに、クライアントデバイス110に設けてもよい。。図2は、本開示の別の実施形態にしたがって、オブジェクトの複数の画像から、オブジェクト内のテキストブロックを認識するためのオブジェクトデータベース140を含むクライアントデバイスシステム200のブロック図を示す。本実施形態において、クライアントデバイス210は、クライアントデバイス110と同様の態様で動作する。クライアントデバイス210は、オブジェクト画像内の特定のパターンに基づいてオブジェクトを識別することができる。さらに、クライアントデバイス210に格納されたオブジェクトデータベース140から、クライアントデバイス210は、オブジェクトのサイズ、テキストブロックのフォーマットおよび位置などに関する情報を含む識別されたオブジェクトに関する構成情報を検索する。
本開示のシステムおよび方法は、テキスト情報を含む任意のオブジェクトに適用される。例えば、オブジェクトは、電子フォーマットまたは紙フォーマットの文書オブジェクトであってもよいし、あるいは、クレジットカード、ビジネスカード、運転免許証、身分証明文書などのような物理的なオブジェクトであってもよい。一般的に、オブジェクトは、同定情報を有することができ、他のオブジェクトと区別する構成情報に関連づけることができる。
図3は、本開示の1つの実施形態にしたがって、テキストブロック304、306、および308を認識するために捕捉可能なクレジットカード300形式の例示オブジェクトの画像を示す。図示されるように、クレジットカード300は、認識可能な英数字を含む複数のテキストブロック304、306、および308を含む。該テキストブロック304は、固有のカード番号を含み、一方、テキストブロック306は、月/年から成る有効期限を含む。さらに、テキストブロック308は、カード所有者名を含む。
クレジットカード300はまた、カード発行者の識別情報を有するブロック302を含む。例えば、ブロック302は、オブジェクト300をクレジットカードとして識別することができるカード発行者(例えば、ABC銀行)のロゴまたはパターンのような画像および/またはテキスト情報を含むことができる。クレジットカード300の特定の種類は、ブロック302内の識別情報および/またはカード300内に設けられた別の識別情報またはパターンを認識することによって決定されることができる。
一般的に、クレジットカード300のフォーマットおよびレイアウトは、カード発行者によってあらかじめ決められており、同じ発行者からの同じ種類のクレジットカードに関して同じである。特に、カード300のサイズ、およびブロック302乃至308の位置、レイアウト、およびフォーマットのような構成情報は、同じ種類のカードに関して一般的に同じである。例えば、テキストブロック304乃至308の位置は、クレジットカード300の参照位置に対して、上端部左隅位置および下端部右隅位置のような特定の位置によって定義されることができる。クレジットカード300に関する識別情報および構成情報は、図5を参照して下記にさらに詳細に説明されるように、オブジェクトデータベース140にあらかじめ格納される。
図4は、本開示の1つの実施例にしたがって、テキストブロック404、406、408、および410を認識するために撮像可能な運転免許証400の形式における別の例示的なオブジェクトの画像を図示する。運転免許証400は、カード発行者の名前の識別情報を備えるブロック402を含む。例えば、ブロック402は、特定の発行当局(例えば、ABC州)の運転免許証として、オブジェクト400を識別することができるロゴまたはパターンのような画像および/またはテキスト情報を含む。
図示されるように、運転免許証400はまた、複数のテキストブロック404乃至410を含む。テキストブロック404は免許証番号を含み、テキストブロック406は、月―日―年から成る有効期限を含む。さらに、テキストブロック408は、所有者の名前を含み、またテキストブロック410は、所有者の住所を含む。
一般的に、運転免許証400のレイアウトおよびフォーマットのような構成情報はカード発行者によってあらかじめ決められ、また同じ発行者からの同じ種類の他の運転免許証に関して同じである。このような構成情報は、後にさらに詳細に説明されるように、識別情報を有するオブジェクトデータベース140に格納される。いくつかの実施例において、クライアントデバイス110(またはクライアントデバイス210)は、オブジェクトデータベース140からこのような構成情報を検索し、該構成情報に基づいて、テキストブロックを認識する。
図5は、本開示の1つの実施例にしたがって、1つまたはそれ以上のテキストブロックを有する複数のオブジェクトに関する識別および構成情報を含む例示的なオブジェクトデータベース140を示す。オブジェクトデータベース140は、生成されかつサーバ120および/またはクライアントデバイス210に格納されることができる。各オブジェクトに関して、データベース140は、オブジェクトの構成情報および識別情報を含む。
図5に示されるように、オブジェクトデータベース140は、図3におけるクレジットカード300、図4における運転免許証400などの識別および構成情報を含む。各オブジェクトに関する識別情報は、オブジェクト発行者または供給元の名前およびオブジェクトの種類を含む。例えば、クレジットカード300の場合、発行者の名前「ABC銀行」は、オブジェクトの種類である「クレジットカード」と共にオブジェクトデータベースに格納される。同様に、オブジェクトの種類「運転免許証」および発行者の名前「ABC州」は、オブジェクトを識別するためにオブジェクトデータベース140に格納される。加えて、データベース140はまた、ロゴまたはパターンのような各オブジェクトに関する他のも種類の識別情報を格納することができる。
オブジェクトデータベース140はまた、認識されることができるオブジェクトのサイズ、および各テキストブロックの位置、配置、およびフォーマットを含むオブジェクトのそれぞれに関する構成情報を含む。サイズ情報は、クレジットカード300および運転免許証400のようなオブジェクトのアスペクト比を提供することができる。サイズ情報は、画像内のオブジェクトの検出された境界が、データベース140からのサイズ情報と比較して正しいかどうかを検証することができるクライアントデバイス110に提供され得る。クレジットカード300のテキストブロックI、II、およびIIIがそれぞれ、図3におけるテキストブロック304、306、および308の位置情報を含む一方、運転免許証400のテキストブロックI、II、III、およびIVはそれぞれ、図4におけるテキストブロック404、406、408、および410の位置情報を含む。この配置において、テキストブロックI、II、III、およびIVのそれぞれは、2つの座標に、オブジェクトの参照位置に対して各ブロックの左上頂点および右下頂点の位置を示すための特定の構成単位(例えば、オブジェクト画像におけるピクセル)を備える。この場合、各テキストブロックは方形として構成されているので、各テキストブロックの位置は、オブジェクトの左上隅の参照位置に対して、2つの座標を使うことによって識別され得る。例えば、クレジットカード300のテキストブロックIの2つの座標(1.2,4.4)および(12,5.4)から、クレジットカード300のテキストブロックIの位置は、4つ頂点(1.2,4.4)、(12,4.4)、(12,5.4)、および(12,5.4)の座標によって定義されることができる。したがって、テキストブロックIの幅および高さは、それぞれ10.8(=12−1.2)および1(=5.4−4.4)であると決定される。テキストブロックのこのような位置情報は、クライアントデバイス110に提供され、その結果クレジットカード300や運転免許証400等のようなオブジェクト内のテキストブロックの幾何学的な位置を識別することいができる。
オブジェクトデータベース140はまた、各テキストブロック内の文字数、文字の配列、および/または文字の種類のようなテキストブロックI、II、III、およびIVのそれぞれの文字フォーマットを含む。例えば、クレジットカード300のテキストブロックIの文字フォーマットは、テキストブロック304における文字の配列および数を示す文字フォーマット「**** **** **** ****」、およびテキストブロックにおける文字が数字であることを示す「数字」を備える。テキストブロックの文字フォーマットは、テキストブロックにおける文字を認識する際に使用するために、クライアントデバイス110に提供されることができる。いくつかの実施例において、構成情報はまた、オブジェクトの形、テキスト文字の色/フォント、文字の言語などを含むことができる。
図6は、本開示の1つの実施例にしたがって、図1におけるクライアントデバイス110の詳細なブロック図を示す。クライアントデバイス110は、撮像ユニット610、オブジェクト認識ユニット620、境界検出器630、修正ユニット640、マスキングユニット650、OCRエンジン660、時間フィルタ670、および図形処理ユニット680を含む。撮像ユニット610は、特定の構成またはレイアウトを有するオブジェクトの複数の画像(例えば、一連の画像)を撮像するための画像センサー(例えば、ビデオカメラ、デジタルカメラ)を含む。撮像ユニット610は、オブジェクトを識別するためのオブジェクト認識ユニット620に、オブジェクトの画像を提供する。オブジェクト画像から、オブジェクト認識ユニット620は、パターンを抽出し、かつサーバ120またはクライアントデバイス110によって備えられた様々な周知のオブジェクトの所定のパターンとそのパターンとを比較する。パターンが、周知のオブジェクトのパターンと一致することが判明すると、オブジェクトは、周知のオブジェクトであると識別される。一方、オブジェクト認識ユニット620は、クライアントデバイス110によって備えられたユーザーインターフェース(図示せず)を経由するユーザ入力から、オブジェクトの識別を受信することができる。下記でさらに詳細に説明されるように、オブジェクト識別情報は、サーバ120へ供給され、オブジェクトデータベース140から、オブジェクト構成情報を検索する。
撮像ユニット610は、画像内の識別されたオブジェクトの境界を検出するために境界検出器630に、オブジェクトの画像を供給する。境界検出器630はまた、サーバ120から、オブジェクトに関する構成情報(例えば、オブジェクトサイズまたはアスペクト比)を受信する。各画像に関して、境界検出器630は、受信された構成情報に基づいて、コーナーおよびエッジのようなオブジェクト領域の境界特徴を決定することによってオブジェクト領域を定義する画像内のオブジェクトの境界を識別する。識別された境界に基づいて、境界検出器630は、画像のそれぞれからオブジェクト領域の画像を抽出し、そのオブジェクト領域の画像を修正ユニット640に供給する。
撮像されたオブジェクト画像からのオブジェクト領域の画像は、オブジェクトのサイズ、形状、および/または方位を正確に反映していない可能性があるので、各オブジェクト領域は、修正ユニット640において修正される。修正ユニット640は、サーバ120からオブジェクトのサイズ情報(例えばアスペクト比、長さ、および幅)のような構成情報を受信し、該オブジェクトのサイズ情報に基づいてオブジェクト領域の画像を修正するように構成される。例えば、画像内のオブジェクト領域は、オブジェクトのアスペクト比に一致するように変形される。修正されたオブジェクト領域の画像は、マスキングユニット650に供給されることができる。
抽出および修正されたオブジェクト領域から、テキストブロックは、それらの位置をマスキングすることによって識別される。マスキングユニット650は、テキストブロックのサイズおよび位置などのようなオブジェクト内のテキストブロックの構成情報を、サーバ120から受信する。テキストブロックの構成情報に基づいて、マスキングユニット650は、各画像内のオブジェクト領域におけるテキストブロックを識別する。いくつかの実施例において、マスキングユニット650は、オブジェクト領域内のテキストブロックの位置に関する情報を利用して、オブジェクト領域内の各テキストブロックの幾何学的位置を識別する。テキストブロックの幾何学的位置を識別することによって、マスキングユニット650は、オブジェクト画像内の他の領域からの不必要な情報を読み込んだり、処理することを避けることができる。
オブジェクト領域内の識別されたテキストブロックのそれぞれに関して、OCRエンジン660は、テキストブロック内の文字を認識する。OCRエンジン660は、マスキングユニット650から各画像内の識別されたテキストブロックを受信するとともに、サーバ120から、テキストブロックの文字フォーマットを含むオブジェクト構成情報を受信するように構成される。オブジェクト構成情報に基づいて、OCRエンジン660は、各テキストブロック内の文字を認識し、各テキストブロックに関する暫定的な文字のセットを生成する。画像からのテキストブロックの暫定的な文字のセットは次に、時間フィルタ670に使用され、該テキストブロックに関する最終的な文字のセットを決定する。文字フォーマット情報は、各テキストブロック内の文字数、文字の配置、文字のテキストの色/フォント、文字の言語の種類などを含むことができる。この配置において、暫定的な文字のセットは、後に詳細に説明されるように、全体論的な方法またはセグメントベースの方法を用いて認識されることができる。
時間フィルタ670は、ある周期時間にわたって撮像されるオブジェクトの複数の画像からの暫定的な文字のセットに基づいて、オブジェクト内の各テキストブロックに関する最終的な文字のセットを決定する。初めに、時間フィルタ670は、OCRエンジン660からオブジェクト画像内の各テキストブロックに対応する暫定的な文字のセットを受信する。時間フィルタ670は、オブジェクトの各テキストブロックに関する暫定的な文字のセットから文字のセットを推測することによって最終的な文字のセットを決定する。最終的な文字のセットを決定する際に、文字は、暫定的な文字のセット内の各文字毎または各単語毎の発生頻度に基づいて、一文字毎に、または一単語毎に推測されることができる。したがって、テキストブロック内の各文字または各単語は、文字または単語の発生頻度が所定の閾値を超えるとき、暫定的な文字のセットから推測されることができる。
1つの実施例において、文字のセットは、テキストブロック内の文字の鮮明さを反映する暫定的な文字のセットの信頼水準に基づいて推測される。OCRエンジン660が暫定的な文字のセットを生成するとき、それは、OCRエンジン660に格納された参照文字または単語と、オブジェクト画像内のテキストブロックにおける各文字または単語との間の類似値を比較する。類似値に基づいて、もっとも大きい類似値を有する文字または単語を暫定的な文字のセット内の文字または単語として識別される。この場合、文字または単語の類似値は、テキストブロックにおける最終的な文字のセットを決定する際に信頼水準として使われることができる。
さらに、時間フィルタ670は、テキスト認識が実行されるのと同時に表示される文字認識結果を、図形処理ユニット680に供給する。クライアントデバイス110は、オブジェクト内の少なくとも1つのテキストブロックの認識結果を表示するためのディスプレーを含むことができる。あるいは、ディスプレーは、クライアントデバイス110とは別個の装置に搭載し、ネットワークを介してクライアントデバイス110に接続してもよい。ディスプレーは、オブジェクト内のテキストブロックに関する認識結果および/またはオブジェクト画像を出力するための、LED(発光ダイオード)、PDP(プラズマディスプレーパネル)、またはLCD(液晶ディスプレー)などを含む任意の適切な電子表示装置であり得る。
図6は、サーバ120と通信する図1のクライアントデバイス110を図解しているが、図6のクライアントデバイス110の構成と動作は、図2のシステム200におけるオブジェクトデータベース140を有するクライアントデバイス210に適用してもよい。
図7は、本開示の1つの実施形態に従う、オブジェクト内のテキストブロックを認識するための方法のフローチャートである。710において、撮像ユニット610は、1つまたはそれ以上のテキストブロックを含むオブジェクトの複数の画像を撮像し受信する。オブジェクトの画像は、ある周期時間にわたって撮像された一連の画像(例えば、オブジェクトのビデオフレーム)であり得る。撮像された画像は、720において、受信された画像におけるオブジェクトを識別するように構成されているオブジェクト認識ユニット620に供給される。一度オブジェクトが識別されると、オブジェクト認識ユニット620は、クライアントデバイス110に識別されたオブジェクトの構成情報を送信するサーバ120に、オブジェクトの識別情報を供給する。730において、オブジェクトの各画像のテキストブロックは、テキストブロックの位置情報のような構成情報に基づいて、テキストブロックの位置を決定することにより識別される。図10を参照して詳細に記載するように、オブジェクト内のテキストブロックを識別する前に、各画像内のオブジェクトの境界は、オブジェクトのアスペクト比などのようなサイズ情報に基づいて、境界検出器630によって検出および検証されることができる。
740において、オブジェクト画像内の各テキストブロックに関する文字のセットは、オブジェクト画像内の識別されたテキストブロックに基づいて決定される。特に、識別されたテキストブロックの各々は、OCRエンジン660によって認識され、暫定的な文字のセットが生成される。該暫定的な文字のセットは、時間フィルタ670に供給され、テキストブロック毎に最終的な文字のセットが決定される。750において、図形処理ユニット680は、ディスプレーに出力するための最終的な文字のセットを受信し、該最終的な文字のセットがディスプレーに表示される。
図8は、本開示の一実施形態に従って、受信された画像のオブジェクトを識別するための、図7における720のさらに詳細なフローチャートを示す。810において、複数のオブジェクトを識別する所定のパターンのデータベースがクライアントントデバイス110に格納され、オブジェクト認識ユニット620にアクセス可能である。820において、オブジェクト認識ユニット620は、撮像ユニット610からの撮像された画像を受信し、オブジェクトを識別できる画像からパターンを抽出する。一般的に、ロゴおよび/または特徴点のセットのようなパターンは、オブジェクト(例えば、クレジットカードの発行銀行)の供給元によってあらかじめ決められ、かつ同じ種類のオブジェクト上に設けられる。したがって、所定のオブジェクトのパターンは、異なる種類の別のオブジェクトのそれらとは一般的に異なる。
いくつかの実施形態において、所定のパターンは、データベースが構築されるとき、オブジェクトの種類に特有である参照オブジェクトの一部分から抽出されることができる。特に、参照オブジェクトの一部は、逆マスク領域に設置されることができる。該逆マスク領域は、テキストブロックが設置されていない参照オブジェクト内の領域を指す。このようにして、所定のパターンは、オブジェクトの逆マスク領域から抽出され、複数の参照オブジェクトに関連したデータベースを構築することができる。
オブジェクトの識別中、オブジェクトの任意の領域をパターンの一部分として抽出することができる。テキストブロックを含むマスク領域内のパターンがオブジェクト画像から抽出されるとき、それらは、オブジェクトを識別する際に考慮される必要がない。なぜなら、所定のパターンは、オブジェクトの逆マスク領域から抽出され、この領域には、テキストブロックが設置されていないからである。すなわち、このようなマスク領域は、オブジェクトを識別するために役立つ任意のパターンを含まないとみなすことができる。したがって、オブジェクトを識別する際の正確さが改善されるのと同時に、処理時間を減らすことができる。
抽出されたパターンが与えられると、オブジェクト認識ユニット620は、830において、抽出されたパターンに一致する所定のパターンをパターンデータベースから識別する。具体的には、抽出されたパターンを、データベース内の所定のパターンと比較することにより所定のパターンが決定される。840において、オブジェクト認識ユニット620は、一致する所定のパターンに基づいて、パターンデータベースから、受信画像内のオブジェクトを識別する。850において、識別されたオブジェクトに関する情報は次にサーバ120に供給され、サーバ120は識別されたオブジェクトの構成情報をクライアントデバイス110に送信する。
他の実施形態において、パターンデータベースは、オブジェクトデータベース140内に設けてもよい。図9は、本開示の他の実施形態に従う、オブジェクトデータベース140にアクセスすることにより受信された画像のオブジェクトを識別するための、図7の720のさらに詳細なフローチャートを示す。910において、所定のパターンがオブジェクトデータベース140内に格納される。該オブジェクトデータベース14は、クライアントデバイス110またはサーバ120に格納されることができる。920において、オブジェクトの画像におけるパターンは、図8の820のステップと同様な方法で、オブジェクト認識ユニット620によって、オブジェクトの一部分(例えば、逆マスク領域)から抽出される。この場合、オブジェクト認識ユニット620は、930において、オブジェクトデータベース140から、抽出されたパターンに対応する所定のパターンを取得する。
所定のパターンに基づいて、オブジェクト認識ユニット620は、940において、受信された画像内のオブジェクトを識別する。識別されたオブジェクトに関する情報は次にサーバ120に供給される。サーバ120は、識別されたオブジェクトの構成情報をクライアントデバイス110に送信する。クライアントデバイス110は次に、識別されたオブジェクトの構成情報を、クライアントデバイス110に格納されたオブジェクトデータベース140から取得する。一方、オブジェクトデータベース140がサーバ120に格納される場合、オブジェクト認識ユニット620は、識別されたオブジェクトをサーバ120に供給し、識別されたオブジェクトに関連する構成情報をサーバ120から受信する。図8および9は、単一画像からオブジェクトを識別することを記載するが、オブジェクト認識ユニット620はまた、複数の受信された画像からオブジェクトを識別するように構成することもできる。
別の方法として、オブジェクトは、ユーザ入力に基づいて識別可能である。この場合、オブジェクト認識ユニット620は、クライアントデバイス110に設けられたユーザーインターフェース(図示せず)を介するユーザ入力にしたがってオブジェクトを識別する。一実施形態において、オブジェクト認識ユニット620は、入手可能なオブジェクトのリストを備えることができ、その結果ユーザは、ユーザーインターフェースを介してオブジェクトの1つを選択することができる。したがって、オブジェクト認識ユニット620は、受信された画像からパターンを抽出するのに必要な処理なしで受信画像内オブジェクトを正確に識別することができる。
一度受信された画像のオブジェクトが識別されると、画像を処理してテキストブロックを識別することができる。図10は、本開示の一実施形態にしたがう、オブジェクト内のテキストブロックを識別するための730のさらに詳細なフローチャートを示す。1010において、クライアントデバイス110は、オブジェクトデータベース140から識別されたオブジェクトに関する構成情報を受信する。構成情報は、オブジェクトのサイズ情報(例えば、アスペクト比、実際のサイズなど)、オブジェクトにおけるテキストブロックの位置情報、テキストブロックの文字フォーマットなどを含む。オブジェクトデータベース140が、サーバ120に格納される場合、受信された構成情報は、オブジェクト内のテキストブロックを識別かつ認識する際に使用するために、クライアントデバイス110内のメモリ(図示せず)に記憶することができる。例えば、境界検出器630、修正ユニット640、マスキングユニット650、およびOCRエンジン660は、クライアントデバイス110内のメモリから、該構成をアクセスすることができる。
1020において、境界検出器630は、コーナーおよびエッジのようなオブジェクト領域内の境界特徴を決定することによって、各画像内のオブジェクトの境界を検出する。1030において、各画像内のオブジェクトの検出された境界を検証し、境界特徴、撮像に使用した焦点距離、およびオブジェクトのアスペクト比に基づいて、境界が正しく識別されたか否かを検証することができる。オブジェクトの識別された境界内のオブジェクト画像のそれぞれは、オブジェクト画像内のテキストブロックを識別するためにマスキングユニット650に供給されることができる。マスキングユニット650は、1040において、オブジェクト内のテキストブロックの位置情報を受信し、オブジェクトの各受信された画像における各テキストブロックを識別する。いくつかの実施形態において、テキストブロックを識別する前に、修正ユニット640は、構成情報の一部として受信されたオブジェクトのアスペクト比に一致するように各画像内のオブジェクト領域を修正することができる。
図11および図12は、一実施形態に従う、クレジットカード300の、それぞれオブジェクト画像1100および1200から検出されたオブジェクト境界1110および1210を示す。図11において、クレジットカード300の検出された境界1110は、オブジェクト300の境界に一致しないので不正確に識別される。この場合、境界検出器630は、検出された境界を破棄し、クレジットカード300の他のオブジェクト画像から、クレジットカード300の境界を検出することができる。したがって、もしクレジットカード300の1つの画像から境界が不正確に識別されたなら、境界は他の画像から検出することができる。このような境界検出は、正確な境界が検出されるまで繰り返されることができる。図12は、クレジットカード300の検出された境界1210が、オブジェクト300の実際の境界に一致する正確な境界検出の場合を示す。
図13は、本開示の一実施形態に従う、受信された画像1310内の4つの点a、b、c、およびdを有するオブジェクト領域1320の検出された境界1330と4つの点A、B、C、およびDを有する長方形オブジェクト1340の実際の境界との間の関係を示す図である。オブジェクト領域1320は、透視歪を有するように示される。この透視歪は、撮像する際に、オブジェクトに対してカメラが平行に配列されていないことにより生じ得る。図示されるように、点a、b、c、およびdは、オブジェクト領域1320の検出された境界1330の4つの端点に対応する。カメラの基準原点1300(例えば、カメラの中央)から、複数の線がそれぞれ、点a、b、c、およびdを通って、点A、B、C、およびDに投影されている。この場合、点A、B、C、およびDは、オブジェクトの長方形1340の4つの端点を定義する。オブジェクト領域1320の検出された境界1330における4つの端点a、b、c、およびdの座標(x1、y1)、(x2、y2)、(x3、y3)、および(x4、y4)、およびカメラの焦点距離fを用いて、4つの端点a、b、c、およびdの座標は次の通り三次元の座標で表されることができる。
は、カメラの基準原点1300、端点a、b、c、およびdで構成される検出された境界1330、および端点A、B、C、およびDで構成される長方形1340の間の幾何学的関係に基づいて下記の通り計算されることができる。
ここで、点Aの座標は、Oaに設定することができる。これは、その実際のサイズよりむしろ点A、B、C、Dを構成する長方形のアスペクト比が計算されるので、実質的な相違を生じることなく地点aの座標に等しい。さらに、ベクトル
は、式[6]および[10]にしたがって計算されることができる。
のアスペクト比を計算することができる。したがって、もし計算されたアスペクト比とオブジェクトデータベース140から受信された実際のアスペクト比の間の差異が閾値以内である場合、境界検出器630は、修正すべき検出された境界を検証することができる。
境界が検出かつ検証された後、境界検出器630は、オブジェクト画像の検出された境界内に位置するオブジェクトの画像を抽出することができる。このような画像はオブジェクト画像のオブジェクト領域に対応する。いくつかの実施形態において、抽出された画像は、オブジェクト領域を修正する修正ユニット640に供給される。例えば、修正ユニット640は、サーバ120からのオブジェクトのアスペクト比のような構成情報を受信し、オブジェクトのアスペクト比に一致するオブジェクト領域を変形することによってオブジェクト領域を修正することができる。
オブジェクトの各画像におけるオブジェクト領域が修正された後、修正された画像は処理されて、修正された画像における1つまたはそれ以上のテキストブロックを識別する。図14は、本開示の1つの実施例にしたがって、識別可能なテキストブロック1420、1430、1440を有する検証された境界1410内のクレジットカード300の画像1400を図示する。この場合、マスキングユニット650は、クレジットカード画像1400内のテキストブロック1420、1430、1440の位置情報を受信する。例えば、位置情報は、テキストブロック1420、1430、1440の幾何学的な位置およびサイズを含むことができる。位置情報に基づいて、マスキングユニット650は次に、認識され得るクレジットカード300の画像1400内のテキストブロック1420、1430、および1440を識別する。識別されたテキストブロック1420、1430、1440を有するクレジットカード300のこのような画像1400は、テキストブロック1420、1430、1440の文字認識のためのOCRエンジン660に供給されることができる。
図15は、一実施形態に従う、オブジェクトの複数の画像内の対応するテキストブロックの暫定的な文字のセットに基づいて、オブジェクト内のテキストブロック内の文字のセットを決定するための、図7の740のさらに詳細なフローチャートを示す。OCRエンジン660は、各々が識別されたテキストブロックを有する、オブジェクトの複数の画像を、マスキングユニット650から最初に受信する。さらに、OCRエンジン660は、1510において、サーバ120またはクライアントデバイス110から、オブジェクトのテキストブロック内の文字のセットに関するフォーマット情報を受信する。例えば、フォーマット情報は、テキストブロック内の、数字、配置、文字の種類、文字の言語などのようなテキストブロックの文字フォーマットを含む。
OCRエンジン660は、1520において、フォーマット情報に基づいて、オブジェクト画像におけるテキストブロックのそれぞれを認識し、暫定的な文字のセットを生成する。一実施形態において、暫定的な文字のセットは、ホリスティックな方法(a holistic method)に基づいて生成される。ホリスティックな方法とは、オブジェクト内の1つのテキストブロック内の各単語を全体として認識することを指す。他の実施形態において、暫定的な文字のセットは、テキストブロック内の各単語を個々の文字に分割し、次に単語内の各文字を認識するセグメントベースの方法に基づいて生成される。全体論的な方法およびセグメントベースの方法は、共に、受信されたフォーマット情報に基づいて、オブジェクト画像内のテキストブロック内の暫定的な文字のセットを生成することができる。1530において、時間フィルタ670は、図16乃至19を参照して詳細に説明されるように、OCRエンジン660から、テキストブロックに関する暫定的な文字のセットを受信し、その後、受信した暫定的な文字のセットに基づいて、オブジェクト内のテキストブロックに関する文字のセットを推測する。
図16は、本開示の1つの実施例にしたがって、オブジェクトの複数の画像におけるテキストブロックから生成された暫定的な文字のセットに基づいて、オブジェクトのテキストブロックにおける文字のセットを決定するための時間フィルタ670のブロック図を示す。時間フィルタ670は、バッファ1610、テキスト推測ユニット1630、およびテキスト表示ユニット1650を含む。バッファ1610は、OCRエンジン660から受信される複数のオブジェクト画像内のテキストブロックから生成された暫定的な文字のセットを記憶する。暫定的な文字のセットに基づいて、テキスト推測ユニット1630は、オブジェクト内のテキストブロックに関する文字のセットを決定する。テキスト表示ユニット1650は、テキスト推測ユニット1630によって認識されたテキストブロックにおける文字のセットを受信する。該文字のセットは、図形処理ユニット680に供給されオブジェクト内のテキストブロックに関する文字のセットをディスプレー上に表示する。時間フィルタ670は、テキストブロックに関する文字のセットを決定するが、オブジェクトは、複数のテキストブロックを含むことができ、テキストブロック毎に、対応する暫定的な文字のセットから文字のセットを決定することができる。すなわち、時間フィルタ670は、オブジェクト画像内のテキストブロックに対応する暫定的な文字のセットから、オブジェクト内のテキストブロック毎に文字のセットを決定することができる。
いくつかの実施形態において、オブジェクトのサンプル画像の数は、テキストブロックの認識の際の正確性を高めるために増加されることができる。この場合、テキスト推測ユニット1630は、撮像ユニット610にリクエストを送ってオブジェクトの追加の画像を取得し、それにより、オブジェクト内のテキストブロックに関する暫定的な文字のセットをOCRエンジン660から生成することができる。このプロセスは、テキストブロック内の所望の精度が得られるまで継続することができる。
テキスト推測ユニット1630は、バッファ1610に記憶された暫定的な文字のセット内の各文字または単語に関する発生頻度に基づいて、1文字単位または1単語単位でテキストブロック内の文字のセットを推測することができる。さらに、テキストブロック内の文字の鮮明度、あるいは暫定的な文字のセット内の識別された文字または単語の類似度値のような、暫定的な文字のセットのそれぞれの信頼水準は、文字のセットを推測するために考慮することができる。
図17は、本開示の一実施形態にしたがって、ある期間にわたって撮像された複数のオブジェクト画像1700、1702、および1704から、クレジットカード300内の例示的なテキストブロック304内の文字のセット1718を推測する図を表す。初めに、OCRエンジン660は、連続して、または並行して複数のクレジットカード画像1700、1702、および1704を受信する。オブジェクト画像1700、1702、および1704のそれぞれに関して、OCRエンジン660は、テキストブロック1706、1708、および1710に関する暫定的な文字のセット1712、1714、および1716をそれぞれ生成する。このプロセスにおいて、暫定的な文字のセット1712、1714、および1716は、図5に示されるように、テキストブロック304内の文字の種類、テキストブロック304内の文字の配置、およびテキストブロック304内の文字数のような文字フォーマット情報を用いて生成される。
いくつかの実施形態において、暫定的な文字のセット1712、1714、および1716は上述したように、全体論的な方法またはセグメントベースの方法に基づいて生成される。全体論的な方法にしたがって、例えば、テキストブロック1706における「1234」、「5678」、「9876」、および「5432」のような複数の単語は、単語単位で認識されかつ結合されて、暫定的な文字のセット1712を形成する。一方、セグメントベースの方法では、各暫定的な文字のセット1712、1714、および1716は、テキストブロック1706、1708、または1710をそれぞれ個々の文字(例えば、1、2、3など)に分割しかつ各文字を個々に認識することによって生成される。
複数の暫定的な文字のセット1712、1714、および1716は、次に時間フィルタ670内のテキストブロック304に関する最終的な文字のセット1718を推測するために使用される。時間フィルタ670は、OCRエンジン660および暫定的な文字のセット1712、1714、および1716のそれぞれの信頼水準から、暫定的な文字のセット1712、1714、および1716を受信する。テキストブロック304に関する最終的な文字のセット1718は次に、暫定的な文字のセット1712、1714、および1716に基づいて、文字単位または単語単位で推測される。文字ベースの方法において、例えば、最終的な文字のセット1718の第1文字(例えば、数字)は、それぞれ暫定的な文字のセット1712、1714、および1716における一番目の文字「1」、「4」、「1」に基づいて推測されることができる。最終的な文字のセット1718における別の文字は、暫定的な文字のセット1712、1714、および1716における対応する位置における文字に基づいて同様の方法で決定されることができる。単語ベースの方法では、テキストブロック304に関する最終的な文字のセット1718の1番目の単語は、暫定的な文字のセット1712、1714、および1716における1番目の単語「1234」、「4234」、「1234」に基づいて推測される。同様の方法により、最終的な文字のセット1718における別の単語は、暫定的な文字のセット1712、1714、および1716における対応する位置における単語から推測される。いくつかの実施例において、最終的な文字のセット1718は、下記でさらに詳しく説明されるように、暫定的な文字のセット1712、1714、および1716の信頼水準および/または暫定的な文字のセット1712、1714、および1716における単語または文字の発生数に基づいて推測されることができる。3つの暫定的な文字のセット1712、1714、および1716は、最終的な文字のセット1718を推測するために例示されるが、3つよりも多いまたはそれ未満の暫定的な文字のセットが、オブジェクトにおけるテキストブロックにおける文字のセットを決定するために使われることができる。
図18は、本開示の1つの実施例にしたがって、文字単位ベースで、クレジットカード300内のテキストブロック304に関する最終的な文字のセット内の文字を推測する際に使用する暫定的な文字群の複数のセット1810、1820、1830、1840、1850、1860、および1870を示す。図示するように、暫定的なセット1810乃至1870内の文字は、テキストブロック304内のそれらの位置にしたがって、複数のグループ1800、1802、1804、および1806にグループ分けされる。例えば、グループ1800は、暫定的な文字のセット1810乃至1870内の1番目の文字群からなる。同様に、グループ1802、1804、および1806は、それぞれ、暫定的なセット1810乃至1870内の2番目、3番目、および4番目の文字群を含む。
同じ位置内の文字のグループ分けに基づいて、オブジェクト内のテキストブロックに関する1つの文字が、オブジェクトの複数の画像の複数のテキストブロック内の暫定的な文字のセット内の各位置における文字の発生頻度から推測される。例えば、1番目の文字グループ1800において、テキスト推測ユニット1630は、テキストブロック304に関する1番目の文字は、「1」の発生が、暫定的な文字群1810乃至1870内の1番目の文字の位置における任意の他の文字群のそれより大きいので、「1」であると推測する。
さらに正確さを確実にするために、テキスト推測ユニット1630は、ある位置におけるある文字の発生頻度が、所定の閾値(例えば、3)を超える時、1つの文字のみを推測するように構成してもよい。1番目の文字グループ1800の場合、文字「1」の発生頻度は4であり、したがって、文字「1」がテキストブロック304における1番目の文字であると決定される。所定の閾値を超えなかった場合、テキスト推測ユニット1630は、クレジットカード300の追加の画像を取得するための要求を、撮像ユニット610に送るように構成してもよい。一度、新しい暫定的な文字のセットが追加のオブジェクト画像に基づいて発生されると、テキスト推測ユニット1630は、新しい暫定的な文字のセットを含む新しい暫定的な文字のセット群に基づいて、テキストブロック304に関する最終的な文字のセットに関する文字群を推測する。
いくつかの実施例において、1オブジェクト内の1テキストブロックに関する文字の1セット内の1つの文字は、1つの暫定的な文字の信頼水準並びにオブジェクトの複数の画像からの複数のテキストブロック内の複数の暫定的な文字のセット内の対応する位置における発生頻度に基づいて推測される。例えば、1番目の文字グループ1800において、1番目の文字群「4」、「4」、および「4」の信頼水準信頼水準の平均値(例えば、90)は、1番目の文字群「1」、「1」、「1」、および「1」のそれ(例えば、60)よりも高い可能性がある。この場合、テキスト推測ユニット1630は、信頼水準に1番目の文字「4」の発生数を乗算した信頼水準平均が、1番目の文字「1」(例えば、90×3=270>60×4=240)のそれより大きいので、1番目の文字が「4」であると推測する。したがって、テキストブロック304の1番目の文字に関する推測過程は、そのテキストブロック304内の他の文字群のそれぞれに適用可能である。さらに、、クレジットカード300内の他のテキストブロック群306および308内の文字群は、同様の方法で、複数のオブジェクト画像から認識された暫定的な文字群の複数のセットから推測されることができる。
図19は、本開示の別の実施例にしたがって、単語単位ベースで、クレジットカード300内のテキストブロック304に関する最終的な文字のセット内の複数の単語を推測する際に使用するための暫定的な文字群の複数のセット1910、1920、1930、1940、1950、1960および197を示す。図示するように、暫定的な複数のセット1910乃至1970内の単語群は、テキストブロック304内のそれらの位置にしたがって、複数のグループ1900、1902、1904、および1906にグループ分けされる。例えば、グループ1900は、暫定的な文字群の複数のセット1910乃至1970内の1番目の単語からなる。同様に、グループ1902、1904、および1906は、それぞれ暫定的な複数のセット1910乃至1970内の2番目、3番目、および4番目の単語を含む可能性がある。
同じ複数の位置内の複数の単語のグループ分けに基づいて、オブジェクト内の1つのテキストブロックに関する1つの単語が、オブジェクトの複数の画像の複数のテキストブロック内の暫定的な文字群の複数のセット内の各位置内の単語の発生頻度から推測される。例えば、1番目の単語グループ1900では、、テキスト推測ユニット1630は、テキストブロック304に関する1番目の単語が「1234」であると推測する。なぜなら、「1234」の発生頻度は、暫定的な単語群1910乃至1970内の1番目の文字の位置内の任意の他の単語のそれより多いからである。この場合、もし発生頻度に関する所定の閾値を超えなかった場合、テキスト推測ユニット1630は、撮像ユニット610にリクエストを送って、クレジットカード300の追加の画像を取得するように構成されることができる。この場合、新しい暫定的な文字群の複数のセットは、追加のオブジェクト画像から生成され、かつテキストブロック304に関する最終的な文字群のセットに関する複数の単語を推測するために利用される。
いくつかの実施例において、オブジェクト内の1つのテキストブロックに関する文字群の1セット内の1単語はまた、1つの暫定的な文字群のセットの信頼水準に基づいて推測される。例えば、1番目の単語グループ1900において、「4234」の信頼水準の平均値が、「1234」のそれより高いと決定され得る。いくつかの場合において、「1234」の発生頻度が1番目の単語「4234」のそれより高いとしても、テキスト推測ユニット1630は、「4234」の信頼水準の平均値が「1234」のそれらより高いので、文字群のセット内の1番目の単語が、「4234」であると推測することができる。したがって、テキストブロック304の1番目の単語に関する推測工程は、テキストブロック304内の別の単語のそれぞれに適用されることができる。加えて、クレジットカード300内の別のテキストブロック群306および308内の複数の単語は、同様の方法で、複数のオブジェクト画像から認識された暫定的な文字のセット群から推測されることができる。
一度オブジェクト内の各テキストブロック内の文字群の1つの最終的なセットが推測されると、文字群のセットは、ユーザによって検証され得る認識結果としてディスプレー上に表示されることができる。図20は、本開示の1つの実施形態にしたがって、ユーザによって、ディスプレー上に表示された認識結果を検証するための、図7における750のさらに詳細なフローチャートである。2010において、図形処理ユニット680は、時間フィルタ670内のテキスト表示ユニット1650から、テキストブロック内の文字群の最終的な1のセットを受信する。2020において、図形処理ユニット680は、認識結果として文字群を表示するディスプレーに文字群の最終的な1のセットを送る。1つの実施形態において、各テキストブロックに関する最終的な文字群のセット内の1文字または1単語が、テキスト推測ユニット1630によって決定されるときはいつでも、決定された1文字または1単語は、図形処理ユニット680を介してその決定された1文字または1単語を表示するためにディスプレーに供給される。さらに、テキスト推測ユニット1630は、オブジェクトの新しく取得された画像を用いて生成された暫定的な文字群の1セットに基づいて、その文字群のセットに関する新しい推測を行うことによって、オブジェクト内の各テキストブロックに関する文字群または単語群を更新し、該更新された認識情報を表示のために供給することができる。このような更新工程は、オブジェクト内の各テキストブロックに関する文字群のセット内のすべての文字が認識され、ディスプレーに表示されるまで行われることができる。2030において、ディスプレー上に表示された認識結果は次に、ユーザによって検証される。もし認識結果がユーザによって検証されない場合、オブジェクトの追加の画像は、ユーザがその結果を最終的に検証するまでテキストブロックの認識のために取得されることができる。
図21は、本開示の1実施形態にしたがって、ディスプレー上のクレジットカード300に関する中間認識結果を表示する図2100を示す。図示するように、複数のブロック2110、2120、および2130は、それぞれテキストブロック304、306、および308に関する中間認識結果を含む。この場合、中間認識結果は、1つまたはそれ以上の非認識文字を含み、非認識文字のそれぞれは、文字が認識中か、または文字を推測できないことを示すアスタリスク(例えば「*」)として示される。非認識文字に関する文字が認識されかつ表示されるにしたがって、アスタリスクは認識文字に変更されることができる。このように、暫定的な認識結果は、テキストブロック304、306、および308におけるすべての文字が認識されるまで表示かつ更新されることができる。
図22は、1実施形態にしたがって、ディスプレー上のクレジットカード300に関する最終的な認識結果を表示する図2200を示す。複数のブロック2210、2220、および2230はすべてが認識されたテキストブロック304、306、および308内の文字を含む。この場合、ユーザは、最終的な認識結果が、テキストブロック304、306、および308内の実際の文字群と比較して正しいかどうかを検証することができる。
図23は、無線通信システムにおける例示的なモバイル装置2300の構成を示す。モバイル装置2300の構成は、クライアント装置110および210において実施されることができる。モバイル装置2300は、セルラ式電話(cellular phone)、端末、ハンドセット、パーソナルデジタルアシスタント(PDA)、無線モデム(wireless modem)、コードレス電話などであり得る。無線通信システムは、符号分割多元接続(CDMA)システム(Code Division Multiple Access)、グローバルシステムフォーモバイルコミュニケーション(GSM(登録商標))(Global System for Mobile Communications)システム、広帯域CDMA(WCDMA(登録商標))システム、LTE(Long Term Evolution)システム、LTEアドバンストシステムなどであり得る。さらに、モバイル装置2300は、例えば、Wi―Fiダイレクト、ブルートゥース(登録商標)(Bluetooth(登録商標))、またはフラッシュリンク(FlashLinq)テクノロジーを用いて、別のモバイル装置と直接通信することができる。
モバイル装置2300は、受信パスおよび送信パスを介して双方向通信を提供することができる。受信パス上で、基地局によって送信された信号は、アンテナ2312によって受信され、受信機(RCVR)2314に提供される。
受信機2314は、受信された信号を調整およびデジタル化し、更なる処理のために、該調整およびデジタル化された信号のようなサンプルをデジタルセクションに提供する。送信パス上で、送信機(TMTR)2316は、送信されるべきデータをデジタルセクション2320から受信し、そのデータを処理および調整し、基地局にアンテナ2312を介して送信される変調された信号を生成する。受信機2314および送信機2316は、CDMA、GSM、LTE、LTEアドバンストなどをサポートすることができる送受信機の一部であり得る。
デジタルセクション2320は、例えば、モデムプロセッサ2332、縮小された命令設定コンピュータ/デジタルシグナルプロセッサ(RISC/DSP)2324、コントローラ/プロセッサ2326、内部メモリ2328、一般化された音声符号器1332、一般化された音声復号器2334、グラフィックス/ディスプレープロセッサ2336、および外部バスインタフェース(EBI)2338のような様々な処理、インターフェース、および記憶ユニットを含む。モデムプロセッサ2322は、データ送受信に関する処理、例えば、符号化、変調、復調、復号を行うことができる。RISC/DSP2324は、モバイルデ装置2300に関する一般的および専門的な処理を行うことができる。コントローラ/プロセッサ2326は、デジタルセクション2320内の様々な処理およびインタフェースユニットの操作を行うことができる。内部メモリ2328は、デジタルセクション2320内の様々なユニットに関するデータおよび/または命令を記憶することができる。
一般化された音声符号器2332は、音声ソース2342、マイクロフォン2343などからの入力信号を符号化することができる。一般化された音声復号器2334は、符号化された音声データを復号化することができ、スピーカ/ヘッドセット2344に出力信号を供給することができる。図形/ディスプレープロセッサ2336は、ディスプレーユニット2346に表示され得るテキスト、画像、ビデオ、および図形に関する処理を行うことができる。EBI2338は、デジタルセクション2320と主要メモリ2348との間のデータの転送を容易にすることができる。
デジタルセクション2320は、1つまたはそれ以上のプロセッサ、DSPs、マイクロプロセッサ、RISCsなどと共に実行されることができる。デジタルセクション2320はまた、1つまたはそれ以上の特定用途向け集積回路(ASICs)および/またはその他の種類の集積回路(ICs)上で組み立てられることができる。
一般的に、ここで説明されたいかなる装置も、無線電話、セルラ式電話、ラップトップコンピュータ、無線マルチメディア装置、無線通信パーソナルコンピュータ(PC)カード、PDA、外部または内部モデム、無線チャンネルを介して通信する装置などの様々な種類の装置を表すことができる。装置は、アクセス端末(AT)、アクセスユニット、加入者ユニット、モバイルステーション、モバイル装置、モバイルユニット、モバイル電話、モバイル、遠隔ステーション、遠隔端末、遠隔ユニット、ユーザ装置、ユーザ機器、ハンドヘルド装置などのような様々な名前を有することができる。ここで記述されたいずれの装置も、ハードウェア、ソフトウェア、ファームウェア、またはそれらの組み合わせと同様に命令およびデータを記憶するためのメモリを有することができる。
ここで説明された技術は様々な手段によって実行されることができる。例えば、これらの技術は、ハードウェア、ファームウェア、ソフトウェア、または、それらの組み合わせにおいて実行されることができる。当業者はさらに、ここでの開示と関連して説明されている様々な例示的な論理ブロック、モジュール、回路、アルゴリズムステップが、電子ハードウェア、コンピュータソフトウェアまたは両方の組み合わせとして実行されることができることを理解するであろう。ハードウェアとソフトウェアのこの互換性を明確に示すために、様々な例示的なコンポーネント、ブロック、モジュール、回路、およびステップが、一般的に、それらの機能性という観点から上記で説明されている。このような機能性が、ハードウェアまたはソフトウェアとして実施されるかどうかは、特定のアプリケーションおよびシステム全体に課された設計制約とに依存する。当業者は、各特定のアプリケーションに関して様々な方法で説明された機能性を実施することができるが、そのような実施の決定は、本開示の範囲からの逸脱をもたらすように解釈されるべきではない。
ハードウェアの実行に関して、技術を実行するために使用される処理ユニットは、1つまたはそれ以上のASICs、DSPs、デジタル信号処理デバイス(DSPDs)、プログラム可能な論理デバイス(PLDs)、フィールドプログラム可能ゲートアレイ(FPGAs)、プロセッサ、コントローラ、マイクロ―コントローラ、マイクロプロセッサ、電子装置、ここで記述された機能を実行するために設計された別の電子ユニット、コンピュータ、または、それらの組み合わせの範囲で実行されることができる。
従って、ここでの開示と関連して記述された様々な例示的な論理ブロック、モジュール、および回路は、汎用のプロセッサ、DSP、ASIC、FPGAまたは他のプログラム可能論理デバイス、ディスクリートゲートまたはトランジスタ論理、ディスクリートハードウェアコンポーネント、またはここで記述された機能を実行するために設計されたそれらのいずれかの組み合わせと共に実行または実施されることができる。汎用プロセッサはマイクロプロセッサであり得るが、代わりに、プロセッサは、従来のプロセッサ、コントローラ、マイクロコントローラ、またはステートマシンのいずれかであり得る。プロセッサはまた、コンピュータデバイスの組み合わせ、例えば、DSPとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサ、DSPコアとともに1つまたはそれ以上のマイクロプロセッサ、またはこのような構成のいずれか別のものとして実施されてもよい。
ファームウェアおよび/またはソフトウェアの実施に関して、技術は、ランダムアクセスメモリ(RAM)、読出し―専用メモリ(ROM)、不―揮発性ランダムアクセスメモリ(NVRAM)、プログラム可能読出し―専用メモリ(PROM)、電気的消去可能PROM(EEPROM(登録商標))、フラッシュメモリ、コンパクトディスク(CD)、磁気または光学データ記憶デバイスなどのようなコンピュータ―可読媒体に記憶される命令として具体化されることができる。命令は、1つまたはそれ以上のプロセッサによって実行可能であり、かつプロセッサ(1つまたは複数の)に、ここで記述された機能性の特定の観点を実行させることができる。
ソフトウェアにおいて実施される場合、この機能は、コンピュータ可読媒体上の1つまたはそれ以上の命令またはコードとして記憶または送信されることができる。コンピュータ可読媒体は、ひとつの場所から別の場所へのコンピュータ・プログラムの転送を容易にするいずれかの媒体を含む通信媒体とコンピュータ記憶媒体との両方を含む。記憶媒体は、コンピュータによってアクセスされ得るいずれかの利用可能な媒体であり得る。限定ではなく例として、このようなコンピュータ可読媒体は、命令またはデータ構造の形式における所望のプログラムコードを搬送または記憶するために使用されることができ、かつコンピュータによってアクセスされることができるRAM、ROM、EEPROM、CD−ROMまたはその他の光ディスク記憶装置、磁気ディスク記憶装置またはその他の磁気記憶装置、またはいずれか別の媒体を備えることができる。また、いずれかの接続は、適切にはコンピュータ可読媒体と呼ばれる。例えば、もしソフトウェアが、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線(DSL)、または赤外線、無線、およびマイクロ波のような無線技術を使って、ウェブサイト、サーバ、もしくはその他の遠隔ソースから送信される場合、次にこの同軸ケーブル、光ファイバーケーブル、ツイストペア、DSL、または赤外線、無線、およびマイクロ波のような無線技術は媒体の定義に含まれる。ディスク(disk)とディスク(disc)は、ここで使用されるように、CD、レーザーディスク(登録商標)、光ディスク、デジタル汎用ディスク(DVD)、フロッピー(登録商標)ディスク、およびブルーレイディスクを含み、ここでディスク(disks)は通常、磁気的にデータを再生し、一方、ディスク(discs)はレーザを用いて、光学的にデータを再生する。上記の組み合わせもまた、コンピュータ―可読媒体の範囲に含まれるべきである。
ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、リムーバブルディスク、CD−ROM、または、当技術分野において周知の記憶媒体のいずれか別の形態に属することができる。例示的な記憶媒体は、プロセッサに結合されており、その結果、プロセッサは、記憶媒体から情報を読み取ったり、また記憶媒体に情報を書き込んだりすることができる。あるいは、記憶媒体はプロセッサに一体化されることができる。プロセッサおよび記憶媒体はASICに属することができる。ASICは、ユーザ端末に属することができる。あるいは、プロセッサおよび記憶媒体は、ユーザ端末に個別のコンポーネントとして属することができる。
本開示の先の説明は、本開示を使用、または行なうことを当業者に可能にするために提供される。本開示に対する様々な変更は、当業者にとって容易に明らかであろう、またここで定義された一般的な原理は、本開示の範囲または精神から逸脱することなくその他の変化に適用されることができる。従って、本開示は、ここに記述された例に制限されることを意図しないが、ここに開示された新規の特徴および原理と一致する最も広い範囲を許可されるべきである。
例示的な実施は、1つまたはそれ以上の独立型コンピュータシステムのコンテクストにおいて目下開示された主題の観点を利用することについて述べているが、主題はそのように限定されてはおらず、むしろネットワークまたは分散されたコンピュータ環境のように、いずれかのコンピュータ環境と関連して実施されることができる。またさらに、目下開示された主題の観点は、複数の処理チップまたは装置全体にわたって、またはそれらにおいて実施されることができ、記憶媒体は同様に複数の装置全体にわたって影響される。このような装置は、PCs、ネットワークサーバ、およびハンドヘルドデバイスを含むことができる。
主題は構造的特徴及び/または方法論的動作に特有の言葉で記述されているが、添付の特許請求の範囲において定義された主題が、上述された特有の特徴または動作に対して必ずしも限定されないことが理解されるべきである。むしろ、上述された特定の特徴および動作は特許請求の範囲を実施する実施例の形態として開示される。
主題は構造的特徴及び/または方法論的動作に特有の言葉で記述されているが、添付の特許請求の範囲において定義された主題が、上述された特有の特徴または動作に対して必ずしも限定されないことが理解されるべきである。むしろ、上述された特定の特徴および動作は特許請求の範囲を実施する実施例の形態として開示される。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[C1] オブジェクト内のテキストブロックを認識するための方法において、前記テキストブロックは、文字群のセットを有し、
前記オブジェクトの複数の画像を受信することと、ここにおいて、前記オブジェクトの各画像は、前記テキストブロックを含む、
前記オブジェクトの前記複数の画像内の前記複数のテキストブロックを識別することと、
前記オブジェクトの前記複数の画像内の前記識別された複数のテキストブロックに基づいて前記文字群のセットを決定することと
を備える方法。
[C2] 前記文字群のセットを決定することは、
前記識別された複数のテキストブロックのそれぞれに関する、暫定的な文字群の1セットを生成することと、
前記暫定的な文字群の複数のセットに基づいて、前記文字群のセットを推測することと、を含む、C1の前記方法。
[C3] 前記暫定的な文字群の複数のセットを生成することは、全体論的な方法に基づいて前記暫定的な文字群の複数のセットを生成することを含む、C2の前記方法。
[C4] 前記暫定的な文字群の複数のセットを生成することは、セグメントベースの方法に基づいて前記暫定的な文字群の複数のセットを生成することを含む、C2の前記方法。
[C5] 前記文字群のセットを推測することは、前記暫定的な文字群の複数のセットの信頼水準に基づいて、前記文字群のセットを推測することを含む、C2の前記方法。
[C6] 前記文字群のセット内の1文字は、前記暫定的な文字群の複数のセット内の対応する位置における発生頻度に基づいて推測される、C5の前記方法。
[C7] 前記文字群のセット内の前記文字は、前記発生頻度が所定の閾値を超える時、推測される、C6の前記方法。
[C8] 前記暫定的な文字群のセットを生成することは、前記テキストブロック内の前記文字群のセットに関するフォーマット情報を受信することと、前記受信されたフォーマット情報に基づいて前記暫定的な複数の文字のセットを生成することとを含む、C2の前記方法。
[C9] 前記複数のテキストブロックを識別することは、
前記オブジェクトの前記複数の画像の各々の前記オブジェクトの境界を検出することと、
前記オブジェクトの所定のサイズ情報に基づいて前記検出された境界を検証することと、
前記オブジェクトの前記テキストブロックの所定の位置情報に基づいて前記複数のテキストブロックを識別することと、を含む、C1の前記方法。
[C10] 前記検出された境界を検証することは、前記検出された境界が前記所定のサイズ情報と一致しない場合、前記オブジェクトの新しい画像を受信することを含む、C9の前記方法。
[C11] 参照オブジェクト画像の1部分から抽出された所定のパターンに基づいて前記オブジェクトの種類を決定することをさらに備え、前記所定のパターンが、前記オブジェクトの前記種類に特有である、C9の前記方法。
[C12] 前記オブジェクトの前記複数の画像は前記オブジェクトのビデオフレームを含む、C1の前記方法。
[C13] 前記決定された文字群のセットを表示することをさらに備える、C1の前記方法。
[C14] オブジェクトにおけるテキストブロックを認識するための装置であって、前記テキストブロックは文字群のセットを有し、
前記オブジェクトの複数の画像を撮像するように構成された撮像ユニットと、ここにおいて、前記オブジェクトの各画像は前記テキストブロックを含む、
前記オブジェクトの前記複数の画像内の前記複数のテキストブロックを識別するように構成されたマスキングユニットと、
前記オブジェクトの前記複数の画像内の前記識別された複数のテキストブロックに基づいて前記文字群のセットを決定するように構成された時間フィルタと、を備える装置。
[C15] 前記識別された複数のテキストブロックのそれぞれに関する暫定的な文字群のセットを生成するように構成されたOCR(光学文字読取装置)エンジンをさらに備え、前記文字群のセットが、前記時間フィルタによって前記暫定的な複数の文字群のセットに基づいて推測される、C14の前記装置。
[C16] 前記OCRエンジンは、全体論的な方法に基づいて前記暫定的な文字群のセットを生成するようにさらに構成される、C15の前記装置。
[C17] 前記OCRエンジンは、セグメントベースの方法に基づいて前記暫定的な文字群のセットを生成するようにさらに構成される、C15の前記装置。
[C18] 前記時間フィルタは、前記暫定的な文字群のセットの信頼水準に基づいて、前記文字群のセットを推測するようにさらに構成される、C15の前記装置。
[C19] 前記文字群のセット内の1文字は、前記暫定的な複数の文字群のセット内の前記対応する位置における発生頻度に基づいて推測される、C18の前記装置。
[C20] 前記文字群のセット内の前記文字は、前記文字の数が所定の閾値を超える時に推測される、C19の前記装置。
[C21] 前記OCRエンジンは、前記テキストブロック内の前記文字群のセットに関するフォーマット情報を受信し、前記受信されたフォーマット情報に基づいて前記暫定的な文字群のセットを生成するようにさらに構成される、C15の前記装置。
[C22] 前記オブジェクトの前記複数の画像のそれぞれにおける前記オブジェクトの境界を検出し、前記オブジェクトの所定のサイズ情報に基づいて前記検出された境界を検証するように構成された境界検出器をさらに備え、前記マスキングユニットは、前記オブジェクトの前記テキストブロックの所定の位置情報に基づいて前記複数のテキストブロックを識別するようにさらに構成される、C14の前記装置。
[C23] 前記撮像ユニットは、前記検出された境界が前記所定のサイズ情報に一致しない場合、前記オブジェクトの新しい画像を受信するようにさらに構成される、C22の前記装置。
[C24] 参照オブジェクト画像の一部から抽出された所定のパターンに基づいて前記オブジェクトの種類を決定するように構成されたオブジェクト認識ユニットをさらに備え、前記所定のパターンが前記オブジェクトの前記種類に特有である、C14の前記装置。
[C25] 前記オブジェクトの前記複数の画像は、前記オブジェクトの複数のビデオフレームを含む、C13の前記装置。
[C26] 前記決定された文字群のセットを表示するように構成されたディスプレーをさらに備える、C13の前記装置。
[C27] オブジェクト内のテキストブロックを認識するための複数の命令を備える非一時的コンピュータ―可読媒体であって、
前記命令は、プロセッサに、
前記オブジェクトの複数の画像を受信させ、ここにおいて、前記オブジェクトの各画像は前記テキストブロックを含む、
前記オブジェクトの前記複数の画像内の前記複数のテキストブロックを識別させ、
前記オブジェクトの前記複数の画像内の前記識別された複数のテキストブロックに基づいて前記テキストブロック内の文字群のセットを決定させる、非一時的コンピュータ可読媒体。
[C28] 前記文字群のセットを決定することは、前記識別された複数のテキストブロックのそれぞれに関する暫定的な文字群のセットを生成することと、前記暫定的な文字群のセットに基づいて前記文字群のセットを推測することと、を含むC27の非一時的コンピュータ可読媒体。
[C29] 前記暫定的な文字群のセットを生成することは、全体論的な方法に基づいて前記暫定的な複数の文字群のセットを生成することを含む、C28の非一時的コンピュータ可読媒体。
[C30] 前記暫定的な文字群の複数のセットを生成することは、セグメントベースの方法に基づいて前記暫定的な複数の文字群のセットを生成することを含む、C28の非一時的コンピュータ可読媒体。
[C31] 前記文字群の複数のセットを推測することは、前記暫定的な文字群の複数のセットの信頼水準に基づいて前記文字群のセットを推測することを含む、C28の非一時的コンピュータ可読媒体。
[C32] 前記文字群のセット内の1文字は、前記暫定的な文字群の複数のセット内の前記対応する位置における発生頻度に基づいて推測される、C31の前記媒体。
[C33] 前記文字群のセット内の前記文字は、前記発生頻度が所定の閾値を超えるときに推測される、C32の前記媒体。
[C34] 前記暫定的な文字群のセットを生成することは、前記テキストブロック内の前記文字群のセットに関するフォーマット情報を受信することと、前記受信されたフォーマット情報に基づいて前記暫定的な文字群のセットを生成することと、を含むC28の前記媒体。
[C35] 前記複数のテキストブロックを識別することは、
前記オブジェクトの前記複数の画像のそれぞれにおける前記オブジェクトの境界を検出することと、
前記オブジェクトの所定のサイズ情報に基づいて前記検出された境界を検証することと、
前記オブジェクトの前記テキストブロックの所定の位置情報に基づいて前記テキストブロックを識別することと、を含むC27の前記媒体。
[C36] 前記検出された境界を検証することは、前記検出された境界が前記所定のサイズ情報に一致しない場合、前記オブジェクトの新しい画像を受信することを含む、C35の前記媒体。
[C37] 前記複数のオペレーションは、参照オブジェクト画像の一部から抽出された所定のパターンに基づいて、前記オブジェクトの種類を決定することをさらに備え、前記所定のパターンが前記オブジェクトの前記種類に特有である、C27の前記媒体。
[C38] 前記オブジェクトの前記複数の画像は、前記オブジェクトの複数のビデオフレームを含む、C27の前記媒体。
[C39] 前記複数のオペレーションは、前記決定された複数の文字のセットを表示することをさらに備える、C27の前記媒体。
[C40] オブジェクトにおけるテキストブロックを認識するための装置であって、前記テキストブロックは文字群のセットを有し、
前記オブジェクトの複数の画像を撮像する手段と、ここにおいて、前記オブジェクトの各画像は、前記テキストブロックを含む、
前記オブジェクトの前記複数の画像内の前記複数のテキストブロックを識別するための手段と、
前記オブジェクトの前記複数の画像における前記識別された複数のテキストブロックに基づいて、前記文字群のセットを決定するための手段と、
を備える、前記装置。
[C41] 前記識別された複数のテキストブロックのそれぞれに関する暫定的な文字群のセットを生成するための手段をさらに備え、前記文字群のセットは、前記決定手段によって前記暫定的な文字群の複数のセットに基づいて推測される、C40の前記装置。
[C42] 前記決定手段は、前記暫定的な文字群の複数のセットの信頼水準に基づいて、前記文字群のセットを推測する、C41の前記装置。
[C43] 前記文字群のセット内の1文字は、前記暫定的な文字群の複数のセット内の前記対応する位置における発生頻度に基づいて推測される、C42の前記装置。
[C44] 前記文字群のセット内の前記文字は、前記文字数が所定の閾値を超える時に推測される、C43の前記装置。
[C45] 前記生成手段は、前記テキストブロック内の前記文字群のセットに関するフォーマット情報を受信し、前記受信されたフォーマット情報に基づいて、前記暫定的な文字群のセットを生成する、C41の前記装置。
[C46] 前記オブジェクトの前記複数の画像のそれぞれにおける前記オブジェクトの境界を検出するための手段と、
前記オブジェクトの所定のサイズ情報に基づいて前記検出された境界を検証するための手段と、をさらに備え、
前記識別手段は、前記オブジェクトの前記テキストブロックの所定の位置情報に基づいて前記複数のテキストブロックを識別する、C40の前記装置。
[C47] 前記撮像手段は、前記検出された境界が前記所定のサイズ情報に一致しない場合、前記オブジェクトの新しい画像を受信する、C46の前記装置。
[C48] 参照オブジェクト画像の一部から抽出された所定のパターンに基づいて前記オブジェクトの種類を決定するための手段をさらに備え、前記所定のパターンが、前記オブジェクトの前記種類に特有である、C40の前記装置。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[C1] オブジェクト内のテキストブロックを認識するための方法において、前記テキストブロックは、文字群のセットを有し、
前記オブジェクトの複数の画像を受信することと、ここにおいて、前記オブジェクトの各画像は、前記テキストブロックを含む、
前記オブジェクトの前記複数の画像内の前記複数のテキストブロックを識別することと、
前記オブジェクトの前記複数の画像内の前記識別された複数のテキストブロックに基づいて前記文字群のセットを決定することと
を備える方法。
[C2] 前記文字群のセットを決定することは、
前記識別された複数のテキストブロックのそれぞれに関する、暫定的な文字群の1セットを生成することと、
前記暫定的な文字群の複数のセットに基づいて、前記文字群のセットを推測することと、を含む、C1の前記方法。
[C3] 前記暫定的な文字群の複数のセットを生成することは、全体論的な方法に基づいて前記暫定的な文字群の複数のセットを生成することを含む、C2の前記方法。
[C4] 前記暫定的な文字群の複数のセットを生成することは、セグメントベースの方法に基づいて前記暫定的な文字群の複数のセットを生成することを含む、C2の前記方法。
[C5] 前記文字群のセットを推測することは、前記暫定的な文字群の複数のセットの信頼水準に基づいて、前記文字群のセットを推測することを含む、C2の前記方法。
[C6] 前記文字群のセット内の1文字は、前記暫定的な文字群の複数のセット内の対応する位置における発生頻度に基づいて推測される、C5の前記方法。
[C7] 前記文字群のセット内の前記文字は、前記発生頻度が所定の閾値を超える時、推測される、C6の前記方法。
[C8] 前記暫定的な文字群のセットを生成することは、前記テキストブロック内の前記文字群のセットに関するフォーマット情報を受信することと、前記受信されたフォーマット情報に基づいて前記暫定的な複数の文字のセットを生成することとを含む、C2の前記方法。
[C9] 前記複数のテキストブロックを識別することは、
前記オブジェクトの前記複数の画像の各々の前記オブジェクトの境界を検出することと、
前記オブジェクトの所定のサイズ情報に基づいて前記検出された境界を検証することと、
前記オブジェクトの前記テキストブロックの所定の位置情報に基づいて前記複数のテキストブロックを識別することと、を含む、C1の前記方法。
[C10] 前記検出された境界を検証することは、前記検出された境界が前記所定のサイズ情報と一致しない場合、前記オブジェクトの新しい画像を受信することを含む、C9の前記方法。
[C11] 参照オブジェクト画像の1部分から抽出された所定のパターンに基づいて前記オブジェクトの種類を決定することをさらに備え、前記所定のパターンが、前記オブジェクトの前記種類に特有である、C9の前記方法。
[C12] 前記オブジェクトの前記複数の画像は前記オブジェクトのビデオフレームを含む、C1の前記方法。
[C13] 前記決定された文字群のセットを表示することをさらに備える、C1の前記方法。
[C14] オブジェクトにおけるテキストブロックを認識するための装置であって、前記テキストブロックは文字群のセットを有し、
前記オブジェクトの複数の画像を撮像するように構成された撮像ユニットと、ここにおいて、前記オブジェクトの各画像は前記テキストブロックを含む、
前記オブジェクトの前記複数の画像内の前記複数のテキストブロックを識別するように構成されたマスキングユニットと、
前記オブジェクトの前記複数の画像内の前記識別された複数のテキストブロックに基づいて前記文字群のセットを決定するように構成された時間フィルタと、を備える装置。
[C15] 前記識別された複数のテキストブロックのそれぞれに関する暫定的な文字群のセットを生成するように構成されたOCR(光学文字読取装置)エンジンをさらに備え、前記文字群のセットが、前記時間フィルタによって前記暫定的な複数の文字群のセットに基づいて推測される、C14の前記装置。
[C16] 前記OCRエンジンは、全体論的な方法に基づいて前記暫定的な文字群のセットを生成するようにさらに構成される、C15の前記装置。
[C17] 前記OCRエンジンは、セグメントベースの方法に基づいて前記暫定的な文字群のセットを生成するようにさらに構成される、C15の前記装置。
[C18] 前記時間フィルタは、前記暫定的な文字群のセットの信頼水準に基づいて、前記文字群のセットを推測するようにさらに構成される、C15の前記装置。
[C19] 前記文字群のセット内の1文字は、前記暫定的な複数の文字群のセット内の前記対応する位置における発生頻度に基づいて推測される、C18の前記装置。
[C20] 前記文字群のセット内の前記文字は、前記文字の数が所定の閾値を超える時に推測される、C19の前記装置。
[C21] 前記OCRエンジンは、前記テキストブロック内の前記文字群のセットに関するフォーマット情報を受信し、前記受信されたフォーマット情報に基づいて前記暫定的な文字群のセットを生成するようにさらに構成される、C15の前記装置。
[C22] 前記オブジェクトの前記複数の画像のそれぞれにおける前記オブジェクトの境界を検出し、前記オブジェクトの所定のサイズ情報に基づいて前記検出された境界を検証するように構成された境界検出器をさらに備え、前記マスキングユニットは、前記オブジェクトの前記テキストブロックの所定の位置情報に基づいて前記複数のテキストブロックを識別するようにさらに構成される、C14の前記装置。
[C23] 前記撮像ユニットは、前記検出された境界が前記所定のサイズ情報に一致しない場合、前記オブジェクトの新しい画像を受信するようにさらに構成される、C22の前記装置。
[C24] 参照オブジェクト画像の一部から抽出された所定のパターンに基づいて前記オブジェクトの種類を決定するように構成されたオブジェクト認識ユニットをさらに備え、前記所定のパターンが前記オブジェクトの前記種類に特有である、C14の前記装置。
[C25] 前記オブジェクトの前記複数の画像は、前記オブジェクトの複数のビデオフレームを含む、C13の前記装置。
[C26] 前記決定された文字群のセットを表示するように構成されたディスプレーをさらに備える、C13の前記装置。
[C27] オブジェクト内のテキストブロックを認識するための複数の命令を備える非一時的コンピュータ―可読媒体であって、
前記命令は、プロセッサに、
前記オブジェクトの複数の画像を受信させ、ここにおいて、前記オブジェクトの各画像は前記テキストブロックを含む、
前記オブジェクトの前記複数の画像内の前記複数のテキストブロックを識別させ、
前記オブジェクトの前記複数の画像内の前記識別された複数のテキストブロックに基づいて前記テキストブロック内の文字群のセットを決定させる、非一時的コンピュータ可読媒体。
[C28] 前記文字群のセットを決定することは、前記識別された複数のテキストブロックのそれぞれに関する暫定的な文字群のセットを生成することと、前記暫定的な文字群のセットに基づいて前記文字群のセットを推測することと、を含むC27の非一時的コンピュータ可読媒体。
[C29] 前記暫定的な文字群のセットを生成することは、全体論的な方法に基づいて前記暫定的な複数の文字群のセットを生成することを含む、C28の非一時的コンピュータ可読媒体。
[C30] 前記暫定的な文字群の複数のセットを生成することは、セグメントベースの方法に基づいて前記暫定的な複数の文字群のセットを生成することを含む、C28の非一時的コンピュータ可読媒体。
[C31] 前記文字群の複数のセットを推測することは、前記暫定的な文字群の複数のセットの信頼水準に基づいて前記文字群のセットを推測することを含む、C28の非一時的コンピュータ可読媒体。
[C32] 前記文字群のセット内の1文字は、前記暫定的な文字群の複数のセット内の前記対応する位置における発生頻度に基づいて推測される、C31の前記媒体。
[C33] 前記文字群のセット内の前記文字は、前記発生頻度が所定の閾値を超えるときに推測される、C32の前記媒体。
[C34] 前記暫定的な文字群のセットを生成することは、前記テキストブロック内の前記文字群のセットに関するフォーマット情報を受信することと、前記受信されたフォーマット情報に基づいて前記暫定的な文字群のセットを生成することと、を含むC28の前記媒体。
[C35] 前記複数のテキストブロックを識別することは、
前記オブジェクトの前記複数の画像のそれぞれにおける前記オブジェクトの境界を検出することと、
前記オブジェクトの所定のサイズ情報に基づいて前記検出された境界を検証することと、
前記オブジェクトの前記テキストブロックの所定の位置情報に基づいて前記テキストブロックを識別することと、を含むC27の前記媒体。
[C36] 前記検出された境界を検証することは、前記検出された境界が前記所定のサイズ情報に一致しない場合、前記オブジェクトの新しい画像を受信することを含む、C35の前記媒体。
[C37] 前記複数のオペレーションは、参照オブジェクト画像の一部から抽出された所定のパターンに基づいて、前記オブジェクトの種類を決定することをさらに備え、前記所定のパターンが前記オブジェクトの前記種類に特有である、C27の前記媒体。
[C38] 前記オブジェクトの前記複数の画像は、前記オブジェクトの複数のビデオフレームを含む、C27の前記媒体。
[C39] 前記複数のオペレーションは、前記決定された複数の文字のセットを表示することをさらに備える、C27の前記媒体。
[C40] オブジェクトにおけるテキストブロックを認識するための装置であって、前記テキストブロックは文字群のセットを有し、
前記オブジェクトの複数の画像を撮像する手段と、ここにおいて、前記オブジェクトの各画像は、前記テキストブロックを含む、
前記オブジェクトの前記複数の画像内の前記複数のテキストブロックを識別するための手段と、
前記オブジェクトの前記複数の画像における前記識別された複数のテキストブロックに基づいて、前記文字群のセットを決定するための手段と、
を備える、前記装置。
[C41] 前記識別された複数のテキストブロックのそれぞれに関する暫定的な文字群のセットを生成するための手段をさらに備え、前記文字群のセットは、前記決定手段によって前記暫定的な文字群の複数のセットに基づいて推測される、C40の前記装置。
[C42] 前記決定手段は、前記暫定的な文字群の複数のセットの信頼水準に基づいて、前記文字群のセットを推測する、C41の前記装置。
[C43] 前記文字群のセット内の1文字は、前記暫定的な文字群の複数のセット内の前記対応する位置における発生頻度に基づいて推測される、C42の前記装置。
[C44] 前記文字群のセット内の前記文字は、前記文字数が所定の閾値を超える時に推測される、C43の前記装置。
[C45] 前記生成手段は、前記テキストブロック内の前記文字群のセットに関するフォーマット情報を受信し、前記受信されたフォーマット情報に基づいて、前記暫定的な文字群のセットを生成する、C41の前記装置。
[C46] 前記オブジェクトの前記複数の画像のそれぞれにおける前記オブジェクトの境界を検出するための手段と、
前記オブジェクトの所定のサイズ情報に基づいて前記検出された境界を検証するための手段と、をさらに備え、
前記識別手段は、前記オブジェクトの前記テキストブロックの所定の位置情報に基づいて前記複数のテキストブロックを識別する、C40の前記装置。
[C47] 前記撮像手段は、前記検出された境界が前記所定のサイズ情報に一致しない場合、前記オブジェクトの新しい画像を受信する、C46の前記装置。
[C48] 参照オブジェクト画像の一部から抽出された所定のパターンに基づいて前記オブジェクトの種類を決定するための手段をさらに備え、前記所定のパターンが、前記オブジェクトの前記種類に特有である、C40の前記装置。
Claims (48)
- オブジェクト内のテキストブロックを認識するための方法において、前記テキストブロックは、文字群のセットを有し、
前記オブジェクトの複数の画像を受信することと、ここにおいて、前記オブジェクトの各画像は、前記テキストブロックを含む、
前記オブジェクトの前記複数の画像内の前記複数のテキストブロックを識別することと、
前記オブジェクトの前記複数の画像内の前記識別された複数のテキストブロックに基づいて前記文字群のセットを決定することと
を備える方法。 - 前記文字群のセットを決定することは、
前記識別された複数のテキストブロックのそれぞれに関する、暫定的な文字群の1セットを生成することと、
前記暫定的な文字群の複数のセットに基づいて、前記文字群のセットを推測することと、を含む、請求項1の前記方法。 - 前記暫定的な文字群の複数のセットを生成することは、全体論的な方法に基づいて前記暫定的な文字群の複数のセットを生成することを含む、請求項2の前記方法。
- 前記暫定的な文字群の複数のセットを生成することは、セグメントベースの方法に基づいて前記暫定的な文字群の複数のセットを生成することを含む、請求項2の前記方法。
- 前記文字群のセットを推測することは、前記暫定的な文字群の複数のセットの信頼水準に基づいて、前記文字群のセットを推測することを含む、請求項2の前記方法。
- 前記文字群のセット内の1文字は、前記暫定的な文字群の複数のセット内の対応する位置における発生頻度に基づいて推測される、請求項5の前記方法。
- 前記文字群のセット内の前記文字は、前記発生頻度が所定の閾値を超える時、推測される、請求項6の前記方法。
- 前記暫定的な文字群のセットを生成することは、前記テキストブロック内の前記文字群のセットに関するフォーマット情報を受信することと、前記受信されたフォーマット情報に基づいて前記暫定的な複数の文字のセットを生成することとを含む、請求項2の前記方法。
- 前記複数のテキストブロックを識別することは、
前記オブジェクトの前記複数の画像の各々の前記オブジェクトの境界を検出することと、
前記オブジェクトの所定のサイズ情報に基づいて前記検出された境界を検証することと、
前記オブジェクトの前記テキストブロックの所定の位置情報に基づいて前記複数のテキストブロックを識別することと、
を含む、請求項1の前記方法。 - 前記検出された境界を検証することは、前記検出された境界が前記所定のサイズ情報と一致しない場合、前記オブジェクトの新しい画像を受信することを含む、請求項9の前記方法。
- 参照オブジェクト画像の1部分から抽出された所定のパターンに基づいて前記オブジェクトの種類を決定することをさらに備え、前記所定のパターンが、前記オブジェクトの前記種類に特有である、請求項9の前記方法。
- 前記オブジェクトの前記複数の画像は前記オブジェクトのビデオフレームを含む、請求項1の前記方法。
- 前記決定された文字群のセットを表示することをさらに備える、請求項1の前記方法。
- オブジェクトにおけるテキストブロックを認識するための装置であって、前記テキストブロックは文字群のセットを有し、
前記オブジェクトの複数の画像を撮像するように構成された撮像ユニットと、ここにおいて、前記オブジェクトの各画像は前記テキストブロックを含む、
前記オブジェクトの前記複数の画像内の前記複数のテキストブロックを識別するように構成されたマスキングユニットと、
前記オブジェクトの前記複数の画像内の前記識別された複数のテキストブロックに基づいて前記文字群のセットを決定するように構成された時間フィルタと、を備える装置。 - 前記識別された複数のテキストブロックのそれぞれに関する暫定的な文字群のセットを生成するように構成されたOCR(光学文字読取装置)エンジンをさらに備え、前記文字群のセットが、前記時間フィルタによって前記暫定的な複数の文字群のセットに基づいて推測される、請求項14の前記装置。
- 前記OCRエンジンは、全体論的な方法に基づいて前記暫定的な文字群のセットを生成するようにさらに構成される、請求項15の前記装置。
- 前記OCRエンジンは、セグメントベースの方法に基づいて前記暫定的な文字群のセットを生成するようにさらに構成される、請求項15の前記装置。
- 前記時間フィルタは、前記暫定的な文字群のセットの信頼水準に基づいて、前記文字群のセットを推測するようにさらに構成される、請求項15の前記装置。
- 前記文字群のセット内の1文字は、前記暫定的な複数の文字群のセット内の前記対応する位置における発生頻度に基づいて推測される、請求項18の前記装置。
- 前記文字群のセット内の前記文字は、前記文字の数が所定の閾値を超える時に推測される、請求項19の前記装置。
- 前記OCRエンジンは、前記テキストブロック内の前記文字群のセットに関するフォーマット情報を受信し、前記受信されたフォーマット情報に基づいて前記暫定的な文字群のセットを生成するようにさらに構成される、請求項15の前記装置。
- 前記オブジェクトの前記複数の画像のそれぞれにおける前記オブジェクトの境界を検出し、前記オブジェクトの所定のサイズ情報に基づいて前記検出された境界を検証するように構成された境界検出器をさらに備え、前記マスキングユニットは、前記オブジェクトの前記テキストブロックの所定の位置情報に基づいて前記複数のテキストブロックを識別するようにさらに構成される、請求項14の前記装置。
- 前記撮像ユニットは、前記検出された境界が前記所定のサイズ情報に一致しない場合、前記オブジェクトの新しい画像を受信するようにさらに構成される、請求項22の前記装置。
- 参照オブジェクト画像の一部から抽出された所定のパターンに基づいて前記オブジェクトの種類を決定するように構成されたオブジェクト認識ユニットをさらに備え、前記所定のパターンが前記オブジェクトの前記種類に特有である、請求項14の前記装置。
- 前記オブジェクトの前記複数の画像は、前記オブジェクトの複数のビデオフレームを含む、請求項13の前記装置。
- 前記決定された文字群のセットを表示するように構成されたディスプレーをさらに備える、請求項13の前記装置。
- オブジェクト内のテキストブロックを認識するための複数の命令を備える非一時的コンピュータ―可読媒体であって、
前記命令は、プロセッサに、
前記オブジェクトの複数の画像を受信させ、ここにおいて、前記オブジェクトの各画像は前記テキストブロックを含む、
前記オブジェクトの前記複数の画像内の前記複数のテキストブロックを識別させ、
前記オブジェクトの前記複数の画像内の前記識別された複数のテキストブロックに基づいて前記テキストブロック内の文字群のセットを決定させる、非一時的コンピュータ可読媒体。 - 前記文字群のセットを決定することは、前記識別された複数のテキストブロックのそれぞれに関する暫定的な文字群のセットを生成することと、前記暫定的な文字群のセットに基づいて前記文字群のセットを推測することと、を含む請求項27の非一時的コンピュータ可読媒体。
- 前記暫定的な文字群のセットを生成することは、全体論的な方法に基づいて前記暫定的な複数の文字群のセットを生成することを含む、請求項28の非一時的コンピュータ可読媒体。
- 前記暫定的な文字群の複数のセットを生成することは、セグメントベースの方法に基づいて前記暫定的な複数の文字群のセットを生成することを含む、請求項28の非一時的コンピュータ可読媒体。
- 前記文字群の複数のセットを推測することは、前記暫定的な文字群の複数のセットの信頼水準に基づいて前記文字群のセットを推測することを含む、請求項28の非一時的コンピュータ可読媒体。
- 前記文字群のセット内の1文字は、前記暫定的な文字群の複数のセット内の前記対応する位置における発生頻度に基づいて推測される、請求項31の前記媒体。
- 前記文字群のセット内の前記文字は、前記発生頻度が所定の閾値を超えるときに推測される、請求項32の前記媒体。
- 前記暫定的な文字群のセットを生成することは、前記テキストブロック内の前記文字群のセットに関するフォーマット情報を受信することと、前記受信されたフォーマット情報に基づいて前記暫定的な文字群のセットを生成することと、を含む請求項28の前記媒体。
- 前記複数のテキストブロックを識別することは、
前記オブジェクトの前記複数の画像のそれぞれにおける前記オブジェクトの境界を検出することと、
前記オブジェクトの所定のサイズ情報に基づいて前記検出された境界を検証することと、
前記オブジェクトの前記テキストブロックの所定の位置情報に基づいて前記テキストブロックを識別することと、を含む請求項27の前記媒体。 - 前記検出された境界を検証することは、前記検出された境界が前記所定のサイズ情報に一致しない場合、前記オブジェクトの新しい画像を受信することを含む、請求項35の前記媒体。
- 前記複数のオペレーションは、参照オブジェクト画像の一部から抽出された所定のパターンに基づいて、前記オブジェクトの種類を決定することをさらに備え、前記所定のパターンが前記オブジェクトの前記種類に特有である、請求項27の前記媒体。
- 前記オブジェクトの前記複数の画像は、前記オブジェクトの複数のビデオフレームを含む、請求項27の前記媒体。
- 前記複数のオペレーションは、前記決定された複数の文字のセットを表示することをさらに備える、請求項27の前記媒体。
- オブジェクトにおけるテキストブロックを認識するための装置であって、前記テキストブロックは文字群のセットを有し、
前記オブジェクトの複数の画像を撮像する手段と、ここにおいて、前記オブジェクトの各画像は、前記テキストブロックを含む、
前記オブジェクトの前記複数の画像内の前記複数のテキストブロックを識別するための手段と、
前記オブジェクトの前記複数の画像における前記識別された複数のテキストブロックに基づいて、前記文字群のセットを決定するための手段と、
を備える、前記装置。 - 前記識別された複数のテキストブロックのそれぞれに関する暫定的な文字群のセットを生成するための手段をさらに備え、前記文字群のセットは、前記決定手段によって前記暫定的な文字群の複数のセットに基づいて推測される、請求項40の前記装置。
- 前記決定手段は、前記暫定的な文字群の複数のセットの信頼水準に基づいて、前記文字群のセットを推測する、請求項41の前記装置。
- 前記文字群のセット内の1文字は、前記暫定的な文字群の複数のセット内の前記対応する位置における発生頻度に基づいて推測される、請求項42の前記装置。
- 前記文字群のセット内の前記文字は、前記文字数が所定の閾値を超える時に推測される、請求項43の前記装置。
- 前記生成手段は、前記テキストブロック内の前記文字群のセットに関するフォーマット情報を受信し、前記受信されたフォーマット情報に基づいて、前記暫定的な文字群のセットを生成する、請求項41の前記装置。
- 前記オブジェクトの前記複数の画像のそれぞれにおける前記オブジェクトの境界を検出するための手段と、
前記オブジェクトの所定のサイズ情報に基づいて前記検出された境界を検証するための手段と、をさらに備え、
前記識別手段は、前記オブジェクトの前記テキストブロックの所定の位置情報に基づいて前記複数のテキストブロックを識別する、請求項40の前記装置。 - 前記撮像手段は、前記検出された境界が前記所定のサイズ情報に一致しない場合、前記オブジェクトの新しい画像を受信する、請求項46の前記装置。
- 参照オブジェクト画像の一部から抽出された所定のパターンに基づいて前記オブジェクトの種類を決定するための手段をさらに備え、前記所定のパターンが、前記オブジェクトの前記種類に特有である、請求項40の前記装置。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161502781P | 2011-06-29 | 2011-06-29 | |
US61/502,781 | 2011-06-29 | ||
US13/367,764 US9418304B2 (en) | 2011-06-29 | 2012-02-07 | System and method for recognizing text information in object |
US13/367,764 | 2012-02-07 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014518578A Division JP2014524085A (ja) | 2011-06-29 | 2012-06-01 | オブジェクトにおけるテキスト情報を認識するための方法およびシステム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016167273A true JP2016167273A (ja) | 2016-09-15 |
Family
ID=47390763
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014518578A Withdrawn JP2014524085A (ja) | 2011-06-29 | 2012-06-01 | オブジェクトにおけるテキスト情報を認識するための方法およびシステム |
JP2016056521A Pending JP2016167273A (ja) | 2011-06-29 | 2016-03-22 | オブジェクトにおけるテキスト情報を認識するための方法およびシステム |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014518578A Withdrawn JP2014524085A (ja) | 2011-06-29 | 2012-06-01 | オブジェクトにおけるテキスト情報を認識するための方法およびシステム |
Country Status (6)
Country | Link |
---|---|
US (1) | US9418304B2 (ja) |
EP (1) | EP2727048A1 (ja) |
JP (2) | JP2014524085A (ja) |
KR (1) | KR101499379B1 (ja) |
CN (1) | CN103597500A (ja) |
WO (1) | WO2013002955A1 (ja) |
Families Citing this family (71)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9769354B2 (en) | 2005-03-24 | 2017-09-19 | Kofax, Inc. | Systems and methods of processing scanned data |
US10685223B2 (en) | 2008-01-18 | 2020-06-16 | Mitek Systems, Inc. | Systems and methods for mobile image capture and content processing of driver's licenses |
US10528925B2 (en) | 2008-01-18 | 2020-01-07 | Mitek Systems, Inc. | Systems and methods for mobile automated clearing house enrollment |
US10102583B2 (en) | 2008-01-18 | 2018-10-16 | Mitek Systems, Inc. | System and methods for obtaining insurance offers using mobile image capture |
US9842331B2 (en) | 2008-01-18 | 2017-12-12 | Mitek Systems, Inc. | Systems and methods for mobile image capture and processing of checks |
US9298979B2 (en) * | 2008-01-18 | 2016-03-29 | Mitek Systems, Inc. | Systems and methods for mobile image capture and content processing of driver's licenses |
US8983170B2 (en) | 2008-01-18 | 2015-03-17 | Mitek Systems, Inc. | Systems and methods for developing and verifying image processing standards for mobile deposit |
KR101380783B1 (ko) * | 2008-08-22 | 2014-04-02 | 정태우 | 영상에 포함된 객체를 식별하여 부가 서비스를 제공하는 시스템 |
US9349046B2 (en) | 2009-02-10 | 2016-05-24 | Kofax, Inc. | Smart optical input/output (I/O) extension for context-dependent workflows |
US9767354B2 (en) | 2009-02-10 | 2017-09-19 | Kofax, Inc. | Global geographic information retrieval, validation, and normalization |
US9576272B2 (en) | 2009-02-10 | 2017-02-21 | Kofax, Inc. | Systems, methods and computer program products for determining document validity |
US10891475B2 (en) | 2010-05-12 | 2021-01-12 | Mitek Systems, Inc. | Systems and methods for enrollment and identity management using mobile imaging |
US9165188B2 (en) | 2012-01-12 | 2015-10-20 | Kofax, Inc. | Systems and methods for mobile image capture and processing |
US10146795B2 (en) | 2012-01-12 | 2018-12-04 | Kofax, Inc. | Systems and methods for mobile image capture and processing |
JP6010744B2 (ja) * | 2012-05-31 | 2016-10-19 | 株式会社Pfu | 文書作成システム、文書作成装置、文書作成方法、及びプログラム |
US8897565B1 (en) * | 2012-06-29 | 2014-11-25 | Google Inc. | Extracting documents from a natural scene image |
US9667700B2 (en) * | 2012-08-12 | 2017-05-30 | Apple Inc. | Rendering a redeemable document |
US9208536B2 (en) | 2013-09-27 | 2015-12-08 | Kofax, Inc. | Systems and methods for three dimensional geometric reconstruction of captured image data |
US9058644B2 (en) * | 2013-03-13 | 2015-06-16 | Amazon Technologies, Inc. | Local image enhancement for text recognition |
CN105283884A (zh) * | 2013-03-13 | 2016-01-27 | 柯法克斯公司 | 对移动设备捕获的数字图像中的对象进行分类 |
US10127636B2 (en) * | 2013-09-27 | 2018-11-13 | Kofax, Inc. | Content-based detection and three dimensional geometric reconstruction of objects in image and video data |
US9355312B2 (en) * | 2013-03-13 | 2016-05-31 | Kofax, Inc. | Systems and methods for classifying objects in digital images captured using mobile devices |
US20140282127A1 (en) * | 2013-03-15 | 2014-09-18 | Lite-On It Corporation | Method of converting an application of a mobile device into a distraction-free mode |
US20140316841A1 (en) | 2013-04-23 | 2014-10-23 | Kofax, Inc. | Location-based workflows and services |
EP2992481A4 (en) | 2013-05-03 | 2017-02-22 | Kofax, Inc. | Systems and methods for detecting and classifying objects in video captured using mobile devices |
CN109766890B (zh) | 2013-06-03 | 2020-11-06 | 支付宝(中国)网络技术有限公司 | 信息识别方法、设备和系统 |
US8831329B1 (en) | 2013-06-28 | 2014-09-09 | Google Inc. | Extracting card data with card models |
US20150006361A1 (en) | 2013-06-28 | 2015-01-01 | Google Inc. | Extracting Card Data Using Three-Dimensional Models |
US20150006362A1 (en) * | 2013-06-28 | 2015-01-01 | Google Inc. | Extracting card data using card art |
US8837833B1 (en) | 2013-06-30 | 2014-09-16 | Google Inc. | Payment card OCR with relaxed alignment |
EP3396595A1 (en) * | 2013-06-30 | 2018-10-31 | Google LLC | Payment card ocr with relaxed alignment |
US9152858B2 (en) | 2013-06-30 | 2015-10-06 | Google Inc. | Extracting card data from multiple cards |
US9514359B2 (en) * | 2013-07-19 | 2016-12-06 | Google Inc. | Card art display |
US9928273B2 (en) * | 2013-08-19 | 2018-03-27 | International Business Machines Corporation | Enhanced database searching and storage |
US9208551B2 (en) * | 2013-08-28 | 2015-12-08 | Intuit Inc. | Method and system for providing efficient feedback regarding captured optical image quality |
US8903136B1 (en) * | 2013-11-15 | 2014-12-02 | Google Inc. | Client side filtering of card OCR images |
US9386235B2 (en) | 2013-11-15 | 2016-07-05 | Kofax, Inc. | Systems and methods for generating composite images of long documents using mobile video data |
US9330310B2 (en) * | 2013-11-21 | 2016-05-03 | Tencent Technology (Shenzhen) Company Limited | Methods and devices for obtaining card information |
US9317950B2 (en) | 2014-03-21 | 2016-04-19 | Elwha Llc | Systems and methods for surface covering preparation |
US10552571B2 (en) * | 2014-03-21 | 2020-02-04 | Elwha Llc | Systems and methods for surface covering preparation |
US9449239B2 (en) * | 2014-05-30 | 2016-09-20 | Apple Inc. | Credit card auto-fill |
US9565370B2 (en) * | 2014-05-30 | 2017-02-07 | Apple Inc. | System and method for assisting in computer interpretation of surfaces carrying symbols or characters |
US9342830B2 (en) | 2014-07-15 | 2016-05-17 | Google Inc. | Classifying open-loop and closed-loop payment cards based on optical character recognition |
WO2016061292A1 (en) | 2014-10-17 | 2016-04-21 | SimonComputing, Inc. | Method and system for imaging documents in mobile applications |
US9760788B2 (en) | 2014-10-30 | 2017-09-12 | Kofax, Inc. | Mobile document detection and orientation based on reference object characteristics |
US20160125387A1 (en) | 2014-11-03 | 2016-05-05 | Square, Inc. | Background ocr during card data entry |
US9160946B1 (en) * | 2015-01-21 | 2015-10-13 | A2iA S.A. | Systems and methods for capturing images using a mobile device |
DE102015102369A1 (de) * | 2015-02-19 | 2016-08-25 | Bundesdruckerei Gmbh | Mobilgerät zum Erfassen eines Textbereiches auf einem Identifikationsdokument |
US10242285B2 (en) | 2015-07-20 | 2019-03-26 | Kofax, Inc. | Iterative recognition-guided thresholding and data extraction |
CN106709483A (zh) * | 2015-07-21 | 2017-05-24 | 深圳市唯德科创信息有限公司 | 根据指定位置进行图像识别的方法 |
JP6690170B2 (ja) * | 2015-09-28 | 2020-04-28 | 富士ゼロックス株式会社 | 画像処理装置及びプログラム |
KR101660476B1 (ko) * | 2015-11-19 | 2016-10-14 | 권해원 | 인쇄 결제카드에서 결제 정보를 인식하는 방법 |
US10410168B2 (en) * | 2015-11-24 | 2019-09-10 | Bank Of America Corporation | Preventing restricted trades using physical documents |
CN106845508B (zh) * | 2015-12-07 | 2019-05-17 | 腾讯科技(深圳)有限公司 | 一种检测图像中信息卡的方法、装置和系统 |
US9779296B1 (en) | 2016-04-01 | 2017-10-03 | Kofax, Inc. | Content-based detection and three dimensional geometric reconstruction of objects in image and video data |
CN106909296A (zh) * | 2016-06-07 | 2017-06-30 | 阿里巴巴集团控股有限公司 | 数据的提取方法、装置及终端设备 |
US10176397B2 (en) * | 2016-10-30 | 2019-01-08 | Vium, Inc. | Method of reading degraded symbols |
WO2018201441A1 (en) * | 2017-05-05 | 2018-11-08 | Beijing Didi Infinity Technology And Development Co., Ltd. | System and method for image re-orientation |
KR102402148B1 (ko) * | 2017-08-22 | 2022-05-26 | 삼성전자주식회사 | 전자 장치 및 그의 문자 인식 방법 |
US10621470B2 (en) * | 2017-09-29 | 2020-04-14 | Datamax-O'neil Corporation | Methods for optical character recognition (OCR) |
US11062176B2 (en) | 2017-11-30 | 2021-07-13 | Kofax, Inc. | Object detection and image cropping using a multi-detector approach |
CN109961063B (zh) * | 2017-12-26 | 2021-12-14 | 杭州海康机器人技术有限公司 | 文本检测方法及装置、计算机设备和存储介质 |
EP3633634A1 (en) | 2018-10-02 | 2020-04-08 | Onfido Ltd | Character authenticity determination |
JP2020064374A (ja) * | 2018-10-15 | 2020-04-23 | 富士通株式会社 | コード情報読取装置、方法、及びプログラム |
US10963723B2 (en) * | 2018-12-23 | 2021-03-30 | Microsoft Technology Licensing, Llc | Digital image transcription and manipulation |
KR102127171B1 (ko) * | 2019-08-30 | 2020-06-26 | 주식회사 카카오뱅크 | 신분증 인식 모델을 이용한 분산 학습 방법, 서버, 어플리케이션 및 이를 통한 신분증 인식 방법 |
US11393272B2 (en) | 2019-09-25 | 2022-07-19 | Mitek Systems, Inc. | Systems and methods for updating an image registry for use in fraud detection related to financial documents |
US20220012421A1 (en) * | 2020-07-13 | 2022-01-13 | International Business Machines Corporation | Extracting content from as document using visual information |
FR3117247A1 (fr) * | 2020-12-04 | 2022-06-10 | Imprimerie Nationale | Procede et systeme d’extraction et de lecture de donnees d’un document physique |
KR102549730B1 (ko) | 2022-11-14 | 2023-06-30 | 주식회사 플랜티넷 | 객체 군집화 기반 문서 분류 방법 및 장치 |
KR102572549B1 (ko) | 2022-11-15 | 2023-08-30 | 주식회사 플랜티넷 | 객체 선택 기반 문서 분류 방법 및 장치 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0743726B2 (ja) * | 1986-06-27 | 1995-05-15 | キヤノン株式会社 | 画像処理装置 |
JP2000115522A (ja) * | 1998-10-08 | 2000-04-21 | Ricoh Co Ltd | 画像処理装置 |
US20030178487A1 (en) * | 2001-10-19 | 2003-09-25 | Rogers Heath W. | System for vending products and services using an identification card and associated methods |
JP2010218061A (ja) * | 2009-03-13 | 2010-09-30 | Toshiba Corp | 画像処理装置 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2722434B2 (ja) | 1987-01-19 | 1998-03-04 | 住友電気工業 株式会社 | 光学文字読取装置 |
JPH02166579A (ja) | 1988-12-21 | 1990-06-27 | Toshiba Corp | 画像処理装置 |
JPH0743726A (ja) | 1993-05-28 | 1995-02-14 | Hoechst Japan Ltd | 液晶表示素子 |
US8610966B2 (en) | 2004-10-06 | 2013-12-17 | Iuval Hatzav | System for template based extracting information from an identity card |
US7911655B2 (en) | 2004-10-06 | 2011-03-22 | Iuval Hatzav | System for extracting information from an identity card |
GB2445688A (en) * | 2005-09-01 | 2008-07-16 | Zvi Haim Lev | System and method for reliable content access using a cellular/wireless device with imaging capabilities |
US7826665B2 (en) | 2005-12-12 | 2010-11-02 | Xerox Corporation | Personal information retrieval using knowledge bases for optical character recognition correction |
US7849398B2 (en) | 2007-04-26 | 2010-12-07 | Xerox Corporation | Decision criteria for automated form population |
JP2008282094A (ja) | 2007-05-08 | 2008-11-20 | Canon Inc | 文字認識処理装置 |
US20090144056A1 (en) | 2007-11-29 | 2009-06-04 | Netta Aizenbud-Reshef | Method and computer program product for generating recognition error correction information |
US7978900B2 (en) * | 2008-01-18 | 2011-07-12 | Mitek Systems, Inc. | Systems for mobile image capture and processing of checks |
CN101599124B (zh) | 2008-06-03 | 2011-06-22 | 汉王科技股份有限公司 | 一种从视频图像中分割字符的方法和装置 |
US9269010B2 (en) | 2008-07-14 | 2016-02-23 | Jumio Inc. | Mobile phone payment system using integrated camera credit card reader |
US8290273B2 (en) | 2009-03-27 | 2012-10-16 | Raytheon Bbn Technologies Corp. | Multi-frame videotext recognition |
CN101571875A (zh) | 2009-05-05 | 2009-11-04 | 程治永 | 一种基于图像识别的图像搜索系统的实现方法 |
KR101600085B1 (ko) | 2009-06-16 | 2016-03-04 | 엘지전자 주식회사 | 이동 단말기 및 이미지 정보 인식 방법 |
US20100331043A1 (en) * | 2009-06-23 | 2010-12-30 | K-Nfb Reading Technology, Inc. | Document and image processing |
US20120087537A1 (en) * | 2010-10-12 | 2012-04-12 | Lisong Liu | System and methods for reading and managing business card information |
US8995012B2 (en) * | 2010-11-05 | 2015-03-31 | Rdm Corporation | System for mobile image capture and processing of financial documents |
US8831329B1 (en) * | 2013-06-28 | 2014-09-09 | Google Inc. | Extracting card data with card models |
US20150006361A1 (en) * | 2013-06-28 | 2015-01-01 | Google Inc. | Extracting Card Data Using Three-Dimensional Models |
-
2012
- 2012-02-07 US US13/367,764 patent/US9418304B2/en not_active Expired - Fee Related
- 2012-06-01 WO PCT/US2012/040445 patent/WO2013002955A1/en active Application Filing
- 2012-06-01 CN CN201280026582.XA patent/CN103597500A/zh active Pending
- 2012-06-01 EP EP12727510.5A patent/EP2727048A1/en not_active Withdrawn
- 2012-06-01 JP JP2014518578A patent/JP2014524085A/ja not_active Withdrawn
- 2012-06-01 KR KR1020137031903A patent/KR101499379B1/ko not_active IP Right Cessation
-
2016
- 2016-03-22 JP JP2016056521A patent/JP2016167273A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0743726B2 (ja) * | 1986-06-27 | 1995-05-15 | キヤノン株式会社 | 画像処理装置 |
JP2000115522A (ja) * | 1998-10-08 | 2000-04-21 | Ricoh Co Ltd | 画像処理装置 |
US20030178487A1 (en) * | 2001-10-19 | 2003-09-25 | Rogers Heath W. | System for vending products and services using an identification card and associated methods |
JP2010218061A (ja) * | 2009-03-13 | 2010-09-30 | Toshiba Corp | 画像処理装置 |
Also Published As
Publication number | Publication date |
---|---|
CN103597500A (zh) | 2014-02-19 |
KR101499379B1 (ko) | 2015-03-05 |
WO2013002955A1 (en) | 2013-01-03 |
KR20140010164A (ko) | 2014-01-23 |
JP2014524085A (ja) | 2014-09-18 |
EP2727048A1 (en) | 2014-05-07 |
US9418304B2 (en) | 2016-08-16 |
US20130004076A1 (en) | 2013-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2016167273A (ja) | オブジェクトにおけるテキスト情報を認識するための方法およびシステム | |
JP6208383B2 (ja) | プレビューモードにおける画像キャプチャリングパラメータ調整 | |
CN107430697B (zh) | 用于光学条形码的定制功能图案 | |
TWI701603B (zh) | 輔助物品的圖像合規的方法、裝置和電子設備 | |
WO2020119301A1 (zh) | 二维码识别方法、装置及设备 | |
CN109416731B (zh) | 文档光学字符识别 | |
WO2017041365A1 (zh) | 用于处理图像信息的方法和装置 | |
CN106127751B (zh) | 图像检测方法、装置以及系统 | |
US11367310B2 (en) | Method and apparatus for identity verification, electronic device, computer program, and storage medium | |
US9667880B2 (en) | Activating flash for capturing images with text | |
CN107766403B (zh) | 一种相册处理方法、移动终端以及计算机可读存储介质 | |
CN110619656B (zh) | 基于双目摄像头的人脸检测跟踪方法、装置及电子设备 | |
US20200218772A1 (en) | Method and apparatus for dynamically identifying a user of an account for posting images | |
US9679218B2 (en) | Method and apparatus for image matching | |
US20160104052A1 (en) | Text-based thumbnail generation | |
JP2020046819A (ja) | 情報処理装置及びプログラム | |
JP2014535101A (ja) | 画像中のテキストの検出を容易にする方法及び装置 | |
US10896339B2 (en) | Detecting magnetic ink character recognition codes | |
CN115035530A (zh) | 图像处理方法、图像文本获得方法、装置及电子设备 | |
KR102436814B1 (ko) | 광학 문자 인식 장치 및 그 제어방법 | |
CN103136357A (zh) | 一种利用人脸识别技术定位网页的方法、装置和移动设备 | |
US9836799B2 (en) | Service provision program | |
WO2020244076A1 (zh) | 人脸识别方法、装置、电子设备及存储介质 | |
US20150186421A1 (en) | Computer implemented system for handling text distracters in a visual search | |
Ahmed | GPark: Vehicle parking management system using smart glass |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170110 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20170801 |