JP2015537325A5

JP2015537325A5 -

Info

Publication number: JP2015537325A5
Application number: JP2015547384A
Authority: JP
Filing date: 2013-11-22
Publication date: 2016-12-28
Anticipated expiration: 2033-11-22

Claims

同一のテキストの複数の画像を使用することによってテキスト認識を向上させるための方法であって、
実世界のシーンの複数の画像を複数のズームレベルでキャプチャするステップであって、前記実世界のシーンが1つまたは複数のサイズのテキストを含むステップと、
前記複数の画像の各々から1つまたは複数のテキスト領域を抽出するステップと、
前記複数の画像のうちの1つまたは複数から抽出された第1のテキスト領域の1つまたは複数のバージョンにおけるOCRに関連する属性を分析するステップと、
前記属性が前記第1のテキスト領域のあるバージョンにおいて光学文字認識(OCR)の限界を超えていない値を有するとき、前記第1のテキスト領域の前記バージョンをOCRへの入力として与えるステップと、
前記属性の値がOCRの限界を満たさないとき、前記第1のテキスト領域の前記属性が前記OCRの限界を満たす新たなズームレベルを計算し、前記第1のテキスト領域の少なくとも識別をリストに格納するステップと、
前記複数の画像から抽出した他のテキスト領域を提供するステップまたは計算するステップを繰り返すステップと、
前記リストを使用して、前記リスト内の全てのテキスト領域をカメラの視野内に保持する最大ズームレベルを特定するステップと、
前記最大ズームレベルに基づいて、少なくとも1つの追加の画像をキャプチャするためのフィードバックを生成するステップと、
を含む方法。
前記属性は、前記1つまたは複数のテキスト領域における各領域の高さを含む、請求項1に記載の方法。
前記抽出ステップは、前記1つまたは複数のテキスト領域に共通の2値の画素のラインが存在するかどうかを検査するステップを含む、請求項1に記載の方法。
前記抽出ステップは、前記1つまたは複数のテキスト領域内の文字のストロークの幅の分散を検査するステップを含む、請求項1に記載の方法。
前記リストを使用して前記最大ズームレベルを特定するステップは、
前記第1のテキスト領域の極値x座標がw/zoom_levelよりも大きいかどうかを検査するステップであって、wが、前記第1のテキスト領域の幅であり、zoom_levelが、前記第1のテキスト領域を含む画像が前記カメラによってキャプチャされたズームのレベルであるステップと、
前記極値x-座標がw/zoom_levelより大きいとき、視野内の画像の数が前記リストの長さに等しいかどうかをさらに検査するステップと、
前記視野内の画像の数が前記リストの長さに等しいとき、フラグまたは変数のうち少なくとも1つを設定するステップと、
を含む、請求項1に記載の方法。
前記リストを使用して前記最大ズームレベルを特定するステップは、
前記第1のテキスト領域の極値y座標がh/zoom_levelよりも大きいかどうかを検査するステップであって、hが、前記第1のテキスト領域の高さであり、zoom_levelが、前記第1のテキスト領域を含む画像が前記カメラによってキャプチャされたズームのレベルであるステップと、
前記極値y座標がh/zoom_levelより大きいとき、視野内の画像の数が前記リストの長さに等しいかどうかをさらに検査するステップと、
前記視野内の画像の数が前記リストの長さに等しいとき、フラグまたは変数のうち少なくとも1つを設定するステップと、
を含む、請求項1に記載の方法。
前記複数の画像は、シーケンスとして連続的に次々とキャプチャされる、請求項1に記載の方法。
前記複数の画像は前記抽出ステップの前にキャプチャされる、請求項7に記載の方法。
前記複数の画像は、単一のユーザ入力に応答して自動的にキャプチャされる、請求項7に記載の方法。
前記第1のテキスト領域の拡大バージョンを含む前記少なくとも1つの追加の画像においてキャプチャされない前記実世界のシーンにおける特徴が、前記第1のテキスト領域のより少ないバージョンを含む前記複数の画像内の画像においてキャプチャされる、請求項1に記載の方法。
前記最大ズームレベルに基づいて生成された前記フィードバックをユーザに提供するステップをさらに含む、請求項1に記載の方法。
前記複数の画像のうちの1つまたは複数から抽出された第2のテキスト領域の1つまたは複数のバージョンにおけるOCRに関連する属性を分析するステップと、
前記属性が前記第2のテキスト領域のあるバージョンにおいて光学文字認識(OCR)の限界を超えていない値を有するとき、前記第2のテキスト領域の前記バージョンをOCRへの入力として与えるステップとをさらに含む、請求項1に記載の方法。
前記第1のテキストおよび第2のテキスト領域において認識されたテキストを出力するステップをさらに含む、請求項12に記載の方法。
テキスト認識において使用するための複数の画像を取得するために少なくとも1つのプロセッサによって実行すべき複数の命令を含む少なくとも1つの非一時的コンピュータ可読記憶媒体であって、前記複数の命令が、
実世界のシーンの複数の画像を複数のズームレベルでキャプチャするための第1の命令であって、前記実世界のシーンが1つまたは複数のサイズのテキストを含む第1の命令と、
前記複数の画像の各々から1つまたは複数のテキスト領域を抽出するための第2の命令と、
前記複数の画像のうちの1つまたは複数から抽出された第1のテキスト領域の1つまたは複数のバージョンにおけるOCRに関連する属性を分析するための第3の命令と、
前記属性が、前記第1のテキスト領域のあるバージョンにおいて光学文字認識(OCR)の限界を超えていない値を有するとき、前記第1のテキスト領域の前記バージョンをOCRへの入力として与えるための第4の命令と、
前記属性の値がOCRの限界を満たさないとき、前記第1のテキスト領域の前記属性が前記OCRの限界を満たす新たなズームレベルを計算し、前記第1のテキスト領域の少なくとも識別をリストに格納するための第5の命令と、
前記複数の画像から抽出した他のテキスト領域に対して、前記第4の命令と前記第5の命令を繰返し実行するための第6の命令と、
前記リストを使用して、前記リスト内の全てのテキスト領域をカメラの視野内に保持する最大ズームレベルを特定するための第7の命令と、
前記最大ズームレベルに基づいて、少なくとも1つの追加の画像をキャプチャするためのフィードバックを生成するための第8の命令と、
を含む少なくとも1つの非一時的コンピュータ可読記憶媒体。
前記属性は、前記1つまたは複数のテキスト領域における各領域の高さを含む、請求項14に記載の少なくとも1つの非一時的コンピュータ可読記憶媒体。
前記第2の命令は、前記1つまたは複数のテキスト領域に共通の2値の画素のラインが存在するかどうかを検査するための命令を含む、請求項14に記載の少なくとも1つの非一時的コンピュータ可読記憶媒体。
前記第2の命令は、前記1つまたは複数のテキスト領域内の文字のストロークの幅の分散を検査するための命令を含む、請求項14に記載の少なくとも1つの非一時的コンピュータ可読記憶媒体。
前記第1のテキスト領域の極値x座標がw/zoom_levelよりも大きいかどうかを検査するための第5の命令であって、wが、前記第1のテキスト領域の幅であり、zoom_levelが、前記第1のテキスト領域を含む画像が前記カメラによってキャプチャされたズームのレベルである第5の命令と、
前記極値x-座標がw/zoom_levelより大きいとき、視野内の画像の数が前記リストの長さに等しいかどうかをさらに検査するための第6の命令と、
前記視野内の画像の数が前記リストの長さに等しいとき、フラグまたは変数のうち少なくとも1つを設定するための第7の命令と、
をさらに含む、請求項14に記載の少なくとも1つの非一時的コンピュータ可読記憶媒体。
前記第1のテキスト領域の極値y座標がh/zoom_levelよりも大きいかどうかを検査する第5の命令であって、hが、前記第1のテキスト領域の高さであり、zoom_levelが、前記第1のテキスト領域を含む画像が前記カメラによってキャプチャされたズームのレベルである第5の命令と、
前記極値y座標がh/zoom_levelより大きいとき、視野内の画像の数が前記リストの長さに等しいかどうかをさらに検査するための第6の命令と、
前記視野内の画像の数が前記リストの長さに等しいとき、フラグまたは変数のうち少なくとも1つを設定するための第7の命令と、
をさらに含む、請求項14に記載の少なくとも1つの非一時的コンピュータ可読記憶媒体。
前記複数の画像は、シーケンスとして連続的に次々とキャプチャされる、請求項14に記載の少なくとも1つの非一時的コンピュータ可読記憶媒体。
前記第1のテキスト領域の拡大バージョンを含む前記少なくとも1つの追加の画像においてキャプチャされない前記実世界のシーンにおける特徴が、前記第1のテキスト領域のより少ないバージョンを含む前記複数の画像内の画像においてキャプチャされる、請求項14に記載の少なくとも1つの非一時的コンピュータ可読記憶媒体。
実世界画像におけるテキストを復号するためのモバイルデバイスであって、
カメラと、
前記カメラから少なくとも画像を受け取るために前記カメラに動作可能に接続されたメモリであって、前記画像が1つまたは複数のテキスト領域を含む、メモリと、
前記メモリに記憶された複数の命令を実行するために前記メモリに動作可能に接続された少なくとも1つのプロセッサとを備え、
前記複数の命令が、前記少なくとも1つのプロセッサに、
実世界のシーンの複数の画像を複数のズームレベルでキャプチャすることであって、前記実世界のシーンが1つまたは複数のサイズのテキストを含むことと、
前記複数の画像の各々から1つまたは複数のテキスト領域を抽出することと、
前記複数の画像のうちの1つまたは複数から抽出された第1のテキスト領域の1つまたは複数のバージョンにおけるOCRに関連する属性を分析することと、
前記属性が前記第1のテキスト領域のあるバージョンにおいて光学文字認識(OCR)の限界を超えていない値を有するとき、前記第1のテキスト領域の前記バージョンをOCRへの入力として与えることと、
前記属性の値がOCRの限界を満たさないとき、前記第1のテキスト領域の前記属性が前記OCRの限界を満たす新たなズームレベルを計算し、前記第1のテキスト領域の少なくとも識別をリストに格納することと、
前記複数の画像から抽出した他のテキスト領域に対して、提供するための命令または計算するための命令を繰り返すことと、
前記リストを使用して、前記リスト内の全てのテキスト領域をカメラの視野内に保持する最大ズームレベルを特定することと、
前記最大ズームレベルに基づいて、少なくとも1つの追加の画像をキャプチャするためのフィードバックを生成することと、
を行わせるモバイルデバイス。
前記属性は、前記1つまたは複数のテキスト領域における各領域の高さを含む、請求項22に記載のモバイルデバイス。
前記少なくとも1つのプロセッサに抽出を行わせる命令は、前記1つまたは複数のテキスト領域に共通の2値の画素のラインが存在するかどうかを検査するための命令を含む、請求項22に記載のモバイルデバイス。
前記少なくとも1つのプロセッサが、
前記1つまたは複数のテキスト領域内の文字のストロークの幅の分散を検査することを行うようにさらに構成される、請求項22に記載のモバイルデバイス。
前記複数の画像は、シーケンスとして連続的に次々とキャプチャされる、請求項22に記載のモバイルデバイス。
前記第1のテキスト領域の拡大バージョンを含む前記少なくとも1つの追加の画像においてキャプチャされない前記実世界のシーンにおける特徴が、前記第1のテキスト領域のより少ないバージョンを含む前記複数の画像の中の画像においてキャプチャされる、請求項22に記載のモバイルデバイス。
実世界のシーンの複数の画像を複数のズームレベルでキャプチャするように構成されたカメラであって、前記実世界のシーンが1つまたは複数のサイズのテキストを含むカメラと、
前記複数の画像を格納するために前記カメラに結合されたメモリと、
前記複数の画像の各々から1つまたは複数のテキスト領域を抽出するために前記メモリに結合された手段と、
前記複数の画像のうちの1つまたは複数から抽出された第1のテキスト領域の1つまたは複数のバージョンにおけるOCRに関連する属性を分析するための手段と、
前記属性が前記第1のテキスト領域のあるバージョンにおいて光学文字認識(OCR)の限界を超えていない値を有することに応答して、前記第1のテキスト領域の前記バージョンをOCRへの入力として与えるための手段と、
前記属性の値がOCRの限界を満たさないことに応答して、前記第1のテキスト領域の前記属性が前記OCRの限界を満たす新たなズームレベルを計算し、前記第1のテキスト領域の少なくとも識別をリストに格納するための手段と、
前記複数の画像から抽出した他のテキスト領域に対して、提供するための手段または計算するための手段の起動を繰り返すための手段と、
前記リストを使用して、前記リスト内の全てのテキスト領域をカメラの視野内に保持する最大ズームレベルを特定するための手段と、
前記最大ズームレベルに基づいて、少なくとも1つの追加の画像をキャプチャするためのフィードバックを生成するための手段と、
を備えるモバイルデバイス。