JP6129987B2 - Ocrを向上させるためのテキスト画質ベースのフィードバック - Google Patents
Ocrを向上させるためのテキスト画質ベースのフィードバック Download PDFInfo
- Publication number
- JP6129987B2 JP6129987B2 JP2015547384A JP2015547384A JP6129987B2 JP 6129987 B2 JP6129987 B2 JP 6129987B2 JP 2015547384 A JP2015547384 A JP 2015547384A JP 2015547384 A JP2015547384 A JP 2015547384A JP 6129987 B2 JP6129987 B2 JP 6129987B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- images
- ocr
- region
- zoom
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
- G06V30/1456—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on user interactions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
Description
本出願は、2013年3月15日に出願され、「Text Image Quality Based Feedback For Improving OCR」と題する米国特許出願第13/843637号の優先権を主張し、さらに、米国特許出願第13/843637号は、2012年12月13日にインド特許庁に出願され、「Text Image Quality Based Feedback For Improving OCR」と題するインド仮特許出願第5200/CHE/2012号の請求権を主張し、米国特許出願第13/843637号とインド仮特許出願第5200/CHE/2012号はどちらも参照により全体が本明細書に組み込まれている。
107 画像
201、211〜216、222、223、231〜234、331〜335 アクト
210、220、230、240、250、410〜450、510 動作
224 分岐
250 テキスト検証ブロック
300 テキスト画質フィードバックモジュール
310 セレクタ
320 アーティファクトクラシファイア
330 OCRモジュール
321 点
321A、321B、321C 光線
329 領域
350 テキスト画質パラメータエクストラクタ
401 モバイルデバイス
404 プロセッサ
405 カメラ
407 画面
501 メモリ
511、512、515 論理
604 プロセッサ
610 ソフトウェア
611 テキスト領域エクストラクタ
612、612S フィードバックモジュール
621、622、623 モジュール
624 多段文字デコーダ
625 単語デコーダ
628 情報
629 辞書
662〜675 アクト
681 アーティファクトクラシファイア
682 アーティファクトクラシファイア
683 モジュール
801 多画像キャプチャブロック
802 抽出ブロック
803 分析ブロック
804 決定ブロック
806 決定ブロック
807 分析ブロック
808 出力ブロック
809 決定ブロック
810 フィードバックモジュール
824 ブロック
1004 グラフィックスエンジン
1005 プロセッサ
1007 読み出し専用メモリ
1008 フラッシュメモリ
1009 通信インターフェース
1010 送受信機
1012 ハードウェア
1013 ファームウェア
1018 ハプティックフィードバック回路
1100 広告掲示板
1101、1102、1103、1104 領域
1121 ボール
1401〜1407 アクト
1411〜1421 アクト
1431〜1435 アクト
1517 バージョン
1518 画像
1519 画像
i 領域
Mi メトリック
Qi 領域
t1 しきい値
Claims (28)
- 同一のテキストの複数の画像を使用することによってテキスト認識を向上させるための方法であって、
実世界のシーンの複数の画像を複数のズームレベルでキャプチャするステップであって、前記実世界のシーンが1つまたは複数のサイズのテキストを含むステップと、
前記複数の画像の各々から1つまたは複数のテキスト領域を抽出するステップと、
前記複数の画像のうちの1つまたは複数から抽出された第1のテキスト領域の1つまたは複数のバージョンにおけるOCRに関連する属性を分析するステップと、
前記属性が前記第1のテキスト領域のあるバージョンにおいて光学文字認識(OCR)の限界を超えていない値を有するとき、前記第1のテキスト領域の前記バージョンをOCRへの入力として与えるステップと、
前記属性の値がOCRの限界を満たさないとき、前記第1のテキスト領域の前記属性が前記OCRの限界を満たす新たなズームレベルを計算し、前記第1のテキスト領域の少なくとも識別をリストに格納するステップと、
前記複数の画像から抽出した他のテキスト領域を提供するステップまたは計算するステップを繰り返すステップと、
前記リストを使用して、前記リスト内の全てのテキスト領域をカメラの視野内に保持する最大ズームレベルを特定するステップと、
前記最大ズームレベルに基づいて、少なくとも1つの追加の画像をキャプチャするためのフィードバックを生成するステップと、
を含む方法。 - 前記属性は、前記1つまたは複数のテキスト領域における各領域の高さを含む、請求項1に記載の方法。
- 前記抽出ステップは、前記1つまたは複数のテキスト領域に共通の2値の画素のラインが存在するかどうかを検査するステップを含む、請求項1に記載の方法。
- 前記抽出ステップは、前記1つまたは複数のテキスト領域内の文字のストロークの幅の分散を検査するステップを含む、請求項1に記載の方法。
- 前記リストを使用して前記最大ズームレベルを特定するステップは、
前記第1のテキスト領域の極値x座標がw/zoom_levelよりも大きいかどうかを検査するステップであって、wが、前記第1のテキスト領域の幅であり、zoom_levelが、前記第1のテキスト領域を含む画像が前記カメラによってキャプチャされたズームのレベルであるステップと、
前記極値x-座標がw/zoom_levelより大きいとき、視野内の画像の数が前記リストの長さに等しいかどうかをさらに検査するステップと、
前記視野内の画像の数が前記リストの長さに等しいとき、フラグまたは変数のうち少なくとも1つを設定するステップと、
を含む、請求項1に記載の方法。 - 前記リストを使用して前記最大ズームレベルを特定するステップは、
前記第1のテキスト領域の極値y座標がh/zoom_levelよりも大きいかどうかを検査するステップであって、hが、前記第1のテキスト領域の高さであり、zoom_levelが、前記第1のテキスト領域を含む画像が前記カメラによってキャプチャされたズームのレベルであるステップと、
前記極値y座標がh/zoom_levelより大きいとき、視野内の画像の数が前記リストの長さに等しいかどうかをさらに検査するステップと、
前記視野内の画像の数が前記リストの長さに等しいとき、フラグまたは変数のうち少なくとも1つを設定するステップと、
を含む、請求項1に記載の方法。 - 前記複数の画像は、シーケンスとして連続的に次々とキャプチャされる、請求項1に記載の方法。
- 前記複数の画像は前記抽出ステップの前にキャプチャされる、請求項7に記載の方法。
- 前記複数の画像は、単一のユーザ入力に応答して自動的にキャプチャされる、請求項7に記載の方法。
- 前記第1のテキスト領域の拡大バージョンを含む前記少なくとも1つの追加の画像においてキャプチャされない前記実世界のシーンにおける特徴が、前記第1のテキスト領域のより少ないバージョンを含む前記複数の画像内の画像においてキャプチャされる、請求項1に記載の方法。
- 前記最大ズームレベルに基づいて生成された前記フィードバックをユーザに提供するステップをさらに含む、請求項1に記載の方法。
- 前記複数の画像のうちの1つまたは複数から抽出された第2のテキスト領域の1つまたは複数のバージョンにおけるOCRに関連する属性を分析するステップと、
前記属性が前記第2のテキスト領域のあるバージョンにおいて光学文字認識(OCR)の限界を超えていない値を有するとき、前記第2のテキスト領域の前記バージョンをOCRへの入力として与えるステップとをさらに含む、請求項1に記載の方法。 - 前記第1のテキストおよび第2のテキスト領域において認識されたテキストを出力するステップをさらに含む、請求項12に記載の方法。
- テキスト認識において使用するための複数の画像を取得するために少なくとも1つのプロセッサによって実行すべき複数の命令を含む少なくとも1つの非一時的コンピュータ可読記憶媒体であって、前記複数の命令が、
実世界のシーンの複数の画像を複数のズームレベルでキャプチャするための第1の命令であって、前記実世界のシーンが1つまたは複数のサイズのテキストを含む第1の命令と、
前記複数の画像の各々から1つまたは複数のテキスト領域を抽出するための第2の命令と、
前記複数の画像のうちの1つまたは複数から抽出された第1のテキスト領域の1つまたは複数のバージョンにおけるOCRに関連する属性を分析するための第3の命令と、
前記属性が、前記第1のテキスト領域のあるバージョンにおいて光学文字認識(OCR)の限界を超えていない値を有するとき、前記第1のテキスト領域の前記バージョンをOCRへの入力として与えるための第4の命令と、
前記属性の値がOCRの限界を満たさないとき、前記第1のテキスト領域の前記属性が前記OCRの限界を満たす新たなズームレベルを計算し、前記第1のテキスト領域の少なくとも識別をリストに格納するための第5の命令と、
前記複数の画像から抽出した他のテキスト領域に対して、前記第4の命令と前記第5の命令を繰返し実行するための第6の命令と、
前記リストを使用して、前記リスト内の全てのテキスト領域をカメラの視野内に保持する最大ズームレベルを特定するための第7の命令と、
前記最大ズームレベルに基づいて、少なくとも1つの追加の画像をキャプチャするためのフィードバックを生成するための第8の命令と、
を含む少なくとも1つの非一時的コンピュータ可読記憶媒体。 - 前記属性は、前記1つまたは複数のテキスト領域における各領域の高さを含む、請求項14に記載の少なくとも1つの非一時的コンピュータ可読記憶媒体。
- 前記第2の命令は、前記1つまたは複数のテキスト領域に共通の2値の画素のラインが存在するかどうかを検査するための命令を含む、請求項14に記載の少なくとも1つの非一時的コンピュータ可読記憶媒体。
- 前記第2の命令は、前記1つまたは複数のテキスト領域内の文字のストロークの幅の分散を検査するための命令を含む、請求項14に記載の少なくとも1つの非一時的コンピュータ可読記憶媒体。
- 前記第1のテキスト領域の極値x座標がw/zoom_levelよりも大きいかどうかを検査するための第5の命令であって、wが、前記第1のテキスト領域の幅であり、zoom_levelが、前記第1のテキスト領域を含む画像が前記カメラによってキャプチャされたズームのレベルである第5の命令と、
前記極値x-座標がw/zoom_levelより大きいとき、視野内の画像の数が前記リストの長さに等しいかどうかをさらに検査するための第6の命令と、
前記視野内の画像の数が前記リストの長さに等しいとき、フラグまたは変数のうち少なくとも1つを設定するための第7の命令と、
をさらに含む、請求項14に記載の少なくとも1つの非一時的コンピュータ可読記憶媒体。 - 前記第1のテキスト領域の極値y座標がh/zoom_levelよりも大きいかどうかを検査する第5の命令であって、hが、前記第1のテキスト領域の高さであり、zoom_levelが、前記第1のテキスト領域を含む画像が前記カメラによってキャプチャされたズームのレベルである第5の命令と、
前記極値y座標がh/zoom_levelより大きいとき、視野内の画像の数が前記リストの長さに等しいかどうかをさらに検査するための第6の命令と、
前記視野内の画像の数が前記リストの長さに等しいとき、フラグまたは変数のうち少なくとも1つを設定するための第7の命令と、
をさらに含む、請求項14に記載の少なくとも1つの非一時的コンピュータ可読記憶媒体。 - 前記複数の画像は、シーケンスとして連続的に次々とキャプチャされる、請求項14に記載の少なくとも1つの非一時的コンピュータ可読記憶媒体。
- 前記第1のテキスト領域の拡大バージョンを含む前記少なくとも1つの追加の画像においてキャプチャされない前記実世界のシーンにおける特徴が、前記第1のテキスト領域のより少ないバージョンを含む前記複数の画像内の画像においてキャプチャされる、請求項14に記載の少なくとも1つの非一時的コンピュータ可読記憶媒体。
- 実世界画像におけるテキストを復号するためのモバイルデバイスであって、
カメラと、
前記カメラから少なくとも画像を受け取るために前記カメラに動作可能に接続されたメモリであって、前記画像が1つまたは複数のテキスト領域を含む、メモリと、
前記メモリに記憶された複数の命令を実行するために前記メモリに動作可能に接続された少なくとも1つのプロセッサとを備え、
前記複数の命令が、前記少なくとも1つのプロセッサに、
実世界のシーンの複数の画像を複数のズームレベルでキャプチャすることであって、前記実世界のシーンが1つまたは複数のサイズのテキストを含むことと、
前記複数の画像の各々から1つまたは複数のテキスト領域を抽出することと、
前記複数の画像のうちの1つまたは複数から抽出された第1のテキスト領域の1つまたは複数のバージョンにおけるOCRに関連する属性を分析することと、
前記属性が前記第1のテキスト領域のあるバージョンにおいて光学文字認識(OCR)の限界を超えていない値を有するとき、前記第1のテキスト領域の前記バージョンをOCRへの入力として与えることと、
前記属性の値がOCRの限界を満たさないとき、前記第1のテキスト領域の前記属性が前記OCRの限界を満たす新たなズームレベルを計算し、前記第1のテキスト領域の少なくとも識別をリストに格納することと、
前記複数の画像から抽出した他のテキスト領域に対して、提供するための命令または計算するための命令を繰り返すことと、
前記リストを使用して、前記リスト内の全てのテキスト領域をカメラの視野内に保持する最大ズームレベルを特定することと、
前記最大ズームレベルに基づいて、少なくとも1つの追加の画像をキャプチャするためのフィードバックを生成することと、
を行わせるモバイルデバイス。 - 前記属性は、前記1つまたは複数のテキスト領域における各領域の高さを含む、請求項22に記載のモバイルデバイス。
- 前記少なくとも1つのプロセッサに抽出を行わせる命令は、前記1つまたは複数のテキスト領域に共通の2値の画素のラインが存在するかどうかを検査するための命令を含む、請求項22に記載のモバイルデバイス。
- 前記少なくとも1つのプロセッサが、
前記1つまたは複数のテキスト領域内の文字のストロークの幅の分散を検査することを行うようにさらに構成される、請求項22に記載のモバイルデバイス。 - 前記複数の画像は、シーケンスとして連続的に次々とキャプチャされる、請求項22に記載のモバイルデバイス。
- 前記第1のテキスト領域の拡大バージョンを含む前記少なくとも1つの追加の画像においてキャプチャされない前記実世界のシーンにおける特徴が、前記第1のテキスト領域のより少ないバージョンを含む前記複数の画像の中の画像においてキャプチャされる、請求項22に記載のモバイルデバイス。
- 実世界のシーンの複数の画像を複数のズームレベルでキャプチャするように構成されたカメラであって、前記実世界のシーンが1つまたは複数のサイズのテキストを含むカメラと、
前記複数の画像を格納するために前記カメラに結合されたメモリと、
前記複数の画像の各々から1つまたは複数のテキスト領域を抽出するために前記メモリに結合された手段と、
前記複数の画像のうちの1つまたは複数から抽出された第1のテキスト領域の1つまたは複数のバージョンにおけるOCRに関連する属性を分析するための手段と、
前記属性が前記第1のテキスト領域のあるバージョンにおいて光学文字認識(OCR)の限界を超えていない値を有することに応答して、前記第1のテキスト領域の前記バージョンをOCRへの入力として与えるための手段と、
前記属性の値がOCRの限界を満たさないことに応答して、前記第1のテキスト領域の前記属性が前記OCRの限界を満たす新たなズームレベルを計算し、前記第1のテキスト領域の少なくとも識別をリストに格納するための手段と、
前記複数の画像から抽出した他のテキスト領域に対して、提供するための手段または計算するための手段の起動を繰り返すための手段と、
前記リストを使用して、前記リスト内の全てのテキスト領域をカメラの視野内に保持する最大ズームレベルを特定するための手段と、
前記最大ズームレベルに基づいて、少なくとも1つの追加の画像をキャプチャするためのフィードバックを生成するための手段と、
を備えるモバイルデバイス。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IN5200/CHE/2012 | 2012-12-13 | ||
IN5200CH2012 | 2012-12-13 | ||
US13/843,637 US9317764B2 (en) | 2012-12-13 | 2013-03-15 | Text image quality based feedback for improving OCR |
US13/843,637 | 2013-03-15 | ||
PCT/US2013/071479 WO2014092978A1 (en) | 2012-12-13 | 2013-11-22 | Text image quality based feedback for ocr |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2015537325A JP2015537325A (ja) | 2015-12-24 |
JP2015537325A5 JP2015537325A5 (ja) | 2016-12-28 |
JP6129987B2 true JP6129987B2 (ja) | 2017-05-17 |
Family
ID=50930450
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015547384A Active JP6129987B2 (ja) | 2012-12-13 | 2013-11-22 | Ocrを向上させるためのテキスト画質ベースのフィードバック |
Country Status (5)
Country | Link |
---|---|
US (1) | US9317764B2 (ja) |
EP (1) | EP2932437A1 (ja) |
JP (1) | JP6129987B2 (ja) |
CN (1) | CN104871180B (ja) |
WO (1) | WO2014092978A1 (ja) |
Families Citing this family (62)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5832432B2 (ja) * | 2010-06-15 | 2015-12-16 | 株式会社ナビタイムジャパン | ナビゲーションシステム、ナビゲーション方法、および、プログラム |
US20130194448A1 (en) | 2012-01-26 | 2013-08-01 | Qualcomm Incorporated | Rules for merging blocks of connected components in natural images |
US9064191B2 (en) | 2012-01-26 | 2015-06-23 | Qualcomm Incorporated | Lower modifier detection and extraction from devanagari text images to improve OCR performance |
US9183458B2 (en) | 2012-07-19 | 2015-11-10 | Qualcomm Incorporated | Parameter selection and coarse localization of interest regions for MSER processing |
US9047540B2 (en) | 2012-07-19 | 2015-06-02 | Qualcomm Incorporated | Trellis based word decoder with reverse pass |
US9262699B2 (en) | 2012-07-19 | 2016-02-16 | Qualcomm Incorporated | Method of handling complex variants of words through prefix-tree based decoding for Devanagiri OCR |
US9076242B2 (en) * | 2012-07-19 | 2015-07-07 | Qualcomm Incorporated | Automatic correction of skew in natural images and video |
US9141874B2 (en) | 2012-07-19 | 2015-09-22 | Qualcomm Incorporated | Feature extraction and use with a probability density function (PDF) divergence metric |
DE102013005658A1 (de) * | 2013-04-02 | 2014-10-02 | Docuware Gmbh | Erfassung eines dokuments |
US9141865B2 (en) * | 2013-10-28 | 2015-09-22 | Itseez, Inc. | Fast single-pass interest operator for text and object detection |
US9465774B2 (en) | 2014-04-02 | 2016-10-11 | Benoit Maison | Optical character recognition system using multiple images and method of use |
GB2525170A (en) * | 2014-04-07 | 2015-10-21 | Nokia Technologies Oy | Stereo viewing |
JP2015207181A (ja) * | 2014-04-22 | 2015-11-19 | ソニー株式会社 | 情報処理装置、情報処理方法及びコンピュータプログラム |
CN104200236B (zh) * | 2014-08-22 | 2018-10-26 | 浙江生辉照明有限公司 | 基于dpm的快速目标检测方法 |
US9639951B2 (en) * | 2014-10-23 | 2017-05-02 | Khalifa University of Science, Technology & Research | Object detection and tracking using depth data |
KR102448565B1 (ko) * | 2014-12-11 | 2022-09-29 | 삼성전자주식회사 | 사용자 단말 장치 및 이의 제어 방법 |
US9256775B1 (en) * | 2014-12-23 | 2016-02-09 | Toshiba Tec Kabushiki Kaisha | Image recognition apparatus and commodity information processing apparatus |
US9953216B2 (en) * | 2015-01-13 | 2018-04-24 | Google Llc | Systems and methods for performing actions in response to user gestures in captured images |
US9830508B1 (en) | 2015-01-30 | 2017-11-28 | Quest Consultants LLC | Systems and methods of extracting text from a digital image |
US9984287B2 (en) * | 2015-03-05 | 2018-05-29 | Wipro Limited | Method and image processing apparatus for performing optical character recognition (OCR) of an article |
US9466001B1 (en) * | 2015-04-07 | 2016-10-11 | Toshiba Tec Kabushiki Kaisha | Image processing apparatus and computer-readable storage medium |
US9619701B2 (en) * | 2015-05-20 | 2017-04-11 | Xerox Corporation | Using motion tracking and image categorization for document indexing and validation |
US10242277B1 (en) * | 2015-07-08 | 2019-03-26 | Amazon Technologies, Inc. | Validating digital content rendering |
US10721407B1 (en) * | 2015-09-23 | 2020-07-21 | Charles W. Moyes | Real-time image capture system |
US10121232B1 (en) * | 2015-12-23 | 2018-11-06 | Evernote Corporation | Visual quality of photographs with handwritten content |
CA3069173C (en) | 2016-01-12 | 2023-05-02 | Esight Corp. | Language element vision augmentation methods and devices |
US10002435B2 (en) * | 2016-01-29 | 2018-06-19 | Google Llc | Detecting motion in images |
US20170286383A1 (en) * | 2016-03-30 | 2017-10-05 | Microsoft Technology Licensing, Llc | Augmented imaging assistance for visual impairment |
RU2613849C1 (ru) * | 2016-05-13 | 2017-03-21 | Общество с ограниченной ответственностью "Аби Девелопмент" | Оптическое распознавание символов серии изображений |
CN105975955B (zh) * | 2016-05-27 | 2019-07-02 | 北京医拍智能科技有限公司 | 一种图像中文本区域的检测方法 |
US10210384B2 (en) * | 2016-07-25 | 2019-02-19 | Intuit Inc. | Optical character recognition (OCR) accuracy by combining results across video frames |
JP6531738B2 (ja) * | 2016-08-08 | 2019-06-19 | 京セラドキュメントソリューションズ株式会社 | 画像処理装置 |
JP6917688B2 (ja) * | 2016-09-02 | 2021-08-11 | 株式会社東芝 | 帳票読取装置、帳票読取方法、プログラム、および帳票読取システム |
RU2640296C1 (ru) * | 2016-12-06 | 2017-12-27 | Общество с ограниченной ответственностью "Аби Девелопмент" | Способ и устройство для определения пригодности документа для оптического распознавания символов (ocr) на сервере |
BE1025006B1 (fr) * | 2017-02-27 | 2018-09-25 | I.R.I.S. | Procède mis en oeuvre par ordinateur et système de reconnaissance de caractère optique |
JP6448696B2 (ja) * | 2017-03-22 | 2019-01-09 | 株式会社東芝 | 情報処理装置、方法及びプログラム |
CN107194891B (zh) | 2017-05-18 | 2020-11-10 | 上海兆芯集成电路有限公司 | 改善图像质量的方法及虚拟实境装置 |
CN107194890B (zh) | 2017-05-18 | 2020-07-28 | 上海兆芯集成电路有限公司 | 使用多分辨率改善图像质量的方法及装置 |
US11328167B2 (en) * | 2017-07-21 | 2022-05-10 | Hewlett-Packard Development Compant, L.P. | Optical character recognitions via consensus of datasets |
CN111213156B (zh) * | 2017-07-25 | 2024-05-10 | 惠普发展公司,有限责任合伙企业 | 字符识别锐度确定 |
CN108229483A (zh) * | 2018-01-11 | 2018-06-29 | 中国计量大学 | 基于caffe与软触发下的门牌压印字符识别装置 |
JP2019211595A (ja) | 2018-06-04 | 2019-12-12 | 富士ゼロックス株式会社 | 表示制御装置、プログラム及び表示システム |
CN110609877B (zh) * | 2018-06-14 | 2023-04-18 | 百度在线网络技术(北京)有限公司 | 一种图片采集的方法、装置、设备和计算机存储介质 |
US20200004815A1 (en) * | 2018-06-29 | 2020-01-02 | Microsoft Technology Licensing, Llc | Text entity detection and recognition from images |
CN110766014B (zh) * | 2018-09-06 | 2020-05-29 | 邬国锐 | 票据信息定位方法、系统及计算机可读存储介质 |
US11373400B1 (en) * | 2019-03-18 | 2022-06-28 | Express Scripts Strategic Development, Inc. | Methods and systems for image processing to present data in augmented reality |
US11631266B2 (en) * | 2019-04-02 | 2023-04-18 | Wilco Source Inc | Automated document intake and processing system |
US11687796B2 (en) | 2019-04-17 | 2023-06-27 | International Business Machines Corporation | Document type-specific quality model |
CN113993374A (zh) * | 2019-06-21 | 2022-01-28 | 松下知识产权经营株式会社 | 动物信息管理系统和动物信息管理方法 |
US11176410B2 (en) * | 2019-10-27 | 2021-11-16 | John Snow Labs Inc. | Preprocessing images for OCR using character pixel height estimation and cycle generative adversarial networks for better character recognition |
CN111444794B (zh) * | 2020-03-13 | 2023-12-12 | 安诚迈科(北京)信息技术有限公司 | 基于ocr的票据识别辅助方法、设备、存储介质及装置 |
CN111639566A (zh) * | 2020-05-19 | 2020-09-08 | 浙江大华技术股份有限公司 | 一种提取表单信息的方法及装置 |
CN111709414A (zh) * | 2020-06-29 | 2020-09-25 | 济南浪潮高新科技投资发展有限公司 | Ar设备及其文字识别方法、装置和计算机可读存储介质 |
EP3933678A1 (en) * | 2020-06-30 | 2022-01-05 | Ricoh Company, Ltd. | Information processing system, data output system, image processing method, and carrier means |
US11417079B2 (en) * | 2020-07-14 | 2022-08-16 | International Business Machines Corporation | Viewfinder assistant for visually impaired |
TWI790471B (zh) * | 2020-08-26 | 2023-01-21 | 財團法人工業技術研究院 | 基於深度學習的影像校正方法及系統 |
US11494944B2 (en) | 2020-11-18 | 2022-11-08 | Disney Enterprises, Inc. | Automatic low contrast detection |
US11544828B2 (en) | 2020-11-18 | 2023-01-03 | Disney Enterprises, Inc. | Automatic occlusion detection |
JP2022092837A (ja) * | 2020-12-11 | 2022-06-23 | 株式会社東海理化電機製作所 | 制御装置およびプログラム |
US11893784B2 (en) | 2021-05-14 | 2024-02-06 | Abbyy Development Inc. | Assessment of image quality for optical character recognition using machine learning |
CN113221801B (zh) * | 2021-05-24 | 2023-08-18 | 北京奇艺世纪科技有限公司 | 版号信息识别方法、装置、电子设备及可读存储介质 |
WO2023196314A1 (en) * | 2022-04-08 | 2023-10-12 | ThoughtTrace, Inc. | System and method for machine learning document partitioning |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08106510A (ja) * | 1994-10-05 | 1996-04-23 | Casio Comput Co Ltd | 文字読取り装置及び文字認識装置 |
US7734500B1 (en) * | 2001-10-17 | 2010-06-08 | United Toll Systems, Inc. | Multiple RF read zone system |
US6922487B2 (en) * | 2001-11-02 | 2005-07-26 | Xerox Corporation | Method and apparatus for capturing text images |
JP2007520934A (ja) * | 2003-12-24 | 2007-07-26 | ウオーカー ディジタル、エルエルシー | 画像を自動的に捕捉し、管理する方法および装置 |
US8320708B2 (en) | 2004-04-02 | 2012-11-27 | K-Nfb Reading Technology, Inc. | Tilt adjustment for optical character recognition in portable reading machine |
US8600989B2 (en) | 2004-10-01 | 2013-12-03 | Ricoh Co., Ltd. | Method and system for image matching in a mixed media environment |
JP2006186414A (ja) * | 2004-12-24 | 2006-07-13 | Canon Software Inc | 画像読取装置及び方法、画像読取システム、プログラム、並びに記憶媒体 |
US7903878B2 (en) | 2006-03-30 | 2011-03-08 | Loquitur, Inc. | Capturing and presenting text during optical character recognition |
US8098934B2 (en) | 2006-06-29 | 2012-01-17 | Google Inc. | Using extracted image text |
US9842331B2 (en) | 2008-01-18 | 2017-12-12 | Mitek Systems, Inc. | Systems and methods for mobile image capture and processing of checks |
US8577118B2 (en) | 2008-01-18 | 2013-11-05 | Mitek Systems | Systems for mobile image capture and remittance processing |
CN101689328B (zh) * | 2008-06-11 | 2014-05-14 | 松下电器产业株式会社 | 图像处理设备以及图像处理方法 |
KR101002899B1 (ko) * | 2008-06-19 | 2010-12-21 | 삼성전자주식회사 | 문자 인식 방법 및 장치 |
KR20100064533A (ko) * | 2008-12-05 | 2010-06-15 | 삼성전자주식회사 | 카메라를 이용한 문자 크기 자동 조절 장치 및 방법 |
CN101639760A (zh) | 2009-08-27 | 2010-02-03 | 上海合合信息科技发展有限公司 | 联系信息输入方法及系统 |
EP2333695B1 (en) | 2009-12-10 | 2017-08-02 | beyo GmbH | Method for optimized camera position finding for systems with optical character recognition |
US8675923B2 (en) | 2010-07-21 | 2014-03-18 | Intuit Inc. | Providing feedback about an image of a financial document |
US20120030103A1 (en) | 2010-07-27 | 2012-02-02 | Gregory Hughes | Image-Based Submission and Verification of Redemption Codes |
-
2013
- 2013-03-15 US US13/843,637 patent/US9317764B2/en active Active
- 2013-11-22 CN CN201380064784.8A patent/CN104871180B/zh not_active Expired - Fee Related
- 2013-11-22 JP JP2015547384A patent/JP6129987B2/ja active Active
- 2013-11-22 WO PCT/US2013/071479 patent/WO2014092978A1/en active Application Filing
- 2013-11-22 EP EP13811043.2A patent/EP2932437A1/en not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
US9317764B2 (en) | 2016-04-19 |
JP2015537325A (ja) | 2015-12-24 |
CN104871180B (zh) | 2017-05-03 |
CN104871180A (zh) | 2015-08-26 |
EP2932437A1 (en) | 2015-10-21 |
WO2014092978A1 (en) | 2014-06-19 |
US20140168478A1 (en) | 2014-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6129987B2 (ja) | Ocrを向上させるためのテキスト画質ベースのフィードバック | |
CN110135411B (zh) | 名片识别方法和装置 | |
US9171204B2 (en) | Method of perspective correction for devanagari text | |
JP5775225B2 (ja) | マルチレイヤ連結成分をヒストグラムと共に用いるテキスト検出 | |
US9053361B2 (en) | Identifying regions of text to merge in a natural image or video frame | |
US9076242B2 (en) | Automatic correction of skew in natural images and video | |
US10210415B2 (en) | Method and system for recognizing information on a card | |
CN111681273B (zh) | 图像分割方法、装置、电子设备及可读存储介质 | |
US9262699B2 (en) | Method of handling complex variants of words through prefix-tree based decoding for Devanagiri OCR | |
US20140023275A1 (en) | Redundant aspect ratio decoding of devanagari characters | |
WO2014014678A1 (en) | Feature extraction and use with a probability density function and divergence|metric | |
CN111027450A (zh) | 银行卡信息识别方法、装置、计算机设备及存储介质 | |
CN112364873A (zh) | 弯曲文本图像的文字识别方法、装置及计算机设备 | |
CN111753873A (zh) | 一种图像检测方法和装置 | |
JP2018045691A (ja) | 画像視点変換装置及び方法 | |
CN117765485A (zh) | 基于改进的深度残差网络的车型识别方法、装置和设备 | |
Nor et al. | Image segmentation and text extraction: application to the extraction of textual information in scene images | |
CN114511702A (zh) | 一种基于多尺度分权注意力的遥感图像分割方法和系统 | |
CN113706636A (zh) | 一种用于篡改图像识别的方法与装置 | |
Ma et al. | Mobile camera based text detection and translation | |
CN113537253A (zh) | 一种红外图像目标检测方法、装置、计算设备及存储介质 | |
Nor et al. | A new visual signature for content-based indexing of low resolution documents | |
CN114842444A (zh) | 基于上下文与深度特征的车辆目标检测方法及设备 | |
JP5107100B2 (ja) | 文字認識方法、文字認識装置及び文字認識プログラム | |
CN116391213A (zh) | 图像生成及检测方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161109 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161109 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20161109 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20170301 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170301 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170313 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170412 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6129987 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |