JP2012516508A - 出版物からocr認識されたテキストとそれに対応するイメージをクライアント装置において選択に表示すること - Google Patents

出版物からocr認識されたテキストとそれに対応するイメージをクライアント装置において選択に表示すること Download PDF

Info

Publication number
JP2012516508A
JP2012516508A JP2011548186A JP2011548186A JP2012516508A JP 2012516508 A JP2012516508 A JP 2012516508A JP 2011548186 A JP2011548186 A JP 2011548186A JP 2011548186 A JP2011548186 A JP 2011548186A JP 2012516508 A JP2012516508 A JP 2012516508A
Authority
JP
Japan
Prior art keywords
segment
document
text
image
text segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011548186A
Other languages
English (en)
Other versions
JP2012516508A5 (ja
JP5324669B2 (ja
Inventor
ラトナカール,ビレシュ
ポパト,アショク
ハウゲン,フランシス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2012516508A publication Critical patent/JP2012516508A/ja
Publication of JP2012516508A5 publication Critical patent/JP2012516508A5/ja
Application granted granted Critical
Publication of JP5324669B2 publication Critical patent/JP5324669B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/224Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/12Detection or correction of errors, e.g. by rescanning the pattern
    • G06V30/127Detection or correction of errors, e.g. by rescanning the pattern with the intervention of an operator
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K7/00Methods or arrangements for sensing record carriers, e.g. for reading patterns
    • G06K7/10Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/206Drawing of charts or graphs
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/14Display of multiple viewports
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

光学式文字認識(OCR)処理を使用して出版物のソースイメージからテキストが抽出される。該抽出されたテキストの複数のテキストセグメントを内容とする文書が生成される。該文書は、表示された文書に対するユーザの相互作用に応答する制御モジュールを含む。表示されたテキストセグメントのユーザの選択に応じて、それに対応するイメージセグメントが前記テキストの前記ソースイメージから取り出され、該選択されたテキストセグメントに代えて表示される。該ユーザは該テキストセグメントに表示を戻すように再びトグル式に切り換えることができる。各テキストセグメントは、その品質を示すがらくた度スコアのタグが付けられ得る。或るテキストセグメントのがらくた度スコアが或る閾値を超えていると、それに対応するイメージセグメントがその代わりに自動的に表示され得る。
【選択図】 図1

Description

本発明は、光学式文字認識(OCR)、特に、OCRを使用して抽出されたテキスト、および、前記テキストの抽出元であるオリジナルのイメージ(画像)を表示する分野に関する。
印刷された文書が光学式文字認識(OCR)を使用してスキャンされ、編集可能なテキストに変換される。コンピュータ画面で文書を読む場合、ユーザは、典型的には、画像バージョンよりOCR認識されたバージョンを好む。OCR認識されたテキストは、文書画像に比べて、サイズが小さく、従って、より効率的にコンピュータネットワークを介して送信可能である。さらに、前記OCR認識されたテキストは、編集可能であり(例えば、コピーおよびペーストをサポートしており)また検索可能であり、(例えば、ローカルに利用可能なフォントを使用して)明瞭に、且つ、(コンピュータスクリーンに合うよう調整されたレイアウトを使用して)弾力的に表示可能である。上記利点は、携帯電話およびミュージックプレーヤー等の携帯装置を使って読書することを好むユーザにとって特に有益である。
しかしながら、多くの場合、OCR認識されたテキストにはエラーが存在する。このようなエラーは、文書における欠陥、スキャン処理時に発生したアーチファクト(artifact: 人口物)、および、OCRエンジンの欠点による場合がある。これらのエラーは、OCR認識されたテキストの使用および利点享受を妨害し、前記テキストの利点を損なうことがある。従って、OCR処理によって発生したエラーの影響を最小化しながら、OCR認識されたテキストを使用する利益を実現するための方法が要求されている。
ここに開示する実施例は、OCRを使用して画像から抽出されたテキストを表示するための方法(及びそれに対応するシステムとコンピュータプログラム製品)を含んでいる。
1つの観点においては、OCR認識された文書(document: ドキュメント)はOCR認識されたテキストの複数セグメントの集合として生成される。該文書内の各テキストセグメントには、イメージの連続からなる元の文書における元のテキストイメージにおける該テキストセグメントを内容とする矩形のイメージ区間を一意的に識別(同定)する、情報のタグが付けられる。該文書は、1テキストセグメントの表示を、ユーザの選択に応じて、OCR認識されたテキストとそれに対応するイメージ区間(イメージセグメント)との間で読み手がトグル式に切り換えることができるようにするプログラムコードを含んでいる。
別の観点において、各テキストセグメント毎にがらくた度スコア(点数)が計算される。OCR認識された文書内の各テキストセグメントは、そのがらくた度スコアのタグが付けられる。OCR認識された文書がロードされるとき、埋め込まれたプログラムコードが各テキストセグメントのがらくた度スコアを或る閾値と比較する。或るテキストセグメントのがらくた度スコアが閾値よりも低いならば、該プログラムコードは該テキストセグメントを表示する。そうでない場合は、該プログラムコードは該テキストセグメントに代えてイメージセグメントを表示する。ユーザはテキストセグメントを選択することにより、この表示をトグル式に切り換えることができる。
本明細書で説明する特徴および利点は、全てを包含しているとは限らず、特に、追加される多くの特徴および利点は、図面、明細書、および特許請求の範囲から当該技術に精通する者には明らかであろう。更に、本明細書で使用する言葉は、原則として可読性と説明目的のために選定されており、本発明の主題を描写し、または制限するよう選定したものではないことに留意されたい。
本開示に係る一実施例に従うコンピューティング環境のハイレベルなブロック図。
本開示に係る一実施例に従う図1に示すコンピューティング環境において使用される1台のコンピュータの一例を示すハイレベルなブロック図。
本開示に係る一実施例に従う文書供給システム内の複数モジュール例を示すハイレベルなブロック図。
本開示に係る一実施例に従う文書供給システムの動作例を示す流れ図。
本開示に係る一実施例に従う文書供給システムによって生み出される制御モジュールの動作例を示す流れ図。
本開示に係る一実施例に従う文書供給システムによって生成されるウェブページを読むユーザ体験を例示する一画面の図。 同ウェブページの別画面の図。 同ウェブページの別画面の図。
ここに説明するコンピューティング環境は、OCR認識されたテキストを読む読み手がOCR認識されたテキストのセグメントとテキストセグメントを含むソースイメージの1セグメントとの間でトグル式に切り換えることを可能にする。
図面及び以下の記述は単に説明の目的で或る実施例を記述している。ここに説明された構成及び方法についての変形がここに記述された原理から逸脱することなく実現され得ることを、以下の説明から当業者は容易に認識するであろう。いくつかの実施例に対する言及が詳細になされ、それらの一例が添付図面において示されている。どこで使用される場合であっても、類似のまたは似たような参照番号が図面で使用され、類似のまたは似たような機能性を示す。
システム環境
図1は、本開示に係る一実施例に従うコンピューティング環境100のハイレベルなブロック図であり、該コンピューティング環境100は、印刷された出版物(publication: 公表物)をOCR認識されたテキストに変換し、読み手が該OCR認識されたテキスト及び所望に応じてそれに対応するソース(元の)イメージを見れるようにする。図示するように、コンピューティング環境100は、スキャナー110、OCRエンジン120、文書供給システム(文書サーバーシステム)130、クライアント装置140を含んでいる。本記述を単純化し明確化するために、各エンティティ(実体、装置)の1つのみが図示される。コンピューティング環境100においては、その他のエンティティ(実体、装置)も同様に存在する。或る実施例において、OCRエンジン120及び文書供給システム130は1つのエンティティ(実体、装置)内に組み込まれる。
スキャナー110は、印刷された出版物(例えば書籍、新聞)を光学的にスキャンし該印刷された出版物をデジタルのテキストイメージに変換する。スキャナー110の出力はOCRエンジン120に送られる。
OCRエンジン120は、ソースイメージを編集可能なテキスト(以下、OCR認識されたテキストという)に変換(翻訳)するように構成されたハードウェア装置及び/又はソフトウェアプログラムである。OCRエンジン120は、コンピュータアルゴリズムを使用してソースイメージを処理し、それに対応するOCR認識されたテキストを生成する。
加えて、OCRエンジン120は、ソースイメージ中の該OCR認識されたテキストに対応するイメージセグメントを記述する位置情報を生成し出力する。例えば、テキストの各セグメント(例えばパラグラフ、コラム、タイトル)毎に、OCRエンジン120は、該テキストセグメントに対応するソースイメージのセグメントをユニークに特定する境界ボックス(囲み)を記述する1組の値を提供する。この境界ボックスを記述する1組の値は、x−y軸上の四角形の右上角の2次元座標値と、該四角形の幅及び高さとを含む。従って、境界ボックスは、該テキストセグメントに対応するイメージセグメントとして、ソースイメージ中の領域をユニークに特定する。
OCRエンジン120は、また、OCR認識されたテキストの品質を評価する信頼性レベルを生成してよい。加えて、OCRエンジン120は、フォーマット情報(例えばフォント種類、フォントサイズ、スタイルなど)のようなその他の情報を生成してよい。OCRエンジン120の一例は、ABBYYファインリーダーOCR(登録商標)、ADOBEアクロバットキャプチャ(登録商標)、MICROSOFTオフィス文書イメージング(登録商標)などである。OCRエンジン120の出力は文書供給システム130に送られる。
文書供給システム130は、印刷された出版物の電子的表現物をユーザに提供するように構成されたコンピュータシステムである。文書供給システム130はOCRエンジン120から受信した情報を記憶する。この情報は、OCR認識されたテキスト、ソースイメージ、該ソースイメージ内のセグメントにOCR認識されたテキストのセグメントを関連付ける位置情報、及び信頼性レベルを含む。一実施例において、文書供給システム130は受信した情報を使用して、OCR認識されたテキストの各テキストセグメントの「がらくた度スコア」を計算する。この「がらくた度スコア」は全体の品質を評価するものである。加えて、文書供給システム130は、クライアント装置140によって実行されることができる制御モジュール132を含む。この制御モジュール132は、クライアント装置140のユーザがテキストセグメントとそれに対応するイメージセグメントとを選択的にトグル式に切り換えることができるようにするものであり、これにより、ユーザがOCR認識されたテキスト又は印刷された出版物のソースイメージ中の該テキストに対応する部分のいずれかを見ることができるようにする。
一実施例において、文書供給システム130は、ユーザが、クライアント装置140を使用して、OCR認識された印刷出版物をウェブページとして読むためのウェブサイトを提供する。印刷された出版物の特定の部分についてのリクエストをクライアント装置から受信すると、文書供給システム130は、リクエストされた出版物の部分を内容とする文書(例えばウェブページ)を生成する。一実施例において、該文書はリクエストされた出版物の部分中に複数テキストセグメントを含む(例えば本の一章分のテキスト)。加えて、該文書は、該テキストセグメントをそれに対応するイメージセグメントに関連付ける位置情報を含む。また、該文書は前記制御モジュール132を含む。文書供給システム130は、該生成した文書を、それをリクエストしているクライアント装置140に提供する。
クライアント装置140は、文書供給システム130に文書をリクエストし、その応答として受信した文書を表示するように構成されている。その機能は、クライアント装置140上で実行するウェブブラウザ(例えば、Microsoft Internet Explorer(登録商標)、Mozilla FireFox(登録商標)、Apple Safari(登録商標)など)のような閲覧アプリケーション142によって提供される。閲覧アプリケーション142は文書供給システム130から受信した文書に含まれる制御モジュール132を実行し、それはユーザがテキストセグメントの表示とそれに対応するイメージセグメントの表示とを交替でトグル式に切り換えることができるようにする。
スキャナー110はOCRエンジン120と通信可能に接続され、OCRエンジン120は文書供給システム130と通信可能に接続され、文書供給システム130はクライアント装置140と通信可能に接続される。これらの接続のいずれかが配線結線式又は無線式ネットワークであってよい。このネットワークの一例は、インターネット、イントラネット、WiFiネットワーク、WiMAXネットワーク、携帯電話ネットワーク、若しくはこれらの組み合わせを含む。
コンピュータアーキテクチャ
図1に示されたエンティティは1又は複数のコンピュータを使用して実装される。図2はコンピュータ200の一例を示すハイレベルなブロック図である。コンピュータ200はチップセット204に結合された少なくとも1つのプロセッサ202を含む。チップセット204は、メモリコントローラハブ220と入出力(I/O)コントローラハブ222を含む。メモリ206とグラフィックアダプタ212はメモリコントローラハブ220に結合され、ディスプレイ218はグラフィックアダプタ212に結合される。記憶装置208、キーボード210、ポインティングデバイス214、ネットワークアダプタ216はI/Oコントローラハブ222に結合される。コンピュータ200の別の実施例は、異なるアーキテクチャを持つ。
記憶装置208は、ハードディスクドライブ、コンパクトディスク読出し専用メモリ(CD−ROM)、DVD、ソリッドステートメモリデバイスなどのコンピュータ読取可能な記憶媒体である。メモリ206はプロセッサ202によって使用される命令及びデータを保持する。ポインティングデバイス214は、マウス、トラックボール、その他のタイプのポインティングデバイスであり、コンピュータシステム200にデータを入力するためにキーボード210と組み合わせて使用される。グラフィックアダプタ212はディスプレイ218上にイメージその他の情報を表示する。ネットワークアダプタ216は1又は複数のコンピュータネットワークにコンピュータシステム200を結合する。
コンピュータ200は、ここで述べる機能を提供するためにコンピュータプログラムモジュールを実行するようになっている。本書において、「モジュール」とは、特定の機能を提供するために使用されるコンピュータプログラム論理のことをいう。従って、モジュールは、ハードウェア内、ファームウェア内、及び/又はソフトウェア内に実装されることができる。一実施例において、プログラムモジュールは記憶装置208内に格納され、メモリ206上にロードされ、プロセッサ202によって実行される。
図1のエンティティによって使用されるコンピュータ200の種類は、実施形態及び該エンティティに要求される処理能力に依存して変り得る。例えば、文書供給システム130は、本書で述べる機能を提供するために協働するマルチ・ブレード・サーバーで構成されるかもしれない。別の例として、クライアント装置140は限られた処理能力を持つ携帯電話で構成されるかもしれない。コンピュータ200は、上述した構成要素のあるもの、例えばキーボード210、グラフィックアダプタ212やディスプレイ218など、を欠いていてもよい。
文書供給システムのアーキテクチャ例の概観
図3は、一実施例に従う文書供給システム内の複数モジュール例を示すハイレベルなブロック図である。文書供給システムのいくつかの実施形態は、本書で述べるものとは異なる及び/又は別のモジュールを有する。同様に、その機能は、本書で述べるのとは異なるやり方で、別の実施形態に従い複数モジュール間で分散化され得る。図示したように、文書供給システム130は、テキスト評価エンジン310、コード発生モジュール320、文書生成モジュール330、入出力管理モジュール(以下I/Oモジュールという)340、データ記憶部350を含む。
テキスト評価エンジン310は、OCRエンジン120によって提供された情報に基づいてテキストセグメントのがらくた度スコアを生成する。がらくた度スコアは該テキストセグメントの全体的な品質を評価する数値である。一実施例において、がらくた度スコアは0乃至100の範囲であり、0は高いテキスト品質を示しており、100は低いテキスト品質を示す。
がらくた度スコアを生成するために、テキスト評価エンジン310の一実施例は、テキストセグメント内の各文字(キャラクタ)毎に言語条件付き文字確率の1組を生成する。各言語条件付き文字確率は、該文字とテキストセグメントにおいて該文字に先行している1セットの文字群とが或る言語モデルに如何によく調和しているかを示す。該文字に先行している1セットの文字群は、典型的には、少数(例えば4乃至8文字程度)に限定され、例えば複合語あるいはその他の結合語中の文字群が該モデルに基づき強い確率値が付与される。言語条件付き文字確率はテキスト品質のその他の指針(例えばOCRエンジン120によって提供される前記信頼性レベル)と組み合わせられて、テキストセグメント内の各文字毎のテキスト品質スコア(点数)を生成するようにしてよい。そのような値の計算は、テキスト品質の位置特定分析を考慮に入れる。
テキスト評価エンジン310は、1テキストセグメント内の複数文字に対応付けられた1組のテキスト品質スコアを組み合わせて、該テキストセグメントの品質を特徴付ける「がらくた度スコア」を生成する。テキスト評価エンジン310は、1テキストセグメント内の複数文字に対応付けられた1組のテキスト品質スコアを平均化して「がらくた度スコア」を生成するようにしてもよい。
コード発生モジュール320は、クライアント装置140における文書の表示を制御する制御モジュール132を生成するか又は提供する。一実施例において、制御モジュール132は、JAVASCRIPT(登録商標)、JAVA(登録商標)又はPerl(登録商標)のようなプログラム言語を使用して書かれたブラウザで実行可能なコードを使用して実装される。コード発生モジュール320は、Google Web Toolkit(登録商標)のようなアプリケーションを含むか又はそれと通信することができ、及び/又は開発者が該制御モジュール132を開発できるようにする統合化開発環境(IDE)を提供できる。実施例によっては、コード発生モジュール320は、制御モジュール132の予め作成されたインスタンスを格納する。該制御モジュール132はクライアント装置140に提供される文書内に含ませることができるか、若しくはクライアント装置140が文書供給システム130に文書をリクエストするとき該コード発生モジュール320がリアルタイムに制御モジュール132を形成することができる。
文書生成モジュール330は、リクエストしているクライアント装置140に出版物の部分を提供する文書を生成する。一実施例において、生成した文書はハイパーテキストランゲージ(HTML)を使用して形成されたウェブページである。その他の実施例では、ポータブル文書フォーマット(PDF)のようなウェブページではない文書及び/又はHTML以外の言語を使用して形成されたウェブページを生成する。
文書を生成するために、文書生成モジュール330は、クライアント装置140によってリクエストされた出版物と部分を特定し、該部分を構成するテキストセグメントをデータ記憶部350から取り出す。文書生成モジュール330は、複数のテキストセグメントを有する文書を作成し、また、該文書内の各テキストセグメント毎に当該テキストセグメントをソースイメージからのイメージセグメントに関連付ける位置情報を持つタグを付ける。文書生成モジュール330は、また、各テキストセグメント毎にそれに対応するがらくた度スコアを持つタグを付ける。加えて、文書生成モジュール330は、コード発生モジュール320によって提供された制御モジュール132を該文書内に埋め込む。文書生成モジュール330は、OCR認識されたテキストが利用可能になるとき該文書を生成してよい。別の例として、文書生成モジュール330は、オンデマンドで(例えばクライアント装置140からのリクエストに応じて)該文書を動的に生成してよい。
I/Oモジュール340は、文書供給システム130の入力及び出力を管理する。例えば、I/Oモジュール340は、OCRエンジン120から受信したデータをデータ記憶部350に記憶し、テキスト評価エンジン310を作動させてそれに対応する「がらくた度スコア」を生成させる。別の例として、I/Oモジュール340はクライアント装置140からのリクエストを受信し、文書生成モジュール330を作動させてリクエストされた文書をそれに応じて提供させる。イメージセグメントを要求するリクエストを文書供給システムが受信すると、I/Oモジュール340はデータ記憶部350から該イメージセグメントを取り出し、それをクライアント装置140に提供する。一実施例において、I/Oモジュール340はイメージセグメントをクライアント装置140に返す前に該イメージセグメントを処理する。例えば、I/Oモジュール340は、該文書を表示するクライアント装置140の画面の解像度に基づいてイメージセグメントのサイズ及び/又は解像度を調整してよい。
データ記憶部350は文書供給システム130によって使用されるデータを記憶する。そのようなデータの一例は、OCR認識されたテキスト及びそれに関連する情報(例えば、がらくた度スコア、位置情報など)、ソースイメージ、生成された文書などを含む。データ記憶部350は関連データベース又は任意のその他のタイプのデータベースであってよい。
文書及び制御モジュール
一実施例によれば、文書供給システム130は制御モジュール132を埋め込んだ文書を生成する。文書は、それに対応するイメージセグメントを識別する情報のタグが付けられた複数テキストセグメントを含んでいる。これらのテキストセグメントは、また、ソースイメージにおける元の文章を模擬するようにデザインされたフォーマット情報のタグが付けられる。そのようなフォーマット情報はフォント種類、フォントサイズ、スタイル(例えばイタリック、ボールド、アンダーラインなど)を含む。
制御モジュール132の一実施例は、該文書に関連するイベントを取り扱うイベントハンドラーを含む。例えば、該文書がクライアント装置140でウェブブラウザにロードされことに応じて(オンロード・イベント)、制御モジュール132はHTMLテキストタグを使用してそこに含まれたテキストセグメントの表示を生成する。別の例では、ユーザによる1テキストセグメントの選択に応じて、制御モジュール132は該テキストセグメントとそれに対応するイメージセグメントとの間で該表示をトグル式に切り換える。
一実施例において、ウェブブラウザによってウェブページがロードされるとき、埋め込まれた制御モジュールが各テキストセグメントのがらくた度スコアを閾値と比較し、当該テキストセグメントが表示するのに十分な品質のものであるかを判定する。がらくた度スコアが該閾値以下であれば、該制御モジュールは下記のようなHTMLコードを使用して該テキストセグメントを表示する。
<p id='pageID.40.paraID.1.box.103.454.696.70.garbage.40'> <i>The courtyard of the Sheriff&#39;s house. A chapel. A shed in which is a blacksmith&#39;s forge with fire. A prison near which is an anvil, before which Will Scarlet is at work making a sword.</i></p>
上記HTMLコードは、次に示すイタリック体のテキストを含む。「The courtyard of the Sheriff's house. A chapel. A shed in which is a blacksmith's forge with fire. A prison near which is an anvil, before which Will Scarlet is at work making a sword.」(その保安官の家の中庭。教会。その中の小屋は鍛冶屋の炎の鍛冶場。その近くの牢屋は鉄床で、その前でウィル・スカーレットが剣を作る仕事をしている。)このパラグラフは次に示す情報“id='
pageID.40.paraID.1.box.103.454.696.70.garbage.40'”のタグが付けられ、これは、対応するイメージセグメントが40ページ(pageID.40)のパラグラフ1(paraID.1)に位置し、該イメージセグメントの左上角が(103, 454)、該イメージセグメントが高さ696ピクセルで幅70ピクセルの長さ、それに関連する「がらくた度スコア」が40(garbage.40)、ということを示している。
もし「がらくた度スコア」が閾値を超えていたら、制御モジュール132は、イメージセグメントを自動的に取り出し、次に示すようなHTMLコードを使用して、テキストセグメントの代わりに該イメージセグメントを表示する。
<p id='pageID.40.paraID.1.box.103.454.696.70. garbage.40'><img src="image?bookID=0123&pageID=40&paraID=1&x=103&y=454&h=696&w=70" display="100%"></p>
上記HTMLコードは、上記パラグラフと同じ文章を内容とするイメージセグメントを取り出し、テキストセグメントの代わりに該イメージセグメントを表示する。上記bookIDは、文書生成モジュール330によって該文書内にハード的にコード化(hardcode)され得る。この閾値はユーザによって設定し得るか、又は該文書内にプリセットされ得る。
ユーザは、また、該文書がテキストセグメント又はイメージセグメントを表示するかを特定することができる。例えば、ユーザはテキストセグメントをアクティブ化するためにキーボード又はポインティングデバイスを使用することができ、若しくはタッチ感知スクリーン上のテキストセグメントをタップすることができる。ユーザの選択に応じて、制御モジュール132は、テキストセグメントとそれに対応するイメージセグメントとの間で表示を動的にトグル式に切り換える。表示がテキストセグメントからイメージセグメントに切り換えられるとき、制御モジュール132は、該イメージセグメントをユニークに識別する情報(例えばページ番号、パラグラフ番号、バインディングボックスなど)を用いて文書供給システム130に該イメージセグメントをリクエストし、ウェブページに該イメージセグメントのイメージタグを挿入し、OCR認識されたテキストに代えて該イメージセグメントをユーザに表示する。表示されないとしても、ユーザがトグルバックしたときにそれに対応するテキストが容易に表示され得るように、テキストセグメントはローカル・バリアブル(変数)内に記憶される。
典型的には、イメージセグメントが表示されるとき、制御モジュール132はディスプレイが100%であるように構成し、画面スクリーンの全幅を満たすようにイメージセグメントがサイズ修正されるべきであることを示す。しかし、1テキストセグメント(例えば短い言葉又は「第1章]のようなタイトルライン)が非常に短いとき(例えば1行の50%未満)、制御モジュールは画面スクリーン幅に対して同様の比率で該イメージを表示するように構成され得る。
文書供給システムのための方法の概観
図4は、一実施例に従い、ユーザによって見るためにクライアント装置140に文書を相互作用的に提供するための文書供給システム130用の方法400を図示する流れ図である。その他の実施例として、該方法400の各ステップを図示とは異なる順序で実行することもできる。更に、その他の実施例として、本書で述べたものとは異なる及び/又は追加のステップを含んでいてもよい。文書供給システム130は、方法400の各ステップの複数のインスタンスを同時に及び/又は並行して実行することができる。
最初に、文書供給システム130は、OCR認識されたテキスト、イメージ、関連情報(例えば位置情報、信頼性レベル)をOCRエンジン120から受信する(410)。文書供給システム130は、各OCR認識されたテキストセグメント毎のがらくた度スコアを(例えばテキスト評価エンジン310を通して)計算し(420)、文書内に含まれるべき制御モジュール132を(例えばコード発生モジュール320を通して)生成する(430)。
文書供給システム130は、出版物の一部分(例えば本の一章)のリクエストをクライアント装置140から受信し(440)、該リクエストされた部分を構成する複数テキストセグメントをデータ記憶部350から取り出し、該テキストセグメントを含むウェブページのような文書を生成する(450)。これらのテキストセグメントには位置情報及びがらくた度スコアを含む関連属性のタグが付けられる。生成した文書はまた制御モジュール132を含む。文書供給システム130は、生成した文書を、それをリクエストしたクライアント装置140に送信する(460)。
上述のように、ユーザは対応するテキストセグメントに代えてイメージセグメントを見るために、該文書と相互作用することができる。クライアント装置140で実行される制御モジュール132は或るイメージセグメントを表示するようリクエストを受信すると、該イメージセグメントをユニークに識別(特定)するパラメータを伴ってイメージリクエストを文書供給システム130に送信する。文書供給システム130は、該イメージリクエストを受信し(470)、該リクエストされたイメージセグメントを取り出し(480)、表示のためにクライアント装置140に送信する(490)。該イメージリクエストは、該文書を表示する画面スクリーンの解像度のような付加的情報を提供してもよい。文書供給システム130は、そのような情報に基づいてイメージセグメントを処理し(例えばサイズ修正、解像度調整など)、その後、処理済のイメージセグメントを表示のためにクライアント装置140に送信する(490)ようにしてもよい。
制御モジュールのための方法の概観
図5は、一実施例に従い、文書内に含まれる制御モジュール132の動作500を図示する流れ図である。制御モジュール132は、クライアント装置140での閲覧アプリケーション142(例えばウェブブラウザ)によって文書が表示されるときに、該アプリケーションによって実行される。別の実施例において、制御モジュール132の機能が、閲覧アプリケーション142それ自体によって提供される(例えばプラグイン・アプレットによって)。従って、制御モジュール132は、文書供給システム130によってクライアント装置140に送られる文書内に必ずしも含まれている必要はない。
図示のように、文書がロードされるとき、制御モジュール132は文書の表示を生成する(510)。上述のように、制御モジュール132は各テキストセグメントのがらくた度スコアを閾値と比較し、該テキストセグメント又はそれに対応するイメージセグメントを表示するか同化を決定する。
制御モジュール132は、表示されたセグメントへのユーザによる選択を監視し検出する(520)。制御モジュール132は、選択されたセグメントがテキストセグメントとして又はイメージセグメントとして現在表示されているかどうかを判定する(530)。表示されているセグメントがテキストセグメントであれば、制御モジュール132はそれに対応するイメージセグメントをリクエストし(540)、該リクエストしたイメージセグメントを受信し(550)、受信したイメージセグメントをテキストセグメントに代えて表示する(560)。そうでなければ、制御モジュール132はイメージセグメントのイメージタグをテキストセグメントで置き換える(570)。一実施例において、制御モジュール132は、表示されていないテキストセグメントを文書内にローカルに記憶しておき(例えば、ローカルのJavaScript(登録商標)バリアブル)、ユーザが次に表示をテキストに戻すよう切り換えるときに、文書供給システム130からテキストセグメントをリクエストして取り出す必要がないようにする。表示を切り換えた後、制御モジュール132は、ユーザ選択の監視に戻る。
実例
図6A〜6Cは、本開示に係る一実施例に従い、文書と相互作用するユーザ体験を例示する画面ショットを示す図である。この例においては、該文書はウェブページである。図6Aに示すように、アップル社(登録商標)のiPHONE(登録商標)クライアント装置を使用して、ユーザが「クリスマス・キャロル:過去のクリスマスの幽霊であること」と題するOCR認識された本に関して生成されたウェブページを取り出している。このウェブページは本の120〜130頁を内容とする。
ユーザはパラグラフ610のイメージセグメントを見ることを望み、該パラグラフの表示をタップする(叩く)。これに応じて、制御モジュール132はパラグラフ610のテキストセグメントを図6Bに示すように割れ目イメージ620に置き換える。この割れ目イメージ620は、「元の本の画像を読み込み中...(直前の画像に戻るためにはこの画像をタップして下さい。)」という文章を見せる。この割れ目イメージ620は、どう戻るかについての簡潔なガイドを提供するのと同時にユーザが動作を理解するのを手助けするようにデザインされている。例えば、クライアント装置140のネットワーク接続が貧弱な場合、パラグラフ610のオリジナルイメージを読み込むのに時間がかかるかもしれない。ユーザは割れ目イメージ620を叩いて動作をキャンセルしテキストセグメントの閲覧に戻ることができる。この割れ目イメージ620はまた感覚的な読み込み時間を減少させる手助けとなる。
イメージセグメント630が取り出されるとき、制御モジュール132は図6Cに示すようにテキストセグメントに代えてイメージセグメント630に交換する。その後ユーザが再びタップすると図6Aに示すようにテキストセグメントに戻る。
上記説明のいくつかの部分は、アルゴリズム的処理又は動作に関する実施例を述べている。これらのアルゴリズムの説明および表現は、当該分野に精通する者により使用されて、自らの業務内容を当該分野に精通する他の者に最も効率的に伝えるための手段である。これらの動作を、機能的、計算的または論理的に説明したが、これらは、プロセッサによって実行される命令群からなるコンピュータープログラム又はそれと等価の電子回路を介して実装されることが理解される。更に、モジュールとして、これら動作の構成に言及することが、一般性を失わせることなく、時には便利であると証明されてもいる。説明された動作及びこれらに関連するモジュールはソフトウェア。ファームウェアあるいはそれらの組み合わせで実施され得る。
本書で使用する「一実施例」または「1つの実施例」とは、該実施例に関連した特定の要素、特徴、構造又は特性が少なくとも1つの実施例内に含まれることを意味する。本明細書における各所での「一実施例において」という表現の出現は、必ずしもそのすべてが同一の実施例を言及するものではない。
いくつかの実施例は、「結合された」又は「接続された」という表現を使用して述べられているかもしれない。これらの用語は、互いに類義語として意図されないことを理解されたい。例えば、いくつかの実施例は、2以上の要素が直接的に物理的に又は電気的に互いに接触していることを示すために、「接続された」の語を使用して述べているかもしれない。別の実施例は、2以上の要素が直接的に物理的に又は電気的に接触していることを示すために、「結合された」の語を使用して述べているかもしれない。しかし、「結合された」の語は、また、2以上の要素が直接的に互いに接触していないが、互いに協働又は相互作用していることを意味するものであってもよい。実施例はこれらの文脈に限定されない。
本書で使用されている「備える」「具備している」「含む」「含んでいる」「持つ」「持っている」の語又はその他の如何なるそれらの変形語は、非排他的な包摂をカバーしようとするものである。例えば、1組の要素を掲げてなるプロセス、方法、物又は装置は、必ずしもそれらの要素のみに限定されるものではなく、その他の明示的に掲げられていない要素又はそのようなプロセス、方法、物又は装置につきものその他の要素を含んでいてよい。更に、特に反対の意を表さない限り、「又は」とは、包括的な「又は」及び非排他的な「又は」のことである。例えば、A又はBという条件は、Aが真(又は存在する)かつBが偽(又は存在しない)、Aが偽(又は存在しない)かつBが真(又は存在する)、及びAもBも真(又は存在する)、のいずれか1つによって満足させられるものである。
加えて、「1」又は「或る」の使用は、本書中の実施例の構成要素及び成分を記述するために使用される。これは、単に便宜と、開示の一般性を与えるためになされる。この記述は1又は少なくとも1つを含むと読まれるべきであり、また、単一のとは、それが明らかにその反対を意味していない限り、複数も含む。
本書での開示を読解すると、この技術分野の熟練者は、OCR認識されたテキストを表示するためのシステム及び処理についての更に追加の変形構成及び機能的設計が認識できるであろう。従って、特定の実施例及び応用が図示され説明されているが、本発明は、ここに説明した構成及び要素に正確に限定されるものではなく、添付の請求の範囲で定義される精神と範囲から逸脱することなく、当業者にとって明白な様々な変形、変更、変化が、ここに開示した方法及び装置の構成、動作、詳細においてなされ得る。

Claims (20)

  1. 出版物を表示するためにコンピュータによって実行される方法であって、
    出版物のソースイメージに対して施された光学式文字認識(OCR)処理に応じて生成された複数のテキストセグメントを含む文書を受信することと、
    ユーザによって使用されるクライアント装置のディスプレイ上に1以上の前記テキストセグメントを表示することと、
    表示されたテキストセグメントに対する前記ユーザによる選択に応じて、該選択されたテキストセグメントに対応する前記ソースイメージ内のイメージセグメントを取り出すことと、
    前記クライアント装置のディスプレイにおいて前記選択されたテキストセグメントに代えて前記イメージセグメントを表示すること、
    を具備する方法。
  2. 更に、前記ユーザによる前記イメージセグメントの選択に応じて、前記クライアント装置のディスプレイにおいて該選択されたイメージセグメントに代えて前記テキストセグメントを表示すること、
    を具備する請求項1の方法。
  3. 前記文書は、更に、それに関連するテキストセグメントの品質を示すがらくた度スコアを含み、
    前記1以上の前記テキストセグメントを表示することは、
    前記関連するテキストセグメントの前記がらくた度スコアを或る閾値と比較することと、
    前記閾値以下の前記がらくた度スコアに応じて、前記関連するテキストセグメントを表示することと、
    前記閾値を超える前記がらくた度スコアに応じて、前記関連するテキストセグメントに対応する1イメージセグメントを該関連するテキストセグメントに代えて記クライアント装置のディスプレイにおいて表示すること、
    を含む請求項1の方法。
  4. 前記文書は、前記複数のテキストセグメントを前記ソースイメージ内の複数のイメージセグメントに関連付ける位置情報を含み、
    前記イメージセグメントを取り出すことは、
    前記表示されたテキストセグメントについての前記文書内での位置情報を特定することと、
    前記イメージセグメントを要求するリクエストであって、該特定された位置情報を含む該リクエストを送信すること、
    を更に具備する請求項1の方法。
  5. 前記イメージセグメントを要求する前記リクエストは遠隔のサーバーに送信され、該イメージセグメントが該遠隔のサーバーから取り出される請求項4の方法。
  6. 前記位置情報は、前記対応するテキストセグメントに含まれる文章を見せるソースイメージ内の領域を記述する情報である請求項4の方法。
  7. 更に、前記表示されているテキストセグメントの前記ユーザによる選択に応じて、該表示されているテキストセグメントを前記文書に関連付けて記憶すること、
    を具備する請求項1の方法。
  8. 出版物を表示するために実行可能なコンピュータプログラムコードを記憶したコンピュータ読取可能な記憶媒体であって、該プログラムは、コンピュータに、
    出版物のソースイメージに対して施された光学式文字認識(OCR)処理に応じて生成された複数のテキストセグメントを含む文書を受信する手順と、
    ユーザによって使用されるクライアント装置のディスプレイ上に1以上の前記テキストセグメントを表示する手順と、
    表示されたテキストセグメントに対する前記ユーザによる選択に応じて、該選択されたテキストセグメントに対応する前記ソースイメージ内のイメージセグメントを取り出す手順と、
    前記クライアント装置のディスプレイにおいて前記選択されたテキストセグメントに代えて前記イメージセグメントを表示する手順、
    を実行させることを特徴とするコンピュータ読取可能な記憶媒体。
  9. 前記プログラムは、更に、前記コンピュータに、前記ユーザによる前記イメージセグメントの選択に応じて、前記クライアント装置のディスプレイにおいて該選択されたイメージセグメントに代えて前記テキストセグメントを表示する手順、
    を実行させることを特徴とする請求項8のコンピュータ読取可能な記憶媒体。
  10. 前記文書は、更に、それに関連するテキストセグメントの品質を示すがらくた度スコアを含み、
    前記1以上の前記テキストセグメントを表示する前記手順は、
    前記関連するテキストセグメントのための前記がらくた度スコアを或る閾値と比較する手順と、
    前記閾値以下の前記がらくた度スコアに応じて、前記関連するテキストセグメントを表示する手順と、
    前記閾値を超える前記がらくた度スコアに応じて、前記関連するテキストセグメントに対応する1イメージセグメントを該関連するテキストセグメントに代えて記クライアント装置のディスプレイにおいて表示する手順、
    を前記コンピュータに実行させることからなる請求項8のコンピュータ読取可能な記憶媒体。
  11. 前記文書は、前記複数のテキストセグメントを前記ソースイメージ内の複数のイメージセグメントに関連付ける位置情報を含み、
    前記イメージセグメントを取り出す前記手順は、
    前記表示されたテキストセグメントについての前記文書内での位置情報を特定する手順と、
    前記イメージセグメントを要求するリクエストであって、該特定された位置情報を含む該リクエストを送信する手順と、
    を前記コンピュータに更に実行させることからなる請求項8のコンピュータ読取可能な記憶媒体。
  12. 出版物をユーザに提供するためにコンピュータによって実行される方法であって、
    出版物のソースイメージに対して施された光学式文字認識(OCR)処理に応じて生成された複数のテキストセグメントを含む文書を受信することと、ここで、前記文書は、前記複数のテキストセグメントに対応する前記ソースイメージの複数のセグメントを特定する位置情報も含んでおり、
    クライアント装置に前記文書を送信することと、
    前記文書内に含まれる1テキストセグメントに対応する1イメージセグメントの前記位置情報を含むリクエストを前記クライアント装置から受信することに応じて、該対応する1イメージセグメントを該クライアント装置に提供すること、
    を具備する方法。
  13. 前記文書を受信することは、更に、
    それに関連するテキストセグメントの品質を示すがらくた度スコアを生成することと、
    前記関連するテキストセグメントと前記がらくた度スコアを含む前記文書を生成すること、
    を含む請求項8の方法。
  14. 前記がらくた度スコアを生成することは、
    1つの言語モデルに基づいて前記関連するテキストセグメント中の各文字毎の言語条件付き文字確率の1組を計算することと、
    前記関連するテキストセグメント中の各文字毎の前記言語条件付き文字確率の1組に基づいて、該関連するテキストセグメントのための前記がらくた度スコアを生成すること、
    を含む請求項13の方法。
  15. 更に、前記送信する文書内に制御モジュールを含めることを具備し、該制御モジュールは、前記クライアント装置において前記文書の表示を制御し、かつ、該クライアント装置のユーザとの相互作用に応じて前記1テキストセグメントに対応する1イメージセグメントを要求するリクエストを生成するように、前記クライアント装置において実行されるものである、請求項13の方法。
  16. 前記位置情報は、前記対応するテキストセグメント内に含まれる文章を提示する前記ソースイメージ内の領域を記述するものである、請求項12の方法。
  17. 出版物をユーザに提供するために実行可能なコンピュータプログラムコードを記憶したコンピュータ読取可能な記憶媒体であって、該プログラムは、コンピュータに、
    出版物のソースイメージに対して施された光学式文字認識(OCR)処理に応じて生成された複数のテキストセグメントを含む文書を受信する手順と、ここで、前記文書は、前記複数のテキストセグメントに対応する前記ソースイメージの複数のセグメントを特定する位置情報も含んでおり、
    クライアント装置に前記文書を送信する手順と、
    前記文書内に含まれる1テキストセグメントに対応する1イメージセグメントの前記位置情報を含むリクエストを前記クライアント装置から受信することに応じて、該対応する1イメージセグメントを該クライアント装置に提供する手順、
    を実行させることを特徴とするコンピュータ読取可能な記憶媒体。
  18. 前記文書を受信する前記手順は、更に、
    それに関連するテキストセグメントの品質を示すがらくた度スコアを生成する手順と、
    前記関連するテキストセグメントと前記がらくた度スコアを含む前記文書を生成する手順、
    を前記コンピュータに実行させることを特徴とする請求項17のコンピュータ読取可能な記憶媒体。
  19. 前記がらくた度スコアを生成する前記手順は、
    1つの言語モデルに基づいて前記関連するテキストセグメント中の各文字毎の言語条件付き文字確率の1組を計算する手順と、
    前記関連するテキストセグメント中の各文字毎の前記言語条件付き文字確率の1組に基づいて、該関連するテキストセグメントのための前記がらくた度スコアを生成する手順、
    を前記コンピュータに実行させることを特徴とする請求項18のコンピュータ読取可能な記憶媒体。
  20. 更に、前記送信する文書内に制御モジュールを含める手順を前記コンピュータに実行させ、該制御モジュールは、前記クライアント装置において前記文書の表示を制御し、かつ、該クライアント装置のユーザとの相互作用に応じて前記1テキストセグメントに対応する1イメージセグメントを要求するリクエストを生成するように、前記クライアント装置において実行されるものである、請求項18のコンピュータ読取可能な記憶媒体。
JP2011548186A 2009-01-28 2010-01-25 出版物からocr認識されたテキストとそれに対応するイメージをクライアント装置において選択に表示すること Active JP5324669B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US14790109P 2009-01-28 2009-01-28
US61/147,901 2009-01-28
US12/366,547 2009-02-05
US12/366,547 US8373724B2 (en) 2009-01-28 2009-02-05 Selective display of OCR'ed text and corresponding images from publications on a client device
PCT/US2010/021965 WO2010088182A1 (en) 2009-01-28 2010-01-25 Selective display of ocr'ed text and corresponding images from publications on a client device

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2013148920A Division JP6254374B2 (ja) 2009-01-28 2013-07-17 出版物からocr認識されたテキストとそれに対応するイメージをクライアント装置において選択的に表示すること

Publications (3)

Publication Number Publication Date
JP2012516508A true JP2012516508A (ja) 2012-07-19
JP2012516508A5 JP2012516508A5 (ja) 2013-03-14
JP5324669B2 JP5324669B2 (ja) 2013-10-23

Family

ID=42353827

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2011548186A Active JP5324669B2 (ja) 2009-01-28 2010-01-25 出版物からocr認識されたテキストとそれに対応するイメージをクライアント装置において選択に表示すること
JP2013148920A Active JP6254374B2 (ja) 2009-01-28 2013-07-17 出版物からocr認識されたテキストとそれに対応するイメージをクライアント装置において選択的に表示すること

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2013148920A Active JP6254374B2 (ja) 2009-01-28 2013-07-17 出版物からocr認識されたテキストとそれに対応するイメージをクライアント装置において選択的に表示すること

Country Status (5)

Country Link
US (4) US8373724B2 (ja)
JP (2) JP5324669B2 (ja)
KR (1) KR101315472B1 (ja)
CN (2) CN102301380B (ja)
WO (1) WO2010088182A1 (ja)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8373724B2 (en) 2009-01-28 2013-02-12 Google Inc. Selective display of OCR'ed text and corresponding images from publications on a client device
US8442813B1 (en) 2009-02-05 2013-05-14 Google Inc. Methods and systems for assessing the quality of automatically generated text
US20120050819A1 (en) * 2010-08-30 2012-03-01 Jiang Hong Approach For Processing Scanned Document Data
US20120050818A1 (en) * 2010-08-31 2012-03-01 Kaoru Watanabe Sending scanned document data through a network to a mobile device
US8515930B2 (en) 2010-08-31 2013-08-20 Ricoh Company, Ltd. Merging a scanned document with an existing document on a server
US9083826B2 (en) * 2010-08-31 2015-07-14 Ricoh Company, Ltd. Tracking the processing of electronic document data by network services using trace
US20120159376A1 (en) * 2010-12-15 2012-06-21 Microsoft Corporation Editing data records associated with static images
TW201310355A (zh) * 2011-08-19 2013-03-01 Newsoft Technology Corp 經由資訊及指令關聯影像來瀏覽或執行指令的方法及其程式產品
US9069374B2 (en) 2012-01-04 2015-06-30 International Business Machines Corporation Web video occlusion: a method for rendering the videos watched over multiple windows
US9245296B2 (en) 2012-03-01 2016-01-26 Ricoh Company Ltd. Expense report system with receipt image processing
US9659327B2 (en) * 2012-03-01 2017-05-23 Ricoh Company, Ltd. Expense report system with receipt image processing
US10332213B2 (en) 2012-03-01 2019-06-25 Ricoh Company, Ltd. Expense report system with receipt image processing by delegates
JP5983184B2 (ja) * 2012-08-24 2016-08-31 ブラザー工業株式会社 画像処理システム、画像処理方法、画像処理装置、および画像処理プログラム
US9519641B2 (en) * 2012-09-18 2016-12-13 Abbyy Development Llc Photography recognition translation
KR20140081470A (ko) * 2012-12-21 2014-07-01 삼성전자주식회사 문자 확대 표시 방법, 상기 방법이 적용되는 장치, 및 상기 방법을 수행하는 프로그램을 저장하는 컴퓨터로 읽을 수 있는 저장 매체
WO2014154457A1 (en) * 2013-03-29 2014-10-02 Alcatel Lucent Systems and methods for context based scanning
JP6525523B2 (ja) * 2013-07-31 2019-06-05 キヤノン株式会社 情報処理装置、制御方法およびプログラム
US9275554B2 (en) 2013-09-24 2016-03-01 Jimmy M Sauz Device, system, and method for enhanced memorization of a document
WO2016205628A1 (en) 2015-06-18 2016-12-22 The Joan and Irwin Jacobs Technion-Cornell Institute A method and system for evaluating computational algorithms described in printed publications
US10755590B2 (en) 2015-06-18 2020-08-25 The Joan and Irwin Jacobs Technion-Cornell Institute Method and system for automatically providing graphical user interfaces for computational algorithms described in printed publications
US9864734B2 (en) * 2015-08-12 2018-01-09 International Business Machines Corporation Clickable links within live collaborative web meetings
US10044751B2 (en) * 2015-12-28 2018-08-07 Arbor Networks, Inc. Using recurrent neural networks to defeat DNS denial of service attacks
US9501696B1 (en) 2016-02-09 2016-11-22 William Cabán System and method for metadata extraction, mapping and execution
US10607101B1 (en) 2016-12-14 2020-03-31 Revenue Management Solutions, Llc System and method for patterned artifact removal for bitonal images
CN108628814A (zh) * 2017-03-20 2018-10-09 珠海金山办公软件有限公司 一种快速插入识别文字的方法及装置
JP6946690B2 (ja) * 2017-03-24 2021-10-06 カシオ計算機株式会社 表示装置、表示方法及びプログラム
EP3659066A4 (en) * 2017-07-25 2021-02-24 Hewlett-Packard Development Company, L.P. DETERMINATIONS OF SHARPNESS OF CHARACTER RECOGNITION
JP6891073B2 (ja) * 2017-08-22 2021-06-18 キヤノン株式会社 スキャン画像にファイル名等を設定するための装置、その制御方法及びプログラム
CN109981421B (zh) * 2017-12-27 2022-02-01 九阳股份有限公司 一种智能设备配网方法和装置
GB201804383D0 (en) 2018-03-19 2018-05-02 Microsoft Technology Licensing Llc Multi-endpoint mixed reality meetings
CN110969056B (zh) * 2018-09-29 2023-08-08 杭州海康威视数字技术股份有限公司 文档图像的文档版面分析方法、装置及存储介质
CN111475999B (zh) * 2019-01-22 2023-04-14 阿里巴巴集团控股有限公司 错误提示的生成方法、装置
CN110377885B (zh) * 2019-06-14 2023-09-26 北京百度网讯科技有限公司 转换pdf文件的方法、装置、设备和计算机存储介质
US11403162B2 (en) * 2019-10-17 2022-08-02 Dell Products L.P. System and method for transferring diagnostic data via a framebuffer
US11205084B2 (en) * 2020-02-17 2021-12-21 Wipro Limited Method and system for evaluating an image quality for optical character recognition (OCR)
US11436713B2 (en) 2020-02-19 2022-09-06 International Business Machines Corporation Application error analysis from screenshot
CN112131841A (zh) * 2020-08-27 2020-12-25 北京云动智效网络科技有限公司 一种文档质量评估方法及系统
CN115016710B (zh) * 2021-11-12 2023-06-16 荣耀终端有限公司 应用程序推荐方法
CN117217876B (zh) * 2023-11-08 2024-03-26 深圳市明心数智科技有限公司 基于ocr技术的订单预处理方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0581467A (ja) * 1991-08-29 1993-04-02 Canon Inc 画像処理方法及び装置
JPH07249098A (ja) * 1994-03-09 1995-09-26 Toshiba Corp 情報処理装置および情報処理方法
JP2002049890A (ja) * 2000-08-01 2002-02-15 Minolta Co Ltd 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JP2005352735A (ja) * 2004-06-10 2005-12-22 Fuji Xerox Co Ltd 文書ファイル作成支援装置、文書ファイル作成支援方法及びそのプログラム
JP2006031299A (ja) * 2004-07-15 2006-02-02 Hitachi Ltd 文字認識方法、文字データの修正履歴処理方法およびシステム

Family Cites Families (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5675672A (en) * 1990-06-26 1997-10-07 Seiko Epson Corporation Two dimensional linker for character string data
US5325297A (en) * 1992-06-25 1994-06-28 System Of Multiple-Colored Images For Internationally Listed Estates, Inc. Computer implemented method and system for storing and retrieving textual data and compressed image data
US5764799A (en) * 1995-06-26 1998-06-09 Research Foundation Of State Of State Of New York OCR method and apparatus using image equivalents
US5889897A (en) * 1997-04-08 1999-03-30 International Patent Holdings Ltd. Methodology for OCR error checking through text image regeneration
US6137906A (en) * 1997-06-27 2000-10-24 Kurzweil Educational Systems, Inc. Closest word algorithm
US6023534A (en) * 1997-08-04 2000-02-08 Xerox Corporation Method of extracting image data from an area generated with a halftone pattern
GB9809679D0 (en) * 1998-05-06 1998-07-01 Xerox Corp Portable text capturing method and device therefor
JP2000112955A (ja) * 1998-09-30 2000-04-21 Toshiba Corp 画像表示方法および画像ファイリング装置および記録媒体
US6278969B1 (en) 1999-08-18 2001-08-21 International Business Machines Corp. Method and system for improving machine translation accuracy using translation memory
US6587583B1 (en) * 1999-09-17 2003-07-01 Kurzweil Educational Systems, Inc. Compression/decompression algorithm for image documents having text, graphical and color content
GB2359953B (en) * 2000-03-03 2004-02-11 Hewlett Packard Co Improvements relating to image capture systems
US6738518B1 (en) * 2000-05-12 2004-05-18 Xerox Corporation Document image decoding using text line column-based heuristic scoring
US6678415B1 (en) * 2000-05-12 2004-01-13 Xerox Corporation Document image decoding using an integrated stochastic language model
JP4613397B2 (ja) * 2000-06-28 2011-01-19 コニカミノルタビジネステクノロジーズ株式会社 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
US20020102966A1 (en) * 2000-11-06 2002-08-01 Lev Tsvi H. Object identification method for portable devices
US6957384B2 (en) * 2000-12-27 2005-10-18 Tractmanager, Llc Document management system
JP4421134B2 (ja) * 2001-04-18 2010-02-24 富士通株式会社 文書画像検索装置
JP2002358481A (ja) * 2001-06-01 2002-12-13 Ricoh Elemex Corp 画像処理装置
US7171061B2 (en) 2002-07-12 2007-01-30 Xerox Corporation Systems and methods for triage of passages of text output from an OCR system
US8533270B2 (en) * 2003-06-23 2013-09-10 Microsoft Corporation Advanced spam detection techniques
US8301893B2 (en) * 2003-08-13 2012-10-30 Digimarc Corporation Detecting media areas likely of hosting watermarks
JP2005107684A (ja) * 2003-09-29 2005-04-21 Fuji Photo Film Co Ltd 画像処理方法及び画像入出力装置
US20070136348A1 (en) * 2003-10-27 2007-06-14 Koninklijke Philips Electronics N.V. Screen-wise presentation of search results
AU2005277150B2 (en) * 2004-08-21 2011-05-26 Directworks, Inc. Methods, systems, and apparatuses for extended enterprise commerce
US8156427B2 (en) * 2005-08-23 2012-04-10 Ricoh Co. Ltd. User interface for mixed media reality
US7669148B2 (en) * 2005-08-23 2010-02-23 Ricoh Co., Ltd. System and methods for portable device for mixed media system
US7639387B2 (en) * 2005-08-23 2009-12-29 Ricoh Co., Ltd. Authoring tools using a mixed media environment
US20060083431A1 (en) * 2004-10-20 2006-04-20 Bliss Harry M Electronic device and method for visual text interpretation
CN1848109A (zh) * 2005-04-13 2006-10-18 摩托罗拉公司 用于编辑光学字符识别结果的方法和系统
US7809722B2 (en) * 2005-05-09 2010-10-05 Like.Com System and method for enabling search and retrieval from image files based on recognized information
US7760917B2 (en) * 2005-05-09 2010-07-20 Like.Com Computer-implemented method for performing similarity searches
CN100356392C (zh) * 2005-08-18 2007-12-19 北大方正集团有限公司 一种字符识别的后处理方法
KR100714393B1 (ko) * 2005-09-16 2007-05-07 삼성전자주식회사 텍스트 추출 기능을 갖는 호스트 장치 및 그의 텍스트 추출방법
US7796837B2 (en) * 2005-09-22 2010-09-14 Google Inc. Processing an image map for display on computing device
US8849821B2 (en) * 2005-11-04 2014-09-30 Nokia Corporation Scalable visual search system simplifying access to network and device functionality
US7822596B2 (en) * 2005-12-05 2010-10-26 Microsoft Corporation Flexible display translation
KR20080002084A (ko) * 2006-06-30 2008-01-04 삼성전자주식회사 광학 문자 판독을 위한 시스템 및 광학 문자 판독방법
US7912700B2 (en) * 2007-02-08 2011-03-22 Microsoft Corporation Context based word prediction
US8763038B2 (en) * 2009-01-26 2014-06-24 Sony Corporation Capture of stylized TV table data via OCR
US20080267504A1 (en) * 2007-04-24 2008-10-30 Nokia Corporation Method, device and computer program product for integrating code-based and optical character recognition technologies into a mobile visual search
CN101419661B (zh) * 2007-10-26 2011-08-24 国际商业机器公司 基于图像中的文本进行图像显示的方法和系统
US8331677B2 (en) * 2009-01-08 2012-12-11 Microsoft Corporation Combined image and text document
US8373724B2 (en) * 2009-01-28 2013-02-12 Google Inc. Selective display of OCR'ed text and corresponding images from publications on a client device
US8442813B1 (en) 2009-02-05 2013-05-14 Google Inc. Methods and systems for assessing the quality of automatically generated text
US8588528B2 (en) * 2009-06-23 2013-11-19 K-Nfb Reading Technology, Inc. Systems and methods for displaying scanned images with overlaid text
US20110128288A1 (en) * 2009-12-02 2011-06-02 David Petrou Region of Interest Selector for Visual Queries

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0581467A (ja) * 1991-08-29 1993-04-02 Canon Inc 画像処理方法及び装置
JPH07249098A (ja) * 1994-03-09 1995-09-26 Toshiba Corp 情報処理装置および情報処理方法
JP2002049890A (ja) * 2000-08-01 2002-02-15 Minolta Co Ltd 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JP2005352735A (ja) * 2004-06-10 2005-12-22 Fuji Xerox Co Ltd 文書ファイル作成支援装置、文書ファイル作成支援方法及びそのプログラム
JP2006031299A (ja) * 2004-07-15 2006-02-02 Hitachi Ltd 文字認識方法、文字データの修正履歴処理方法およびシステム

Also Published As

Publication number Publication date
US20140125693A1 (en) 2014-05-08
US20130002710A1 (en) 2013-01-03
KR20110124255A (ko) 2011-11-16
US8373724B2 (en) 2013-02-12
CN102301380B (zh) 2014-08-20
KR101315472B1 (ko) 2013-10-04
CN104134057B (zh) 2018-02-13
US8675012B2 (en) 2014-03-18
JP5324669B2 (ja) 2013-10-23
US8482581B2 (en) 2013-07-09
CN104134057A (zh) 2014-11-05
JP6254374B2 (ja) 2017-12-27
US9280952B2 (en) 2016-03-08
CN102301380A (zh) 2011-12-28
US20130265325A1 (en) 2013-10-10
JP2014032665A (ja) 2014-02-20
WO2010088182A1 (en) 2010-08-05
US20100188419A1 (en) 2010-07-29

Similar Documents

Publication Publication Date Title
JP6254374B2 (ja) 出版物からocr認識されたテキストとそれに対応するイメージをクライアント装置において選択的に表示すること
JP4945813B2 (ja) 印刷構造化文書
US10902193B2 (en) Automated generation of web forms using fillable electronic documents
AU2012325747A2 (en) Systems, methods, and interfaces for display of inline content and block level content on an access device
JP5829354B2 (ja) 情報処理システム、情報処理システムの制御方法、情報処理装置、情報処理装置の制御方法、情報記憶媒体、及びプログラム
US20090180126A1 (en) Information processing apparatus, method of generating document, and computer-readable recording medium
US20160363994A1 (en) Display control method for highlighting display element focused by user
US7519901B2 (en) Methods and systems for selecting objects by grouping annotations on the objects
JP4691071B2 (ja) ページアクション起動装置、ページアクション起動制御方法、および、ページアクション起動制御プログラム
US11393236B2 (en) Approximating the layout of a paper document
JP2005322082A (ja) 文書属性入力装置および方法
JP2002169637A (ja) ドキュメント表示態様変換装置、ドキュメント表示態様変換方法、記録媒体
US9019552B2 (en) Information processing apparatus, system and method for outputting data to a medium
JP6045393B2 (ja) 情報処理システム
US20150186758A1 (en) Image processing device
US20140016150A1 (en) System and method to store embedded fonts
US10872201B1 (en) Generation and presentation of electronic books for consumption in skim mode
CN113741709A (zh) 一种多媒体数据处理方法、装置、计算设备及存储介质
JP2002157060A (ja) ドキュメントデザイン変換システム、ドキュメントデザイン変換方法、記録媒体
NZ715377B2 (en) Systems, methods, and interfaces for display of inline content and block level content on an access device

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130123

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130123

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20130123

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20130214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130527

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130618

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130718

R150 Certificate of patent or registration of utility model

Ref document number: 5324669

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250