JP2011123740A - 閲覧システム、サーバ、テキスト抽出方法及びプログラム - Google Patents

閲覧システム、サーバ、テキスト抽出方法及びプログラム Download PDF

Info

Publication number
JP2011123740A
JP2011123740A JP2009281880A JP2009281880A JP2011123740A JP 2011123740 A JP2011123740 A JP 2011123740A JP 2009281880 A JP2009281880 A JP 2009281880A JP 2009281880 A JP2009281880 A JP 2009281880A JP 2011123740 A JP2011123740 A JP 2011123740A
Authority
JP
Japan
Prior art keywords
server
text
image
predetermined area
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2009281880A
Other languages
English (en)
Other versions
JP2011123740A5 (ja
Inventor
Toshitsugu Fukushima
敏貢 福島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Priority to JP2009281880A priority Critical patent/JP2011123740A/ja
Priority to US12/962,512 priority patent/US20110142344A1/en
Publication of JP2011123740A publication Critical patent/JP2011123740A/ja
Publication of JP2011123740A5 publication Critical patent/JP2011123740A5/ja
Abandoned legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/95Hardware or software architectures specially adapted for image or video understanding structured as a network, e.g. client-server architectures
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • G06V30/1456Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on user interactions
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/268Lexical context
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Transfer Between Computers (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】画像化したウェブページを端末に送信し、端末装置でウェブページを閲覧する場合において、端末装置に表示された画像内の文字を正確に抽出することができる。
【解決手段】サーバ10は、インターネットからウェブページを取得し(ステップS10)、取得したウェブページから画像を生成し(ステップS11)、画像をクライアント端末20へ送信する(ステップS12)。クライアント端末20は、画像を受信し(ステップS21)、表示部23へ表示し(ステップS22)、矩形領域を指定し(ステップS23)、その情報をサーバ10へ送信する(ステップS24)。サーバ10は、画像から矩形領域の画像を切り出し、OCR処理によりテキストを認識し(ステップS14)、Htmlファイルのソースから認識されたテキストと最も一致度の高いテキストを抽出し(ステップS15)、クライアント端末20へ送信する(ステップS16)。
【選択図】 図4

Description

本発明は閲覧システム、サーバ、テキスト抽出方法及びプログラムに係り、特に携帯端末でウェブページが閲覧可能な閲覧システム、サーバ、テキスト抽出方法及びプログラムに関する。
近年、携帯電話にフルブラウザが搭載されることが多くなり、携帯電話からPC用のウェブページを閲覧することが可能となっている。しかしながら、携帯電話でPC用のウェブページを閲覧する場合には、画面が小さいため、ページのレイアウトが崩れて閲覧しづらい等といった問題が起こる場合がある。また、企業のイントラページなどは、安全性を確保するため、アクセスが制限され、携帯電話からは閲覧することができない。
このような問題を解決するための方法として、サーバでウェブページやイントラページを画像化して携帯電話へ配信するというシステムが考えられる。
引用文献1には、ウェブページをサーバ側でレンダリングし、画像に変換したページをクライアントに配信するシステムが記載されている。
引用文献2には、クライアント装置のウェブブラウザからOCR処理の対象とする領域を指定し、サーバでOCR処理を行うシステムが記載されている。
引用文献3には、画像データを文字認識(OCR(Optical Character Reader)処理)にかけ、テキストを抽出し、さらに抽出したテキストデータを構文意味解析処理にかけることにより文章のエラーを検出し、修正を行うことで文字(文章)の認識精度を高めるシステムが記載されている。
特開2004−220260号公報 特開2005−327258号公報 特開2006−350663号公報
しかしながら、特許文献1に記載の発明では、クライアントに配信するウェブページは画像化されているため、テキスト領域を選択してコピーするといった操作ができなかった。
特許文献2に記載の発明では、OCR処理により画像データからテキストデータを得ることはできるが、テキストデータの精度を向上させる方法については記載されていない。
特許文献3に記載の発明では、OCR処理の精度が低い場合には、構文意味解析ができず、正しいテキストデータが得られないという問題がある。また、構文意味解析ができた場合であっても、得られたテキストデータが画像データに実際に含まれるテキストデータとならないという問題がある。
本発明はこのような事情に鑑みてなされたもので、画像化したウェブページを端末に送信し、端末装置でウェブページを閲覧する場合において、端末装置に表示された画像内の所定の領域に含まれる文字を正確に抽出することができる閲覧システム、サーバ、テキスト抽出方法及びプログラムを提供することを目的とする。
請求項1に記載の閲覧システムは、表示手段が設けられた端末装置と、前記端末装置と接続されたサーバとで構成された閲覧システムであって、前記端末装置は、前記サーバから送信された画像データを受信する端末側受信手段と、前記受信された画像データに基いて前記表示手段に画像を表示させる表示制御手段と、前記表示手段に表示された画像の中の所定の領域を選択する選択手段と、前記選択された所定の領域の情報を前記サーバへ送信する端末側送信手段と、を備え、前記サーバは、ウェブページのソースを取得する取得手段と、前記取得されたウェブページのソースに基づいて当該ウェブページの画像データを生成する画像生成手段と、前記生成された画像データを前記端末装置に送信するサーバ側送信手段と、前記端末装置から送信された所定の領域の情報を受信するサーバ側受信手段と、前記受信された所定の領域の情報と前記生成された画像データとに基づいて、前記所定の領域の画像からOCR処理により文字を認識する文字認識手段と、前記OCR処理により認識された文字と推定される文字列を前記取得されたウェブページのソースから抽出する文字列抽出手段と、を備え、前記サーバ側送信手段は、前記抽出された文字列を前記端末装置に送信し、前記端末側受信手段は、前記送信された文字列を受信することを特徴とする。
請求項1に記載の閲覧システムによれば、サーバでは、ウェブページのソースが取得され、取得されたウェブページのソースに基づいて当該ウェブページの画像データが生成され、生成された画像データが端末装置に送信される。端末装置では、送信された画像データが受信され、受信された画像データに基づいて表示手段に画像が表示され、表示手段に表示された画像の中の所定の領域が選択され、選択された所定の領域の情報がサーバへ送信される。サーバでは、端末装置から送信された所定の領域の情報が受信され、受信された所定の領域の情報と生成された画像データとに基づいて所定の領域の画像からOCR処理により文字が認識され、OCR処理により認識された文字と推定される文字列が取得されたソースから抽出され、抽出された文字列が端末装置に送信される。携帯端末では、サーバから送信された文字列が受信される。これにより、OCR処理のミスにより間違ったテキストが認識された場合においても、そのミスを補完し、選択した領域に含まれる正確なテキストデータを得ることができる。例えば、下線付き文字や表の一部等OCR処理の精度が低い場合においても、正確なテキストデータを得ることができる。
請求項2に記載の閲覧システムは、請求項1に記載の閲覧システムにおいて、前記サーバは、前記所定の領域が閾値以上であるか否かを判断する判断手段を備え、前記所定の領域が閾値以上であると判断されなかった場合には、前記サーバ側送信手段は、前記OCR処理により認識された文字列を送信することを特徴とする。
請求項2に記載の閲覧システムによれば、サーバでは、所定の領域が閾値以上であるか否かが判断され、所定の領域が閾値以上であると判断されなかった場合には、OCR処理により認識された文字列が端末装置へ送信される。これにより、効率よく、かつ精度よく選択した領域に含まれるテキストデータを得ることができる。
請求項3に記載の閲覧システムは、請求項1又は2に記載の閲覧システムにおいて、前記端末側送信手段は、前記所定の領域の情報として当該所定の領域の座標の情報を前記サーバへ送信し、前記文字認識手段は、前記生成された画像データと、前記所定の領域の座標の情報とから前記所定の領域の画像を切り出し、当該切り出された所定の領域の画像から文字を認識することを特徴とする。
請求項3に記載の閲覧システムによれば、所定の領域の情報として所定の領域の座標の情報が端末装置からサーバへ送信されると、サーバでは、生成された画像データと、所定の領域の座標の情報とから所定の領域の画像が切り出され、切り出された所定の領域の画像から文字が認識される。これにより、処理能力の高いサーバで重い処理、すなわち座標に従い指定された領域の画像を抽出する処理を行い、処理能力の低い端末装置で行う処理は、処理コストの小さい矩形領域の座標の送信のみとすることができる。
請求項4に記載の閲覧システムは、請求項1、2又は3に記載の閲覧システムにおいて、前記文字列抽出手段は、前記OCR処理により認識された文字をキーと前記取得されたソースに含まれるテキストとを比較し、前記OCR処理により認識された文字と最も一致度の高い文字列を抽出することを特徴とする。
請求項4に記載の閲覧システムによれば、文字列抽出手段では、OCR処理により認識された文字をキーと取得されたソースに含まれるテキストとが比較され、OCR処理により認識された文字と最も一致度の高い文字列が抽出される。これにより、ソースから選択した領域に含まれるテキストデータを抽出することができる。
請求項5に記載の閲覧システムは、請求項1から4のいずれかに記載の閲覧システムにおいて、前記端末装置は、前記受信した文字列を記憶する記憶手段を備えたことを特徴とする。
請求項5に記載の閲覧システムによれば、端末装置では、サーバから送信された文字列が記憶手段に記憶される。これにより、サーバから送信されたテキストを、任意のテキストフィールドへの貼り付けなどに利用することができる。すなわち、クライアント端末で選択された領域の画像に含まれるテキストのコピーと同等の効果を得ることができる。
請求項6に記載のサーバは、請求項1から5のいずれかに記載の閲覧システムを構成する。
請求項7に記載のテキスト抽出方法は、携帯端末からウェブページの閲覧要求を受け付けるステップと、前記受け付けられた閲覧要求に基づいてウェブページのソースを取得するステップと、前記取得されたウェブページのソースに基づいて当該ウェブページの画像データを生成するステップと、前記端末装置から所定の領域の情報を受信するステップと、前記受信した所定の領域の情報と前記生成された画像データとに基づいて、前記所定の領域の画像からOCR処理により文字を認識するステップと、前記取得されたソースから前記OCR処理により認識された文字と推定される文字列を抽出するステップと、前記抽出された文字列を前記端末装置に送信するステップと、を含むことを特徴とする。
請求項8に記載のプログラムは、請求項7に記載のテキスト抽出方法を演算装置に実行させることを特徴とする。
本発明によれば、画像化したウェブページを端末に送信し、端末装置でウェブページを閲覧する場合において、端末装置に表示された画像内の所定の領域に含まれる文字を正確に抽出することができる。
本発明が適用された閲覧システム1の概略図である。 閲覧システム1を構成するサーバの概略図である。 閲覧システム1を構成するクライアント端末の概略図である。 閲覧システム1のクライアント端末がテキストデータをコピーする取得する処理の流れを示すフローチャートである。 クライアント端末に表示される閲覧用画像の一例である。 OCR処理を説明するための図である。 テキスト抽出処理を説明するための図である。 一致度が最も高いテキストを抽出する方法を説明するための図である。 テキスト送信処理を説明するための図である。 本発明が適用された閲覧システム2のクライアント端末がテキストデータをコピーする取得する処理の流れを示すフローチャートである。 閲覧システム2のテキスト抽出処理について説明するための図である。
<第1の実施の形態>
閲覧システム1は、主として、サーバ10と、クライアント端末20とで構成される。サーバ10と接続されるクライアント端末20は1台でも良いし、複数でもよい。
サーバ10は、図2に示すように、主として、CPU11と、データ取得部12と、画像生成部13と、OCR処理部14と、テキスト抽出部15と、通信部16とで構成される。
CPU11は、サーバ10の全体の動作を統括制御する制御手段として機能するとともに、各種の演算処理を行う演算手段として機能する。CPU11は、制御プログラムであるファームウェア、ウェブページを表示するためのプログラムであるブラウザ、制御に必要な各種データ等を記憶するメモリ領域を有する。また、CPU11は、CPU11の作業用領域として利用されるとともに、表示用の画像データなどの一時記憶領域として利用されるメモリ領域を有する。
データ取得部12は、インターネット31と接続されており、クライアント端末20から要求されたウェブページのコンテンツ等をインターネット31を介して取得する。また、データ取得部12は、文書データベース(DB)32と接続されており、クライアント端末20から要求された文書ファイルなどの各種データを文書DB32から取得する。
画像生成部13は、データ取得部12が取得したコンテンツ、文書データから画像(以下、閲覧用画像という)を生成する。画像生成部13は、生成した閲覧用画像をCPU11のメモリ領域に記憶する。
OCR処理部14は、入力された画像に含まれる文字を識別して文書に変換する。OCR処理自体は一般的な技術であるため、詳細な説明は省略する。
テキスト抽出部15は、CPU11により取得されたウェブページのソースから、OCR処理部14が取得したテキストと最も一致度が高いテキストを抽出する。また、テキスト抽出部15は、CPU11により取得された文書データから、OCR処理部14が取得したテキストと最も一致度が高いテキストを抽出する。テキスト抽出部15の処理の詳細については、後に詳述する。
通信部16は、閲覧用画像等をクライアント端末20へ送信する。また、通信部16は、クライアント端末20から送信されたウェブページ閲覧要求等を受信する。
クライアント端末20は、例えば小型ノートパソコンや携帯電話等であり、図1に示すように、ネットワークを介してサーバ10と接続される。クライアント端末20は、図3に示すように、主として、CPU21と、入力部22と、表示部23と、表示制御部24と、通信部25とで構成される。なお、クライアント端末20は、小型ノートパソコンや携帯電話に限定されるものではなく、ウェブブラウザを動作させ得る情報端末であればどのような端末でもよい。
CPU21は、クライアント端末20の全体の動作を統括制御するとともに、各種の演算処理を行う演算手段として機能する。CPU21は、クライアント端末20のクライアント端末情報や、各種制御に必要なプログラム等が記憶されるメモリ領域を有する。また、CPU21は、サーバ10から送信された各種データを一時的に記憶するバッファを有する。
入力部22は、ユーザが各種指示を入力するためのものであり、テンキー、十字キー等で構成される。
表示部23は、例えば、カラー表示が可能な液晶ディスプレイである。なお、表示部23は、カラー表示に限定されず、白黒表示でもよい。また、表示部23は、液晶ディスプレイに限定されず、有機EL等を用いてもよい。
表示制御部24は、サーバ10から送信された閲覧用画像を表示部23に表示させる。
通信部25は、サーバ10から送信された閲覧用画像、テキストデータ等を受信する。また、通信部25は、ウェブページ閲覧要求、領域の情報等をサーバ10へ送信する。
上記のように構成された閲覧システム1の作用について説明する。閲覧システム1では、クライアント端末20にウェブページ(又は文書データ)の画像が表示され、クライアント端末20により所定の領域が選択されると、その領域内のテキストをコピーすることができる。図4は、クライアント端末20が表示部23に表示されたウェブページ内のテキストをコピーする処理の流れを示すフローチャートである。
クライアント端末20のCPU21は、メモリ領域に記憶されたウェブブラウザを起動する。入力部22により閲覧したいウェブページの情報(URL等)が入力されると、CPU21は、これを受け付けてサーバ10へリクエストを送信する(ステップS20)。
サーバ10のCPU11は、リクエストを受信するとデータ取得部12に指示を出し、データ取得部12はインターネットからリクエストされたウェブページを取得する(ステップS10)。この場合には、サーバ10はプロキシとして動作し、外部のサーバからコンテンツ(例えば、ウェブページのHtmlファイル)を取得する。CPU11は、取得したコンテンツをバッファに記憶する。なお、サーバ10は、ウェブサーバとしても機能しても良く、この場合にはサーバ10の図示しないメモリに記憶されているコンテンツを取得する。
データ取得部12は取得したコンテンツを画像生成部13に出力し、画像生成部13はコンテンツから閲覧用画像を生成する(ステップS11)。ウェブページのHtmlファイルを取得した場合には、画像生成部13は、Htmlファイルを解析し、解析結果に基づいて文字や画像を適切に配置した結果を画像化(レンダリング)し、gif、jpeg等の画像ファイルとして保存する。
画像生成部13は生成した閲覧用画像をCPU11へ出力し、CPU11は閲覧用画像をクライアント端末20へ送信する(ステップS12)。
クライアント端末20のCPU21は、サーバ10から送信された閲覧用画像を受信し(ステップS21)、表示制御部24へ出力する。表示制御部24は、受信した画像を表示部23へ表示させる(ステップS22)。これにより、図5に示すように、クライアント端末20にリクエストしたウェブページの画像が表示され、ユーザがウェブページを閲覧可能となる。
表示部23に閲覧用画像が表示された状態下で、入力部22によりテキストを抽出(コピー)したい領域の指定が行われる(ステップS23)。領域の指定は、例えば、ユーザが入力部22の十字キー等でカーソルを移動させ、領域の始点及び終点の位置を選択入力することにより行われる。入力部22による入力結果がCPU21で検出されると、CPU21は、図5に示すように、始点と終点とにより形成される矩形領域が指定されたと認識する。なお、領域の指定は、この形態に限らず、始点と終点の座標の値を直接入力する等の様々な方法により行うことができる。
CPU21は、認識した矩形領域の情報をサーバ10へ送信する(ステップS24)。矩形領域の情報としては、矩形領域の始点及び終点の座標が考えられる。図5に示す場合には、閲覧用画像の左上を原点(X座標、Y座標共に0)とし、右方向を+X方向、下方向を+Y方向として座標が指定される。ただし、座標の指定方法はこれに限定されるものではない。CPU21は、矩形領域の情報として、閲覧用画像から矩形領域を切り出し、切り出された画像を矩形領域の情報として送信するようにしてもよい。
サーバ10のCPU11は、クライアント端末20から送信された矩形領域の情報を受信する(ステップS13)。CPU11は、矩形領域の情報をOCR処理部14へ出力する。
OCR処理部14は、矩形領域の情報に基づいて矩形領域に含まれる文字を認識する(ステップS14)。矩形領域の情報として矩形領域の始点及び終点の座標が入力された場合には、OCR処理部14は、画像生成部13から閲覧用画像を取得し、閲覧用画像と座標とから矩形領域の画像を切り出す。本実施の形態では、OCR処理部14は、図5の点線で囲まれた領域の画像を矩形領域の画像として切り出す。
そして、OCR処理部14は、切り出した画像をOCR処理することにより、矩形領域に含まれる文字を認識する。図6に示すように、OCR処理部14は、矩形領域に含まれる「ベルリンで開催された世界陸上をはじめ、週末のスポーツイベント結果ほか、今注目すべき選手についてご紹介」という文字をOCR処理し、「ペルリンで閘催された世界陸上をばじ助、週末のスポーツイ伴ント結果ほか、いま注目ずぺ舌選手1ごついてこ紹弁。」という認識結果を得る。
矩形領域の情報として閲覧用画像から切り出された画像が入力された場合には、OCR処理部14は、座標情報から画像を抽出する処理は不要であり、入力された画像を直接OCR処理し、文字を認識する。閲覧システムの実施形態としては、一般的にクライアント端末とサーバではサーバの処理能力のほうが高いため、クライアント端末では処理コストの小さい矩形領域の座標の送信のみを行い、サーバで座標に従い指定された領域の画像を抽出する処理を行う方が好ましい。
OCR処理部14は、得られた認識結果をテキストデータとしてテキスト抽出部15に出力する。テキスト抽出部15は、バッファに記憶されたHtmlファイルを取得し、図7に示すように、Htmlファイルのソースに含まれるテキストの中から入力されたテキストデータと推定されるテキストを抽出する(ステップS15)。ステップS15の処理は、例えば、入力されたテキストデータをキーとして、ソース内から最も一致度の高いテキストを抽出することにより行われる。本実施の形態では、ページのソースとしてHtmlファイルを用いたが、Htmlファイルに限られるものではなく、クライアント端末20に送信した閲覧用画像の基となるウェブページをレンダリングするために必要な情報であればどのようなものでもよい。
最も一致度の高いテキストを抽出する方法について、図8を用いて説明する。OCR処理部14により「ABC」というテキストが認識された場合には、テキスト抽出部15は、「ABC」というテキストとソースとを順番に比較し、一致度を算出する。例えば、「ABC」というテキストとソース内のテキスト「AVA」との一致度は33%であり、「ABC」というテキストとソース内のテキスト「VAB」との一致度は0%であり、「ABC」というテキストとソース内のテキスト「ABA」との一致度は66%であり、「ABC」というテキストとソース内のテキスト「EAC」との一致度は33%である。一致度が最も高いのは、「ABC」というテキストとソース内のテキスト「ABA」とを比較した場合であるため、テキスト抽出部15は、ソース内のテキスト「ABA」を抽出する。
図7に示す場合には、テキスト抽出部15は、ステップS14で認識されたテキスト「ペルリンで閘催された世界陸上をばじ助、週末のスポーツイ伴ント結果ほか、いま注目ずぺ舌選手1ごついてこ紹弁。」をキーとして、ソース内から最も一致度の高いテキストの抽出を行う。その結果、テキスト抽出部15は、「ベルリンで開催された世界陸上をはじめ、週末のスポーツイベント結果ほか、いま注目すべき選手についてご紹介。」というテキストを抽出する。
そして、テキスト抽出部15は、抽出されたテキストをクライアント端末20で指定された矩形領域に含まれるテキストと判定する。クライアント端末20で指定された矩形領域に含まれるテキストは、必ずソース内に含まれるテキストである。したがって、ソース内に含まれるテキストからOCR処理の結果得られたテキストを推測して抽出することにより、OCR処理のミスにより間違ったテキストが認識された場合においても、そのミスを補完し、正しいテキストを抽出することができる。
なお、本実施の形態では、ステップS15において、ステップS10で取得され、バッファに記憶されたHtmlファイルを用いたが、ステップS15の処理の前に改めてHtmlファイルを取得してもよい。また、ステップS15においては、ソースに含まれるテキスト全てを抽出対象としても良いし、ソースがHtmlファイルでメタ情報(タグ)が含まれている場合等であれば、タグを除いたレンダリングの対象となるテキストのみを抽出対象としても良い。
テキスト抽出部15は、抽出したテキストをCPU11に出力し、図9に示すように、CPU11はテキストをクライアント端末20へ送信する(ステップS16)。クライアント端末20のCPU21は、サーバ10から送信されたテキストを受信し(ステップS25)、受信したテキストをCPU21内のバッファに記憶する(ステップS26)。バッファに保存したテキストは、例えば任意のテキストフィールドへの貼り付けなどに利用することなどが考えられる。
本実施の形態によれば、ウェブページや文書データを画像化してクライアント端末に表示させる場合に、クライアント端末に表示された画像の一部を選択することにより、選択した領域に含まれる正確なテキストデータを得ることができる。そして、得られたテキストデータを記憶することにより、クライアント端末で選択された領域の画像に含まれるテキストをコピーすることと同等の効果を得ることができる。
従来のシンクライアント型ブラウザでは、クライアント端末で閲覧されるウェブページは画像化されているため、ウェブページに含まれるテキストをコピーすることはできなかった。しかしながら、OCR処理とソートからのテキスト抽出とを組み合わせることにより、シンクライアント型ブラウザを用いる場合においても所望のテキストのコピーアンドペーストが可能となる。
また、本実施の形態によれば、下線付き文字や表の一部等OCR処理の精度が低い場合においても、正確なテキストデータをコピーすることができる。例えば、ステップS23で図5の一点鎖線で囲んだ領域が矩形領域として選択された場合には、ステップS14のOCR処理において、行間の線が原因で上段のテキストは正確な認識結果は得られない。しかしながら、図7に示すようにソースと比較することにより、「各党の政権公約比較「安全保障」」及び「候補者情報」「マニフェスト」「選挙ニュース」というテキストを抽出することができる。
なお、本実施の形態では、図4に示すようにウェブページを閲覧する場合を例に作用を説明したが、ウェブページの閲覧のみでなく、文書データを閲覧する場合においても同様の方法により、選択した矩形領域内のテキストを抽出することができる。
<第2の実施の形態>
第1の実施の形態は、OCR処理のミスにより間違ったテキストが認識された場合においても、そのミスを補完し、正しいテキストを抽出するため、ソースに含まれるテキストの中からテキストを抽出する処理を行なったが、必ずしもソースからのテキスト抽出処理が必要とは限らない。例えば、単語等テキストの長さが短い場合には、OCR処理の制度が高いため、処理結果が正しい場合も多い。
第2の実施の形態は、クライアント端末で選択された矩形領域の大きさ、即ちテキストの長さに応じてテキスト抽出処理をするかしないかを異ならせる形態である。以下、第2の実施の形態に係る閲覧システム2について説明する。なお、閲覧システム2の構成は閲覧システム1と同様であるため、説明を省略する。また、第1の実施の形態と同一の部分については、同一の符号を付し、詳細な説明を省略する。
図10は、閲覧システム2において、クライアント端末20により選択された領域内のテキストをコピーする処理の流れを示すフローチャートである。
クライアント端末20のCPU21は、メモリ領域に記憶されたウェブブラウザを起動する。入力部22により閲覧したいウェブページの情報(URL等)が入力されると、CPU21は、これを受け付けてサーバ10へリクエストを送信する(ステップS20)。
サーバ10のCPU11は、リクエストを受信するとデータ取得部12に指示を出し、データ取得部12はインターネットからリクエストされたウェブページを取得する(ステップS10)。データ取得部12は取得したコンテンツを画像生成部13に出力し、画像生成部13はコンテンツから閲覧用画像を生成する(ステップS11)。画像生成部13は生成した閲覧用画像をCPU11へ出力し、CPU11は閲覧用画像をクライアント端末20へ送信する(ステップS12)。
クライアント端末20のCPU21は、サーバ10から送信された閲覧用画像を受信し(ステップS21)、表示制御部24へ出力する。表示制御部24は、受信した画像を表示部23へ表示させる(ステップS22)。これにより、クライアント端末20にリクエストしたウェブページの画像が表示され、ユーザがウェブページを閲覧可能となる。
表示部23に閲覧用画像が表示された状態下で、テキストを抽出(コピー)したい矩形領域の指定が行われる(ステップS23)。指定された矩形領域の情報はCPU21で検出され、CPU21は、認識した矩形領域の情報をサーバ10へ送信する(ステップS24)。
サーバ10のCPU11は、クライアント端末20から送信された矩形領域の情報を受信する。CPU11は、受信された矩形領域の情報に基づいて、矩形領域の大きさ(面積)を算出する(ステップS17)。
CPU11は、矩形領域の情報をOCR処理部14へ出力する。OCR処理部14は、矩形領域の情報に基づいて矩形領域に含まれる文字を認識する(ステップS14)。
CPU11はステップS13で受信された矩形領域の大きさが閾値以上であるか否かを判断する(ステップS18)。なお、閾値は、予め設定された任意の値であり、CPU11のメモリ領域に記憶されている。閾値は、必要に応じてクライアント端末20等から変更することもできる。閾値としては、OCR処理により正しい結果が得られる最大の長さ(単語レベルの長さ)のテキストが含まれるような面積とすることが望ましい。
矩形領域の大きさが閾値以上である場合(ステップS18でYES)は、クライアント端末20により指定された領域に含まれるテキストは文章等の長いテキストであると推定される。テキストが長い場合には、OCR処理の精度は低く、正確に文字が認識できない場合が多い。したがって、OCR処理部14は得られた認識結果をテキストデータとしてテキスト抽出部15に出力し、テキスト抽出部15はバッファに記憶されたHtmlファイルのソースに含まれるテキストの中から入力されたテキストデータと推定されるテキストを抽出する(ステップS15)。テキスト抽出部15は抽出されたテキストをCPU11に出力し、CPU11はテキストをクライアント端末20へ送信する(ステップS19)。これにより、OCR処理のミスにより間違ったテキストが認識される可能性が高い場合においても、そのミスを補完し、正しいテキストを抽出することができる。
矩形領域の大きさが閾値以上でない場合(ステップS17でNO)は、クライアント端末20により指定された領域に含まれるテキストは単語レベルであると推定される。単語であれば、OCR処理の精度がある程度期待できる。また、短いテキストをソースから抽出することで、間違ったテキストを抽出しやすくなり、精度が低下するおそれもある。したがって、この場合には、OCR処理部14は得られた認識結果をCPU11に出力し、CPU11はテキストをクライアント端末20へ送信する(ステップS19)。
ステップS18〜S19の処理について、図11を用いて具体的に説明する。閾値が「50」である場合に、ステップS17で算出された面積が「200」である場合には、算出された面積「200」は閾値「50」より大きいため、Htmlファイルのソースに含まれるテキストの中から正しいと推定されるテキストを抽出し、その結果をクライアント端末20で指定された矩形領域に含まれるテキストと判定する。それに対し、ステップS17で算出された面積が「10」である場合には、算出された面積「10」は閾値「50」より小さいため、テキスト抽出は行わず、OCR処理により得られた結果をクライアント端末20で指定された矩形領域に含まれるテキストと判定する。
クライアント端末20のCPU21は、サーバ10から送信されたテキストを受信し(ステップS25)、受信したテキストをCPU21内のバッファに記憶する(ステップS26)。バッファに保存したテキストは、例えば任意のテキストフィールドへの貼り付けなどに利用することなどが考えられる。
本実施の形態によれば、矩形領域の大きさに応じて送信するテキストの抽出方法を変えることにより、効率、精度の良い処理を行うことができる。
なお、上記第1、第2の実施の形態では、サーバとクライアント端末とを有するシステムを例に説明したが、本発明は、システムに限らず、外部の装置へ画像を配信するサーバとして提供することもできる。また、サーバ、クライアント端末に適用するプログラムとして提供することもできる。
1、2:閲覧システム、10:サーバ、11:CPU、12:データ取得部、13:画像生成部、14:OCR処理部、15:テキスト抽出部、16:通信部、20:クライアント端末、21:CPU、22:入力部、23:表示部、24:表示制御部、25:通信部

Claims (8)

  1. 表示手段が設けられた端末装置と、前記端末装置と接続されたサーバとで構成された閲覧システムであって、
    前記端末装置は、
    前記サーバから送信された画像データを受信する端末側受信手段と、
    前記受信された画像データに基づいて前記表示手段に画像を表示させる表示制御手段と、
    前記表示手段に表示された画像の中の所定の領域を選択する選択手段と、
    前記選択された所定の領域の情報を前記サーバへ送信する端末側送信手段と、を備え、
    前記サーバは、
    ウェブページのソースを取得する取得手段と、
    前記取得されたウェブページのソースに基づいて当該ウェブページの画像データを生成する画像生成手段と、
    前記生成された画像データを前記端末装置に送信するサーバ側送信手段と、
    前記端末装置から送信された所定の領域の情報を受信するサーバ側受信手段と、
    前記受信された所定の領域の情報と前記生成された画像データとに基づいて、前記所定の領域の画像からOCR処理により文字を認識する文字認識手段と、
    前記OCR処理により認識された文字と推定される文字列を前記取得されたウェブページのソースから抽出する文字列抽出手段と、を備え、
    前記サーバ側送信手段は、前記抽出された文字列を前記端末装置に送信し、
    前記端末側受信手段は、前記送信された文字列を受信することを特徴とする閲覧システム。
  2. 前記サーバは、前記所定の領域が閾値以上であるか否かを判断する判断手段を備え、
    前記所定の領域が閾値以上であると判断されなかった場合には、前記サーバ側送信手段は、前記OCR処理により認識された文字列を送信することを特徴とする請求項1に記載の閲覧システム。
  3. 前記端末側送信手段は、前記所定の領域の情報として当該所定の領域の座標の情報を前記サーバへ送信し、
    前記文字認識手段は、前記生成された画像データと、前記所定の領域の座標の情報とから前記所定の領域の画像を切り出し、当該切り出された所定の領域の画像から文字を認識することを特徴とする請求項1又は2に記載の閲覧システム。
  4. 前記文字列抽出手段は、前記OCR処理により認識された文字をキーと前記取得されたソースに含まれるテキストとを比較し、前記OCR処理により認識された文字と最も一致度の高い文字列を抽出することを特徴とする請求項1、2又は3に記載の閲覧システム。
  5. 前記端末装置は、前記受信した文字列を記憶する記憶手段を備えたことを特徴とする請求項1から4のいずれかに記載の閲覧システム。
  6. 請求項1から5のいずれかに記載の閲覧システムを構成するサーバ。
  7. 携帯端末からウェブページの閲覧要求を受け付けるステップと、
    前記受け付けられた閲覧要求に基づいてウェブページのソースを取得するステップと、
    前記取得されたウェブページのソースに基づいて当該ウェブページの画像データを生成するステップと、
    前記端末装置から所定の領域の情報を受信するステップと、
    前記受信した所定の領域の情報と前記生成された画像データとに基づいて、前記所定の領域の画像からOCR処理により文字を認識するステップと、
    前記取得されたソースから前記OCR処理により認識された文字と推定される文字列を抽出するステップと、
    前記抽出された文字列を前記端末装置に送信するステップと、
    を含むことを特徴とするテキスト抽出方法。
  8. 請求項7に記載のテキスト抽出方法を演算装置に実行させることを特徴とするプログラム。
JP2009281880A 2009-12-11 2009-12-11 閲覧システム、サーバ、テキスト抽出方法及びプログラム Abandoned JP2011123740A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009281880A JP2011123740A (ja) 2009-12-11 2009-12-11 閲覧システム、サーバ、テキスト抽出方法及びプログラム
US12/962,512 US20110142344A1 (en) 2009-12-11 2010-12-07 Browsing system, server, and text extracting method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009281880A JP2011123740A (ja) 2009-12-11 2009-12-11 閲覧システム、サーバ、テキスト抽出方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2011123740A true JP2011123740A (ja) 2011-06-23
JP2011123740A5 JP2011123740A5 (ja) 2012-12-20

Family

ID=44142983

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009281880A Abandoned JP2011123740A (ja) 2009-12-11 2009-12-11 閲覧システム、サーバ、テキスト抽出方法及びプログラム

Country Status (2)

Country Link
US (1) US20110142344A1 (ja)
JP (1) JP2011123740A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015118590A (ja) * 2013-12-19 2015-06-25 富士通株式会社 情報提供プログラム、情報提供方法および情報提供装置
JP2016513298A (ja) * 2013-01-09 2016-05-12 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 電子文書の提供方法、システム、親本サーバ及び子本クライアント
WO2020101479A1 (en) * 2018-11-14 2020-05-22 Mimos Berhad System and method to detect and generate relevant content from uniform resource locator (url)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5832432B2 (ja) * 2010-06-15 2015-12-16 株式会社ナビタイムジャパン ナビゲーションシステム、ナビゲーション方法、および、プログラム
US20130230248A1 (en) * 2012-03-02 2013-09-05 International Business Machines Corporation Ensuring validity of the bookmark reference in a collaborative bookmarking system
US20140075393A1 (en) * 2012-09-11 2014-03-13 Microsoft Corporation Gesture-Based Search Queries
US10153995B2 (en) 2013-07-01 2018-12-11 [24]7.ai, Inc. Method and apparatus for effecting web page access in a plurality of media applications
US9576070B2 (en) * 2014-04-23 2017-02-21 Akamai Technologies, Inc. Creation and delivery of pre-rendered web pages for accelerated browsing
US10909306B2 (en) * 2018-03-16 2021-02-02 Canva Pty Ltd. Systems and methods of publishing a design
US10963723B2 (en) * 2018-12-23 2021-03-30 Microsoft Technology Licensing, Llc Digital image transcription and manipulation
CN110059688B (zh) * 2019-03-19 2024-05-28 平安科技(深圳)有限公司 图片信息识别方法、装置、计算机设备和存储介质
JP7274322B2 (ja) * 2019-03-25 2023-05-16 東芝テック株式会社 プログラム及び文字認識方法
US10798089B1 (en) * 2019-06-11 2020-10-06 Capital One Services, Llc System and method for capturing information
US11805138B2 (en) * 2020-04-21 2023-10-31 Zscaler, Inc. Data loss prevention on images
CN115796145B (zh) * 2022-11-16 2023-09-08 珠海横琴指数动力科技有限公司 一种网页文本的采集方法、系统、服务器及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002202935A (ja) * 2000-10-31 2002-07-19 Mishou Kk サーバ装置
JP2007199983A (ja) * 2006-01-26 2007-08-09 Nec Corp 文書ファイル閲覧システム、文書ファイル閲覧方法、及び、文書閲覧プログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3334025B2 (ja) * 1995-11-13 2002-10-15 ミノルタ株式会社 画像形成装置
US6343290B1 (en) * 1999-12-22 2002-01-29 Celeritas Technologies, L.L.C. Geographic network management system
JP2004334339A (ja) * 2003-04-30 2004-11-25 Canon Inc 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム
CN100419785C (zh) * 2004-04-08 2008-09-17 佳能株式会社 基于网络服务应用的光学字符识别系统和方法
JP4695388B2 (ja) * 2004-12-27 2011-06-08 株式会社リコー セキュリティ情報推定装置、セキュリティ情報推定方法、セキュリティ情報推定プログラム及び記録媒体
WO2007063588A1 (ja) * 2005-11-30 2007-06-07 Fujitsu Limited 情報処理装置、電子機器、およびプログラム
JP5162896B2 (ja) * 2006-12-26 2013-03-13 富士ゼロックス株式会社 設置場所管理システム及びプログラム
JP5194566B2 (ja) * 2007-05-30 2013-05-08 富士ゼロックス株式会社 画像処理装置、画像処理システム及び制御プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002202935A (ja) * 2000-10-31 2002-07-19 Mishou Kk サーバ装置
JP2007199983A (ja) * 2006-01-26 2007-08-09 Nec Corp 文書ファイル閲覧システム、文書ファイル閲覧方法、及び、文書閲覧プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016513298A (ja) * 2013-01-09 2016-05-12 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 電子文書の提供方法、システム、親本サーバ及び子本クライアント
US10587731B2 (en) 2013-01-09 2020-03-10 Baidu Online Network Technology (Beijing) Co., Ltd. Method and system for providing electronic document, mother book server and child book client
JP2015118590A (ja) * 2013-12-19 2015-06-25 富士通株式会社 情報提供プログラム、情報提供方法および情報提供装置
WO2020101479A1 (en) * 2018-11-14 2020-05-22 Mimos Berhad System and method to detect and generate relevant content from uniform resource locator (url)

Also Published As

Publication number Publication date
US20110142344A1 (en) 2011-06-16

Similar Documents

Publication Publication Date Title
JP2011123740A (ja) 閲覧システム、サーバ、テキスト抽出方法及びプログラム
US8121413B2 (en) Method and system for controlling browser by using image
US9128596B2 (en) Method and device for selecting and displaying a region of interest in an electronic document
US9268987B2 (en) Method of recognizing QR code in image data and apparatus and method for converting QR code in content data into touchable object
US20120163664A1 (en) Method and system for inputting contact information
JP5335632B2 (ja) ウェブページ閲覧システム、サーバ、ウェブページ閲覧方法及びプログラム
US10853319B2 (en) System and method for display of document comparisons on a remote device
WO2023155712A1 (zh) 页面生成方法、显示方法、装置、电子设备和存储介质
US20120030560A1 (en) Website browsing system, server, recording medium, and website browse assisting method
CN112685671A (zh) 页面显示方法、装置、设备及存储介质
EP2146291A1 (en) Method and system for providing interface of web page
WO2015035897A1 (en) Search methods, servers, and systems
CN109933805B (zh) 文本解析方法、系统及计算机可读存储介质
JP2020021455A (ja) 特許評価判定方法、特許評価判定装置、および特許評価判定プログラム
KR101377385B1 (ko) 정보 처리 장치
US20160188146A1 (en) Apparatus and method for facilitating browser navigation
CN104142925A (zh) 一种浏览器地址栏输入内容的联想方法及装置
CN112765445A (zh) 生僻字识别方法及装置
JP2012181693A (ja) ウェブページ表示制御装置およびスクロール制御方法
CN113867584A (zh) 触控事件响应方法及其装置
KR101592725B1 (ko) 스마트 기기를 기반으로 하는 이미지 링크 어플리케이션 장치
KR101724680B1 (ko) 검색 서비스 제공 장치 및 검색 서비스 제공 방법
JP5913774B2 (ja) Webサイトを共有する方法、電子機器およびコンピュータ・プログラム
JP2004110698A (ja) インターネット端末装置
JP5632905B2 (ja) 情報入力装置及び入力切替制御方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121009

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130509

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130517

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20130611