JP2009210610A - 画像処理装置、画像処理方法およびプログラム - Google Patents

画像処理装置、画像処理方法およびプログラム Download PDF

Info

Publication number
JP2009210610A
JP2009210610A JP2008050441A JP2008050441A JP2009210610A JP 2009210610 A JP2009210610 A JP 2009210610A JP 2008050441 A JP2008050441 A JP 2008050441A JP 2008050441 A JP2008050441 A JP 2008050441A JP 2009210610 A JP2009210610 A JP 2009210610A
Authority
JP
Japan
Prior art keywords
text
display
panning
image processing
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008050441A
Other languages
English (en)
Inventor
Constancin Adrian
コンスタンシン アドリアン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2008050441A priority Critical patent/JP2009210610A/ja
Publication of JP2009210610A publication Critical patent/JP2009210610A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Controls And Circuits For Display Device (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)
  • Control Of Indicators Other Than Cathode Ray Tubes (AREA)

Abstract

【課題】画像処理装置、画像処理方法およびプログラムを提供すること。
【解決手段】画像処理装置100は、スチル画像からビデオ信号を作成して表示しており、スチル画像を格納する記憶装置104と、スチル画像が含む文字をテキストに変換する文字認識部202と、スチル画像に対してフレーム化する領域を指定し、領域を文字認識部202による文字認識結果を反映させて前記テキストの表示形式を変更するための送り速度を与えるように前記領域を分割したパンニングデータを作成するパンデータ作成部116と、パンニングデータをデジタル/アナログ変換してフレーム化することによりビデオ信号を生成する表示制御部106と、ビデオ信号を読出して前記表示画面に前記送り速度を使用して前記テキストをパンニング表示して表示させている。
【選択図】図2

Description

本発明は、画像処理技術に関し、より詳細には、表示画面よりも大きな表示領域を必要とするスチル画像からテキストを抽出し、表示画面に適合するサイズのビデオ画像として提供する、画像処理装置、画像処理方法およびプログラムに関する
近年、小型の携帯端末が普及している。このような携帯端末としては、PDA(Portable Data Assistant)の他にも、携帯電話、メモリ内蔵プレイヤーなどの多機能端末を挙げることができる。例えば、電話や音楽プレイヤーを例に取るとこれらの携帯端末は、その当初の機能を超えて画像やビデオの視聴まで可能となっている。携帯端末は、小型とする必要があるので表示画面のため、それほど多くの領域が残されてはいない。
また、いわゆるMFP(Multi-Function
Peripheral)として参照される画像形成機能を含む画像処理装置は高機能化しているものの、操作パネルとして提供される表示画面は、装置小型化のため、それほど大きな面積を割当てることができないことが多い。
近年、ドキュメントをスキャンして得られたスチル画像ファイル(以下、単にスチル画像として参照する。)は、特にテキストを含む場合、端末装置の表示画面に全体を表示させると、文字認識性などが低下し、正確に目視するにはテキストが小さくなりすぎて、画像データの一部だけを領域指定して表示しなければならなかった。
これまで、端末装置の表示画面に適合するサイズでスチル画像の一部を領域指定して、拡大表示する技術については、種々検討されている。例えば特開2006−345104号公報(特許文献1)では、デジタルカメラにより取得したイメージデータの一部を領域指定して表示画面上に拡大表示する技術を開示する。特許文献1に記載された技術によっても、表示画面よりも大きな画像を、表示画面に適合するサイズで表示させることができる。
しかしながら、テキストなど文章を含む画像データの場合、手動による領域指定処理では、領域指定処理の連続性が確保できず、次に表示するべき領域をユーザが決定しなければならないという問題がある。また、このための操作をユーザが行っている間に文章解釈の連続性が失われ、拡大表示することが文章データなどの効率的な認識を与えない場合もある。
また、特開平9−81115号公報(特許文献2)、特開平10−149149号公報(特許文献3)、特開2005−229636号公報(特許文献4)では、ビットマップデータなどからビデオストリームを生成する技術が開示されている。しかしながら、特許文献3は、制限された面積の表示画面上での画像データの認識性を向上させることを目的とするものではない。
特開2006−345104号公報 特開平9−81115号公報 特開平10−149149号公報 特開2005−229636号公報
上述したように、ビットマップデータなどの画像データを領域指定して拡大表示する技術や、スチル画像からビデオ信号を生成させる技術は知られている。しかしながら、上述した特許文献は、携帯端末といった表示画面の面積が制限される条件下で、認識のストリーム性を損なうことなく、文字が認識しやすいサイズにまで拡大させながら表示させることを課題とするものではない。
本発明は、上記従来技術の問題点に鑑みてなされたものであり、本発明は、端末装置の表示画面に縮小しなければ全体を表示できないスチル画像を、スチル画像が含むテキストの認識のストリーム性を損なうことなく、部分表示させる画像処理装置、画像処理方法、プログラムを提供することを目的とする。
さらに、本発明は、スチル画像が含むテキストを、文字認識の結果を使用して人間工学的に適切な速度でハイライト表示することにより、表示領域上でのテキスト認識性を改善する、画像処理装置、画像処理方法、プログラムを提供することを目的とする。
本発明では、上記従来技術の課題を解決するために、スチル画像に存在するテキストを文字認識させ、テキストおよびテキストの行を識別させるライン識別値を取得する。取得されたテキストは、スチル画像は、スキャナ、ネットワークを介した通信または着脱可能な記憶媒体から取得され、記憶装置に格納される。スチル画像またはスチル画像から得られたテキストは、適切な速度でビデオ信号を使用したパンニング表示のために領域指定され、ユーザが認識しやすいサイズとなるような倍率として表示画面上に表示される。このとき、本発明では、領域指定を、文字認識により得られた文字情報を当該倍率において人間工学的に適切な速度でユーザに対して注目させるためのビデオ信号を生成するために利用する。
領域指定されたスチル画像またはテキストを、パンニングデータとして登録される。パンニングデータは、スチル画像またはテキストを、表示画面上でユーザが認識可能なサイズに倍率を設定させ、かつユーザがテキストを認識しやすい表示形式でパンニング表示される。表示形式としては、文字の出現またはテキストの表示色または背景色といったハイライト表示を使用することができる。テキストは、ユーザに対する認識性を向上させるため文字単位での出現速度を与えるように分割されるか、または表示形式の変更を行うために必要な文字単位で制御する属性情報を含んでフレーム処理されて、ビデオ信号とされる。このため、ユーザは、表示画面が「カメラ」的に機能してスチル画像やテキストをパンニングしているように認識することができる。
画像処理装置の表示画面には、ビデオ信号としてスチル画像またはテキストが表示される。ビデオ信号は、表示画面上で、文字認識により生成された文字情報を利用して人間工学的な観点からユーザが文章の意味を認識することができる速度で行頭から行末へと送られるようにして、生成される。このため、ユーザは、現在表示されているテキストに連続するテキストを、高い認識性および注目度で連続して認識可能させる。
本発明では、ユーザに対してテキストの注目度を向上させるため、テキストが適切な速度で行頭から行末へと移動するように表示させる。テキストが現在行の行末に達した場合には、次行の行頭を表示させるように、ビデオ信号を生成する。また、他の実施形態では、テキストの背景色、文字色などを適切な速度で変更し、現在認識するべき文字や行の注目度を向上させるインジケータをパンニングデータに重畳し、ビデオ信号を生成する。
本発明によれば、ユーザが本来では端末装置の表示画面に表示しきれない大サイズの画像データを、ユーザが認識し易いサイズであって、意味認識性が確保できる倍率とし、画像データをビデオ信号として表示させることで、ユーザの文字認識の連続性に悪影響を与えずに、端末装置の表示画面上に画像データを表示させることができる。
また、本発明によれば、ユーザの指令に応じて拡大率、文字送り速度、テキストに対する注目度などを変更できるので、ユーザによる文字認識性をさらに改善することが可能となる。
以下、本発明を、実施形態をもって説明するが、本発明は、実施形態に限定されるものではない。図1は、本実施形態の画像処理装置100の機能ブロック図を示す。画像処理装置100は、MFP(Multi-Function Peripheral)として実装することができる。また画像処理装置100は、パーソナルコンピュータ、PDA、携帯電話などの情報処理装置に対し、画像処理アプリケーションを実装した、端末装置として構成することができる。MFPおよび端末装置は、ソフトウェア構成や初期起動プロトコルが、使用するオペレーティングシステム(以下、OSとして参照する。)により異なるが、少なくとも、CPU102と、記憶装置104とを含んで構成される。CPU102は、例えば、MIPS、PENTIUM(登録商標)などにより例示されるRISCアーキテクチャ、またはCISCアーキテクチャのものを用いることができ、それぞれ互換性のある互換チップ、またはシングルコアタイプまたはデュアルコアタイプのいずれのタイプのものでも使用することができる。
記憶装置104は、ストレージソフトウェアと共に記憶手段として機能する。記憶装置104は、RAMまたはDRAMなどとして実装することができ、OSからの呼出指令に応答してハードディスク装置(図示せず)から、呼出指令に対応するプログラムやデータを格納し、アプリケーションの処理のための実行空間を提供する。また、画像処理装置100がMFPや画像処理専用の情報処理装置として実装される場合、記憶装置104として、画像データを専用に処理するための画像RAMを含んで構成することができる。
画像処理装置100は、さらに入出力インタフェースソフトウェアと共に入力手段として機能する入力処理部114を含んでいる。入力処理部114は、ユーザからのキーボード、入力ボタン、マウスなどからの入力を受付け、適切なインタフェースを介してCPU102に対して処理を指令する。また画像処理装置100は、スキャナ112を含むことができる。スキャナ112は、スキャナアプリケーションなどと共に画像読取手段を構成し、画像処理装置100のハードウェアモジュールとして実装することもできるし、USB(Universal Serial Buss)などで外付けされたフラットベッドスキャナとすることもできる。
また、端末装置を、PDAや携帯電話などとして実装する場合には、画像処理装置100は、スキャナ112を含まなくともよい。この場合、画像処理装置100は、スチル画像を、例えばLAN118を介してNICおよび通信ソフトウェアと共に実装される通信制御手段として機能する通信制御部110を含むことができる。この実施形態の場合、画像処理装置100は、スチル画像をネットワーク上から取得して、記憶装置104に格納することで、以後の画像処理のために利用してもよい。また、画像処理装置100は、記憶装置104として着脱可能なSDカードやUSBメモリなどを含んでいて、他の情報処理装置から取得したスチル画像を利用することもできる。
画像処理装置100は、さらにソフトウェアと共に表示制御手段として機能する表示制御部106と、表示手段として機能する表示装置108とを含んでいる。表示制御部106は、スチル画像の領域指定されたパンニングデータを受取り、アナログ/デジタル変換を行って、VGA、XGAなどのフォーマットのビデオ信号として表示装置108に送り、画像処理装置100の処理結果をユーザに対して提供させている。
表示装置108は、CRT、LCD、有機ELD、プラズマディスプレイなどを含む構成とされていて、ユーザに対して画像処理装置100の処理結果を表示する。ディスプレイ上にタッチすることで入力を行うことが可能なタッチパネルとして構成されていてもよい。表示制御部106およびパンデータ作成部116は、各種ソフトウェアと共に、本実施形態のビデオ変換手段として機能する、ビデオ変換部120を提供する。
パンデータ作成部116は、スチル画像の一部分を領域指定して、表示画面上に所定の倍率でビデオ表示するために利用するパンニングデータを生成する。パンデータ作成部116は、生成されたパンニングデータを表示制御部106に送ってフレーム化およびビデオ信号作成のために利用させている。この他にも、パンデータ作成部116は、テキストの注目度を向上させるために、スチル画像が含むテキストを文字認識し、文字認識により生成されたテキスト、テキストの行位置を識別するためのライン識別値、ハイライト表示などを行うための属性情報などを追加して、パンニングデータを生成させている。
図2は、本実施形態の画像処理装置100の、パンデータ作成部116を含んで構成されるビデオ変換部120および表示制御部106の詳細な機能ブロック図である。まず、パンデータ作成部116から説明する。パンデータ作成部116は、入力バッファ200を含んで構成されており、入力バッファ200は、スキャナにより取得されたスチル画像、ネットワークなどから取得されたスチル画像、SDカード、USBメモリなど着脱可能なメディアから読込んだスチル画像を、記憶装置104から、スチル画像全体またはスチル画像の一部など、適切な容量分ごとに取得して以後の処理に提供する。
入力バッファ200に格納されたスチル画像は、文字認識部202によりテキスト認識が行われる。また、ライン検出部204は、画像データのラインイメージ、または行間情報を使用して、ライン識別値を生成する。テキスト認識およびライン検出の結果は、画像データと共にデータ合成部206に送られて、テキストに対する属性情報などがテキストに追加され、ハイライト表示、文字送りなどを使用してパンニング表示を行うために合成される。
データ合成部206は、パンニングの詳細度、パンニングの表示形式、倍率に応じて適宜選択することができる。例えば、特定の実施形態では、行方向には、アナウンサーの読み上げ速度など、人間工学的な観点から設定される文字送り速度を与えるように、設定された倍率を考慮したビデオ信号を生成させるように生成される。また、行を縦に横断する方向として定義されるライン方向には、1ライン単位またはその他特定の用途に適したライン送り単位でパンニング表示を行うビデオ信号を生成させるように画像データの領域指定を実行する。
また、データ合成部206は、テキストの注目度を向上させるためにハイライト表示する実施形態では、領域指定されたパンニングデータの文字送り最先端まで、ハイライト表示を行うように、色データを属性情報として追加したパンニングデータを生成させる。
さらに他の実施形態では、データ合成部206は、スチル画像からテキストのみを文字認識により取得し、表示画面のサイズに適合させ、かつ表示画面上に適切な認識性をもって表示することができるようにテキスト編集処理を実行する。編集されたテキストには、ハイライト表示を行うための属性情報を付してパンニングデータを生成する。
なお、この目的のため、また、画像処理装置100が実装するブラウザ・ソフトウェアによる使用を可能とし、さらに多様な文字表示形式を提供するために、データ合成部206は、構造化文書エディタ、具体的にはHTMLエディタやXMLエディタを実装することができ、生成されたテキストを、CSSなどを使用して種々の表示を行うための属性情報とすることができる。
画像データは、例えばビットマップ、PNG、TIFF、GIF、JPEG、JPEG200などの非圧縮または圧縮フォーマットとして提供される。なお、画像データが圧縮データである場合、パンデータ作成部116は、適宜コーデックなどを実装し、表示制御部106が利用可能な形式でパンニングデータを生成させてもよい。
スチル画像の指定領域、テキスト、属性情報などが合成されたパンニングデータは、表示制御部106に送られる。表示制御部106は、例えばグラフィックアクセラレータ、ビデオチップなど専用の集積回路として構成することができる。表示制御部106は、ビデオエンコーダ210と、VRAM(Video RAM)212とを含む構成とされている。表示制御部106は、パンニングデータを取得して、表示画面に表示するべきデータをフレーム化する。さらに表示制御部106は、VRAM212に、非線形色変換を行うための色変換LUT216を格納している。
パンニングデータは、タイミングクロック220で規定されるタイミングで入力バッファ214に一旦格納される。ビデオエンコーダ210は、入力バッファ214に格納されたパンニングデータを読出して8ビットの深度で設定されたデジタル値の階調データをアナログ値に変換して、フレーム単位のビデオ信号を生成し、出力バッファ218に送る。出力バッファ218に格納されたビデオ信号は、フレーム単位として適切な時間間隔Tの周期で表示装置108に渡されて、表示装置108の表示画面上でパンニング表示を行う。
なお、適切な時間間隔Tは、ユーザによる文字の読み取り速度が、人間工学的に適切になるように適宜設定することができ、単語単位、文字単位、および倍率に応じて適宜設定することができる。また、表示制御部106は、適宜誤り訂正復号回路を含み、D/A変換時の誤り訂正を行う処理を実行してもよい。
以下、用語「行頭」とは、文字の言語にかかわらず、読み始め側を意味し、用語「行端」とは、文字の言語にかかわらず、読み終り側を意味する。また、用語「現在行」とは、現在ユーザが注目する行を意味し、用語「次行」とは、現在行よりも設定されたライン識別値の値だけ、テキストの意味上で後側になる行を意味するものとして説明を行う。
図3は、パンニング表示を行う対象であるスチル画像に対するパンニング表示の実施形態を示す概略図である。スチル画像300は、そのままの大きさでは、表示画面302に表示することができないサイズである。このため、スチル画像を縮小表示させると、スチル画像が含むテキストが、認識できなくなる程度まで縮小されることになる。そこで、本実施形態の画像処理装置100は、スチル画像300を、表示画面302よりも小さく、適切な倍率を与えるように、領域指定を実行し、指定された領域をパンニング領域306として設定する。
図3に示した実施形態では、パンニング領域306の表示画面302に対する相対割合が倍率を規定する尺度として利用される。また、文字行304の方向への領域指定位置は、パンニング領域306の縦方向を、表示画面302の縦方向に一致させるように拡大・縮小したときに、横方向が表示画面302の横方向に一致するサイズとなるように、領域指定が行われる。図3に示した実施形態では、表示画面302にスチル画像データの一部を単に領域割当てしただけでは、3行分しか表示されず、また文字サイズが大きすぎて表示画面302の表示効率が低下するので、パンニング領域306を表示画面302よりも大サイズとして、縮小させることで、行数および文字数を適切に表示させる倍率が設定されている。
ハイライト処理を行う場合には、文字認識部202の認識結果で、スチル画像をマイニングして、ハイライト表示を行う箇所を指定することができる。この場合、スチル画像に対してハイライト表示を行いながらビデオ画像として表示させることができる。また、他の実施形態で、テキストファイルを表示画面302に適合するサイズで作成する場合には、有意義な意味単位の表示を行うための文字数などの設定を変更し、適宜ライン識別値およびハイライト情報などの属性データを追加して、パンニングデータを作成する。なお、パンニングデータをテキストファイルとして表示画面302に適合するサイズで作成する場合、行方向のパンニングを行わずに縦方向のみにパンニングを行う設定とすることができる。
パンデータ作成部116のパンニングデータ作成処理について説明する。なお、行方向で説明した処理は、列方向にも記述される、例えば日本語などの文章に対しては、行方向の処理を縦方向に置き換えることで、そのまま適用することができる。行方向のパンニング表示は、デフォルト設定では、人間工学的に設定される速度P文字/secで行われるものとする。一方、フレーム画像は、文字のちらつきやスキップなどを防止するため、少なくともNフレーム/secで更新することが好ましい。このため、パンニングデータは、P/N(文字/フレーム)単位で画像データまたはテキストデータを領域指定することにより、生成される。
例えば、テキストが行方向に40文字存在し、1文字当たり0.25秒で文字送りする場合であって、16フレーム/secでフレームを更新する場合、パンニングデータは、0.25/16=1/64だけずらしてスチル画像またはテキストを領域指定することにより作成される。この場合、40文字をパンニング表示するためには、約40秒を要するので、当該条件で1行をパンニング表示するためには、40×16=640フレームにパンニング領域306を分割することが必要とされる。
行端までに準備しなければならないフレームの数は、認識性を向上させるための倍率の程度により異なり、縮小率を増加させれば、フレーム当たりのデータ量は増加するが、フレーム数は、少なくなり、拡大率を増加させればさせるだけ、フレーム数は増加するが、単一フレームのデータ量は減少するので、倍率自体が処理のオーバーヘッドに与える影響は大きなものとはならない。なお、文字送り速度は、倍率に連動して変化させることもできるが、文字の大きさが認識に困難なサイズでない場合には、文字の出現速度は人間工学的な観点からは変わらないものと考えられる。このため、表示の倍率と、文字送り速度またはハイライト表示速度は、タイミングクロック220で指定される、デフォルト設定のまま保持させておくことができる。なお、文字送り速度については、適宜人間工学的な観点から設定することができ、またユーザが設定を変更することも可能である。
なお、テキストの表示形式を変更する場合、スチル画像と共に表示させる実施形態では、スチル画像が含むテキストの表示形式を、文字認識部202の認識結果と対応付けてスチル画像の出現と対応させて出現させる形式とすることができる。また、他の実施形態では、スチル画像の出現に同期させて、出現した現在行のテキストをハイライト表示させることができる。さらに、テキストのみをテキストエディタで編集して表示させる場合、ハイライト表示の進行速度を変更するようにすることができる。
図4は、図3で説明したパンニングデータ作成処理によって生成されるパンニングデータをフレーム化した場合の出力バッファ218のデータ構造400の概略図である。なお、パンニングデータは、説明の便宜上、倍率に対応するサイズとして記載するものではない。パンデータ作成部116が作成したパンニングデータには、フレーム化処理の段階でFIFOなどとして構成される出力バッファ218に格納される。図4に示した実施形態では、フレーム402は、n個作成されており、パンニング領域306にわたってパンニングする場合、上述したパンニング処理の場合には、全体で640フレーム作成される。
出力バッファ218には、パンニング領域306の全体を表示させるために必要なフレーム402の全数を登録しておく必要はなく、先入れ・先出し方式で、先に登録されたフレームから出力が行われ、フレーム表示タイミングTの経過に対応して順次先に登録されたフレームから表示装置108に読込まれ、表示画面でパンニング表示が行われる。出力バッファ218内に格納されるフレーム数は、FIFOバッファをオーバーフローさせない範囲で制御できる限り、特に制限はない。
図4に示した実施形態では、行端を含むフレーム402までが表示装置108に読込まれる段階では、その直後に対応するアドレスが割当てられたフレームには、1ライン下の行から開始するパンニングデータに対応するフレームが登録される。表示装置108は、先入れ・先出し方式を使用して、順次的に登録されるフレームを読み出して、表示画面302に表示させることで、パンニング表示を可能とさせている。
図5は、本実施形態の画像処理の実施形態のフローチャートである。図5の処理は、ステップS500から開始し、ステップS501で画像データを取得する。なお、画像データの取得は、画像処理装置100の実装態様に対応して、スキャナ、電子メール、ダウンロード、またはSDカードなどからの読み込みにより実行することができる。
ステップS502では、パンニング領域を取得し、パンニング領域306に含まれる画像データ、文字認識部202の処理結果、およびライン検出部204の検出結果を、パンニング表示する態様に適合するように作成する。その後、パンデータ作成部116は、表示制御部106に渡してビデオ信号を生成させ、表示装置108により表示させる。ステップS503では、行端までパンニング処理が進行したかどうかを、表示させたフレーム数およびパンニング領域306のサイズまたは、フレームに付される最終フレームであることを示す制御フラグなどを使用して判断する。ステップS503で、行端まで表示させていない場合(no)、ステップS504でさらに行方向にパンニング表示を継続させる。
また、ステップS503で、行端までパンニングが終了したと判断した場合(yes)、ステップS505で次行を先頭とするパンニング領域から生成された、パンニングデータに対応するビデオ信号を表示装置108に読込ませ表示させる。なお、この段階で、出力バッファ218には、前パンニング領域の最終行を含むフレームの直後には、現在行の行頭を含むフレームデータが登録されている。
その後、ステップS506で、パンデータ作成部116は、ライン検出部204からのデータおよび文字認識結果の両方が検出したか否かを判断し、ライン検出部204が両データを検出する場合(yes)、表示するべきラインを有するパンニング領域306が存在するものとしてステップS502に処理を分岐させ、ステップS502〜S506の処理を、ステップS506の判断が否定的な値を返すまで繰返す。以上の処理により、ユーザに対し、画像処理装置100の表示画面上で、あたかも表記画面が画像データをパンニングしながら文字や文章などを表示するように表示できる。
一方、ステップS506でライン検出部204および文字認識部202からの両データが検出されない場合(no)、表示させるべき文字データがスチル画像に存在しないものとして処理をステップS507で終了させる。なおその時点で表示させるべきテキストが存在しない場合でも、さらに後続するスチル画像のデータを取得し、さらに表示させるべきテキストが見出された場合、図5の処理をさらに繰り返して実行させる。
図6は、本実施形態の画像処理方法について、第2の実施形態のフローチャートを示す。図6に示した処理は、ステップS600から開始し、ステップS601で、画像データを取得する。なお、画像データの取得は、画像処理装置の実装形態に対応して、図5で説明したように行うことができる。ステップS602では、文字認識部202により文字認識が行われ、テキストデータを生成させる。
ステップS603で、生成されたテキストの表示倍率を決定し、テキストデータが表示画面のサイズとなり、かつ最適な意味把握性を損なわない程度の倍率としてテキストエディタなどで記述して、パンニングデータを生成する。ステップS604では、パンニングデータに文字ごとまたは単語ごとに文字色や背景色を変えてハイライト表示を行うための属性データを付して、フレーム化を実行させ、ビデオ信号として表示させる。
ステップS605では、現在処理行の最後尾までハイライトされているか否かをフレームの制御フラグなどを使用して判断し、行端までハイライト表示が行われていない場合(no)、ステップS606でハイライトが行端まで行われるまでフレーム表示を継続させる。一方、ステップS605で、行端までハイライトが行われたと判断した場合(yes)、ステップS607で次行を先頭としたパンニング領域から生成されたパンニングデータに対応するビデオ信号を表示装置108に読込ませ表示させる。なお、この段階で、出力バッファ218には、前パンニング領域の最終行を含むフレームの直後に、次行の行先端を含むフレームデータが登録されている。
その後、ステップS608で、パンデータ作成部116は、文字認識部202と、ライン検出部204の両データが、その時点で処理しているパンニング領域306で検出されたか否かを判断し、両データが検出されたと判断した場合(yes)、処理をステップS603に戻し、再度、テキストデータを作成し、ステップS603〜S608の処理を、ステップS608の判断が否定的な値を返すまで繰返す。
一方、ステップS608で現在処理中のパンニング領域306が両データを出力していない場合(no)、最下位ラインを含むパンニング領域について、パンニングデータ作成が終了した段階で処理を終了させる。以上の処理により、ユーザに対し、画像処理装置100の表示画面上で、あたかも表示画面が画像データをパンニングしながら文字や文章などを表示するように表示でき、また、ユーザの認識行の認識性および認識すべき箇所の把握が容易となり、より、画像データ、テキストデータなどの認識性を向上させることができる。なお表示するべきテキストが存在しない場合でも、さらに後続するスチル画像のデータを取得し、さらに表示させるべきテキストが見出された場合、図6の処理をさらに繰り返して実行させることで、スチル画像の最後まで、パンニング表示を行うことが可能である。また、現在処理中のパンニング領域306にラインが検出されないことが判断された段階で、それ以後のパンニングデータ作成処理を中断させ、さらに後続のスチル画像の領域の処理にスキップさせてもよい。
図7は、本実施形態のライン方向へのパンニング表示の実施形態を示した図である。図7に示すように、ドキュメント700は、表示画面702で表示させようとすると、縮小率が高くなりすぎて、画像データまたはテキストデータなどの内容の認識性が著しく低下する。このため、本実施形態では、表示画面702を「虫眼鏡」のように機能させると共に、表示画面702が画像データ、またはテキストデータを順次パンニングして行くように、ビデオ画像として表示させる。
ユーザから見ると、表示画面702に表示された画像データまたはテキストデータは、日本語の場合、表示画面の右手側から出現し、設定された速度で左手側に送られて行くように認識される。このとき、表示画面702に表示される画像データまたはテキストデータは、拡大率に対応して拡大されており、ユーザによる文字などの認識性が改善される。表示領域702の表示内容は、ビデオ画像として表示されながら、表示領域704に相当する位置の内容まで順次パンニングされる。
その後、次行が現在行になり、かつ行頭が左端となるように縦方向および行方向のパンニングが行われ、表示領域706で示される位置のスチル画像またはテキストが表示される。その後、順次同様の処理が繰り返され、表示領域708,...で示される位置のスチル画像またはテキストが表示されて行き、最終的に画像データまたはテキストデータの最終行の行端までの表示が実行される。なお、この間、ユーザが、パンニング速度、拡大率を修正することを希望する場合、キーボード、操作ボタン、マウスなどからの操作により、各パラメータをデフォルト設定からカスタマイズさせることができる。
図8は、文字認識により取得されたテキストを、表示領域に対応する幅でテキストエディタにより作成してパンニング表示する場合の実施形態である。図8(a)に示すようにテキストデータ802は、その全体を表示領域800に表示させる場合、縮小率が高くなりすぎ、文字の認識が困難となっている。図8(b)に示す実施形態では、パンニングデータを、表示画面800のサイズに適合するような幅および文字認識性および意味認識性を損なわないサイズとして作成する。
画像処理装置100は、ユーザから「パンイン」指令を受領すると、作成しておいたテキストデータ802から表示画面800に適合するサイズのパンニングデータを作成し、表示制御部106に送付して、フレームデータを作成し、図8(b)で示すように、表示画面800上に拡大してパンニング表示させる。パンニングデータには、ハイライト表示を付する属性データが追加されており、ユーザが認識しやすい速度で、テキストをハイライト表示804して、ユーザの注目行を示すことで、認識性を向上させている。この時にハイライト表示の送り速度についても、文字認識部202の結果および人間工学的な観点から速度制御を行う。
ハイライト表示804が行端まで達すると、テキストを1ライン分上に移動させたフレームを表示させ、同時に左手側からハイライト表示を開始させる。図8(b)に示す実施形態では、ユーザは、表示画面800の全体を行ごとにトレースすることなく、同一箇所に注目するだけで、テキスト内容が自動的に認識できるようになる。このため、テキストなどの認識性や、チェックなどが容易に行うことができる。また、本実施形態では、ユーザ入力により、ハイライト表示804の進行を一時停止させることもできる。説明する他の実施形態では、表示画面800に表示された画面全体にわたって、ユーザがユーザの認識レベルに応じて、テキストの認識や理解を行うことが可能となる。
図8に示した実施形態に関連し、さらに他の実施形態では、ハイライト表示804が表示画面800に表示されたテキストの範囲の最終文字まで達したときに、次のパンニング領域を表示させてもよい。
図9は、本実施形態によるパンニング処理のさらに他の実施形態を示す。図9に示した実施形態は、画像データまたはテキストデータの内容をダイジェストするために好適な実施形態である。図9に示した実施形態では、画像データやテキストデータといったドキュメント900の文字解析からキーワードを検出し、出現率の高いキーワードなどを抽出し、拡大、ハイライト表示を行う実施形態である。
図9に示した実施形態は、キーワードが出現した箇所を中心としてパンニング領域を設定し、表示領域902〜906に当該パンニング領域を表示させ、キーワードなどをハイライト表示することにより、スチル画像のパンニング表示が行われる。図9に示した実施形態では、ビデオ画像のスムーズな移動ではなく、パンニング領域を例えば数秒程度の設定期間だけ、静止させて表示させた後、次のパンニング領域を表示させるように、パンニングデータを生成し、表示制御部106に対して送付して設定期間にわたり表示を行う。図9に示したパンニング表示は、画像処理装置100が、例えば、大量のドキュメントを処理する場合やドキュメント検索などを実行する装置として実装される場合に好適に利用することができる。
図10は、本実施形態により提供されるパンニング表示のさらに他の実施形態を示す。図10に示した実施形態は、表示領域1000よりも大きく、イメージおよびテキストが混在したスチル画像1002を表示する場合の実施形態である。スチル画像1002には、テキスト1004、複数のイメージデータ1006、1008が混在している。画像処理装置100は、スチル画像1002を文字認識し、画像データを除去して、文字領域のみを抽出し、テキストデータとして作成する。
その後、図8で説明したパンニング処理を適用し、表示領域1000内に、適切なサイズのテキスト1010をパンニング表示させている。なお、図10で示す実施形態でも、図8(b)で説明したパンニング処理を適用することができる。
以上説明したように本発明によれば、ユーザが本来では端末装置の表示画面に表示しきれない大サイズの画像データを、ユーザが認識し易いサイズにまで拡大し、画像データをビデオ信号として表示させることで、あたかも撮影カメラがパンニングするように、ユーザの認識の連続性に悪影響を与えずに、端末装置の表示画面上に画像データを表示させることができる。また、本発明によれば、ユーザの指令に応じて拡大率、パンニングレートなどを変更できるので、さらにユーザによる認識性を調節することが可能となり、MFP、PDA、携帯電話など、表示領域が他の機能との関係で制限される画像処理装置に好適な画像処理を可能とする。
本実施形態の上記機能は、C++、Java(登録商標)、Perl、Rubyなどのオブジェクト指向プログラミング言語などで記述された装置実行可能なプログラムにより実現でき、当該プログラムは、ハードディスク装置、CD−ROM、MO、フレキシブルディスク、EEPROM、EPROMなどの装置可読な記録媒体に格納して頒布することができ、また他装置が可能な形式でネットワークを介して伝送することができる。
これまで本実施形態につき説明してきたが、本発明は、上述した実施形態に限定されるものではなく、他の実施形態、追加、変更、削除など、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。
本実施形態の画像処理装置100の機能ブロック図。 本実施形態の画像処理装置100の、パンデータ作成部116を含んで構成されるビデオ変換部120および表示制御部106の詳細な機能ブロック図 パンニング表示を行う対象であるスチル画像に対するパンニング表示の実施形態を示す概略図。 図3で説明したパンニングデータ作成処理によって生成されるパンニングデータをフレーム化した場合の出力バッファ218のデータ構造400の概略図。 実施形態の画像処理の実施形態のフローチャートを示した図。 本実施形態の画像処理方法について、第2の実施形態のフローチャートを示した図。 本実施形態のライン方向へのパンニング表示の実施形態を示した図。 文字認識により取得されたテキストを、表示領域に対応する幅でテキストエディタにより作成してパンニング表示する場合の実施形態を示した図。 本実施形態によるパンニング処理のさらに他の実施形態を示した図。 本実施形態により提供されるパンニング表示のさらに他の実施形態を示した図。
符号の説明
100…画像処理装置、102…CPU、104…記憶装置、106…表示制御部、108…表示装置、110…通信制御装置、112…スキャナ、114…入力処理部、116…パンデータ作成部、120…ビデオ変換部、200…入力バッファ、202…文字認識部、204…ライン検出部、206…データ合成部、210…ビデオエンコーダ、212…VRAM、214…入力バッファ、216…色変換LUT、218…出力バッファ、220…タイミングクロック

Claims (9)

  1. スチル画像からビデオ信号を作成して表示する画像処理装置であって、
    スチル画像を格納する記憶手段と、
    前記スチル画像が含む文字をテキストに変換する文字認識手段と、
    前記スチル画像に対してフレーム化する領域を指定し、前記領域を前記文字認識手段による文字認識結果を反映させて前記テキストの表示形式を変更するための送り速度を与えるように前記領域を分割したパンニングデータを作成するパンデータ作成手段と、
    前記パンニングデータをデジタル/アナログ変換してフレーム化することによりビデオ信号を生成する表示制御手段と、
    前記ビデオ信号を読出して表示画面に前記送り速度を使用して前記テキストをパンニング表示する表示手段と
    を含む画像処理装置。
  2. 前記表示形式は、前記テキストの前記表示画面への出現、前記テキストの表示色、または背景色の少なくとも1形式とされ、前記画像処理装置は、前記送り速度を文字単位で制御するように、前記パンニングデータを作成する、請求項1に記載の画像処理装置。
  3. 前記画像処理装置は、前記テキストを表示画面上で、現在行の行頭から行端に向かってパンニングさせ、前記行端に達した段階で、次行を注目させるようにパンニング表示する、請求項2に記載の画像処理装置。
  4. 前記画像処理装置は、前記スチル画像に存在する前記テキスト部分を、前記文字認識手段による文字認識結果に対応付けて前記表示形式を変更するか、または既表示の前記テキストの文字色または背景色を変更して前記パンニング表示する、請求項3に記載の画像処理装置。
  5. 前記画像処理装置は、前記スチル画像をスキャナ、ネットワークを介する通信、または着脱可能な記憶媒体から取得する、請求項1〜4のいずれか1項に記載の画像処理装置。
  6. 画像処理装置が実行し、スチル画像からビデオ信号を作成して表示する画像処理方法であって、
    記憶手段からスチル画像を読出すステップと、
    前記スチル画像が含む文字をテキストに変換する文字認識手段と、
    前記スチル画像に対してフレーム化する領域を指定し、前記領域を前記文字認識手段による文字認識結果を反映させて前記テキストの表示形式を変更するための送り速度を与えるように前記領域を分割したパンニングデータを作成するステップと、
    前記パンニングデータをデジタル/アナログ変換してフレーム化することによりビデオ信号を生成するステップと、
    前記ビデオ信号を読出して表示画面に前記送り速度を使用して前記テキストをパンニング表示するステップと
    を含む画像処理方法。
  7. 前記表示形式は、前記テキストの前記表示画面への出現、前記テキストの表示色、または背景色の少なくとも1形式とされ、前記パンニングデータを作成するステップは、前記送り速度を文字単位で制御するように、前記パンニングデータを作成するステップを含み、前記パンニング表示するステップは、前記テキストを表示画面上で、現在行の行頭から行端に向かってパンニングさせ、前記行端に達した段階で、次行を注目させるようにパンニング表示するステップを含む、請求項6に記載の画像処理方法。
  8. 前記スチル画像をスキャナ、ネットワークを介する通信、または着脱可能な記憶媒体から取得するステップをさらに含む、請求項6または7のいずれか1項に記載の画像処理方法。
  9. 請求項1〜5のいずれか1項に記載の機能手段を画像処理装置に実現させる、装置実行可能なプログラム。
JP2008050441A 2008-02-29 2008-02-29 画像処理装置、画像処理方法およびプログラム Pending JP2009210610A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008050441A JP2009210610A (ja) 2008-02-29 2008-02-29 画像処理装置、画像処理方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008050441A JP2009210610A (ja) 2008-02-29 2008-02-29 画像処理装置、画像処理方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2009210610A true JP2009210610A (ja) 2009-09-17

Family

ID=41183869

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008050441A Pending JP2009210610A (ja) 2008-02-29 2008-02-29 画像処理装置、画像処理方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2009210610A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010143500A1 (ja) * 2009-06-12 2010-12-16 シャープ株式会社 文書閲覧装置、文書表示方法および文書表示プログラム
JP2013196030A (ja) * 2012-03-15 2013-09-30 Fujitsu Ltd 情報処理装置、情報処理方法、及び情報処理プログラム
CN112818987A (zh) * 2021-01-29 2021-05-18 浙江嘉科电子有限公司 一种公交电子站牌屏显内容识别纠正方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010143500A1 (ja) * 2009-06-12 2010-12-16 シャープ株式会社 文書閲覧装置、文書表示方法および文書表示プログラム
JP2013196030A (ja) * 2012-03-15 2013-09-30 Fujitsu Ltd 情報処理装置、情報処理方法、及び情報処理プログラム
CN112818987A (zh) * 2021-01-29 2021-05-18 浙江嘉科电子有限公司 一种公交电子站牌屏显内容识别纠正方法及系统
CN112818987B (zh) * 2021-01-29 2024-05-14 浙江嘉科电子有限公司 一种公交电子站牌屏显内容识别纠正方法及系统

Similar Documents

Publication Publication Date Title
US7853873B2 (en) Data processing apparatus, data processing method, and computer program for generating electronic data from a paper document
JP5290487B2 (ja) デジタルドキュメント処理のためのシステム及び方法
US8022992B2 (en) Data processing system, data processing device, image display device, and recording medium that records processing program thereof
EP1980960A2 (en) Methods and apparatuses for converting electronic content descriptions
US20060079214A1 (en) Method and apparatus for showing wireless mobile device data content on an external viewer
JP2012059275A (ja) デジタルドキュメント処理のためのシステム及び方法
US20070279437A1 (en) Method and apparatus for displaying document image, and information processing device
JP2007089136A (ja) 画像処理方法、画像処理プログラム、記録媒体及び複合装置
US8970860B2 (en) Image processing device that displays process sequence, display device and non-transitory computer readable recording medium
JP2009200622A (ja) 電子文書生成装置、電子文書生成方法、コンピュータプログラム、および記憶媒体
JP2010074292A (ja) 画像処理装置、画像表示システム、及びプログラム
JP2009210610A (ja) 画像処理装置、画像処理方法およびプログラム
JP2006012038A (ja) 情報処理装置及び画像編集装置並びにそれらの制御方法、並びにコンピュータプログラム及びコンピュータ可読記憶媒体
JP2017102939A (ja) オーサリング装置、オーサリング方法、およびプログラム
US8839151B2 (en) Device and program for transmitting/playing image folder based on an album setting folder file
US6876969B2 (en) Document read-out apparatus and method and storage medium
JP2009239594A (ja) 電子ファイル生成装置、電子ファイル生成方法、および、プログラム
JP2009081592A (ja) 映像記録装置
JP2006184415A (ja) 画像処理装置、画像処理プログラム及び画像処理方法
JP4631261B2 (ja) 撮影画像投影装置、その画像処理方法及びプログラム
WO2007061157A1 (en) Mobile external display device in use wireless communication
US20020154343A1 (en) System and method of capturing a digital picture
JP6080058B2 (ja) オーサリング装置、オーサリング方法、およびプログラム
JP6809050B2 (ja) プログラム及び携帯端末
JP6809051B2 (ja) プログラム及び携帯端末