JP2010061623A - 文書処理装置、文書処理方法および文書処理プログラム - Google Patents

文書処理装置、文書処理方法および文書処理プログラム Download PDF

Info

Publication number
JP2010061623A
JP2010061623A JP2008229617A JP2008229617A JP2010061623A JP 2010061623 A JP2010061623 A JP 2010061623A JP 2008229617 A JP2008229617 A JP 2008229617A JP 2008229617 A JP2008229617 A JP 2008229617A JP 2010061623 A JP2010061623 A JP 2010061623A
Authority
JP
Japan
Prior art keywords
document
display
data
unit
display magnification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008229617A
Other languages
English (en)
Inventor
Koji Fujiwara
浩次 藤原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Business Technologies Inc
Original Assignee
Konica Minolta Business Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Business Technologies Inc filed Critical Konica Minolta Business Technologies Inc
Priority to JP2008229617A priority Critical patent/JP2010061623A/ja
Publication of JP2010061623A publication Critical patent/JP2010061623A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

【課題】ユーザの手間を要することなく、特定の種別の文書要素(見出し要素)が説明する内容を見やすくすることのできる文書処理装置、文書処理方法および文書処理プログラムを提供すること。
【解決手段】文書データを構成する複数の文書要素の文書構造を解析することにより、特定の種別の第1の文書要素ごとに、第1の文書要素を説明する文書要素である第2の文書要素を検出するための説明要素検出部22と、検出された各第2の文書要素の領域のサイズ情報に基づいて、第1の文書要素ごとに、文書データを表示する際の表示倍率を算出するための表示倍率算出部24と、算出された表示倍率を、各第1の文書要素の位置を含む属性情報に対応付けて、付属情報を生成するためのしおりデータ生成部26と、生成された付属情報を文書データに付加することで電子化文書を生成するための電子化文書生成部16とを備える。
【選択図】図5

Description

本発明は、文書処理装置、文書処理方法および文書処理プログラムに関し、特に、文書画像を表示する際の表示倍率を算出することのできる文書処理装置、文書処理方法および文書処理プログラムに関する。
文書の任意の場所に「しおり(book mark)」を付けておき、しおりのアイコンをクリックすることで文書のその箇所表示を切り替える文書表示システムがある。こうしたシステムでは通常予め定められた表示倍率のままで、表示が切り替えられることが多い。
一方、しおりアイコンをクリックして表示を変更する際、読みやすい大きさに自動で表示倍率を調整したいという要望がある。たとえば特許文献1では、頁内の指定領域に対応して付加されているしおりにその指定領域のサイズ情報を持たせ、その指定領域内の画像を表示するエリアや複写先エリアのサイズ情報とを比較し、最適サイズにまで自動的に拡大又は縮小して表示することができる画像処理装置が提案されている。また、特許文献2では、見出し指定位置の行が表示領域の範囲に収まりかつ読めるように表示領域の大きさに合うように表示画像データを作成し、作成された画像データを表示装置に表示する電子ファイリング装置が開示されている。
特開平6−162093号公報 特開平9−81716号公報
見出しテキスト(タイトル、セクション見出し、キャプション、など)の位置にしおりを自動付与するシステムが従来より提案されているが、この場合、しおりは見出しテキストの開始位置に設定される。このようなシステムに特許文献2の技術を適用すると、表示倍率は見出しテキスト領域のサイズに応じて定められることになる。しかしながら、実際にはしおりアイコンのクリック後に読み手が参照する部分は見出しに続く本文や図表なので、表示倍率はそれらを見るのに最適となるように設定すると便利である。
特許文献1では、指定領域が最適サイズになるよう自動調整されるが、PDFなどの普及している文書フォーマットでは、しおり情報には位置と表示倍率が記録されることが一般的であり、領域サイズを保存する手段がない。したがって、PDF形式の文書に対しては文献1の手法を適用することができない。また、特許文献1の方法(およびPDF)では表示対象の領域(指定領域)をユーザがいちいち指定しなければならず、不便である。
本発明は、上記のような問題を解決するためになされたものであって、その目的は、ユーザの手間を要することなく、特定の種別の文書要素(見出し要素)が指定された場合に、該文書要素が説明する内容を見やすくすることのできる文書処理装置、文書処理方法および文書処理プログラムを提供することである。
この発明のある局面に従う文書処理装置は、文書データを構成する複数の文書要素から、特定の種別の第1の文書要素を抽出するための抽出手段と、複数の文書要素の文書構造を解析することにより、第1の文書要素ごとに、第1の文書要素を説明する文書要素である第2の文書要素を検出するための検出手段と、検出された各第2の文書要素の領域のサイズ情報に基づいて、第1の文書要素ごとに、文書データを表示する際の表示倍率を算出するための算出手段と、算出された表示倍率を、各第1の文書要素の位置を含む属性情報に対応付けて、付属情報を生成するための第1の生成手段と、生成された付属情報を文書データに付加することで電子化文書を生成するための第2の生成手段とを備える。
好ましくは、文書データは、光学的に読取られた文書画像であり、抽出手段は、さらに、文書画像を構成する段を検出し、段単位で、文書要素を抽出する。
好ましくは、サイズ情報は、領域の行方向のサイズを含み、算出手段は、第2の文書要素の領域の行方向の幅が仮想表示領域に含まれるように表示倍率を算出する。
好ましくは、算出手段は、第1の文書要素の種別が表題の場合には、表題の属する頁の幅が仮想表示領域に含まれるように表示倍率を算出する。
この発明の他の局面に従う文書処理装置は、文書データを表示するための表示手段と、ユーザより、文書データを構成する複数の文書要素のうち表示すべき第1の文書要素の指定を受け付けるための操作手段と、複数の文書要素の文書構造を解析することにより、指定された第1の文書要素を説明する文書要素である第2の文書要素を検出するための検出手段と、検出された第2の文書要素の領域のサイズ情報に基づいて、文書画像を表示する際の表示倍率を算出するための算出手段と、第1の文書要素の位置が表示されるように文書データの表示を切替える処理を行なうための表示切替手段とを備え、表示切替手段は、文書データの表示倍率が算出手段により算出された表示倍率になるように、文書データを表示手段に表示する。
好ましくは、文書データは、光学的に読取られた文書画像であり、表示手段は、文書データとともに、複数の文書要素のうちの特定の種別の複数の第1の文書要素の位置を特定するための閲覧ナビゲート情報を表示する。
好ましくは、サイズ情報は、領域の行方向のサイズを含み、算出手段は、第2の文書要素の領域の行方向が所定の表示領域に含まれるように表示倍率を算出する。
好ましくは、算出手段は、第2の文書要素の種別が本文の場合には、本文のフォントサイズおよび表示手段の表示解像度に基づいて、表示倍率を算出する。
好ましくは、算出手段は、本文に含まれる文字の表示サイズが所定の閾値以上となるように、表示倍率を調整する。
好ましくは、検出手段は、属性情報に基づいて、第1の文書要素の種別に応じた解析を行なうことで、第2の文書要素を検出する。
好ましくは、検出手段は、第1の文書要素の種別が章見出しの場合には、種別が本文である文書要素のうち後続の要素を第2の文書要素として検出する。
好ましくは、検出手段は、第1の文書要素の種別がキャプションの場合には、種別が図、表または写真である文書要素のうち位置が近接する要素を、第2の文書要素として検出する。
好ましくは、検出手段は、第1の文書要素の種別が手書きの場合には、位置が近接する他要素を検出し、検出した他要素の種別に応じて、特定の種別以外の種別の文書要素を第2の文書要素として検出する。
この発明のさらに他の局面に従う文書処理方法は、文書データを構成する複数の文書要素から、特定の種別の第1の文書要素を抽出するステップと、複数の文書要素の文書構造を解析することにより、第1の文書要素ごとに、第1の文書要素を説明する文書要素である第2の文書要素を検出するステップと、検出された各第2の文書要素の領域のサイズ情報に基づいて、第1の文書要素ごとに、文書データを表示する際の表示倍率を算出するステップと、算出された表示倍率を、各第1の文書要素の位置を含む属性情報に対応付けて、付属情報を生成するステップと、生成された付属情報を文書データに付加することで電子化文書を生成するステップとを備える。
この発明のさらの他の局面に従う文書処理方法は、文書データを表示するステップと、ユーザより、文書データを構成する複数の文書要素のうち表示すべき第1の文書要素の指定を受け付けるステップと、複数の文書要素の文書構造を解析することにより、指定された第1の文書要素を説明する文書要素である第2の文書要素を検出するステップと、検出された第2の文書要素の領域のサイズ情報に基づいて、文書画像を表示する際の表示倍率を算出するステップと、第1の文書要素の位置が表示されるように文書データの表示を切替える処理を行なう表示切替ステップとを備え、表示切替ステップは、文書データの表示倍率が算出された表示倍率になるように、文書データを表示するステップを含む。
この発明のさらに他の局面に従う文書処理プログラムは、上記記載の文書処理方法をコンピュータに実行させる。
本発明によると、第1の文書要素(見出し要素)が説明する第2の文書要素を自動的に検出して、第2の文書要素の領域のサイズ情報に応じて個別に表示倍率が算出される。そのため、ユーザの手間を要することなく、第1の文書要素が説明する内容を見やすくすることができる。
本発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰返さない。
[実施の形態1]
<構成について>
(全体システム構成)
図1は、本発明の実施の形態1に従う文書処理装置を含むシステムの概略構成図である。本実施の形態においては、代表的に、本発明に係る文書処理装置を搭載するMFP(Multi Function Peripheral)について説明する。なお、本発明に係る文書処理装置は、MFPに限らず、PC(Personal Computer)、複写機、ファクシミリ装置、スキャナ装置などにも適用可能である。
図1を参照して、本実施の形態に従うMFP1は、原稿300を読取るための画像読取部104と、紙媒体などへの印刷処理を行なうためのプリント部106とを含む。
特に、本実施の形態に従うMFP1は、画像読取部104で原稿300を読取ることで文書画像を取得し、この文書画像を含む電子化文書を生成する。この際、MFP1は、読取った文書画像に含まれる文書要素に関する付属情報を生成し、読取った文書画像に付属情報を付加して、電子化文書400を生成する。代表的に、電子化文書400にはPDF(Portable Document Format)などのフォーマットを採用できる。
本明細書において「文書要素」とは、文書を構成する記述要素である。「付属情報」は、「メタデータ(meta data)」とも称され、本実施の形態においては、読取られた文書画像に含まれる文書要素のうち、しおりを付加するべく所定の選別条件を満たすものの属性情報(少なくとも文書画像内における位置を含む)を特定するための情報である。付属情報は、特定の種別の文書要素の属性情報の他に、文書要素についての補足的コメントをさらに含む「注釈」などを含んでもよい。また、付属情報に、対応する文書要素のサムネイル(縮小画像)などを含めてもよい。
特定の種別の文書要素の文書内の位置は、文書画像が表示される際に閲覧ナビゲート情報として表示される。「閲覧ナビゲート情報」とは、ユーザによる電子化文書に含まれる文書画像の閲覧を支援するための情報であり、より具体的には、文書画像における特定の種別の文書要素の位置を特定するための情報、すなわち、しおり(Book Mark)の位置を特定するための情報である。閲覧ナビゲート情報としては、たとえばしおりアイコンが採用される。しおりアイコンが指定されることにより、文書画像を描画する際のディスプレイ上の位置が指定可能となる。具体的には、しおりアイコンが選択されて、しおりが付加された文書要素の位置(しおり位置)がディスプレイ上の所定の位置に表示されるようにジャンプされる。
MFP1は、生成した電子化文書400を自身の記憶部(図1において不図示)に格納する。また、記憶された電子化文書400を、ネットワークを介してパーソナルコンピュータPC1,PC2,PC3(以下、「パーソナルコンピュータPC」とも総称する)に送信したりする。代表的な使用形態として、MFP1が設置されている同一のオフィス内に敷設されたネットワークであるLAN(Local Area Network)に接続されているパーソナルコンピュータPC1,PC2に対しては、MFP1から電子化文書400が直接的に送信される。一方、LANとWAN(Wide Area Network)との接続点には、サーバ装置SRVが設けてあり、MFP1とは離れたオフィスにあるパーソナルコンピュータPC3などに対しては、MFP1からサーバ装置SRVを介して電子化文書400が送信される。ここで、サーバ装置SRVは代表的に、メールサーバ、FTP(File Transfer Protocol)サーバ、Webサーバ、SMBサーバなどからなる。
画像読取部104は、原稿をセットするための戴荷台と、原稿台ガラスと、戴荷台にセットされた原稿を原稿台ガラスに自動的に一枚ずつ搬送する搬送部と、読取られた原稿を排出するための排出台とを含む(いずれも図示しない)。これにより、複数枚の原稿を連続的に読取って、一つの電子化文書として生成することができる。
(MFP1の概略構成)
図2は、本発明の実施の形態1に従うMFP1における概略の機能構成を示すブロック図である。
図2を参照して、MFP1の機能構成としては、制御部100と、メモリ部102と、画像読取部104と、プリント部106と、通信インターフェイス部108と、操作パネル部110と、記憶部112とを含む。
制御部100は、代表的にCPU(Central Processing Unit)などの演算装置から構
成され、プログラムを実行することで本実施の形態に従う文書処理を実現する。メモリ部102は、代表的にDRAM(Dynamic Random Access Memory)などの揮発性の記憶装置であり、制御部100で実行されるプログラムやプログラムの実行に必要なデータなどを保持する。通信インターフェイス部108は、代表的に、ネットワーク(たとえば、図1に示すLAN)を介してパーソナルコンピュータPC(図1)との間でデータを送受信するための部位であり、たとえば、LANアダプタおよびそれを制御するドライバソフトなどを含む。プリント部106は、プリント処理を行なうための部位であり、プリント処理に係るハードウェア構成に加えて、各部の作動を制御するための制御装置をも含む。記憶部112は、代表的にハードディスク装置やフラッシュメモリなどの不揮発性の記憶装置であり、制御部100の動作のためのプログラムや制御部100で生成された電子化文書400などを格納する。
操作パネル部110の外観例を図3に示す。操作パネル部110は、液晶表示装置やタッチパネルなどから構成される表示パネル110aと、ストップボタン110bと、スタートボタン110cと、英数キーなどを含む操作ボタン110dとを備えている。
なお、本実施の形態では、表示機能と指示の入力機能とを兼ね備えた操作パネル部110を備えることとしたが、これに代えて、表示部とハードウェアボタンを含む入力部との両方を備えることとしてもよい。
(パーソナルコンピュータの構成)
図4は、本発明の実施の形態1に従うパーソナルコンピュータPCの概略のハードウェア構成を示す模式図である。
図4を参照して、パーソナルコンピュータPCは、オペレーティングシステム(OS:Operating System)を含む各種プログラムを実行するCPU(Central Processing Unit
)201と、CPU201でのプログラムの実行に必要なデータを一時的に記憶するメモリ部213と、CPU201で実行されるプログラムを不揮発的に記憶するハードディスク部(HDD:Hard Disk Drive)211とを含む。また、ハードディスク部211には
、MFP1で生成された電子化文書400を表示するための閲覧アプリケーションプログラム(以下、「ビューア」という)が記憶されており、このようなプログラムは、FDDドライブ217またはCD−ROMドライブ215によって、それぞれフレキシブルディスク217aまたはCD−ROM(Compact Disk-Read Only Memory)215aなどから読取られる。
CPU201は、キーボードやマウスなどからなる入力部209を介してユーザからの指示を受取るとともに、プログラムの実行によって生成される画面出力をディスプレイ部205へ出力する。また、CPU201は、LANカードなどからなる通信インターフェイス部207を介して、LANやWANに接続されたMFP1やサーバ装置SRV(図1)から電子化文書400を取得し、ハードディスク部211などに格納する。また、上述の各部は、内部バス203を介して相互にデータを授受する。
なお、電子化文書400は、パーソナルコンピュータPC上で閲覧されることとするが、携帯電話などの携帯端末において閲覧されてもよい。その場合、携帯端末の構成は、図4においてFDDドライブ217やCD−ROMドライブ215などを取り除いたものとほぼ等価であるので、詳細な説明は繰返さない。
また、MFP1のたとえばメモリ部102に上記ビューアが記憶され、MFP1において、電子化文書400が閲覧されてもよい。
(MFPの機能構成)
図5は、本発明の実施の形態1に従うMFP1の機能構成を示す機能ブロック図である。
図5を参照して、MFP1の機能構成としては、画像読取部104と、画像バッファ部12と、圧縮処理部14と、電子化文書生成部16と、見出し要素抽出部20と、説明要素検出部22と、表示倍率算出部24と、しおりデータ生成部26と、送信部28と、記憶部112とを含む。
画像読取部104は、原稿300を読取って文書画像を取得し、その文書画像を画像バッファ部12へ出力する。画像バッファ部12は、画像読取部104が逐次的に出力する文書画像のデータを一時的に格納する部位であり、一旦格納した文書画像を圧縮処理部14および見出し要素抽出部20に出力する。圧縮処理部14は、画像バッファ部12から出力される文書画像を圧縮処理して、電子化文書生成部16へ出力する。この圧縮処理による圧縮度合いは、生成される電子化文書の大きさや、要求される文書画像の解像度などに応じて変化させてもよく、また圧縮処理はJPEG(Joint Photographic Experts Group)などの非可逆変換であってもよい。なお、高解像度が要求される場合などには、圧縮処理を省略してもよい。
見出し要素抽出部20は、画像バッファ部12から出力される文書画像に含まれる見出し要素および関連要素を抽出する。つまり、見出し要素抽出部20は、文書画像を解析し、文書画像中の以下の文書要素、すなわち、「タイトル(表題)」、「セクション(章)見出し」、「図」、「表」、「写真」、「キャプション」、「手書き」、および「本文」を検出する。また、その過程において、見出し要素抽出部20は、「段(段組)」を検出し、さらに、各段の「行方向」、および、各段の「接続情報」を検出する。
「見出し要素」とは、しおりを付加するべく特定の種別の文書要素であり、上記種別のうち、少なくともタイトルおよびセクション見出しを含み、好ましくは、キャプションおよび手書きをさらに含む。本実施の形態では、見出し要素はこれら4つの種別の文書要素であることとする。なお、ここでは、見出し要素の種別は、予め製造時に定められていることを前提にするが、ユーザが個別に所望の種別を選択できてもよい。
「関連要素」とは、見出し要素以外の要素である。
ここで、各種の文書要素の検出手法について、簡単に説明する。
「タイトル」は、文書画像内に配置される文字の文字サイズや隣接する領域との間隔に基づいて抽出することができる。「セクション見出し」は、「本文」との関係(「本文」に先行する領域)や、文書画像内におけるオフセット位置やインデント位置などに基づいて抽出することができる。「図」は、テキストブロック以外の領域の2値パターンをとることにより抽出することができる。「表」は、罫線とテキストとの組み合わせなどに基づいて抽出することができる。「写真」は、カラーヒストグラムにおける画像の濃淡変化の度合いなどに基づいて抽出することができる。「キャプション」は、図,表,写真に対して上または下の近傍にある孤立したテキストブロックとして抽出することができる。「手書き」は、字体や行の乱れ具合などに基づいて検出することができる。
なお、文書画像内の共通の領域に対して、複数の文書要素が重複して抽出されてもよい。
段はたとえば、「図書の電子のための文書認識技術(鎌田 博、藤本 克仁、黒川 浩司)、雑誌FUJITSU、VOL.49,No.6、1998」に開示された公知技術で検出することができる。各段の接続情報は、各段が、文脈等からどの段に接続されるべきかを示す情報(すなわち段の順序を示す情報)であり、たとえば特開平10−40248号公報に開示される公知の技術で検出することができる。行方向の検出は、周知の方法で検出することができる。
見出し要素抽出部20は、このような文書要素の抽出に際して、各文書要素の文書画像内における位置も抽出する。そして、抽出した各段の接続情報が示す段の接続順序および各段の位置情報に基づいて、文書要素の管理情報(以下、「文書要素管理情報」という)を構造化して記述する。文書要素管理情報は、少なくとも、文書要素の位置情報、種別情報、文書要素の順序情報を含み、好ましくは行方向の情報をさらに含む。本実施の形態では、検出された段の接続順序に従い文書要素を構造化することで、文書要素管理情報に文書要素の順序情報を含める。
説明要素検出部22は、抽出された複数の文書要素(見出し要素および関連要素)の文書構造を解析することにより、見出し要素ごとに、見出し要素が説明する内容を示す説明要素(説明対象の文書要素)を検出する。つまり、見出し要素抽出部20により判断された文書要素間の文書構造を解析することで、見出し要素ごとに、上記関連要素のうちから、見出し要素の位置に対して所定の関係にある文書要素を説明要素として検出する。なお、本実施の形態では、見出し要素抽出部20により段の接続情報等を用いて文書要素間の文書構造が判断されることとしたが、説明要素検出部22にて判断されてもよい。
表示倍率算出部24は、説明要素の領域のサイズ情報(代表的に、行方向のサイズ)に基づいて、見出し要素ごとに、文書画像を表示する際の表示倍率を算出する。すなわち、ユーザにしおりが付加された文書要素が指定された場合に、指定されたしおり位置にジャンプする際の画像データの表示倍率を個々に算出する。具体的には、文書画像が閲覧される際に、説明要素の領域の行方向が仮想表示領域に含まれるように(より特定的には、ぴったりと嵌め込まれるように)表示倍率を算出する。
しおりデータ生成部26は、見出し要素抽出部20で抽出された見出し要素の属性情報すなわち、要素の種別、位置情報および行方向情報と、表示倍率算出部24にて算出された見出し要素ごとの表示倍率とに基づいて、しおりデータ(付属情報)を生成する。そして、しおりデータ生成部26は、生成したしおりデータを電子化文書生成部16へ出力する。
電子化文書生成部16は、圧縮処理部14からの(圧縮された)文書画像に、しおりデータ生成部26からのしおりデータを付加することで、電子化文書を生成する。電子化文書生成部16は、生成した電子化文書をユーザによる設定などに応じて、記憶部112へ格納し、または送信部28へ出力する。送信部28は、通信インターフェイス部108によって実現され、電子化文書生成部16で生成された電子化文書をLANなどのネットワークを介して、パーソナルコンピュータPC(図1)などへ送信する。
なお、図5に示した各機能ブロックの動作は、メモリ部102中に格納されたソフトウェアを実行することで実現されてもよいし、少なくとも1つについては、ハードウェアで実現されてもよい。
<動作について>
図6は、本発明の実施の形態1に従う電子化文書の生成処理の具体例を示すフローチャートである。図6のフローチャートに示される処理は、制御部100がプログラムをメモリ部102などに読出して実行し、図5に示される各機能を制御することで実現される。
図5および図6を参照して、まず、画像読取部104が原稿300を読取って文書画像を生成する(ステップS2)。この生成された文書画像は、画像バッファ部12に格納される。そして、圧縮処理部14が、画像バッファ部12に格納された文書画像を圧縮処理して、電子化文書生成部16へ出力する。
一方、見出し要素抽出部20が、画像バッファ部12に格納された文書画像を解析し、文書画像中の上述種別の文書要素(見出し要素および関連要素)を抽出する(ステップS4)。ここで、段の接続も検出することで、段の接続順序に従い文書要素を構造化する。また、段ごとの行方向も検出することで、文書要素ごとの行の方向を特定する。見出し要素抽出部20は、抽出した全ての文書要素についての管理情報を記述する。
図7は、本発明の実施の形態1における文書要素管理情報のデータ構造の一例を示す図である。
図7を参照して、メモリ部102には、文書要素ごとに、7つのデータ欄が設けられ、これらのうち6つのデータ欄に、それぞれ、要素ID、頁番号、領域左上座標、領域右下座標、要素種別、行方向が記録される。残りのデータ欄(説明要素)は、この時点では空欄(NULL)である。
要素IDは、各文書要素を一意に特定するための識別情報である。頁番号は、対応の文書要素が存在するページを特定するための位置情報である。また、領域左上座標および領域右下座標は、対応の文書要素のページ内での領域(矩形)を特定するための位置情報である。領域左上座標および領域右下座標は、対応する文書要素の領域のサイズを特定するための情報でもある。要素種別は、対応する文書要素の種別を特定するための情報である。行方向は、文書要素の行方向(縦/横)を特定するための情報であり、表示倍率の算出に用いられる。
なお、ここでは、文書要素管理情報を表形式で示したが、要素間の関係は本質的には木構造であるので、XML(eXtensible Markup Language)などを使って記述可能である。
再び図6を参照して、説明要素検出部22は、各見出し要素について、関連要素のうちから説明要素を検出し、検出した説明要素の文書IDを対応する見出し要素に関連付けて文書要素管理情報に記憶する(ステップS6)。
図8は、説明要素検出後の文書要素管理情報の内容例を示す図である。
図8を参照して、説明要素が検出されると、見出し要素の要素IDに対応付けて説明要素の要素IDが記録される。具体的には、要素IDが“0”の文書要素が見出し要素(セクション見出し)であり、その説明要素が要素IDが“1”の文書要素(関連要素)である本文であったとする。その場合、要素IDが“0”の7番目のデータ欄である説明要素IDの欄には“1”が記録される。なお、関連要素の説明要素IDの欄は、空欄のままとされる。
ここで、説明要素の検出方法について具体的に説明する。説明要素検出部22は、見出し要素の種別に応じて、以下のような方法により説明要素を検出する。
見出し要素の種別が「タイトル」の場合、説明対象は文書全体であるので、説明要素IDの欄は空欄のままとする。種別が「セクション見出し」の場合、種別が本文である文書要素のうち後続のものを、説明要素として検出する。具体的には、セクション見出しの直後が他のセクション見出し(群)である場合には、それらを辿って、その後に続く最も近接する本文(段)を説明要素として検出する。
種別が「キャプション」の場合には、種別が図、表または写真である文書要素のうち位置が最も近接する要素を、説明要素として検出する。種別が「手書き」の場合には、位置が最も近接する他要素(見出し要素も含む)を検出し、他要素が関連要素(見出し要素以外)であれば、それを説明要素として設定する。これに対し、他要素が見出し要素であれば、さらに、その見出し要素の種別に応じて、上記手法により説明要素を検出する。つまり、最も近接する文書要素がたとえばセクション見出しの場合には、その見出しが説明する要素を説明要素として設定する。
再び図6を参照して、表示倍率算出部24は、説明要素の領域の幅(行方向のサイズ)に基づいて、見出し要素ごとに表示倍率を算出する(ステップS8)。より詳細には、説明要素IDに対応する文書要素の領域左上座標および領域右下座標に基づいて、説明要素の幅を特定し、特定された幅を、所定の仮想表示領域サイズに適合させたときの倍率を算出する。これにより、種別が「セクション見出し」の場合、本文の段幅を、所定の仮想表示領域サイズに適合させたときの倍率が算出される。種別が「キャプション」の場合、検出された図、表、または写真の幅を、所定の仮想表示領域サイズに適合させたときの倍率が算出される。種別が「手書き」の場合、たとえば、本文の段幅、あるいは、図、表、または写真の幅を、所定の仮想表示領域サイズに適合させたときの倍率が算出される。
なお、種別が「タイトル」の場合には、説明要素IDの欄が空欄であるため、説明要素のサイズに基づかず、タイトルが属する頁の頁幅を、所定の仮想表示領域サイズに適合させたときの倍率を算出する。ここでの頁幅は、頁(紙)自体の幅であってもよいし、余白を除いた幅であってもよい。
その後、しおりデータ生成部26は、見出し要素抽出部20が抽出した見出し要素の属性情報、および、表示倍率算出部24が算出した見出し要素ごとの表示倍率の情報に基づいて、しおりデータを生成する(ステップS10)。
続いて、電子化文書生成部16は、圧縮処理部14からの(圧縮された)文書画像に、しおりデータ生成部26からのしおりデータを付加することで、電子化文書400を生成する(ステップS12)。そして、生成された電子化文書400を、ユーザ設定に応じて送信部28または記憶部112に出力する(ステップS14)。具体的には、メール送信およびデータ保存のうち前者がユーザにより選択された場合、宛先を選択させる。そして、選択された宛先(パーソナルコンピュータPC等)に対して電子化文書400を送信する。これに対し、後者がユーザにより選択された場合、データの保存先をユーザに選択させる。そして、選択された保存先に電子化文書400を格納する。なお、保存先は予め設定しておくことで、装置内の記憶部112に保存することも、装置外のサーバSRVなどに保存することも可能である。
以上で、電子化文書の生成処理は終了する。
図9は、本発明の実施の形態1における電子化文書400のデータ構造の一例を示す図である。
図9を参照して、電子化文書400は、ヘッダ部402と、文書画像部404と、しおりデータ部406と、フッタ部408とからなる。ヘッダ部402およびフッタ部408には、電子化文書400の属性についての情報、たとえば作成日時・作成者・著作権情報などが格納される。文書画像部404には、各ページに対応する文書画像が格納される。なお、この文書画像は、上述したように圧縮された状態で格納されてもよい。しおりデータ部406には、文書画像に含まれる見出し要素の属性情報を特定するためのしおりデータが格納される。
図10は、しおりデータ406のデータ構造の一例を示す図である。
図10を参照して、しおりデータには、見出し要素ごとに、しおりID、頁番号、領域左上座標、領域右下座標、要素種別、および表示倍率が格納される。しおりIDは、見出し要素(すなわち、しおりが付加された文書要素)を一意に特定するための識別情報である。頁番号、領域左上座標、領域右下座標および要素種別は、見出し要素の属性情報であり、上述のとおりであるので、説明は繰返さない。表示倍率は、対応する見出し要素の位置にジャンプして文書画像を表示する際の文書画像の表示倍率を特定するための情報である。
<表示処理について>
上述のようなしおりデータが付与された電子化文書を、たとえばクライアントPCで実現される文書画像表示装置において表示する際の処理および表示例について説明する。なお、上述のように、MFP1において文書画像の表示処理が実行されてもよいため、本実施の形態において「文書画像表示装置」は、「文書処理装置」に読み替えることができる。
図11は、本発明の実施の形態1における文書画像表示装置の機能構成を示す機能ブロック図である。
図11を参照して、文書画像表示装置の機能構成としては、記憶部62と、表示部64と、しおり選択部66と、文書読出部72と、しおり抽出部74と、表示切替部76とを含む。記憶部62の機能は、たとえば図4に示したHDD211で実現される。表示部64の機能は、たとえば図4に示したディスプレイ部205で実現される。しおり選択部66の機能は、たとえば図4に示した入力部209で実現される。
記憶部62は、電子化文書400を記憶する。文書読出部72は、ユーザ指示に基づき、記憶部62に記憶された電子化文書400を読出し、電子化文書400に含まれる文書画像部404のたとえば最初の頁の文書画像を表示部64の所定の領域に所定の倍率で表示する。
しおり抽出部74は、電子化文書400からしおりデータ406を抽出し、抽出したしおりデータ406に基づいて、しおりの機能を発揮するためのしおりアイコンを表示部64の所定の領域に表示する。なお、ここでは、しおり位置(しおりが付加された見出し要素の位置)をアイコンで特定することとしたが、しおり位置が特定できればアイコンに限定されない。しおり選択部66は、ユーザよりしおり(しおりアイコン)の選択を受け付ける。
表示切替部76は、しおり選択部66により選択されたしおりの位置が表示されるように文書画像の表示を切替える。その際、表示切替部76は、選択されたしおりに対応する表示倍率に従い、文書画像を表示制御する。これにより、単に、文書画像の表示領域が切替えられるだけでなく、表示倍率が毎回調整されることになる。なお、より具体的には、表示倍率がたとえば1.5倍であるとすると、表示は次のようなものになる。すなわち、頁の幅が仮想表示領域の幅と一致する倍率を100%(1倍)とすると、文書画像が150%(1.5倍)に拡大される。したがって、頁の幅が仮想表示領域をはみ出るため、頁の幅の一部分だけが表示されることになる。つまり、表示倍率が1倍の場合に、文書画像の1ドット×1ドットの領域が“a”ピクセルדa”ピクセルの領域に割り当てられるとすると、表示倍率が1.5倍の場合には、文書画像の1ドット×1ドットの領域は、“1.5a”ピクセルד1.5a”ピクセルの領域に割り当てられるように表示制御される。
なお、図11に示した各機能ブロックの動作は、主に、メモリ部102中に格納されたビューアを実行することで実現されるが、少なくとも1つについては、ハードウェアで実現されてもよい。
以下に、具体的な表示例について図12〜図16を参照しながら説明する。
図12は、見出し要素およびその説明要素を含んだ元の文書画像(1頁目)の一例を示す図である。
図12を参照して、文書画像中、矩形領域401〜409で囲まれた文書要素が見出し要素として抽出されて、しおりが付加されていると仮定する。つまり、矩形領域401〜409がしおり位置を示している。矩形領域401はタイトル、矩形領域402〜406はセクション見出し、矩形領域407はキャプションを示す見出し要素である。これらの矩形領域401〜409は、以下「しおり位置」という。また、説明の簡単のために、全ての文書要素の行方向が横方向(横書き)であると仮定する。
図13は、図12の文書画像を含む電子化文書を最初に表示した際の画面例を模式的に示した図である。
図13を参照して、表示部64(ディスプレイ部205)の第1の表示領域DE1には、複数のしおりアイコン501〜507が表示される。なお、図13には、説明の簡単のために、見出し要素の画像そのものを示している。第2の表示領域DE2には、電子化文書に含まれる文書画像(代表的に第1頁目)が所定の表示倍率(たとえば1倍)で表示される。
これらのしおりアイコン501〜507は、見出し要素の文書内位置を特定する情報を含んでおり、ユーザがしおりアイコンを選択(代表的には、図示しないマウスなどによるクリック動作)すれば、第2の表示領域DE2では、個々に算出済みの表示倍率で、かつ、しおり位置の少なくとも一部が表示されるように文書画像の表示領域が変化(スクロール&拡大/縮小)する。
たとえば、しおりアイコン502がしおり選択部66で選択されたとすると、図14に示すような画面に変化する。図14を参照すると、文書要素602が、しおりアイコン502により特定されるしおり位置402に対応する説明要素であるので、文書要素602の領域の幅(行方向の長さ)が第2の表示領域DE2の横幅(あるいは、横幅より所定サイズ内側)に収まるように表示される。また、たとえば、しおり位置402の領域左上座標のy座標が、第2の表示領域DE2の画面の縦軸(y軸)の所定の位置に一致するように、文書画像が表示される。以降の例においても同様であってよい。
次に、たとえば、しおりアイコン505がしおり選択部66で選択されたとすると、図15に示すような画面に変化する。図15を参照すると、文書要素605が、しおりアイコン505により特定されるしおり位置405に対応する説明要素であるので、文書要素605の領域の幅が第2の表示領域DE2の横幅に収まるように表示される。
さらにたとえば、しおりアイコン507がしおり選択部66で選択されたとすると、図16に示すような画面に変化する。図16を参照すると、文書要素607が、しおりアイコン507により特定されるしおり位置407に対応する説明要素であるので、文書要素607の領域の幅が第2の表示領域DE2の横幅に収まるように表示される。
このように、説明要素の領域の幅に応じて定められた表示倍率に従い文書画像が調整されて表示される(第2の表示領域DE2の横軸(x軸)に割り当てる量が調整される)ため、ユーザは、注目箇所(説明要素の箇所)を閲覧するために、横方向のスクロール操作をしなくてもよいため、快適に文書を閲覧することができる。
また、図15を用いて説明したしおり位置405は、図12に示されるように2段組みの右側の段の上部に位置しているが、しおりアイコン505が選択されると、左側の段は表示されずにしおり位置405および対応する説明要素605のみが表示される。したがって、ユーザは、注目したい部分のみを手間なく容易に閲覧することができる。なお、ここでは便宜上、しおり位置405全体が表示されているが、しおり位置405の行方向の端部が、説明要素605の横幅よりもはみ出していれば、しおり位置405の一部が表示されないことにもなり得る。しかし、ユーザが閲覧したいのは、しおり位置405の内容ではなくその説明箇所であるし、しおり位置405の内容は第1の表示領域DE1に表れているため、しおり位置405の一部が表示されなくても支障をきたすことはない。
上述のように、本実施の形態によると、表示倍率の算出に自動的に検出できる説明要素を用いたので、見出し要素に付加されたしおり位置へジャンプする際の表示倍率を適切に調整することができる。また、ユーザは、閲覧の際の表示倍率を設定したり、行方向へのスクロール操作をする必要がないため、作業効率を高めることができる。
[実施の形態2]
上述の実施の形態1では、電子化文書生成の際に表示倍率が算出され、算出された表示倍率のデータがしおりデータ(付属情報)に埋め込まれるものであった。これに対し、本発明の実施の形態2では、表示倍率は文書画像を表示する際に算出される。
以下に、要素データおよびしおりデータ(しおりが付加された文書要素を特定するためのデータ)を含む付属情報(メタデータ)が付加された電子化文書を処理する例を説明する。なお、本実施の形態に従うシステムの構成については、実施の形態1と同様であるため、ここでも実施の形態1で用いた符号を参照して説明する。
図17は、本発明の実施の形態2における文書処理装置の機能構成を示す機能ブロック図である。なお、ここでは、図11に示した文書画像表示装置と比較するために、便宜上「文書画像表示装置」と示す。図17において、図11の文書画像表示装置と同様の機能を実現する機能ブロックについては同じ符号を付してある。したがって、それらについての説明は繰返さない。
本実施の形態において、文書画像を表示する文書処理装置は、パーソナルコンピュータPCであることとして説明するが、MFP1であってもよい。あるいは、携帯端末、複写機、ファクシミリ装置、スキャナ装置などであってもよい。本実施の形態における文書処理装置は、電子化文書の生成処理および文書画像表示処理の両方を行なう装置であってもよい。
図17を参照して、本実施の形態における文書処理装置は、図11の機能構成に加え、説明要素検出部82および表示倍率算出部84が追加されている。説明要素検出部82および表示倍率算出部84の機能は、それぞれ、基本的には、実施の形態1においてMFP1が備えていた説明要素検出部22および表示倍率算出部24の機能と同様である。また、しおり抽出部74に代えてしおり抽出部74Aが含まれている。
本実施の形態では、記憶部62に電子化文書400Aが記憶されているものとする。
図18は、本発明の実施の形態2における電子化文書400Aのデータ構造の一例を示す図である。図18を参照して、電子化文書400Aは、実施の形態1のしおりデータ406に代えて、要素データ412およびしおりデータ414を含む。つまり、本実施の形態では、要素データ412およびしおりデータ414の内容が文書画像404の付属情報(メタデータ)として記述されている。本実施の形態において、付属情報は、見出し要素だけでなく全ての文書要素の属性情報を含んでいる。
図19は、本発明の実施の形態2に従う電子化文書400Aに含まれる要素データ412のデータ構造の一例を示す図である。図19を参照して、要素データ412は、実施の形態1の図7の文書要素管理情報と同等であり、説明要素の項目を含まない。本実施の形態においても、要素データ412における要素IDが示す番号(0,1,・・・)は、たとえば、文書構造の順序を表わしているものとする。なお、本実施の形態においては、要素データ412は、さらに、(テキストであれば)フォントサイズ、インデントなどの属性を含んでいてもよい。
図20は、本発明の実施の形態2に従う電子化文書400Aに含まれるしおりデータ414のデータ構造の一例を示す図である。図20を参照して、しおりデータ414は、要素データ412に含まれる複数の文書要素のうち、特定の要素(見出し要素)に付けられたタグ情報であり、しおりデータ414により、しおりの位置(領域)が特定される。つまり、しおりが付加された見出し要素の位置が特定される。しおりデータ414は、具体的には、たとえば、しおりIDと要素IDとの2つの項目で構成される。しおりデータ414における要素IDは、要素データ412に含まれる複数の文書要素のうち、見出し要素(所定の種別の文書要素)に対応付けられた要素IDを示す。
このように、本実施の形態では、文書処理装置において、見出し要素の説明要素を検出するため、文書要素を構成する全ての文書要素についての属性情報が、電子化文書400Aの付属情報に含まれている。なお、図19および図20に示したような付属情報を電子化文書に付加する処理は、従来の文書処理装置においても実行されている。
図21は、本発明の実施の形態2に従う文書画像の表示処理を示すフローチャートである。図21のフローチャートに示される処理は、CPU201がプログラム(ビューア)をメモリ部213などに読出して実行し、図17に示される各機能を制御することで実現される。
図21を参照して、文書読出部72は、ユーザからの指示に応じて、記憶部62に記憶された電子化文書400Aより文書画像部404を読出すことで、文書画像ファイルを開く(ステップS102)。続いて、しおり抽出部74Aは、電子化文書400Aの付属情報すなわち、要素データ412およびしおりデータ414を取得することで、しおりの抽出を行なう(ステップS103)。具体的には、しおりが付加された文書要素を特定し、特定された文書要素の位置情報等に基づいて、しおり抽出部74Aは、しおり位置を特定するためのしおりアイコンを生成する。
次に、読み込まれた文書画像と、生成されたしおりアイコンとが閲覧用に表示部64に表示される(ステップS104)。ここでも、たとえば図13に示したような画面が表示される。
次に、しおり選択部66がユーザよりしおりの選択を受け付けると(ステップS106)、説明要素検出部82は、選択されたしおりの説明要素を検出する(ステップS108)。より具体的には、文書要素間の関係構造を解析することにより、選択されたしおりに対応する見出し要素(以下「指定された見出し要素」という)の要素種別に応じて、指定された見出し要素の説明要素を検出する。検出の方法については、上述のとおりであるので、ここでの説明は繰返さない。
続いて、表示倍率算出部84は、検出された説明要素の位置情報(領域左上座標、領域右上座標)および行方向の情報により、表示倍率を算出する(ステップS110)。
表示切替部76は、算出された表示倍率となるように、実施の形態1と同様の手法により文書画像を表示する(ステップS112)。
ステップS106〜S112の処理は、ユーザより終了指示が入力されるまで繰返される(ステップS114)。
上述のように、本実施の形態によると、文書画像を表示する際に、説明要素を検出し、検出した説明要素のサイズ情報に基づいて文書画像の表示倍率を算出するため、文書要素の管理情報が付属情報に含まれていれば、実施の形態1と同様の効果を奏することができる。
また、ここでは、スキャン文書(文書画像)を例に説明したが、上記実施の形態1,2では、一般的な電子文書(WORD文書,HTML(HyperText Markup Language)などのテキスト文書)であっても、本発明の対象とすることができる。つまり、光学的に読取られた文書データだけでなく、テキストの文書データも対象とすることができる。テキスト文書である場合、一旦画像化して上記と同様の処理を行なってもよいし、次のように処理することもできる。すなわち、要素データ412にフォントサイズ、インデントなどの情報が含まれていれば、電子文書を一旦画像化しなくても、文書構造を解析することにより、見出し要素の説明対象と推定される要素を説明要素として検出し、説明要素の幅に基づいて表示倍率を算出することができる。より具体的には、表示されたテキストデータを構成する複数の文書要素のうち、ユーザより表示すべき第1の文書要素の指定を受け付けると、テキストデータの文書構造を解析することにより、指定された第1の文書要素の説明要素を検出することができる。
なお、実施の形態2では、表示倍率を文書画像を表示する際に算出するため、文書処理装置(文書画像表示装置)が備えるディスプレイ(表示部64)の解像度を利用して表示倍率を算出してもよい。つまり、テキストの文書要素については、ディスプレイの解像度および説明要素のフォントサイズ(1行に表示されるピクセル数)から、画面上に1文字が表示される大きさを計算してもよい。
この場合、ビューアは、OS(Operating System)に問い合わせることでディスプレイの解像度を得ることができ、また、フォントサイズについては、テキスト領域を構成する1以上の文字行を切り出し、切り出した行それぞれを囲む複数の矩形領域の幅の平均値を推定値として使用すればよい。
具体的には、たとえば以下の数式により表示倍率が算出可能である。
表示倍率K=(S*R)/F
ただし、R:ディスプレイ解像度(pixel/inch)、F:フォントサイズ(pixel)、S:設定された表示サイズ(inch)。
さらに、このとき、計算した表示倍率(表示サイズ)が所定のしきい値を下回る場合には、表示倍率を調整し、表示倍率をしきい値となるよう自動調整するようにすることもできる。つまり、文字サイズが、所定の文字表示サイズ未満とならないように表示倍率を決定することもできる。これにより、このような調整を行なわない場合に比べて、表示倍率が小さくい結果文字が小さ過ぎて認識できなくなるというような不都合を防止することができる。特に、携帯端末などに搭載されているような表示領域の小さいディスプレイの場合に有効である。
なお、本発明の文書処理装置が行なう、電子化文書生成方法および文書画像表示方法を、それぞれプログラムとして提供することもできる。このようなプログラムは、CD−ROM(Compact Disc-ROM)などの光学媒体や、メモリカードなどのコンピュータ読取り可能な記録媒体にて記録させて、プログラム製品として提供することもできる。また、ネットワークを介したダウンロードによって、プログラムを提供することもできる。
なお、本発明にかかるプログラムは、コンピュータのオペレーティングシステム(OS)の一部として提供されるプログラムモジュールのうち、必要なモジュールを所定の配列で所定のタイミングで呼出して処理を実行させるものであってもよい。その場合、プログラム自体には上記モジュールが含まれずOSと協働して処理が実行される。このようなモジュールを含まないプログラムも、本発明にかかるプログラムに含まれ得る。
また、本発明にかかるプログラムは他のプログラムの一部に組込まれて提供されるものであってもよい。その場合にも、プログラム自体には上記他のプログラムに含まれるモジュールが含まれず、他のプログラムと協働して処理が実行される。このような他のプログラムに組込まれたプログラムも、本発明にかかるプログラムに含まれ得る。
提供されるプログラム製品は、ハードディスクなどのプログラム格納部にインストールされて実行される。なお、プログラム製品は、プログラム自体と、プログラムが記憶された記憶媒体とを含む。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
本発明の実施の形態1に従う文書処理装置を含むシステムの概略構成図である。 本発明の実施の形態1に従うMFPにおける概略の機能構成を示すブロック図である。 本発明の実施の形態1に従うMFPが備える操作パネル部の外観例を示す図である。 本発明の実施の形態1に従うパーソナルコンピュータの概略のハードウェア構成を示す模式図である。 本発明の実施の形態1に従うMFPの機能構成を示す機能ブロック図である。 この発明の実施の形態1に従う電子化文書の生成処理の具体例を示すフローチャートである。 本発明の実施の形態1における文書要素管理情報のデータ構造の一例を示す図である。 本発明の実施の形態1において、説明要素検出後の文書要素管理情報の内容例を示す図である。 本発明の実施の形態1における電子化文書のデータ構造の一例を示す図である。 本発明の実施の形態1におけるしおりデータのデータ構造の一例を示す図である。 本発明の実施の形態1における文書画像表示装置の機能構成を示す機能ブロック図である。 見出し要素およびその説明要素を含んだ元の文書画像(1頁目)の一例を示す図である。 図12の文書画像を含む電子化文書を最初に表示した際の画面例を模式的に示した図である。 しおりアイコンが選択された場合の第1の画面表示例を示す図である。 しおりアイコンが選択された場合の第2の画面表示例を示す図である。 しおりアイコンが選択された場合の第3の画面表示例を示す図である。 本発明の実施の形態2における文書画像表示装置の機能構成を示す機能ブロック図である。 本発明の実施の形態2における電子化文書のデータ構造の一例を示す図である。 本発明の実施の形態2に従う電子化文書に含まれる要素データのデータ構造の一例を示す図である。 本発明の実施の形態2に従う電子化文書に含まれるしおりデータのデータ構造の一例を示す図である。 本発明の実施の形態2に従う文書画像の表示処理を示すフローチャートである。
符号の説明
12 画像バッファ部、14 圧縮処理部、16 電子化文書生成部、20 要素抽出部、22 説明要素検出部、24 表示倍率算出部、26 しおりデータ生成部、28 送信部、62 記憶部、64 表示部、66 しおり選択部、72 文書読出部、74,74A しおり抽出部、76 表示切替部、82 説明要素検出部、84 表示倍率算出部、100 制御部、102 メモリ部、104 画像読取部、106 プリント部、108 通信インターフェイス部、110 操作パネル部、112 記憶部、201 CPU、203 内部バス、205 ディスプレイ部、207 通信インターフェイス部、209 入力部、211 ハードディスク部、213 メモリ部、215 CD−ROMドライブ、217 FDDドライブ、217a フレキシブルディスク、300 原稿、400,400A 電子化文書、PC1,PC2,PC3 パーソナルコンピュータ、SRV サーバ。

Claims (16)

  1. 文書データを構成する複数の文書要素から、特定の種別の第1の文書要素を抽出するための抽出手段と、
    前記複数の文書要素の文書構造を解析することにより、前記第1の文書要素ごとに、前記第1の文書要素を説明する文書要素である第2の文書要素を検出するための検出手段と、
    検出された各前記第2の文書要素の領域のサイズ情報に基づいて、前記第1の文書要素ごとに、前記文書データを表示する際の表示倍率を算出するための算出手段と、
    算出された前記表示倍率を、各前記第1の文書要素の位置を含む属性情報に対応付けて、付属情報を生成するための第1の生成手段と、
    生成された前記付属情報を前記文書データに付加することで電子化文書を生成するための第2の生成手段とを備える、文書処理装置。
  2. 前記文書データは、光学的に読取られた文書画像であり、
    前記抽出手段は、さらに、前記文書画像を構成する段を検出し、前記段単位で、前記文書要素を抽出する、請求項1に記載の文書処理装置。
  3. 前記サイズ情報は、領域の行方向のサイズを含み、
    前記算出手段は、前記第2の文書要素の領域の行方向の幅が仮想表示領域に含まれるように前記表示倍率を算出する、請求項1または2に記載の文書処理装置。
  4. 前記算出手段は、前記第1の文書要素の種別が表題の場合には、表題の属する頁の幅が前記仮想表示領域に含まれるように前記表示倍率を算出する、請求項3に記載の文書処理装置。
  5. 文書データを表示するための表示手段と、
    ユーザより、前記文書データを構成する複数の文書要素のうち表示すべき第1の文書要素の指定を受け付けるための操作手段と、
    前記複数の文書要素の文書構造を解析することにより、指定された前記第1の文書要素を説明する文書要素である第2の文書要素を検出するための検出手段と、
    検出された前記第2の文書要素の領域のサイズ情報に基づいて、前記文書画像を表示する際の表示倍率を算出するための算出手段と、
    前記第1の文書要素の位置が表示されるように前記文書データの表示を切替える処理を行なうための表示切替手段とを備え、
    前記表示切替手段は、前記文書データの表示倍率が前記算出手段により算出された前記表示倍率になるように、前記文書データを前記表示手段に表示する、文書処理装置。
  6. 前記文書データは、光学的に読取られた文書画像であり、
    前記表示手段は、前記文書データとともに、前記複数の文書要素のうちの特定の種別の複数の前記第1の文書要素の位置を特定するための閲覧ナビゲート情報を表示する、請求項5に記載の文書処理装置。
  7. 前記サイズ情報は、領域の行方向のサイズを含み、
    前記算出手段は、前記第2の文書要素の領域の行方向が所定の表示領域に含まれるように前記表示倍率を算出する、請求項5または6に記載の文書処理装置。
  8. 前記算出手段は、前記第2の文書要素の種別が本文の場合には、前記本文のフォントサイズおよび前記表示手段の表示解像度に基づいて、前記表示倍率を算出する、請求項5または6に記載の文書処理装置。
  9. 前記算出手段は、前記本文に含まれる文字の表示サイズが所定の閾値以上となるように、前記表示倍率を調整する、請求項8に記載の文書処理装置。
  10. 前記検出手段は、前記属性情報に基づいて、前記第1の文書要素の種別に応じた解析を行なうことで、前記第2の文書要素を検出する、請求項1〜9のいずれかに記載の文書処理装置。
  11. 前記検出手段は、前記第1の文書要素の種別が章見出しの場合には、種別が本文である文書要素のうち後続の要素を前記第2の文書要素として検出する、請求項10に記載の文書処理装置。
  12. 前記検出手段は、前記第1の文書要素の種別がキャプションの場合には、種別が図、表または写真である文書要素のうち位置が近接する要素を、前記第2の文書要素として検出する、請求項10または11に記載の文書処理装置。
  13. 前記検出手段は、前記第1の文書要素の種別が手書きの場合には、位置が近接する他要素を検出し、検出した他要素の種別に応じて、前記特定の種別以外の種別の文書要素を前記第2の文書要素として検出する、請求項10〜12のいずれかに記載の文書処理装置。
  14. 文書データを構成する複数の文書要素から、特定の種別の第1の文書要素を抽出するステップと、
    前記複数の文書要素の文書構造を解析することにより、前記第1の文書要素ごとに、前記第1の文書要素を説明する文書要素である第2の文書要素を検出するステップと、
    検出された各前記第2の文書要素の領域のサイズ情報に基づいて、前記第1の文書要素ごとに、前記文書データを表示する際の表示倍率を算出するステップと、
    算出された前記表示倍率を、各前記第1の文書要素の位置を含む属性情報に対応付けて、付属情報を生成するステップと、
    生成された前記付属情報を前記文書データに付加することで電子化文書を生成するステップとを備える、文書処理方法。
  15. 文書データを表示するステップと、
    ユーザより、前記文書データを構成する複数の文書要素のうち表示すべき第1の文書要素の指定を受け付けるステップと、
    前記複数の文書要素の文書構造を解析することにより、指定された前記第1の文書要素を説明する文書要素である第2の文書要素を検出するステップと、
    検出された前記第2の文書要素の領域のサイズ情報に基づいて、前記文書画像を表示する際の表示倍率を算出するステップと、
    前記第1の文書要素の位置が表示されるように前記文書データの表示を切替える処理を行なう表示切替ステップとを備え、
    前記表示切替ステップは、前記文書データの表示倍率が算出された前記表示倍率になるように、前記文書データを表示するステップを含む、文書処理方法。
  16. 請求項14または15に記載の文書処理方法をコンピュータに実行させる、文書処理プログラム。
JP2008229617A 2008-09-08 2008-09-08 文書処理装置、文書処理方法および文書処理プログラム Withdrawn JP2010061623A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008229617A JP2010061623A (ja) 2008-09-08 2008-09-08 文書処理装置、文書処理方法および文書処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008229617A JP2010061623A (ja) 2008-09-08 2008-09-08 文書処理装置、文書処理方法および文書処理プログラム

Publications (1)

Publication Number Publication Date
JP2010061623A true JP2010061623A (ja) 2010-03-18

Family

ID=42188309

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008229617A Withdrawn JP2010061623A (ja) 2008-09-08 2008-09-08 文書処理装置、文書処理方法および文書処理プログラム

Country Status (1)

Country Link
JP (1) JP2010061623A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170051905A (ko) * 2015-11-03 2017-05-12 삼성전자주식회사 전자 장치 및 그의 동작 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170051905A (ko) * 2015-11-03 2017-05-12 삼성전자주식회사 전자 장치 및 그의 동작 방법
KR102479448B1 (ko) * 2015-11-03 2022-12-21 삼성전자주식회사 전자 장치 및 그의 동작 방법

Similar Documents

Publication Publication Date Title
US20070279437A1 (en) Method and apparatus for displaying document image, and information processing device
JP4369785B2 (ja) マルチメディア書類を管理するシステム、mfp、集合サーバ及び方法
JP4572084B2 (ja) カバーシートを印刷する装置及び方法
JP2006350867A (ja) 文書処理装置、文書処理方法、プログラム及び情報記録媒体
US7962846B2 (en) Organization of annotated clipping views
JP2007286864A (ja) 画像処理装置、画像処理方法、プログラムおよび記録媒体
WO2012147485A1 (ja) 文書ファイル表示装置、方法およびプログラム
JP2010072842A (ja) 画像処理装置および画像処理方法
JP5176416B2 (ja) 文書処理装置、文書処理方法、および文書処理プログラム
JP2010086151A (ja) データ生成装置、スキャナ、及びコンピュータプログラム
JP2008052496A (ja) 画像表示装置、画像表示方法、プログラムおよび記録媒体
JP2009169675A (ja) 文書処理装置、文書処理方法および文書処理プログラム
JP2008234147A (ja) 文書画像表示装置、文書画像表示方法及び文書画像表示プログラム
JP5194995B2 (ja) 文書処理装置、文書サマリ作成方法および文書サマリ作成プログラム
US8582148B2 (en) Image processing apparatus and image processing method
JP5336759B2 (ja) 画像出力装置及び画像出力方法
JP4177325B2 (ja) 画像処理装置、画像処理プログラム及び画像処理方法
JP5098614B2 (ja) 文章処理装置の制御方法および文章処理装置
JP6322086B2 (ja) 表示制御装置、表示装置、プログラム、記録媒体
JP2010061623A (ja) 文書処理装置、文書処理方法および文書処理プログラム
JP5205821B2 (ja) 文書処理方法、文書処理プログラム、および文書処理装置
JP4501731B2 (ja) 画像処理装置
JP3897772B2 (ja) ファイル名作成装置及びファイル名作成プログラム
JP2010044498A (ja) 画像処理装置
JP5298484B2 (ja) 文書処理装置

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20111206