JP2009266009A - 文書処理装置、文書サマリ作成方法および文書サマリ作成プログラム - Google Patents

文書処理装置、文書サマリ作成方法および文書サマリ作成プログラム Download PDF

Info

Publication number
JP2009266009A
JP2009266009A JP2008115783A JP2008115783A JP2009266009A JP 2009266009 A JP2009266009 A JP 2009266009A JP 2008115783 A JP2008115783 A JP 2008115783A JP 2008115783 A JP2008115783 A JP 2008115783A JP 2009266009 A JP2009266009 A JP 2009266009A
Authority
JP
Japan
Prior art keywords
document
image
unit
reference line
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008115783A
Other languages
English (en)
Other versions
JP5194995B2 (ja
Inventor
Koji Fujiwara
浩次 藤原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Business Technologies Inc
Original Assignee
Konica Minolta Business Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Business Technologies Inc filed Critical Konica Minolta Business Technologies Inc
Priority to JP2008115783A priority Critical patent/JP5194995B2/ja
Publication of JP2009266009A publication Critical patent/JP2009266009A/ja
Application granted granted Critical
Publication of JP5194995B2 publication Critical patent/JP5194995B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Input (AREA)

Abstract

【課題】見出し等の階層レベルの判定処理を行なうことなく、見出し等の階層レベルを反映したサマリ画像を生成することのできる文書処理装置、文書サマリ作成方法および文書サマリ作成プログラムを提供すること。
【解決手段】文書処理装置は、段のレイアウトに基づいて、文書画像の頁ごとに、段の行方向に垂直な方向の少なくとも1つのレイアウト基準線を設定する(S216)。そして、文書処理装置は、所定の種別の文書要素に対応するサマリ領域を含む部分領域を、設定されたレイアウト基準線を基準として切出す(S218)。文書処理装置は、このようにして切出された部分領域を、所定の要素基準線を基準として所定の画像に配置することで、サマリ画像を生成する。
【選択図】図12

Description

本発明は、文書処理装置、文書サマリ作成方法および文書サマリ作成プログラムに関し、特に、文書画像から当該文書画像のサマリを作成する文書処理装置、文書サマリ作成方法および文書サマリ作成プログラムに関する。
紙原稿などに記載された文書を電子文書に変換して管理する文書管理システムが実用化されている。このような文書管理システムでは、スキャナ装置などを用いて原稿を読取ることで文書画像を生成し、これらの文書画像から電子文書を生成する。
しかしながら、目次のない、または、目次頁が紛失された分厚いマニュアルなどの紙文書をスキャンした場合、解像度が荒い、あるいは、一度に見れる範囲が限定される、などのユーザインターフェイス上の理由から、一般的には、元の紙文書に比べ、電子文書から目的の場所を見つけるのは難しい。しかし、そういった文書画像についても、省スペースのために電子文書のまま保存しておきたいという要望もある。そのため、文書画像からすばやく目的の場所を探し出すための様々な方法が提案されている。
たとえば、特許文献1には、原稿の文書画像から所望の文書要素の箇所のみを取り出して構成したサマリ文書画像や目次文書画像を作成する発明が開示されている。当該文献において、入力された文書画像が複数の矩形の領域(文書要素として意味のある塊)に分割され、分割された複数の領域から、所望の要素に対応する領域が抽出される。そして、抽出された領域の部分画像が所定の座標位置に順に配置される。
また、特許文献2には、多様な形態の印刷文書をOCR(Optical Character Recognition)解析して、そのような印刷文書からXMLやHTML等でタグ付けされた構造化文書を高精度に生成する発明が開示されている。当該文献において、見出しの階層レベルは、章見出しや箇条書きの先頭に付与される番号や記号の文字列を解析することにより判定される。
特開平5−342326号公報 特開2005−43990号公報
しかしながら、特許文献1の発明では、切り出された部分画像(タイトルやアブストラクト)が順に配置されるのみで、見出しの階層レベルに対する考慮はなされていない。
また、特許文献2の発明では、見出しの階層レベルが考慮されているものの、見出しの階層レベルを判定しなければならず、処理が複雑となる。
あるいは、見出し等の階層レベルをインデント幅により簡便に判別しようとすることもできるが、そのような場合、頁間でスキャン位置がずれてしまうと、階層レベルを正確に判別できない恐れがある。
本発明は、上記のような問題を解決するためになされたものであって、その目的は、見出し等の階層レベルの判定処理を行なうことなく、見出し等の階層レベルを反映したサマリ画像を生成することのできる文書処理装置、文書サマリ作成方法および文書サマリ作成プログラムを提供することである。
この発明のある局面に従う文書処理装置は、文書画像から文書画像のサマリを作成する文書処理装置であって、文書画像から、所定の種別の文書要素を抽出するための抽出手段と、文書画像から、頁ごとに段を検出するための検出手段と、段のレイアウトに基づいて、頁ごとに、段の行方向に垂直な方向の少なくとも1つのレイアウト基準線を設定するための線設定手段と、抽出された所定の種別の文書要素に対応するサマリ領域を含む部分領域を、レイアウト基準線を基準として切出すための切出手段と、所定の画像に、画像における所定の要素基準線を基準として部分領域を配置することで、サマリを表わす画像であるサマリ画像を生成するためのサマリ生成手段とを備える。
好ましくは、切出手段は、レイアウト基準線を端部として部分領域を切出し、サマリ生成手段は、所定の要素基準線に沿って、部分領域を順に配置する。
あるいは、切出手段は、サマリ領域を含む最小矩形を部分領域として切出すとともに、部分領域とレイアウト基準線との距離を部分領域ごとに検出し、サマリ生成手段は、所定の要素基準線の位置から、検出された距離に応じて部分領域をシフトさせて画像に配置することが好ましい。
好ましくは、頁間でのレイアウト基準線のずれを補正するための処理を行なう補正処理手段をさらに備える。
好ましくは、補正処理手段は、頁間で、前記段における本文領域の基準位置を整合させるための整合手段を含む。
好ましくは、所定の条件に基づいて、頁ごとに、複数の段をグループ化して少なくとも1つの仮想矩形を設定するための矩形設定手段をさらに備え、線設定手段は、仮想矩形ごとにレイアウト基準線を設定する。
好ましくは、線設定手段は、仮想矩形における行方向に垂直な、行頭側の辺をレイアウト基準線として設定する。
好ましくは、文書画像を含む第1の電子文書と、サマリ画像を含む第2の電子文書とを別々に生成するための文書生成手段と、第1の電子文書および第2の電子文書を記憶するための記憶手段とをさらに備える。
好ましくは、部分領域ごとに文書画像の対応する箇所と関連付けるための閲覧支援情報を生成して、閲覧支援情報をサマリ画像に付加するための付加手段をさらに備え、閲覧支援情報は、対応する第1の電子文書を特定するための文書特定情報、および、部分領域ごとの文書画像中の対応している箇所を示す位置情報を含む。
好ましくは、文書画像とサマリ画像とを含む電子文書を生成するための文書生成手段と、電子文書を記憶するための記憶手段とをさらに備える。
好ましくは、部分領域ごとに文書画像の対応する箇所と関連付けるための閲覧支援情報を生成して、閲覧支援情報をサマリ画像に付加するための付加手段をさらに備え、閲覧支援情報は、部分領域ごとの文書画像中の対応している箇所を示す位置情報を含む。
好ましくは、ユーザからの指示に基づき、抽出手段により抽出された所定の種別の文書要素を修正するための修正手段をさらに備え、切出手段は、修正手段による修正後の文書要素の領域をサマリ領域として切出す。
好ましくは、修正手段は、文書画像よりユーザ所望の領域の指定を受付ける指定手段を含み、切出手段は、指定手段により指定された領域をサマリ領域として切出す。
好ましくは、サマリ画像を文書画像とは別に出力するか、サマリ画像を文書画像と合成して出力するかの選択をユーザより受付けるための選択手段と、選択手段により別に出力することが選択された場合に、文書画像を含む第1の電子文書と、サマリ画像を含む第2の電子文書とを生成するための第1の文書生成手段と、選択手段により合成して出力することが選択された場合に、文書画像とサマリ画像とを合成して第3の電子文書を生成するための第2の文書生成手段とをさらに備える。
好ましくは、所定の種別は、表題、見出し、図、表、写真、段落の先頭の所定行、手書き注釈の対象、およびキャプションのうち少なくともいずれか1つを含む。
この発明の他の局面に従う文書サマリ作成方法は、記憶部と演算処理部とを備えた文書処理装置において、文書画像から文書画像のサマリを作成する方法であって、演算処理部が、文書画像から、所定の種別の文書要素を抽出するステップと、演算処理部が、文書画像から、頁ごとに段を検出するステップと、演算処理部が、段のレイアウトに基づいて、頁ごとに、段の行方向に垂直な方向の少なくとも1つのレイアウト基準線を設定するステップと、演算処理部が、抽出された所定の種別の文書要素に対応するサマリ領域を含む部分領域を、レイアウト基準線を基準として切出すステップと、演算処理部が、所定の画像に、画像における所定の要素基準線を基準として部分領域を配置することで、サマリ画像を生成するステップとを備える。
この発明のさらに他の局面に従う文書サマリ作成プログラムは、上記記載の文書サマリ作成方法をコンピュータに実行させる。
本発明によると、見出し等の階層レベルの判定処理を行なうことなく、見出し等の階層レベルを反映したサマリ画像を生成することができる。
本発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰返さない。
<構成について>
(全体システム構成)
図1は、本発明の実施の形態に従う文書処理装置を含むシステムの概略構成図である。本実施の形態においては、代表的に、本発明に係る文書処理装置を搭載するMFP(Multi Function Peripheral)について説明する。なお、本発明に係る文書処理装置は、MFPに限らず、PC(Personal Computer)、複写機、ファクシミリ装置、スキャナ装置などにも適用可能である。
図1を参照して、本実施の形態に従うMFP1は、原稿300を読取るための画像読取部104と、紙媒体などへの印刷処理を行なうためのプリント部106とを含む。
特に、本実施の形態に従うMFP1は、画像読取部104で原稿300を読取ることで文書画像を取得し、この文書画像を含む電子文書を生成する。この際、MFP1は、読取った文書画像に含まれる文書要素のうち所定の種別の文書要素を切り出してサマリ画像を生成する。生成されたサマリ画像は、文書画像と一体化されてもよいし、文書画像とは別の電子文書に含まれてもよい。これらの電子文書400には、代表的に、PDF(Portable Document Format)などのフォーマットが採用できる。
なお、「サマリ」とは、文書画像の要約あるいは目次を表わし、「サマリ画像」とは、文書画像のサマリを表わす画像(サマリとして機能する画像)である。また、「文書要素」とは、文書を構成する記述要素である。
MFP1は、生成した電子文書400を自身の記憶部(図1において不図示)に格納する。また、記憶された電子文書400を、ネットワークを介してパーソナルコンピュータPC1,PC2,PC3(以下、「パーソナルコンピュータPC」とも総称する)に送信したりする。代表的な使用形態として、MFP1が設置されている同一のオフィス内に敷設されたネットワークであるLAN(Local Area Network)に接続されているパーソナルコンピュータPC1,PC2に対しては、MFP1から電子文書400が直接的に送信される。一方、LANとWAN(Wide Area Network)との接続点には、サーバ装置SRVが設けてあり、MFP1とは離れたオフィスにあるパーソナルコンピュータPC3などに対しては、MFP1からサーバ装置SRVを介して電子文書400が送信される。ここで、サーバ装置SRVは代表的に、メールサーバ、FTP(File Transfer Protocol)サーバ、Webサーバ、SMBサーバなどからなる。
画像読取部104は、原稿をセットするための戴荷台と、原稿台ガラスと、戴荷台にセットされた原稿を原稿台ガラスに自動的に一枚ずつ搬送する搬送部と、読取られた原稿を排出するための排出台とを含む(いずれも図示しない)。これにより、複数枚の原稿を連続的に読取って、一つの電子文書として生成することができる。
(MFP1の概略構成)
図2は、本発明の実施の形態に従うMFP1における概略の機能構成を示すブロック図である。
図2を参照して、MFP1の機能構成としては、制御部100と、メモリ部102と、画像読取部104と、プリント部106と、通信インターフェイス部108と、第1の操作パネル部110と、第2の操作パネル部111と、記憶部112とを含む。
制御部100は、代表的にCPU(Central Processing Unit)などの演算装置から構成され、プログラムを実行することで本実施の形態に従う文書処理を実現する。メモリ部102は、代表的にDRAM(Dynamic Random Access Memory)などの揮発性の記憶装置であり、制御部100で実行されるプログラムやプログラムの実行に必要なデータなどを保持する。通信インターフェイス部108は、代表的に、ネットワーク(たとえば、図1に示すLAN)を介してパーソナルコンピュータPC(図1)との間でデータを送受信するための部位であり、たとえば、LANアダプタおよびそれを制御するドライバソフトなどを含む。プリント部106は、プリント処理を行なうための部位であり、プリント処理に係るハードウェア構成に加えて、各部の作動を制御するための制御装置をも含む。記憶部112は、代表的にハードディスク装置やフラッシュメモリなどの不揮発性の記憶装置であり、制御部100の動作のためのプログラムや制御部100で生成された電子文書400などを格納する。
第1および第2の操作パネル部110,111の外観例を図3に示す。図3(a)は、本発明の実施の形態に従うMFP1の第1の操作パネル部110の外観の一例を示す図であり、図3(b)は、本発明の実施の形態に従うMFP1の第2の操作パネル部111の外観の一例を示す図である。第1の操作パネル部110は、MFP1の基本的な処理の際に用いられる部位であり、第2の操作パネル部111は、後述する文書サマリ作成処理の際に用いられる部位である。
図3(a)を参照して、第1の操作パネル部110は、液晶表示装置やタッチパネルなどから構成される表示パネル110aと、ストップボタン110bと、スタートボタン110cと、英数キーなどを含む操作ボタン110dとを備えている。
図3(b)を参照して、第2の操作パネル部111は、液晶表示装置やタッチパネルなどから構成される表示パネルである。第2の操作パネル部111は、サマリ画像等を表示するための表示領域111aと、カーソルボタンなどの操作ボタンを表示するための入力領域111bとを備えている。
なお、本実施の形態では、文書サマリ作成処理のための第2の操作パネル部111を第1の操作パネル部110とは別に設けたが、一体型の操作パネル部を採用してもよい。
または、MFP1は、表示機能と指示の入力機能とを兼ね備えた第1および第2の操作パネル部110,111を備えることとしたが、これらに代えて、少なくとも1つの表示部とハードウェアボタンを含む入力部との両方を備えることとしてもよい。
(パーソナルコンピュータの構成)
図4は、本発明の実施の形態に従うパーソナルコンピュータPCの概略のハードウェア構成を示す模式図である。
図4を参照して、パーソナルコンピュータPCは、オペレーティングシステム(OS:Operating System)を含む各種プログラムを実行するCPU(Central Processing Unit
)201と、CPU201でのプログラムの実行に必要なデータを一時的に記憶するメモリ部213と、CPU201で実行されるプログラムを不揮発的に記憶するハードディスク部(HDD:Hard Disk Drive)211とを含む。また、ハードディスク部211には
、MFP1で生成された電子文書400を表示するための閲覧アプリケーションが記憶されており、このようなプログラムは、FDDドライブ217またはCD−ROMドライブ215によって、それぞれフレキシブルディスク217aまたはCD−ROM(Compact Disk-Read Only Memory)215aなどから読取られる。
CPU201は、キーボードやマウスなどからなる入力部209を介してユーザからの指示を受取るとともに、プログラムの実行によって生成される画面出力をディスプレイ部205へ出力する。また、CPU201は、LANカードなどからなる通信インターフェイス部207を介して、LANやWANに接続されたMFP1やサーバ装置SRV(図1)から電子文書400を取得し、ハードディスク部211などに格納する。また、上述の各部は、内部バス203を介して相互にデータを授受する。
(MFPの機能構成)
図5は、本発明の実施の形態に従うMFP1の機能構成を示す機能ブロック図である。
図5を参照して、制御部100は、出力形態選択部12と、画像バッファ部14と、サマリ要素抽出部16と、段検出部18と、要素修正部20と、部分領域切出部22と、サマリ画像生成部24と、出力データ生成部26と、しおり付与部28と、データ格納処理部30と、送信処理部32とを含む。
上述の画像読取部104は、原稿300を読取って文書画像を取得し、その文書画像を画像バッファ部14へ出力する。画像バッファ部14は、画像読取部104が逐次的に出力する文書画像のデータを一時的に格納する部位であり、一旦格納した文書画像をサマリ要素抽出部16および出力データ生成部26に出力する。なお、本実施の形態では、文書画像の圧縮処理を省略しているが、圧縮処理を行なうこととしてもよい。この場合、圧縮度合は、生成される電子文書の大きさや、要求される文書画像の解像度などに応じて変化させてもよい。また、圧縮処理は非可逆変換であってもよい。
サマリ要素抽出部16は、画像バッファ部14から出力される文書画像に含まれる所定の種別の文書要素を抽出する。
「所定の種別」とは、サマリに含めるべき種別であり、少なくとも、「タイトル(表題)」および「見出し」のうちいずれかを含む。好ましくは、「タイトル」および「見出し」に加え、「図」、「表」、「写真」、「段落の先頭の所定行」、「手書き注釈の対象」、および「キャプション」をさらに含む。本実施の形態では、「所定の種別」は、上記の全ての種別を含むものとする。上記「手書き注釈の対象」とは、手書きの注釈が指し示すテキスト,図,表などを示す。
なお、ここでは、サマリに含めるべき種別は、予め製造時に定められていることを前提にするが、後述する文書サマリ作成処理の前にユーザ所望の種別が予め選択されたものであってもよい。
以下、「所定の種別の文書要素」を「サマリ要素」という。
サマリ要素抽出部16は、サマリ要素の抽出に先立ち、所定の種別以外の文書要素も抽出する。つまり、所定の種別を含む複数種別の文書要素を抽出する。その際、サマリ要素抽出部16は、各文書要素の文書画像内における位置も抽出する。抽出対象となる文書要素は、上述の所定の種別を有するものの他、たとえば、「本文」、「手書き文字」、「ヘッダ・フッダ」などの種別を有するものが含まれる。
サマリ要素抽出部16は、抽出したサマリ要素の種別およびその位置情報を要素修正部20に出力する。
段検出部18は、画像バッファ部14から出力される文書画像から、「段(段組)」を検出する。また、段検出部18は、各段の「行方向」、および、各段の「接続情報」を検出する。段はたとえば、「図書の電子のための文書認識技術(鎌田 博、藤本 克仁、黒川 浩司)、雑誌FUJITSU、VOL.49,No.6、1998」に開示された公知技術で検出することができる。各段の接続情報は、各段が、文脈等からどの段に接続されるべきかを示す情報(すなわち段の順序を示す情報)であり、たとえば特開平10−40248号公報に開示される公知の技術で検出することができる。行方向の検出は、周知の方法で検出することができる。段検出部18により検出された段、各段の行方向および各段の接続情報は、線設定部19に出力される。
線設定部19は、検出された段のレイアウト(割付け)に基づいて、ページごとに少なくとも1つの「レイアウト基準線」を設定する。「レイアウト基準線」とは、各ページにおいてグループ化された段を含む最小矩形(「段レイアウト枠」という)の1辺に相当し、グループ化された段における行方向と垂直な行頭側の線である。段のグループ化の条件などについては後述する。設定されたレイアウト基準線の情報は、部分領域切出部22に出力される。
要素修正部20は、第2の操作パネル部111に、抽出されたサマリ要素を表示する。また、要素修正部20は、第2の操作パネル部111に対し入力されたユーザからの指示に基づき、サマリ要素の修正を行なう。本実施の形態において、「修正」は、サマリ要素の範囲の変更、サマリ要素の削除、および、サマリ要素の追加を含むものとする。要素修正部20は、具体的には、ユーザからの指示に応じて、サマリ要素の位置情報を修正する。要素修正部20により修正された(あるいは修正されなかった)サマリ要素の位置情報は、部分領域切出部22に出力される。
部分領域切出部22は、修正された後の領域(以下「サマリ要素領域」という)を含む部分領域(部分画像)を、設定されたレイアウト基準線に基づいて切出す。具体的には、部分領域切出部22は、レイアウト基準線が行頭側の端部となるように、サマリ要素領域を含む部分領域を切出す(すなわち、部分領域の位置情報を特定する)。切出された部分領域は、サマリ画像生成部24に出力される。切出される部分領域は、矩形の領域であることが好ましい。以下、切出される部分領域を「矩形領域」という。
このようにして、レイアウト基準線を基準にして、サマリ要素領域を切出すので、処理対象の文書画像に存在する階層構造を保存したまま文書画像のサマリを作成することができる。
なお、本実施の形態において、部分領域切出部22は、矩形領域の切出し処理の前に、さらに、ページ間のレイアウト基準線のずれを補正するための処理(以下「補正処理」という)を行なう。補正処理としては、頁間で、本文領域の基準位置を整合させる処理が行なわれる。このような補正処理の具体例については、後に詳述する。
サマリ画像生成部24は、所定の画像に、当該画像における所定の「要素基準線」を基準として矩形領域を配置することで、サマリ画像を生成する。つまり、矩形領域の位置情報に基づき、出力画像中に、所定の要素基準線を基準にして矩形領域を配置する。矩形領域は、所定の間隔で配置されることが好ましい。矩形領域を配置するための画像は、無地ページであってよく、また、元の文書画像のサイズと同サイズであってよい。また、矩形領域を配置する際に、全ての矩形領域を所定の割合だけ拡大または縮小してもよい。
所定の要素基準線は、配置する矩形領域の行方向に垂直な線であり、横書きの場合は、出力画像の左端から所定の距離に設定される縦方向の線である。この場合、サマリ画像生成部24は、矩形領域を、上から順に所定の間隔で配置する。これに対し、縦書きの場合には、所定の要素基準線は、出力画像の上端から所定の距離に設定される横方向の線である。この場合、サマリ画像生成部24は、矩形領域を、右から順に所定の間隔で配置する。なお、要素基準線は、行方向に垂直な直線であればよく、所定の画像の左端または上端に一致してもよい。また、所定の距離は、画像のページの大きさに応じて予め定められることとしてもよい。
このようにして生成されたサマリ画像は、出力データ生成部26に出力される。
出力形態選択部12は、サマリ画像の出力形態を「分離」および「合成」のうちいずれにするかについて、ユーザに選択させる。具体的には、出力形態選択部12は、第2の操作パネル部111に、「出力形態選択画面」を表示する。出力形態選択部12は、第2の操作パネル部111に対して入力されたユーザからの指示に基づき、出力形態を選択する。出力形態選択部12により選択された出力形態は、出力データ生成部26およびしおり付与部28に出力される。
出力データ生成部26は、出力形態選択部12により選択された出力形態に基づいて、出力データを生成する。より具体的には、ユーザにより「分離」が選択された場合に、文書画像を含む電子文書(以下「電子原稿文書」という)とは別に、サマリ画像を含む電子文書(以下「電子サマリ文書」という)を生成する。一方、ユーザにより「合成」が選択された場合には、文書画像とサマリ画像とを含む1つの電子文書(以下「電子合成文書」という)を生成する。言い換えると、出力データ生成部26は、元の文書画像データに、サマリ画像データを付加する。このようにして生成された出力データは、しおり付与部28に出力される。なお、上述の電子文書400は、電子原稿文書および電子サマリ文書と、電子合成文書とのうち少なくとも一方を含むものとする。
しおり付与部28は、出力形態選択部12により選択された出力形態に基づいて、閲覧支援情報を生成して、生成した閲覧支援情報をサマリ画像に付加(付与)する。なお、「閲覧支援情報」とは、矩形領域ごとに文書画像の対応する箇所と関連付けるための情報である。本明細書において、「閲覧支援情報」は、矩形領域の「元の文書画像内の位置」を示す情報を少なくとも含む「しおり」データであり、「しおり」の他に矩形領域についての補足的コメントをさらに含む「注釈」などであってもよい。
しおり付与部28は、しおりを付与した後の出力データ(電子原稿文書および電子サマリ文書と、電子合成文書とのうちいずれか一方)をデータ格納処理部30に出力する。
データ格納処理部30は、しおり付与部28から入力された出力データを、記憶部112に格納する。
送信処理部32は、記憶部112に記憶された電子文書を外部に送信するための処理を行なう。具体的には、第1の操作パネル部110または第2の操作パネル部111に記憶部112に記憶された電子文書の一覧を表示し、ユーザに所望の電子文書を選択させる。そして、選択された電子文書を通信インターフェイス部108に出力する。なお、選択された電子文書が電子原稿文書であった場合には、送信処理部32は、電子原稿文書および電子サマリ文書の両方を通信インターフェイス部108に出力してもよい。通信インターフェイス部108に出力された電子文書(およびサマリ文書)400は、パーソナルコンピュータPC等に送信される。
なお、制御部100に含まれる各ブロックの動作は、メモリ部102中に格納されたソフトウェアを実行することで実現されてもよいし、これらのブロックのうち少なくとも1つについては、ハードウェアで実現されてもよい。
また、本実施の形態では、要素修正部20によるサマリ要素の修正処理が行なわれるが、必ずしもそのような修正処理が行なわれなくてもよい。その場合、サマリ要素抽出部16によって抽出されたサマリ要素の情報は、部分領域切出部22に出力されるものとする。
あるいは、本実施の形態では、出力データの形態をユーザが選択できることとするが、「合成」および「分離」のうちいずれか一方が予め定められていてもよい。
<文書サマリ作成処理について>
以下に、本発明の実施の形態における文書サマリ作成処理について、図6〜図26を参照して説明する。
図6は、本発明の実施の形態における文書サマリ作成処理を示すフローチャートである。図6のフローチャートに示す処理は、予めプログラムとしてメモリ部102に格納されており、制御部100がこのプログラムを読み出して実行することにより、文書サマリ作成処理の機能が実現される。なお、以下に示す処理は、制御部100が、ユーザから、文書サマリ作成処理を開始させる旨の指示の入力を受付けた場合に開始されるものとする。
はじめに、出力形態選択部12は、第2の操作パネル部111の表示領域111aに出力形態選択画面を表示する(ステップS102)。
図7は、出力形態選択画面の一例を示す図である。出力形態選択画面は、「合成」の指示を受付けるための“Unified”ボタン51および「分離」の指示を受付けるための“Separated”ボタン52を含む。
次に、出力形態選択部12は、ユーザによる出力形態の選択を受付ける(ステップS104)。出力形態選択画面に表示されたボタン51,52のうちユーザにより選択された方のボタンが太枠にて強調表示される。
出力形態の選択が終わると、画像読取部104は、文書画像を読取る(S106)。読取られた文書画像は、画像バッファ部14に出力される。サマリ要素抽出部16は、画像バッファ部14内の文書画像から、サマリ要素を含む複数種別の文書要素を抽出する(ステップS108)。サマリ要素抽出部16は、抽出した文書要素のうちのサマリ要素に関する管理情報を「サマリ要素管理情報」としてメモリ部102に一時的に記録する。
図8は、文書画像に含まれる文書要素の抽出処理を説明するための図である。
図8(a)は、原稿300から生成される文書画像の一例を示す図であり、図8(b)は、図8(a)に示す文書画像に対して文書要素が抽出された状態の一例を示す図である。図8(a)を参照して、一例として、「・・・に関する報告書」の原稿300(5ページ)が画像読取部104で読取られると、画像バッファ部14には各ページに対応する文書画像が格納される。図8(b)に示すように、サマリ要素抽出部16は、このような文書画像に含まれる矩形の文書要素420を抽出する。なお、文書要素420の抽出については、公知の方法を用いることができるが、代表的に文字サイズや隣接する領域に対する間隔などに基づいて、各領域が抽出される。
所定の種別の文書要素は、より具体的には、たとえば次のような方法で抽出される。「タイトル」は、文書画像内に配置される文字の文字サイズや隣接する領域との間隔に基づいて抽出することができる。「見出し」は、「本文」との関係(「本文」に先行する領域)や、文書画像内におけるオフセット位置やインデント位置などに基づいて抽出することができる。「図」は、テキストブロック以外の領域の2値パターンをとることにより抽出することができる。「表」は、罫線とテキストとの組み合わせなどに基づいて抽出することができる。「写真」は、カラーヒストグラムにおける画像の濃淡変化の度合いなどに基づいて抽出することができる。
また、「段落の先頭の所定行」は、テキストブロックのうちの字下げの位置、あるいは、後続するテキストブロックとの間の間隔などに基づいて抽出することができる。「手書き注釈の対象」は、字体や行の乱れ具合などに基づいて検出された手書き文字の近傍のテキストを検出することで抽出することができる。あるいは、手書き注釈の近傍にある手書きの線をたどることで抽出することができる。「キャプション」は、図,表,写真に対して上または下の近傍にある孤立したテキストブロックとして抽出することができる。
なお、文書画像内の共通の領域に対して、複数の文書要素が重複して抽出されてもよい。また、サマリ要素として抽出する種別は、上述のものに限られることなく、公知の認識技術を用いて様々な種別の文書要素を抽出することができる。
次に、上述のサマリ要素管理情報について説明する。
図9は、サマリ要素管理情報のデータ構造を示す図である。図9を参照して、メモリ部102には、サマリ要素ごとに、ページ番号、領域左上座標、領域右下座標および要素種別が記録される。ページ番号は、対応するサマリ要素が存在するページを特定するための位置情報である。また、領域左上座標および領域右下座標は、対応するサマリ要素のページ内での領域(矩形)を特定するための位置情報である。また、要素種別は、対応するサマリ要素の種別を特定するための情報である。
再び図6を参照して、ステップS108の処理が終わると、段検出部18は、画像バッファ部14内の文書画像から、段、段の接続、および各段の行方向を検出する(ステップS110)。段検出部18は、検出したこれらの情報をメモリ部102に一時的に記録する。
図6のステップS110において検出された段に関する管理情報は、段管理情報としてメモリ部102に記録される。
図10は、段管理情報のデータ構造を示す図である。図10を参照して、メモリ部102には、段ごとに、段識別番号、ページ番号、段左上座標、段右下座標、前の段落、後の段落、および行方向が記録される。段識別番号は、各段を一意に特定するための識別情報である。ページ番号は、対応する段が存在するページを特定するための位置情報である。段左上座標および段右下座標は、対応する段のページ内での領域(矩形)を特定するための位置情報である。前の段落および後の段落は、各段の接続情報である。前の段落の欄には、対応する段の直前の段の識別番号が記録され、後の段落の欄には、対応する段の直後の段の識別番号が記録される。このような接続情報に基づいて、ページ内の段の順序を特定することができる。行方向は、対応する段の行方向を特定するための情報であり、「横書き」または「縦書き」が記録される。
なお、図6のフローチャートでは、ステップS108の処理とステップS110の処理とが直列的に行なわれる例を示したが、これらの処理は並列的に行なわれてもよい。また、直列的に行なわれる場合、これらの順序は問わない。
次に、要素修正部20は、抽出されたサマリ要素の修正処理を実行する(ステップS111)。具体的には、要素修正部20は、まず「サマリ要素確認画面」を第2の操作パネル部111に表示する(ステップS302)。図11は、サマリ要素確認画面の一例を示す図である。
図11を参照して、第2の操作パネル部111の表示領域111aには、抽出されたサマリ要素611および612が矩形枠で囲まれて表示される。表示領域111aの下部の領域111bには、削除ボタン621、要素追加ボタン622、範囲変更ボタン623、OKボタン624、前頁ボタン625、次頁ボタン626および上下左右のカーソルボタン627が表示される。カーソルボタン627およびOKボタン624を押下することで、ユーザ所望のサマリ要素が選択される。
削除ボタン621は、選択されたサマリ要素を削除する指示を受付けるためのボタンである。このボタン621が押下されたことを検知すると、要素修正部20は、選択されているサマリ要素についての管理情報を、サマリ要素管理情報から削除する。
要素追加ボタン622は、新たなサマリ要素をマニュアルで追加する指示を受け付けるためのボタンである。このボタン622が押下されると、要素修正部20は、たとえばデフォルトの矩形枠を領域111aに表示する。その後、カーソルボタン627が押下されると、その指示に応じて矩形枠を移動させる。次にOKボタン624が押下されると、要素追加ボタン622は、その矩形枠の左上の位置をサマリ要素の左上コーナーとして確定する。次に、カーソルボタン627が押下されると、その指示に応じて、矩形枠を拡大または縮小させる。さらにOKボタン624が押下されると、その矩形枠の右下の位置をサマリ要素の右下コーナーとして確定する。このようにして領域が確定すると、要素修正部20は、確定した領域の情報を新たなサマリ要素の情報として、メモリ部102に追加する。その際、要素修正部20は、要素種別の欄には「マニュアル」と記録する。本実施の形態において、「マニュアル」との種別は、サマリ画像に含めるべき種別であることが予め定められている。
範囲変更ボタン623は、選択されたサマリ要素の範囲を変更する指示を受付けるためのボタンである。このボタン623が押下された後、カーソルボタン627が押下されると、その指示に応じて、選択されたサマリ要素の枠が拡大または縮小される。ユーザがOKボタン624を押下すると、要素修正部20は、確定した範囲に対応する位置情報を、領域左上座標および領域右下座標に上書きする。
前頁ボタン625および次頁ボタン626は、それぞれ、表示中のページを前ページおよび次ページに変更する指示を受付けるためのボタンである。これらのボタン625,626が押下されると、要素修正部20は、領域111aに指示に対応するページを表示する。
要素修正部20は、ユーザからサマリ要素の修正に関する指示を受付けると、指示に応じてサマリ要素を修正する。また、そのような修正を反映する表示を行なう。最終的に、ユーザよりOKの指示が入力されるまで、上記したような修正・表示処理を繰返す。最終的にユーザよりOKの指示が入力されると、ステップS112に進む。
ステップS112において、部分領域切出部22は、部分領域切出処理を行なう(ステップS112)。部分領域切出処理については、図12のサブルーチンを参照して説明する。
(部分領域切出処理)
部分領域切出処理について、図12〜図19を参照して説明する。
図12は、本発明の実施の形態における部分領域切出処理を示すフローチャートである。なお、このフローチャートには、全てのページの文書が横書きである場合を前提にした処理が示されているものとする。
図12を参照して、本実施の形態における部分領域切出部22は、はじめに前述の補正処理(ステップS202〜S210)を行なう。
ステップS202において、部分領域切出部22は、各ページにおいて抽出された各段から本文部分の領域(以下「本文領域」という)を検出する。本文領域は、たとえば特開2005−71014号公報に開示されているように、行の高さおよび間隔が同じである行の集合として検出できる。なお、図6のステップS108で抽出された、本文を表わす文書要素の位置情報を利用してもよい。
本文領域が検出されると、部分領域切出部22は、本文基準線を仮想的に設定する(ステップS204)。本文基準線は、各本文領域を囲う最小矩形(「本文枠」という)における1辺に相当し、行方向に対して垂直な、行頭側の線である。より具体的には、横書きの場合は本文枠の左上のコーナーを基準点とし、基準点を通り、かつ、行方向に直交する垂直方向の線が本文基準線として設定される。また、縦書きの場合は右上のコーナーを基準点とし、基準点を通り、かつ、行方向に直交する水平方向の線が本文基準線として設定される。
図12のステップS204において設定された本文基準線に関する管理情報は、本文基準線管理情報としてメモリ部102に記録される。
図13は、本文基準線管理情報のデータ構造を示す図である。図13を参照して、メモリ部102には、本文領域ごとに、段識別番号、本文領域左上座標、本文領域右下座標、および本文基準線位置が格納される。段識別番号は、対応する本文領域が属する段の識別番号の情報である。本文領域左上座標および本文領域右下座標は、対応する本文領域の位置情報である。本文基準線位置は、対応する本文領域の本文基準線の位置を示す情報である。なお、本文基準線の位置が特定できれば、本文基準線情報にこれらの全ての情報を含めなくてもよい。
図14は、本文基準線について説明するための図である。図14(a)および図14(b)は、それぞれ、連続する2つのページの画像を示している。また、これらのページに含まれる段は全て横書きであるものと仮定する。
図14(a)に示されるページの左側の領域には、上から順に段501a,502aが含まれる。また、同ページの右側の領域には段503が含まれる。段501aは、見出し(サマリ要素領域)561および本文領域501bを含む。段502aは、見出し(サマリ要素領域)562および本文領域502bを含む。段503は、本文領域のみを含むため、本文領域(503)と一致している。
図14(b)に示されるページの左側の領域には、段504aが含まれる。また、同ページの右側の領域には、段505,段506aが含まれる。段504aは、見出し(サマリ要素領域)563および本文領域504bを含む。段505は、本文領域のみを含むため、本文領域(505)と一致している。段506aは、見出しA(サマリ要素領域)564、見出しB(サマリ要素領域)565および本文領域506bを含む。
これらの図に示されるように、本文領域501b、502b、503、504b、505および506bそれぞれについて、本文領域の左端の直線(すなわち、本文枠の左端の辺)511,512,513,514,515,516が本文基準線として設定される。
再び図12を参照して、部分領域切出部22は、各ページにおいて本文基準線のグループを判別する(ステップS206)。具体的には、各ページにおいて、所定のしきい値内の近さにあり、かつ、同じ方向の本文基準線を1つのグループと判別する。ここでの「所定のしきい値」は、文書画像のページのサイズに対応して予め定められることとしてよい。
上記図14(a)を例にした場合、本文基準線511および本文基準線512が1つのグループと判断され、本文基準線513はそれ単体で1つのグループと判断される。また、上記図14(b)を例にした場合、本文基準線514それ単体で1つのグループと判断される。また、本文基準線515および本文基準線516が1つのグループと判断される。
各ページにおいてグループが判別されると、グループごとに本文グループ基準線が算出される(ステップS208)。具体的には、部分領域切出部22は、まず、本文基準線の平均の位置(横書きの場合は垂直方向の位置、縦書きの場合は水平方向の位置)を算出する。そして、元の基準線群と平行で平均の位置を通る線を本文グループ基準線として算出する。
図15は、処理ページにおける本文グループ基準線に基づいてページ間のレイアウトのずれを補正する例を示す図である。図15(a),(b)に示される2つのページは、それぞれ、図14(a),(b)に示した2つのページと同一であるものとする。
図15(a)に示したページには、本文基準線511および本文基準線512に基づく本文グループ基準線521と、本文基準線513に基づく本文グループ基準線522が設定される。
また、図15(b)に示したページには、本文基準線514に基づく本文グループ基準線523と、本文基準線515および本文基準線516に基づく本文グループ基準線524が設定される。
本文グループ基準線が算出されると、部分領域切出部22は、本文グループ基準線に基づいてページ間のレイアウトのずれを補正する(ステップS210)。具体的には、2ページ目から順に、前ページに本文グループ基準線が合うように処理ページを順次、上下左右方向にシフトさせる。
たとえば、図15(b)に示される処理ページの本文グループ基準線523が、図15(a)に示される前ページの本文グループ基準線521に整合するように、処理ページがシフトされる。また、処理ページの本文グループ基準線524が、前ページの本文グループ基準線522に整合するように、処理ページがシフトされる。
処理ページのシフト量は、たとえば次のようにして求められる。すなわち、部分領域切出部22は、処理ページにおける各本文グループ基準線について、前ページに重ね合わせた場合に、所定の距離内で最も近い同一方向の本文グループ基準線を対応付ける。そして、対応付けられた本文グループ基準線同士の距離が最小となるようにたとえば最小二乗法によりシフト量を算出する。
このように、部分領域を切出す前に、スキャンの際にずれたレイアウトを正規化することができる。その結果、サマリ画像において、見出し等の階層レベルを精度良く反映することができる。
なお、本実施の形態では、処理ページについて本文グループ基準線を求めてからページ間のレイアウトのずれを補正することとしたが、このような手法に限定されるものではない。図16は、処理ページにおける本文基準線に基づいてページ間のレイアウトのずれを補正する例を示す図である。この例によると、処理ページの本文基準線514が前ページの本文グループ基準線521に整合するように処理ページがシフトされる。また、処理ページの本文基準線515,516が前ページの本文グループ基準線522に整合するように処理ページがシフトされる。あるいは、本文グループ基準線を求めることなく本文基準線のみに基づいて、補正処理が行なわれてもよい。
再び図12を参照して、以上のようにしてページ間のレイアウトのずれが補正されると、線設定部19は、各ページにおいて、行方向における両端位置が所定のしきい値内の段を、同一の段レイアウト枠に属すると判断する(ステップS212)。つまり、横書きの場合、左右双方の端位置が所定のしきい値内の近さにある段が、同一の段レイアウト枠に属すると判断される。また、縦書きの場合には、上下双方に端位置が所定のしきい値内の近さにある段が、同一の段レイアウト枠に属すると判断する。なお、段レイアウト枠は、段の行方向も考慮して判断されるものとする。
ここでの「所定のしきい値」も、文書画像の文字サイズや行間隔で定められるのが好ましく、また、ページのサイズに対応して予め定められることとしてよい。または、線設定部19が、ページ内の段の幅に基づいて、段レイアウト枠の判断基準となる値を文書画像単位で算出してもよい。
線設定部19は、段レイアウト枠ごとに、各段レイアウト枠に属すると判断された段を含む仮想矩形を設定する(ステップS214)。より具体的には、段レイアウト枠に属する段の位置情報に基づいて、同一の段レイアウト枠に属する段におけるすべての文書要素(サマリ要素領域以外も含む)を含む仮想矩形が設定される。
図17は、図12のステップS214において設定される仮想矩形を示す図である。図17に示されるページは、図14(b),図15(b),図16(b)に示されたページと同一であるものとする。
図17を参照して、図14(b)に示した段504aは、段レイアウト枠についての条件を満たす他の段がないため、段504aのみで1つの仮想矩形531が設定される。したがって、段504aの領域と仮想矩形531の領域とは一致している。また、図14(b)に示した段505および段506aは、段レイアウト枠についての条件を満たしているためグループ化され、段505および段506aについて、仮想矩形532が設定される。
仮想矩形が設定されると、線設定部19は、仮想矩形の1辺であって、行方向に垂直な行頭側の線をレイアウト基準線として設定する(ステップS216)。横書きの場合、仮想矩形の左端の垂直線がレイアウト基準線として設定される。縦書きの場合には、仮想矩形の上端の水平線がレイアウト基準線として設定される。
上記図17においては、仮想矩形531の左端の垂直線541がレイアウト基準線として設定される。また、仮想矩形532の左端の垂直線542が、レイアウト基準線として設定される。
図12のステップS216で設定されるレイアウト基準線に関する管理情報は、レイアウト基準線管理情報としてメモリ部102に記録される。
図18は、レイアウト基準線管理情報のデータ構造を示す図である。
図18を参照して、メモリ部102には、段レイアウト枠ごとに、段レイアウト枠識別番号、段識別番号、およびレイアウト基準線の位置が記録される。段レイアウト枠識別番号は、段レイアウト枠を一意に特定するための識別情報である。段識別番号の欄には、対応する段レイアウト枠に含まれる段の識別番号が記録される。レイアウト基準線の位置は、段レイアウト枠の位置を特定するための情報であり、位置情報として、たとえば、左上座標および右下座標が記録される。
レイアウト基準線が設定されると、部分領域切出部22は、各サマリ要素領域について、レイアウト基準線を端部とする矩形領域を切出す(ステップS218)。より具体的には、横書きの場合には、サマリ要素領域が属する段に対応するレイアウト基準線と、サマリ要素領域の上下右端とを境界とする矩形領域を切出す。縦書きの場合には、レイアウト基準線と、サマリ要素領域の左右下端とを境界とする矩形領域を切出す。
図19は、図12のステップS218において切出される矩形領域について説明するための図である。
図19を参照して、見出し563が、矩形領域571に含まれる。見出し564は、矩形領域572に含まれる。見出し565は、矩形領域573に含まれる。
見出し563および564は、それぞれの左端がレイアウト基準線541および542に一致している。そのため、矩形領域571および572は、見出し563および見出し564の領域とそれぞれ一致している。これに対し、見出し565の左端は、レイアウト基準線542と一致していない。この場合、矩形領域573の左端は、レイアウト基準線542となるように切出されている。
ステップS218の処理が終わると、処理はメインルーチンに戻される。
再び図6を参照して、上述の部分領域切出処理が終わると、サマリ画像生成部24は、サマリ画像生成処理を行なう(ステップS114)。このサマリ画像生成処理については、図20のサブルーチンを参照して説明する。
(サマリ画像生成処理)
サマリ画像生成処理について、図9、図10、図20〜図22を参照して説明する。
図20は、本発明の実施の形態におけるサマリ画像生成処理を示すフローチャートである。
図20を参照して、サマリ画像生成部24は、サマリ要素領域の順序を判定する(ステップS310)。具体的には、図9のサマリ要素管理情報における各サマリ文書領域の位置情報と、図10の段管理情報における段の位置情報および段の接続情報とに基づいて、サマリ要素領域の順序が判定される。
サマリ要素領域の順序が判定されると、サマリ画像生成部24は、所定の画像に、該画像中の所定の要素基準線に沿って、切出された矩形領域を順番に配置する(ステップS312)。横書きの場合、サマリ画像生成部24は、矩形領域を、上から順に所定の間隔で配置する。これに対し、縦書きの場合には、サマリ画像生成部24は、矩形領域を、右から順に所定の間隔で配置する。
図21は、図20のステップS312において配置される矩形領域(サマリ要素領域)を説明するための図である。
図21を参照して、出力画像中の要素基準線710に沿って、切出された矩形領域711,712,713,714,715,…が上から順に所定の間隔で配置されている。
図22は、最終的に生成されたサマリ画像(1ページ)の一例を示す図である。本実施の形態では、サマリ要素領域は、レイアウト基準線からのインデントを維持したまま切出されるので、図22に示されるように、元の画像文書の階層をそのまま反映したサマリ画像を生成することができる。この図において、サマリ画像には、タイトルとして「…に関する報告書」が配置され、見出しとして「1.概要」,「2.背景」,「3....」,「A)...」,「B)...」,「4.今後の見通し」が配置されている。また、図としてグラフが配置され、マニュアルとして「結論としては....」というテキスト領域が配置されている。このように、本実施の形態によると、サマリ要素領域の階層を判定することなく、簡便にユーザ所望のサマリ画像を生成することができる。
ステップS312の処理が終わると、処理はメインルーチンに戻される。
(出力データ生成処理)
出力データ生成処理について、図6、図23〜図26を参照して説明する。
再び図6を参照して、サマリ画像生成処理が終わると、出力データ生成部26は、ステップS104において選択された出力形態が「分離」および「合成」のいずれであるかを判断する(S116)。
選択された出力形態が「分離」であった場合、ステップS126に進む。一方、選択された出力形態が「合成」であった場合には、ステップS118に進む。
ステップS118において、まず、出力データ生成部26は、画像バッファ部14より入力された文書画像のデータの先頭に、サマリ画像生成部24より入力されたサマリ画像のデータを付加する。
また、しおり付与部28は、合成出力のためのしおりデータを生成する(ステップS120)。しおり付与部28は、ステップS118で生成された画像データ(「合成画像データ」という)に、生成したしおりデータを付加する(ステップS122)。合成画像データにしおりデータが付加されると、データ格納処理部30は、しおりが付加された合成画像データを電子合成文書4001として記憶部112に格納する(ステップS124)。
図23は、出力形態が「合成」の場合の電子文書(電子合成文書4001)のデータ構造の一例を示す図である。
図23を参照して、電子合成文書4001は、ヘッダ部402と、サマリ画像部403と、しおりデータ部404と、文書画像部406と、フッタ部408とからなる。ヘッダ部402およびフッタ部408には、電子合成文書4001の属性についての情報、たとえば作成日時・作成者・著作権情報などが格納される。サマリ画像部403には、サマリ画像生成部24が生成したサマリ画像が格納される。しおりデータ部404には、サマリ画像に含まれるサマリ要素領域と元の文書画像におけるサマリ要素領域の位置とを対応付けるためのしおりデータが格納される。文書画像部406には、各ページに対応する文書画像が格納される。なお、この文書画像は、上述したように圧縮された状態で格納されてもよい。また、サマリ画像も、ページ数が多くなる場合などに圧縮された状態で格納されてもよい。
図24は、出力形態が「合成」の場合のしおりデータのデータ構造の一例を示す図である。
図24を参照して、しおりデータには、各サマリ要素領域に対応付けて、サマリ画像のページ番号・領域左上座標・領域右下座標・要素種別と、元の文書画像のページ番号・領域左上座標・領域右下座標が含まれる。
サマリ画像のページ番号は、サマリ画像において、対応するサマリ要素領域が存在するページを特定するための位置情報である。また、サマリ画像の領域左上座標および領域右下座標は、サマリ画像において、対応するサマリ要素領域のページ内での領域(矩形)を特定するための位置情報である。
なお、この位置情報は、切出されて配置された矩形領域の位置情報であってもよい。あるいは、位置情報により各サマリ要素領域が特定できればよいため、たとえば、矩形領域の近傍の領域の位置情報であってもよい。
要素種別は、対応するサマリ要素領域に係る文書要素の種別を特定するための情報である。なお、要素種別は、しおりデータに含まれなくてもよい。
元の文書画像のページ番号は、文書画像において、対応するサマリ要素領域が存在するページを特定するための位置情報である。また、サマリ画像の領域左上座標および領域右下座標は、文書画像において、対応するサマリ要素領域のページ内での領域(矩形)を特定するための位置情報である。
このように、配置された各サマリ要素領域に関連付けて、元の文書画像における対応する箇所を示すタグを、サマリ画像に埋め込む。その結果、ビューアソフトでサマリ画像中のサマリ要素領域を指示(クリックなど)した場合に、文書画像の対応する部分へジャンプして当該対応する部分を表示することが可能となる。
再び図6を参照して、ステップS126において、出力データ生成部26は、画像バッファ部14より入力された文書画像のデータとは別個に、サマリ画像生成部24より入力されたサマリ画像のデータを生成する。また、しおり付与部28は、分離出力のためのしおりデータを生成する(ステップS128)。しおり付与部28は、サマリ画像生成部24により生成されたサマリ画像データに、生成したしおりデータを付加する(ステップS130)。サマリ画像データにしおりデータが付加されると、データ格納処理部30は、文書画像データ、および、しおりデータが付加されたサマリ画像データを、それぞれ、電子原稿文書4002Aおよび電子サマリ文書4002Bとして記憶部112に格納する(ステップS132)。
図25(a)は、出力形態が「分離」の場合の電子原稿文書4002Aのデータ構造の一例を示す図であり、図25(b)は、出力形態が「分離」の場合の電子サマリ文書4002Bのデータ構造の一例を示す図である。
図25(a)を参照して、電子原稿文書4002Aは、ヘッダ部402と、文書画像部406と、フッタ部408とからなる。図23に示した合成出力の場合の電子合成文書4001と比較すると、電子原稿文書4002Aは、サマリ画像部としおりデータ部とを含まない。
図25(b)を参照して、電子サマリ文書4002Bは、ヘッダ部412と、サマリ画像部414と、しおりデータ部416と、フッタ部418とからなる。ヘッダ部412およびフッタ部408には、電子サマリ文書4002Bの属性についての情報、たとえば作成日時・作成者・著作権情報などが格納される。サマリ画像部414には、サマリ画像生成部24が生成したサマリ画像が格納される。しおりデータ部416には、サマリ画像に含まれるサマリ要素領域と元の文書画像におけるサマリ要素領域の位置とを対応付けるためのしおりデータが格納される。
図26は、出力形態が「分離」の場合のしおりデータのデータ構造の一例を示す図である。
図26を参照して、しおりデータには、各サマリ要素領域に対応付けて、サマリ画像のページ番号・領域左上座標・領域右下座標・要素種別と、元の文書画像のファイル名・ページ番号・領域左上座標・領域右下座標が含まれる。このように、図24に示した合成出力の場合のしおりデータと比較すると、分離出力の場合のしおりデータは、元の文書画像のファイル名を含む。なお、ここでは、サマリ要素領域ごとに元の文書画像のファイル名も格納することとしたが、ファイル名は全て同じであるため、ファイル名が特定できればこのような形態に限定されない。
このように、配置された各サマリ要素領域に関連付けて、元の文書画像における対応する箇所を示すタグを、サマリ画像に埋め込む。その結果、分離出力の場合でも、ビューアソフトでサマリ画像中のサマリ要素領域を指示(クリックなど)した場合には、文書画像の対応する部分へジャンプして当該対応する部分を表示することが可能となる。
ステップS124またはステップS132の処理が終わると、この一連の文書サマリ作成処理は終了される。
<変形例>
次に、本発明の実施の形態の変形例に係るMFPについて説明する。
上記の実施の形態に係るMFP1では、レイアウト基準線を行頭側の端部としてサマリ要素領域を含む矩形領域を切出して、切出した矩形領域を、要素基準線に沿って所定の画像に配置した。そのため、サマリ画像において、元の文書画像での行方向の位置(インデント)が維持された。
しかしながら、このようにインデント部分も含めてサマリ要素領域を切出す形態に限定されるものではない。
本実施の形態の変形例では、サマリ要素領域を囲う最小矩形を切出して、見出し等の階層レベルを反映させたサマリ画像を生成する。したがって、上記実施の形態とは、部分領域切出部の処理とサマリ画像生成部の処理とが異なる。その他の部分は同じである。したがって、ここでも上述のMFP1と同じ符号を用いて説明する。
以下、上記実施の形態と異なる部分のみ説明する。
本実施の形態の変形例におけるMFP1の制御部100は、実施の形態の部分領域切出部22およびサマリ画像生成部24それぞれに代えて、部分領域切出部22#およびサマリ画像生成部24#を含む。
部分領域切出部22#は、サマリ要素領域を囲む最小矩形のレイアウト基準線からのシフト量を検出する。また、検出したシフト量を、サマリ要素領域と対応付けてメモリ部102に記録する。
図27は、本発明の実施の形態の変形例におけるサマリ要素管理情報のデータ構造を示す図である。図27を参照して、メモリ部102には、図9に示した情報に加え、サマリ要素(サマリ要素領域)ごとにシフト量がさらに記録される。
サマリ画像生成部24#は、サマリ要素領域ごとのシフト量を読み出し、読み出したシフト量の分だけ要素基準線からずらして、サマリ要素を出力画像に配置する。
図28は、本発明の実施の形態の変形例における部分領域切出処理を示すフローチャートである。なお、図12のフローチャートと同じ処理については同じステップ番号を付してある。そのため、それらについての説明は繰返さない。
図28を参照して、本実施の形態の変形例の部分領域切出処理においては、図12のステップS218に代えて、ステップS220およびS222の処理が実行される。
ステップS220において、部分領域切出部22#は、サマリ要素領域ごとに、サマリ要素領域を囲む最小矩形のレイアウト基準線からのシフト量を検出する。つまり、サマリ要素の行頭側の端位置とレイアウト基準線との距離が算出される。具体的には、部分領域切出部22#は、サマリ要素領域の位置情報(図27参照)と、レイアウト基準線の位置情報(図18参照)とに基づいて、シフト量を算出する。
ステップS222において、部分領域切出部22#は、サマリ要素領域を囲む最小矩形を切出し、各サマリ要素領域に対応付けてシフト量をメモリ部102に記録する。
図29は、本発明の実施の形態の変形例におけるサマリ画像生成処理を示すフローチャートである。なお、図20のフローチャートと同じ処理については同じステップ番号を付してある。そのため、それ(ステップS310)についての説明は繰返さない。
図29を参照して、本実施の形態の変形例のサマリ画像生成処理においては、図20のステップS312に代えて、ステップS320の処理が実行される。
ステップS320において、サマリ画像生成部24#は、メモリ部102からサマリ要素領域のシフト量を読み出し、ステップS310で判定した順序に従い、出力画像の要素基準線からシフト量だけずらしてサマリ要素領域(を囲む最小矩形)を配置する。
このように、本実施の形態の変形例のような処理を行なっても、図21に示した配置形態と同じ結果となる。したがって、変形例においても、見出し等の階層を判定することなく、元の文書の階層構造を反映したサマリ画像を作成することができる。
なお、この変形例では、検出されたシフト量の値そのものを記録し、その記録された値の分だけサマリ要素領域をずらして配置することとした。しかしながら、検出されたシフト量そのままの値分ずらして配置するものでなくてもよい。たとえば、検出されたシフト量の定数倍や量子化した値の分ずらして配置してもよい。この場合、メモリ部102に記録する際に、このような値を記録してもよいし、検出されたシフト量を記憶しておき、配置する際に所定の計算をすることで記録されたシフト量の定数倍や量子化した値の分ずらすこととしてもよい。
あるいは、この変形例では、サマリ要素領域を囲む最小矩形を切出すこととして説明したが、サマリ要素領域の階層が反映できれば、必ずしも最小矩形である必要はない。たとえば、全てのサマリ要素領域について、行頭側に所定の距離分の余白を含めた矩形領域を切出すこととしてもよい。言い換えると、サマリ要素を囲む最小矩形の行頭側の辺を所定の距離だけ引き伸ばして切出してもよい。
なお、上述のように、本実施の形態およびその変形例では、サマリ要素領域を切出して配置することでサマリ画像を生成したが、サマリ要素領域以外の領域を消去して所定の間隔に詰めることでサマリ画像を生成してもよい。
<他の変形例>
上述の実施の形態およびその変形例においては、本発明に係る処理がMFP1で実行される場合について説明したが、原稿300を読取るための画像読取機能を備えたコンピュータにおいて上記処理が実行されてもよい。この場合には、コンピュータを文書処理装置として機能させるための図5に示された処理機能を実行させるプログラムを提供することもできる。このようなプログラムは、CD−ROM(Compact Disk-Read Only Memory)などの光学媒体や、メモリカードなどのコンピュータ読取り可能な記録媒体にて記憶させて、プログラム製品として提供することもできる。あるいは、コンピュータに内蔵するハードディスクなどの記憶媒体にて記憶させて、プログラムを提供することもできる。また、ネットワークを介したダウンロードによって、プログラムを提供することもできる。
また、プログラムを記録しているたとえば光学媒体等をMFP1の駆動装置(図示せず)で読み出して、メモリ部102のプログラムをアップデートすることもできる。
また、画像読取機能を他の装置またはコンピュータで実現した上で、生成された文書画像を受取って、上記のような処理に従ってサマリ画像を生成してもよい。また、サマリ画像と閲覧支援情報(しおりデータ)とが同一の文書に含まれる構成について例示したが、必ずしも同一の文書に閲覧支援情報を付加しなくてもよく、別のファイルとして出力してもよい。
なお、本発明にかかるプログラムは、コンピュータのオペレーティングシステム(OS)の一部として提供されるプログラムモジュールのうち、必要なモジュールを所定の配列で所定のタイミングで呼出して処理を実行させるものであってもよい。その場合、プログラム自体には上記モジュールが含まれずOSと協働して処理が実行される。このようなモジュールを含まないプログラムも、本発明にかかるプログラムに含まれ得る。
また、本発明にかかるプログラムは他のプログラムの一部に組込まれて提供されるものであってもよい。その場合にも、プログラム自体には上記他のプログラムに含まれるモジュールが含まれず、他のプログラムと協働して処理が実行される。このような他のプログラムに組込まれたプログラムも、本発明にかかるプログラムに含まれ得る。
提供されるプログラム製品は、ハードディスクなどのプログラム格納部にインストールされて実行される。なお、プログラム製品は、プログラム自体と、プログラムが記憶された記憶媒体とを含む。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
本発明の実施の形態およびその変形例に従う文書処理装置(MFP)を含むシステムの概略構成図である。 本発明の実施の形態およびその変形例に従うMFPにおける概略の機能構成を示すブロック図である。 (a)は、本発明の実施の形態およびその変形例に従うMFPの第1の操作パネル部の外観の一例を示す図であり、(b)は、本発明の実施の形態およびその変形例に従うMFPの第2の操作パネル部の外観の一例を示す図である。 本発明の実施の形態およびその変形例に従うパーソナルコンピュータの概略のハードウェア構成を示す模式図である。 本発明の実施の形態およびその変形例に従うMFPの機能構成を示す機能ブロック図である。 本発明の実施の形態およびその変形例における文書サマリ作成処理を示すフローチャートである。 出力形態選択画面の一例を示す図である。 文書画像に含まれる文書要素の抽出処理を説明するための図であり、(a)は、原稿から生成される文書画像の一例を示す図であり、(b)は、(a)に示す文書画像に対して文書要素が抽出された状態の一例を示す図である。 本発明の実施の形態におけるサマリ要素管理情報のデータ構造を示す図である。 本発明の実施の形態およびその変形例における段管理情報のデータ構造を示す図である。 サマリ要素確認画面の一例を示す図である。 本発明の実施の形態における部分領域切出処理を示すフローチャートである。 本発明の実施の形態およびその変形例における本文基準線管理情報のデータ構造を示す図である。 本文基準線について説明するための図である。 処理ページにおける本文グループ基準線に基づいてページ間のレイアウトのずれを補正する例を示す図である。 処理ページにおける本文基準線に基づいてページ間のレイアウトのずれを補正する例を示す図である。 図12のステップS214において設定される仮想矩形を示す図である。 本発明の実施の形態およびその変形例におけるレイアウト基準線管理情報のデータ構造を示す図である。 図12のステップS218において切出される矩形領域について説明するための図である。 本発明の実施の形態におけるサマリ画像生成処理を示すフローチャートである。 図20のステップS312において配置されるサマリ要素領域を説明するための図である。 最終的に生成されたサマリ画像の一例を示す図である。 出力形態が「合成」の場合の電子文書のデータ構造の一例を示す図である。 出力形態が「合成」の場合のしおりデータのデータ構造の一例を示す図である。 (a)は、出力形態が「分離」の場合の電子原稿文書のデータ構造の一例を示す図であり、(b)は、出力形態が「分離」の場合の電子サマリ文書のデータ構造の一例を示す図である。 出力形態が「分離」の場合のしおりデータのデータ構造の一例を示す図である。 本発明の実施の形態の変形例におけるサマリ要素管理情報のデータ構造を示す図である。 本発明の実施の形態の変形例における部分領域切出処理を示すフローチャートである。 本発明の実施の形態の変形例におけるサマリ画像生成処理を示すフローチャートである。
符号の説明
1 MFP、12 出力形態選択部、14 画像バッファ部、16 サマリ要素抽出部、18 段検出部、19 線設定部、20 要素修正部、22 部分領域切出部、24 サマリ画像生成部、26 出力データ生成部、28 しおり付与部、30 データ格納処理部、32 送信処理部、100 制御部、102 メモリ部、104 画像読取部、106 プリント部、108 通信インターフェイス部、110,111 操作パネル部、112 記憶部、201 CPU、203 内部バス、205 ディスプレイ部、207 通信インターフェイス部、209 入力部、211 ハードディスク部、213 メモリ部、215 CD−ROMドライブ、215a CD−ROM、217 FDDドライブ、217a フレキシブルディスク、300 原稿、400 電子文書、402 ヘッダ部、403 サマリ画像部、404 しおりデータ部、406 文書画像部、408 フッタ部、412 ヘッダ部、414 サマリ画像部、416 データ部、418 フッタ部、420 文書要素、501a,502a,504a,506a 段、501b,502b,504b,506b 本文領域、503,505 段(本文領域)、511,512,513,514,515,516 本文基準線、521,522,523,524 本文グループ基準線、531,532 仮想矩形、541,542 レイアウト基準線、571,572,573 矩形領域、611,612 サマリ要素、621 削除ボタン、622 要素追加ボタン、623 範囲変更ボタン、624 OKボタン、625 前頁ボタン、626 次頁ボタン、627 カーソルボタン、710 要素基準線、711,712,713,714,715 矩形領域、4001 電子合成文書、4002A 電子原稿文書、4002B 電子サマリ文書、PC1,PC2,PC3 パーソナルコンピュータ、SRV サーバ装置。

Claims (17)

  1. 文書画像から前記文書画像のサマリを作成する文書処理装置であって、
    前記文書画像から、所定の種別の文書要素を抽出するための抽出手段と、
    前記文書画像から、頁ごとに段を検出するための検出手段と、
    前記段のレイアウトに基づいて、頁ごとに、少なくとも1つのレイアウト基準線を設定するための線設定手段とを備え、
    前記レイアウト基準線は、対応する前記段の行方向に垂直な方向の線であり、
    抽出された前記所定の種別の文書要素に対応するサマリ領域を含む部分領域を、前記レイアウト基準線を基準として切出すための切出手段と、
    所定の画像に、前記画像における所定の要素基準線を基準として前記部分領域を配置することで、前記サマリを表わす画像であるサマリ画像を生成するためのサマリ生成手段とをさらに備える、文書処理装置。
  2. 前記切出手段は、前記レイアウト基準線を端部として前記部分領域を切出し、
    前記サマリ生成手段は、前記所定の要素基準線に沿って、前記部分領域を順に配置する、請求項1に記載の文書処理装置。
  3. 前記切出手段は、前記サマリ領域を含む最小矩形を前記部分領域として切出すとともに、前記部分領域と前記レイアウト基準線との距離を前記部分領域ごとに検出し、
    前記サマリ生成手段は、前記所定の要素基準線の位置から、検出された距離に応じて前記部分領域をシフトさせて前記画像に配置する、請求項1に記載の文書処理装置。
  4. 頁間での前記レイアウト基準線のずれを補正するための処理を行なう補正処理手段をさらに備える、請求項2または3に記載の文書処理装置。
  5. 前記補正処理手段は、頁間で、前記段における本文領域の基準位置を整合させるための整合手段を含む、請求項4に記載の文書処理装置。
  6. 所定の条件に基づいて、頁ごとに、複数の前記段をグループ化して少なくとも1つの仮想矩形を設定するための矩形設定手段をさらに備え、
    前記線設定手段は、前記仮想矩形ごとに前記レイアウト基準線を設定する、請求項4に記載の文書処理装置。
  7. 前記線設定手段は、前記仮想矩形における行方向に垂直な、行頭側の辺を前記レイアウト基準線として設定する、請求項6に記載の文書処理装置。
  8. 前記文書画像を含む第1の電子文書と、前記サマリ画像を含む第2の電子文書とを別々に生成するための文書生成手段と、
    前記第1の電子文書および前記第2の電子文書を記憶するための記憶手段とをさらに備える、請求項4に記載の文書処理装置。
  9. 前記部分領域ごとに前記文書画像の対応する箇所と関連付けるための閲覧支援情報を生成して、前記閲覧支援情報を前記サマリ画像に付加するための付加手段をさらに備え、
    前記閲覧支援情報は、対応する前記第1の電子文書を特定するための文書特定情報、および、前記部分領域ごとの前記文書画像中の対応している箇所を示す位置情報を含む、請求項8に記載の文書処理装置。
  10. 前記文書画像と前記サマリ画像とを含む電子文書を生成するための文書生成手段と、
    前記電子文書を記憶するための記憶手段とをさらに備える、請求項4に記載の文書処理装置。
  11. 前記部分領域ごとに前記文書画像の対応する箇所と関連付けるための閲覧支援情報を生成して、前記閲覧支援情報を前記サマリ画像に付加するための付加手段をさらに備え、
    前記閲覧支援情報は、前記部分領域ごとの前記文書画像中の対応している箇所を示す位置情報を含む、請求項10に記載の文書処理装置。
  12. ユーザからの指示に基づき、前記抽出手段により抽出された前記所定の種別の文書要素を修正するための修正手段をさらに備え、
    前記切出手段は、前記修正手段による修正後の文書要素の領域を前記サマリ領域として切出す、請求項4に記載の文書処理装置。
  13. 前記修正手段は、前記文書画像よりユーザ所望の領域の指定を受付ける指定手段を含み、
    前記切出手段は、前記指定手段により指定された領域を前記サマリ領域として切出す、請求項12に記載の文書処理装置。
  14. 前記サマリ画像を前記文書画像とは別に出力するか、前記サマリ画像を前記文書画像と合成して出力するかの選択をユーザより受付けるための選択手段と、
    前記選択手段により別に出力することが選択された場合に、前記文書画像を含む第1の電子文書と、前記サマリ画像を含む第2の電子文書とを生成するための第1の文書生成手段と、
    前記選択手段により合成して出力することが選択された場合に、前記文書画像と前記サマリ画像とを合成して第3の電子文書を生成するための第2の文書生成手段とをさらに備える、請求項4に記載の文書処理装置。
  15. 前記所定の種別は、表題、見出し、図、表、写真、段落の先頭の所定行、手書き注釈の対象、およびキャプションのうち少なくともいずれか1つを含む、請求項1に記載の文書処理装置。
  16. 記憶部と演算処理部とを備えた文書処理装置において、文書画像から前記文書画像のサマリを作成する方法であって、
    前記演算処理部が、前記文書画像から、所定の種別の文書要素を抽出するステップと、
    前記演算処理部が、前記文書画像から、頁ごとに段を検出するステップと、
    前記演算処理部が、前記段のレイアウトに基づいて、頁ごとに、前記段の行方向に垂直な方向の少なくとも1つのレイアウト基準線を設定するステップと、
    前記演算処理部が、抽出された前記所定の種別の文書要素に対応するサマリ領域を含む部分領域を、前記レイアウト基準線を基準として切出すステップと、
    前記演算処理部が、所定の画像に、前記画像における所定の要素基準線を基準として前記部分領域を配置することで、サマリ画像を生成するステップとを備える、文書サマリ作成方法。
  17. 請求項16に記載の文書サマリ作成方法をコンピュータに実行させる、文書サマリ作成プログラム。
JP2008115783A 2008-04-25 2008-04-25 文書処理装置、文書サマリ作成方法および文書サマリ作成プログラム Expired - Fee Related JP5194995B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008115783A JP5194995B2 (ja) 2008-04-25 2008-04-25 文書処理装置、文書サマリ作成方法および文書サマリ作成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008115783A JP5194995B2 (ja) 2008-04-25 2008-04-25 文書処理装置、文書サマリ作成方法および文書サマリ作成プログラム

Publications (2)

Publication Number Publication Date
JP2009266009A true JP2009266009A (ja) 2009-11-12
JP5194995B2 JP5194995B2 (ja) 2013-05-08

Family

ID=41391772

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008115783A Expired - Fee Related JP5194995B2 (ja) 2008-04-25 2008-04-25 文書処理装置、文書サマリ作成方法および文書サマリ作成プログラム

Country Status (1)

Country Link
JP (1) JP5194995B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011199450A (ja) * 2010-03-18 2011-10-06 Konica Minolta Business Technologies Inc 会議システム、情報処理装置、表示方法および表示プログラム
JP2017520814A (ja) * 2014-05-23 2017-07-27 マイクロソフト テクノロジー ライセンシング,エルエルシー コンテンツ生成システムでのガイド
WO2017149711A1 (ja) * 2016-03-02 2017-09-08 株式会社日立製作所 文書管理装置および文書管理方法
US10621428B1 (en) 2019-05-17 2020-04-14 NextVPU (Shanghai) Co., Ltd. Layout analysis on image
CN113835791A (zh) * 2020-06-23 2021-12-24 北京字节跳动网络技术有限公司 呈现视图组件的层级关系的方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05342326A (ja) * 1992-06-09 1993-12-24 Fuji Xerox Co Ltd 文書処理装置
JPH0888755A (ja) * 1994-09-19 1996-04-02 Sharp Corp 画像処理装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05342326A (ja) * 1992-06-09 1993-12-24 Fuji Xerox Co Ltd 文書処理装置
JPH0888755A (ja) * 1994-09-19 1996-04-02 Sharp Corp 画像処理装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011199450A (ja) * 2010-03-18 2011-10-06 Konica Minolta Business Technologies Inc 会議システム、情報処理装置、表示方法および表示プログラム
JP2017520814A (ja) * 2014-05-23 2017-07-27 マイクロソフト テクノロジー ライセンシング,エルエルシー コンテンツ生成システムでのガイド
US11514228B2 (en) * 2014-05-23 2022-11-29 Microsoft Technology Licensing, Llc Guides on a content generation system
WO2017149711A1 (ja) * 2016-03-02 2017-09-08 株式会社日立製作所 文書管理装置および文書管理方法
US10621428B1 (en) 2019-05-17 2020-04-14 NextVPU (Shanghai) Co., Ltd. Layout analysis on image
JP2020191057A (ja) * 2019-05-17 2020-11-26 ネクストヴイピーユー(シャンハイ)カンパニー リミテッドNextvpu(Shanghai)Co.,Ltd. レイアウト解析方法、読書補助装置、回路及び媒体
CN113835791A (zh) * 2020-06-23 2021-12-24 北京字节跳动网络技术有限公司 呈现视图组件的层级关系的方法和装置
CN113835791B (zh) * 2020-06-23 2024-05-07 北京字节跳动网络技术有限公司 呈现视图组件的层级关系的方法和装置

Also Published As

Publication number Publication date
JP5194995B2 (ja) 2013-05-08

Similar Documents

Publication Publication Date Title
JP4405831B2 (ja) 画像処理装置及びその制御方法、プログラム
JP4369785B2 (ja) マルチメディア書類を管理するシステム、mfp、集合サーバ及び方法
KR102403964B1 (ko) 화상 처리 장치, 화상 처리 방법, 및 저장 매체
JP4572084B2 (ja) カバーシートを印刷する装置及び方法
JP5111268B2 (ja) 画像処理装置、画像処理方法、そのプログラムおよび記憶媒体
JP4181892B2 (ja) 画像処理方法
JP4785655B2 (ja) 文書処理装置及び文書処理方法
JP2009193356A (ja) 画像処理装置、画像処理方法、プログラム、及び記憶媒体
JP5194995B2 (ja) 文書処理装置、文書サマリ作成方法および文書サマリ作成プログラム
JP4533273B2 (ja) 画像処理装置及び画像処理方法、プログラム
JP2006178973A (ja) ドキュメントセパレータページ
US8144988B2 (en) Document-image-data providing system, document-image-data providing device, information processing device, document-image-data providing method, information processing method, document-image-data providing program, and information processing program
US8587817B2 (en) Image processing apparatus, image processing method, and computer readable medium storing program
US8854635B2 (en) Document processing device, method, and recording medium for creating and correcting formats for extracting characters strings
JP4920928B2 (ja) 画像処理装置及びその制御方法、プログラム
JP5176416B2 (ja) 文書処理装置、文書処理方法、および文書処理プログラム
US20230273952A1 (en) Image processing apparatus, image processing method, and storage medium
JP2009169675A (ja) 文書処理装置、文書処理方法および文書処理プログラム
JP2008052496A (ja) 画像表示装置、画像表示方法、プログラムおよび記録媒体
JP4811133B2 (ja) 画像形成装置及び画像処理装置
US8194982B2 (en) Document-image-data providing system, document-image-data providing device, information processing device, document-image-data providing method, information processing method, document-image-data providing program, and information processing program
JP5098614B2 (ja) 文章処理装置の制御方法および文章処理装置
JP5205821B2 (ja) 文書処理方法、文書処理プログラム、および文書処理装置
JP4827519B2 (ja) 画像処理装置、画像処理方法、およびプログラム
JP2010061623A (ja) 文書処理装置、文書処理方法および文書処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121016

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130121

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160215

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees