この発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中の同一または相当部分については同一符号を付してその説明については繰返さない。
(実施の形態)
(全体システム構成)
図1は、本発明の実施の形態に従う文書処理装置を含むシステムの概略構成図である。
本実施の形態においては、代表的に、本発明に係る文書処理装置を搭載するMFP(Multi Function Peripheral)について説明する。なお、本発明に係る文書処理装置は、MFPに限らず、複写機、ファクシミリ装置、スキャナ装置等にも適用することができる。
図1を参照して、本発明の実施の形態に従うMFP1は、原稿300を読取るための画像読取部104と、紙媒体などへの印刷処理を行なうためのプリント部106とを含んで構成される。
特に、本発明の実施の形態に従うMFP1は、画像読取部104で原稿300を読取ることにより文書画像を取得し、この文書画像を含む電子化文書400を生成する。代表的に、電子化文書400には、PDF(Portable Document Format)などのフォーマットを採用することができる。
また、MFP1は、文書画像に含まれる内容領域を抽出して、各内容領域についての属性情報を取得するとともに、抽出した各内容領域のうち特定の領域に対して文書画像内の内容例えばタイトル・見出し等を特定するための閲覧ナビゲート情報を生成する。
本明細書において、「内容領域」とは文書に含まれる情報資源であり、行単位の内容要素(コンテンツ)である。また、明細書において「閲覧ナビゲート情報」では、ユーザによる電子化文書に含まれる文書画像の閲覧を支援するための情報であり、より具体的には、当該文書画像に含まれる内容領域のうち所定のものが存在する位置を特定するための情報である。このような閲覧ナビゲート情報は、一例として「しおり(bookmark)」、「注釈」、「スレッド」、「リンク」等を含み、文書画像における内容領域の位置を特定するための情報を少なくとも含む。なお、本発明の実施の形態においては、特に「閲覧ナビゲート情報」の代表例として「しおり」を用いる構成について説明する。
MFP1は、生成した電子化文書400を自身の記憶部(図示せず)に格納したり、ネットワークを介してパーソナルコンピュータPC1,PC2,PC3(以下、「パーソナルコンピュータPC」とも称される)に送信したりする。
代表的な使用形態として、MFP1が設置されている同一のオフィス内に敷設されたネットワークであるLAN(Local Area Network)に接続されているパーソナルコンピュータPC1,PC2に対してはMFP1から電子化文書400が直接的に送信される。
一方、LANとWAN(Wide Area Network)との接続点には、サーバ装置SRVが設けられており、MFP1とは離れたオフィスにあるパーソナルコンピュータPC3等に対しては、MFP1からサーバ装置SRVを介して電子化文書400が送信される。ここで、サーバ装置SRVは代表的に、メールサーバ、FTP(File Transfer Protocol)サーバ、Webサーバ、SMBサーバ等で構成される。
画像読取部104は、原稿をセットするための載荷台と、原稿台ガラスと、載荷台にセットされた原稿を原稿台ガラスに自動的に1枚ずつ搬送する搬送部と、読取られた原稿を排出するための排出台とを含む。これにより複数枚の原稿を連続的に読取って、1つの電子化文書400として生成することが可能である。
(MFPの概略構成)
図2は、本発明の実施の形態に従うMFP1における概略構成を説明するブロック図である。
図2を参照して、本発明の実施の形態に従うMFP1は、制御部100と、メモリ部102と、画像読取部104と、プリント部106と、通信インターフェイス部108と、データ格納部110とを含む。
制御部100は、代表的にはCPU(Central Processing Unit)などの演算装置から構成され、プログラムを実行することにより本発明の実施の形態に従う文書処理方法を実現する。
メモリ部102は、代表的にDRAM(Dynamic Random Access Memory)などの揮発性の記憶装置であり、制御部100で実行されるプログラムやプログラムの実行に必要なデータ等を保持する。
通信インターフェイス部108は、代表的にネットワーク(たとえばLAN)を介してパーソナルコンピュータPCとの間でデータを送受信するための部位であり、たとえばLANアダプタおよびそれを制御するドライバソフト等を含む。
プリント部106は、プリント処理を行なうための部位であり、プリント処理に係るハードウェア構成に加えて各部の作動を制御するための制御装置をも含む。
データ格納部110は、代表的にはハードディスク装置やフラッシュメモリ等の不揮発性の記憶装置であり、制御部100で生成された電子化文書400等を格納する。
図3は、本発明の実施の形態に従うパーソナルコンピュータPCの概略構成を説明するブロック図である。
図3を参照して、本発明の実施の形態に従うパーソナルコンピュータPCは、オペレーティングシステム(OS:Operating System)を含む各種プログラムを実行するCPU(Central Processing Unit)201と、CPU201のプログラムの実行に必要なデータを一時的に記憶するメモリ部213と、CPU201で実行されるプログラムを不揮発的に記憶するハードディスク部(HDD:Hard Disk Drive)211とを含む。また、ハードディスク部211には、MFP1で生成された電子化文書を表示するための閲覧アプリケーションが記憶されており、このようなプログラムは、FDDドライブ217またはCD−ROMドライブ215によってそれぞれフレキシブルディスク217aまたはCD−ROM(Compact Disc-Read Only Memory)215aなどから読取られる。
CPU201は、キーボードやマウス等からなる入力部209を介してユーザからの指示を受取るとともに、プログラムの実行によって生成される画面出力をディスプレイ部205へ出力する。また、CPU201は、LANカード等からなる通信インターフェイス部207を介してLANやWANに接続されたMFP1や、サーバ装置SRVから電子化文書を取得し、ハードディスク部211に格納する。また上述の各部は内部バス203を介して相互にデータを授受する。
図4は、本発明の実施の形態に従うMFP1における機能構成を説明するブロック図である。これらの機能は、主としてMFP1の制御部100やメモリ部102等によって実現される。
図4を参照して、本発明の実施の形態に従うMFP1の機能構成としては、画像読取部104と、画像前処理部12と、画像バッファ部13と、圧縮処理部14と、電子化文書生成部15と、画像解析部16と、しおりデータ生成部17と、送信部18と、画像処理部19と、プリント部106と、データ格納部110とを含む。
画像読取部104は、原稿300を読取って文書画像を取得し、その文書画像を画像前処理部12へ出力する。画像前処理部12は、主としてパーソナルコンピュータPCなどの表示に適するように文書画像の表示特性等を調整する。さらに画像前処理部12が文書画像に含まれるノイズを除去することも可能である。そして、画像前処理部12で画像処理が施された文書画像は、画像バッファ部13へ送出される。
画像バッファ部13は、取得された文書画像のデータを一時的に格納する部位であり、一旦格納した文書画像は圧縮処理部14、画像解析部16および画像処理部19に出力される。
圧縮処理部14は、画像バッファ部16から出力される文書画像を圧縮処理して電子化文書生成部15へ出力する。この圧縮処理による圧縮度合は、生成される電子化文書の大きさや、要求される文書画像の解像度などに応じて変化させることも可能であり、また、圧縮処理は,JPEG(Joint Photographic Experts Group)などの非可逆変換であってもよい。なお、高解像度が要求される場合には圧縮処理を省略することも可能である。
画像解析部16は、画像バッファ部13から出力される文書画像について各ページ毎に行単位で内容領域を抽出し、さらに抽出した各内容領域についての属性情報を取得する。ここで、属性情報には、各内容領域ごとに文書画像内での位置、当該内容領域に含まれる文字の大きさ、当該内容領域に含まれる文字の色、当該内容領域の背景色等が含まれる。これらの属性情報が、しおりデータ生成部17へ送られる。
しおりデータ生成部17は、画像解析部16から出力される各内容領域の属性情報に基づいて、抽出された各内容領域のうち特定のものに対してしおりデータを生成する。そして、しおりデータ生成部17は、生成したしおりデータを電子化文書生成部15へ出力する。電子化文書生成部15は、圧縮処理部14で圧縮された文書画像に、しおりデータ生成部17からのしおりデータを付加することで電子化文書を生成する。
そして、この生成された電子化文書は、ユーザによる設定などに応じて、データ格納部110へ格納され、もしくは送信部18へ出力される。送信部18は、通信インターフェイス部108によって実現され、LANなどのネットワークを介してパーソナルコンピュータPCなどへ電子化文書生成部15で生成された電子化文書を送信する。
一方、画像処理部19は、ユーザ操作に応じて、画像バッファ部13から出力される文書画像をプリント部106でのプリント動作に適した画像に変換する。代表的に、RGB表示系で規定された文書画像をカラープリントに適したCMY系の表示系の画像データに変換することができる。このとき、プリント部106の特性に応じた色調整を行なうこともできる。プリント部106は、画像処理部19から出力される画像データに基づいて紙媒体などへの印刷処理を実行することができる。
図5は、本発明の実施の形態に従う文書画像の一例図である。
図5を参照して、ここでは文書画像420が示されており、3ページからなるテキスト文書で構成されている。
図6は、図5の文書画像における内容領域の種類を説明する図である。
図6を参照して、内容領域の種類として、ここでは、「ヘッダ」、「タイトル」、「見出し」、「本文」等を指し示すものとする。
具体的には、各ページの右側上端に「ヘッダ」が設けられており、「2004/6/8」と記述されている。1ページ目の「ヘッダ」に続いて「タイトル」である「文書サンプル」の記述がある。この記述は、「本文」と同じフォントサイズで下線で引かれており、黒色で記述されているものとする。また、「見出し」は「本文」より小さいフォントサイズで赤色で記述されているものとする。1ページ目には、「全文」と記述された「見出し」が設けられており、2ページ目には、「天皇」、「戦争の放棄」と記述された「見出し」が設けられている。また、3ページ目には、「国民の権利及び義務・・・」、「国会」と記述された「見出し」が設けられている。
また、本文はタイトルと同じフォントサイズで下線が引かれており青色で記述されているものとする。
(電子化文書の生成処理手順)
図7は、本発明の実施の形態に従う電子化文書の生成処理の具体例を説明するフロー図である。
図7のフロー図に示される処理は、制御部100がメモリ部102にプログラムを読出して実行し、図4に示される各機能を制御することで実現される。
図4および図7を参照して、まず画像読取部104が、ユーザ設定などに応じて原稿300を読取って文書画像を生成する(ステップS100)。
次に、画像前処理部12がこの生成された文書画像を調整する(ステップS102)。
そして調整後の文書画像は画像バッファ部13に格納される。
続いて圧縮処理部14が画像バッファ部13に格納された文書画像を圧縮処理して電子化文書生成部15へ出力する(ステップS104)。
一方、画像解析部16が、画像バッファ部13に格納された文書画像から内容領域を行単位で抽出する(ステップS106)。
そして、画像解析部16が1ページ目の文書画像に含まれる内容領域に応じて、各内容領域の位置を特定するための基準となる閲覧パスを文書画像内に設定する(ステップS108)。
さらに、画像解析部16は、抽出された各内容領域の閲覧パスを基準とする位置(「閲覧パス上の位置」)およびページ上の位置を取得する(ステップS110)。
同時に、画像解析部16は、抽出された各内容領域の属性を求める(ステップS112)。具体的には、上述した各内容領域の「ページ」、「ページ上の位置」、「閲覧パス上の位置」に加えて「文字サイズ」、「文字色(R,G,B)」、「文字修飾」を取得する。これらは属性情報としてしおりデータ生成部17へ出力される。
しおりデータ生成部17は、この各内容領域の属性情報を用いて、内容領域の全体を少なくとも1つのグループに分類する(ステップS114)。
そして、その後、しおりデータ生成部17は、文書全体における内容領域の統計量を算出する(ステップS116)。
次に、しおりデータ生成部17は、各グループについての内容領域の統計量を算出する(ステップS118)。
そして、次に各グループの種類を判定する(ステップS120)。
具体的には、しおりデータ生成部17は、算出された統計量に基づいて各グループの種類を判定する。
そして、次にしおりデータ生成部17は、このように判定されたグループに従って当該グループに所属する各内容領域の文書画像内での位置を示すしおりデータを生成する(ステップS112)。
続いて、電子化文書生成部15が、圧縮処理部14からの(圧縮された)文書画像にしおりデータ生成部17からのしおりデータを付加することにより電子化文書を生成する(ステップS124)。そして、電子化文書の生成処理を終了する。
(内容領域の抽出処理)
図8は、図7のステップS106における行単位における内容領域の抽出処理を説明するための図である。
図8を参照して、ここでは、図5および図6で説明した文書画像420について、行単位で内容領域の抽出処理を実行した結果がが示されている。
この文書画像420は、ページ領域421,422,423を含み、上述したように各ページ領域においては「タイトル」、「ヘッダ」、「見出し」、「本文」がそれぞれ記述されている。
画像解析部16は、このような文書画像に対して文字列を含む矩形領域を行単位で順次抽出する。
そして、ここで示されるように文書画像420に含まれるページ領域421,422,423の各々において複数の内容領域430が抽出される。このような内容領域430の抽出処理については、たとえば特開平09−134406号公報に開示されているような公知の方法を用いることができる。
ここで抽出対象とする内容領域の種別は、予め任意に設定することが可能であり、一例として「文字列」、「段落」、「図」、「表」、「写真」等を抽出対象とすることができる。なお、このような抽出対象の種別の選択についても上述したような公知の技術を用いることで実現できる。
なお、ここでは、横書き原稿に対して内容領域430を抽出する構成について説明するが、縦書き原稿に対しても同様に内容領域430を抽出することも可能である。
この場合、画像解析部16は、紙面上下方向を「行方向」と見なして各内容領域430を抽出する。なお、「横書き原稿」と「縦書き原稿」との区別は、文書中の内容要素の密度に基づいて判断することができる。具体的には、一般的に「横書き原稿」においては紙面左側に内容要素が集中する一方、紙面右側の内容要素が位置する密度は低い。一方で「縦書き原稿」においては紙面上側に内容要素が集中する一方で、紙面下側の内容要素が位置する密度は低い。このような内容要素の偏在性に基づいて「横書き原稿」と「縦書き原稿」を区別することができる。
以下では、便宜上抽出された各内容領域430に対して「行1」〜「行23」の識別番号を割り当てて説明するが、画像解析部16は、このような識別番号を必ずしも割当てる必要はなく、内容領域430を出現順(抽出順)に並べておくことにより、内容領域を識別(特定)するようにすることも可能である。
(閲覧パスの設定処理)
図9は、図7のステップS108における閲覧パスの設定処理を説明するための図である。
図9を参照して、画像解析部16は、抽出した内容領域430の位置に応じて閲覧パス440を設定する。より詳細には、画像解析部16は、文書画像の行の始点側にあって、行と直交する方向に延びる閲覧パス440を設定する。そして、文書画像内に配置される行の先頭側に閲覧パス440の始点(基準点)を設定する。すなわち、閲覧パス440は、原稿の記述順序に対応した方向に延びる。代表的に、「横書き原稿」であれば、図9(a)に示すように紙面左端を紙面上から紙面下に向かう閲覧パス440が設定される。なお、文書画像に含まれる各ページ領域に対し同一の位置に閲覧パス440が設定される。そして、この閲覧パス440の基準点は紙面左側上に設定される。なお、「縦書き原稿」であれば紙面上端を紙面右から紙面左に向かう閲覧パスが設定される。そして、この場合の閲覧パスの基準点は紙面右上に設定される。その他については「横書き原稿」の場合と同様である。
ここで、閲覧パス440は、「行の始点側」に設定されるが、この「行の始点側」は抽出した内容領域430のうち最も始点側に位置する内容領域に応じて決定される。すなわち、閲覧パス440を設定するためには、文書画像に含まれる内容領域430のうち最も始点側に位置するものを抽出する必要がある。しかしながら、多数の原稿を画像読取部104で読取って電子化文書を生成する場合などには、対象となる原稿の枚数を予め知ることができない。そのためすべてのページに含まれる内容領域430を抽出した後に閲覧パス440を設定しようとすると効率が低下するおそれがある。そこで、本実施の形態に従う画像解析部16は、文書画像420の1ページ目のページ領域421に含まれる内容領域430に基づいて閲覧パス440を設定する。具体的には画像解析部16は、ページ領域421内に存在する内容領域430を囲む領域450を取得し、この領域450に基づいて閲覧パス440を設定する。
なお、本例においては、一例として1段組の文書に適用した場合について説明するが、複数段組の文書に適用することも可能である。
図9(b)は、2段組された原稿に対して閲覧パスを設定する場合を説明する図である。
図9(b)においては、2段組された文書画像420に含まれるページ領域424,425の各々において複数の内容領域430が抽出される。
そして、ページ領域424に含まれる内容領域430の抽出処理の結果に基いて内容領域を囲む領域453,455が取得される。この取得された領域453,455に対応付けて閲覧パス440が設定され、領域453と領域455が連結されるように閲覧パスが設定される。そして次ページ以降については1ページに設定した閲覧パスと同様の手順に従って順序付けが実行されることになる。
(位置取得処理)
図7のステップS110における各内容領域についての閲覧パス440を基準とした距離の取得処理について図9を参照して説明する。
図9を参照して、本明細書では、閲覧パス440上の各内容領域430に対応する行位置を「閲覧パス上位置」と規定する。たとえば、「閲覧パス上位置」は、符号452で示される距離となる。なお、「閲覧パス上位置」としては1ページ目の始点を基準として算出した「絶対値」を用いる。
なお、ステップS110において、各内容領域について、ページ番号とともに、対応するページの始点を基準として算出したページ上の位置を取得する。
このように、画像解析部16は、抽出した内容領域430の各々について「閲覧パス上の位置」と「ページ上の位置」とを取得する。
(その他の属性情報の取得処理)
図8のステップS112における各内容領域の領域の属性として「文字サイズ」、「文字色」、「文字修飾」の代表値の取得処理は、公知の文字認識技術などを用いて実行することが可能である。本実施の形態に従う画像解析部16は、各内容領域の文字認識を行なって「文字サイズ」および「文字色」、「文字修飾」を取得する。
具体的には、各内容領域が含む文字領域に相当する属性値の代表値を用いることができる。文字サイズは、抽出された内容領域の中間データから得ることができる。あるいは、抽出された内容領域の高さから判断することも可能である。
文字色は、文字領域に含まれる背景色以外の画素値の代表値であり、背景色をRGB(1,1,1)の場合を白とし、背景色以外の画素値の平均値を求めることにより算出される。
文字修飾の種類としては太字、下線、囲み等があり、文字修飾の種類の判定は、文字色の密度やランレングスの分布等を用いることによって識別する。なお、これらの属性値は絶対的な属性値を判断する必要はなく相対的に区別できる程度のデータを用いることが可能である。
ここで各内容領域に文字の大きさや文字色等が複数の種類含まれる場合には、最も頻度の高いものの値もしくはすべての値についての平均値を採用することも可能である。
(属性情報)
図10は、図8に示す文書画像420から取得される各内容領域の属性情報の具体例を説明する図である。
図10を参照して、画像解析部16は、文書画像420から抽出した各内容領域430について、データ欄461〜467に記述されているようなデータを属性情報として出力する。
ここで、この図10におけるデータ欄467に格納されている「グループID」については、後述するしおりデータ生成部17を決定するため画像解析部16が出力する属性情報には含まれない。
(グループへの分類処理)
図11は、図7のステップS114におけるグループへの分類処理を説明するフロー図である。なお、当該分類処理は、しおりデータ生成部17で実行される。
図11を参照して、まずグループIDテーブルを初期化する(ステップS11)。そして、次に各内容領域の閲覧パス上の位置を参照して、先頭から順に属性情報を取得する(ステップS12)。
そして、次に各属性(文字サイズ、文字色、文字修飾)を参照して、グループIDテーブルに類似した属性のテーブルがあるかどうかを判断する(ステップS13)。
ステップS13において、類似した属性のテーブルがなければ、グループIDテーブルに新規テーブルを追加して各属性値を格納する。そして、新規テーブルのIDをグループIDとする(ステップS14)。
一方、ステップS13において各属性を参照して、グループIDテーブルに類似した属性のテーブルがある場合には、類似したテーブルのIDをグループIDとする(ステップS15)。
そして、すべての内容領域にグループIDを付与したかどうかを判断する(ステップS16)。全ての内容領域についてグループIDを付与した場合にはグループの分類を終了する。
一方、ステップS16においてすべての内容領域にグループIDを付与していない場合には、ステップS12に戻り、上述の処理を繰り返して次の内容領域についてのグループIDの付与を実行する。
図12は、図10の内容領域の属性情報に基いて分類されたグループIDテーブルを説明する一例図である。
ここでは、図11のステップS15において、文字サイズが±1の範囲は類似であるものとし、また、文字色については色相が変化しない範囲は類似であるものとした場合において分類されたグループIDテーブルが示されている。
たとえば、図11を参照してステップS13において、行1については文字サイズが「5」であり、文字色(R,G,B)が(0,0,0)黒であり文字修飾がないのでグループID番号1となる。同様にして行1〜行23についてそれぞれグループ分けしてグループID番号を付与する。
本例においては、グループIDのID番号1〜4がそれぞれ設けられ、属性パターンとして、文字サイズが「5」、文字色(R,G,B)が(0,0,0)の黒、文字修飾がなしのグループID番号1と、文字サイズが「10」、文字色(R,G,B)が(0,0,0)の黒、文字修飾として下線がある場合のグループID番号2と、文字サイズが「8」で、文字色(R,G,B)が(0.8〜1,0,0)の赤、文字修飾がないグループID番号3と、文字サイズが「10〜10.5」で、文字色(R,G,B)が(0,0,0.5〜0.8)の青、文字修飾として下線がある場合のグループID番号4の4つの属性パターンのテーブルが示されている。
このように、しおりデータ生成部17は、属性値の各々について分類を行ない、これらの分類結果を統合してグループIDを決定する。すなわち、しおりデータ生成部17は、各属性値の分類結果に応じた処理に従って、内容領域について少なくとも1つのグループに分類する。
上述したようなグループへの分類処理は、文書内に現われる種別(たとえば、「タイトル」、「見出し」等)を共通にする内容領域同士をグルーピングするための処理である。すなわちこのような種別を共通にする内容領域同士は、いずれも類似した「文字サイズ」や文字色や文字修飾を有していると考えられるため、上述のように近似した属性情報を有する内容領域同士をグルーピングすることにより文書内の種別に応じた分類処理を実現することが可能である。
そして、図10のデータ467に示されるように上記グループIDテーブルに基いて行1〜行23のそれぞれについてグループIDが付与されることになる。
(統計量の算出処理)
図13は、文書内の各内容領域についての閲覧パス上の位置の分布を説明する図である。ここで、横軸が閲覧パス上の位置を指し示し、縦軸が面積を指し示す。そして、各内容領域についてグループID番号に従ってプロットされている場合が示されている。
図14は、文書内の各内容領域についてのページ上の位置の分布を説明する図である。ここで、横軸が閲覧パス上の位置を指し示し、縦軸が面積を指し示す。そして、各内容領域についてグループID番号に従ってプロットされている場合が示されている。
しおりデータ生成部17は、図7のステップS116において、上記画像解析部16からの各内容領域430の属性情報に基いて文書全体の統計量を算出する。具体的には、図13および図14のデータに基づいて内容領域の位置の統計量を算出する。さらに、グループ分けされた内容領域の領域数および総面積等の統計量も算出する。
図15は、ステップS116において文書全体についての内容領域の統計量を算出した結果を説明する図である。
図15を参照して、ここでは、文書全体の内容領域数、内容領域数の総面積、内容領域のページ上の位置の平均値および分散値ならびに閲覧パス上の位置の平均値および分散値が示されている。一例として、領域数が「23」であり総面積が「10459」であり、ページ上の位置の平均が「19.7」であり、分散値が「186.0」、閲覧パス上の位置の平均値が「69.1」、分散値が「1638.2」として示されている。
図16は、ステップS118において各グループIDの統計量を算出した結果を説明する図である。
図16を参照して、ここでは、各グループにおいて含まれる内容領域の領域数、各グループにおいて含まれる内容領域の総面積、内容領域のページ上の位置の平均値および分散値、閲覧パス上の位置の平均値および分散値が算出される。なお、総面積の括弧書き内には、文章全体の総面積に対する割合が示されている。
一例として、グループID番号1である場合の領域数は「3」であり、総面積は「180」、ページ上の位置の平均値は「1.3」、分散値は「0.2」として算出された場合が示されている。また閲覧パス上の位置の平均値は「48.8」、最小値は「2」、最大値は「95」、分散値は「1441.6」として算出された場合が示されている。同様にして、グループID番号2〜4についても同様の方式に従って計算される。
そして、これらの結果に基づいて図7で説明したステップS120において各グループの種類が判定される。
具体的には、総面積、ページ上の位置の分散値等、閲覧パス上の位置の分散値等に基いて、判定される。
図17は、各グループの種類を判定するフロー図である。
図17を参照して、全体の統計量と各グループの統計量とを比較して、本文、ヘッダあるいはフッタ相当のグループを求める(ステップS22)。
具体的には、次表に示される判定条件に基いて本文、ヘッダあるいはフッタ相当のグループを求める。
ここで、総面積、ページ上の位置の分散、閲覧パス上の位置の分散について、全体の値に近い大きな値を持つグループを本文相当グループと判定する。より具体的には、一例としてそれぞれについて全体の統計量の値の50%以上の値であるグループを本文相当グループとする。本文相当グループは、一般的なレイアウトを考えると文章全体の中で一番領域数が多く総面積が大きいと考えられ、また、それぞれ分散して配置されるためページ上あるいは閲覧パス上の位置として偏りがなく、分散の値も大きいと考えられる。したがって、該当する条件に当てはまるグループを本文相当グループと判定する。
次に、総面積が全体の値と比較して小さく、ページ上の位置の分散も全体の値よりも極めて小さく、閲覧パス上の位置の分散が全体の値に近い大きな値を持つグループをヘッダあるいはフッタ相当グループと判定する。ヘッダ相当グループは、一般的なレイアウトを考えると領域数が少なく総面積が小さいと考えられ、また、ページ上の位置としては、ページ毎に上部領域の一部領域を用いて配置される場合が多いためページ上の位置の分散の値は極めて小さいと考えられる。また、閲覧パス上の位置としては、ページ毎に満遍なく配置されるため分散の値は大きくなると考えられる。より具体的には、一例として総面積が全体の値の20%以下、ページ上の位置の分散値が全体の値の5%以下、また、閲覧パス上の位置が全体の値の50%以上の値であるグループをヘッダあるいはフッタ相当グループと判定する。
なお、ヘッダあるいはフッタ相当グループと判定された場合に、ヘッダ相当グループとするか、フッタ相当グループとするかは、ページ上の位置の平均値で判定することができる。ヘッダあるいはフッタは、文章内の付加的な部分であり、一般的なレイアウトを考えると、ヘッダは、ページ毎に最上部領域に位置し、フッタは、ページの最下部領域に位置すると考えられる。したがって、より具体的には、一例としてページ上の位置の平均値が全体の値の平均値よりも小さい場合には、ヘッダ相当グループと判定する。また、ページ上の位置の平均値が全体の値の平均値よりも大きい場合には、フッタ相当グループと判定する。
図16を参照して、本例においては、一例としてグループID番号4の統計量が全体の統計量と比較した場合、総面積、ページ上の位置の分散、閲覧パス上の位置の分散について、全体の値に近い大きな値を持つため本体相当のグループであると判定することが可能である。
また、本例においては、一例としてグループID番号1の統計量が全体の統計量と比較した場合、総面積が全体の値と比較して小さく、ページ上の位置の分散も全体の値よりも極めて小さく、閲覧パス上の位置の分散が全体の値に近い大きな値を持つためヘッダあるいはフッタ相当のグループであると判定することが可能である。そして、この場合、ページ上の位置の平均値は、全体の値の平均値よりも小さいため、ヘッダ相当グループと判定することが可能である。
次に、再び図17を参照して、本文相当グループの統計量と未判定のグループの統計量とを比較して見出し相当のグループを求める(ステップS23)。
具体的には、次表に示される判定条件に基いて見出し相当のグループを求める。
ここで、総面積が本文相当グループの値よりも小さい値を持ち、閲覧パス上の位置の平均の値が本文相当グループの値に近い値を持ち、閲覧パス上の位置の分散の値が本文相当グループの値に近い大きな値を持つグループを見出し相当グループと判定する。見出し相当グループは、一般的なレイアウトを考えると、見出しは対応する本文相当箇所に比べて、文字数が少なく占める面積は小さいという特徴がある。また、対応する本文相当箇所の近くに配置されるため閲覧パス上の位置の平均値は本文相当グループの閲覧パス上の位置の平均値に近いと考えられる。また、本文相当グループと同様に、それぞれ分散して配置されるため閲覧パス上の位置として偏りがなく、分散の値も大きいと考えられる。
より具体的には、一例として未判定の対象となるグループの総面積が本文相当グループの総面積よりも少なく、また、閲覧パス上の位置の平均の値が本文相当グループの値に近い値を持つか否かを判定するために、未判定の対象となる閲覧パス上の位置の平均値について、本文相当グループの閲覧パス上の位置の平均値との差分の絶対値が本文相当グループの閲覧パス上の位置の平均値の30%以下であり、さらに、未判定の対象となる閲覧パス上の位置の分散値が本文相当グループの閲覧パス上の位置の分散値の70%以上であるグループを見出し相当のグループと判定する。
図16を参照して、本例においては、一例としてグループID番号3の統計量が本文相当グループと比較した場合、総面積、閲覧パス上の位置の平均および閲覧パス上の位置の分散について、上述の条件を満たすため見出し相当のグループであると判定することが可能である。
次に、再び図17を参照して、見出し、本文相当グループの統計量と、未判定のグループの統計量とを比較して、まずタイトル候補のグループを求める(ステップS24)。
具体的には、次表に示される判定条件に基いてタイトル候補のグループを求める。
ここで、見出し、本文相当グループの閲覧パス上の位置の最小値の中で最小の値を求め、その値よりも閲覧パス上の位置の最大値が大きい未判定のグループをタイトル候補のグループと判定する。タイトル候補グループは、一般的なレイアウトを考えると、タイトルは、位置としては、見出し、本文相当グループの内容領域の位置よりも前にある場合が多いと考えられるため、閲覧パス上の位置は、見出し、本文相当グループの最小値よりも小さいと考えられる。
図16を参照して、本例においては、一例としてグループID番号2の統計量が見出し、本文相当グループと比較した場合、閲覧パス上の位置について、上述の条件を満たすためタイトル候補のグループであると判定することが可能である。
次に、再び図17を参照して、次に、タイトル候補として判定された中からタイトル相当のグループを判定する。具体的には、まず、タイトル候補のグループが複数あるかどうかを判定する(ステップS25)。ステップS25において、タイトル候補グループが複数ある場合には、総面積が大きい方をタイトル相当のグループと判定する(ステップS27)。一般的なレイアウトを考えると、タイトルは、文字サイズが大きく総面積としては、複数のタイトル候補グループがある場合には、その中の一番大きいものと考えられる。
一方、タイトル候補グループが1つしかない場合には、当該タイトル候補グループをタイトル相当のグループと判定する(ステップS26)。
図16を参照して、本例においては、一例としてグループID番号3のみがタイトル候補のグループに該当するためタイトル相当のグループと判定することが可能である。
次に、再び図17を参照して、上記において求められたそれぞれのグループから領域個別の属性を用いてさらに絞り込みを行う(ステップS27)。例えば、見出し相当のグループに所定数以上の領域が含まれる場合には、一部の内容領域をグループから削除することも可能である。一例として、見出し相当のグループとして求められた場合、領域数の個数が2以上の場合に文字サイズが大きいものを残して他を削除することも可能である。これにより、例えば、見出し相当のグループに含まれる全ての内容領域を出力するのではなく、内容領域の局所的な属性を用いて一部を選択的に出力することにより1ページ当たりのしおり数を制限することが可能となる。
上述した処理によって得られた情報に基づいてしおりデータ生成部17は、選択された内容領域の文書画像内での位置を示すしおりデータを文書画像に付加することにより電子化文書400を生成する。
図18は、電子化文書生成部15が生成する電子化文書のデータ構成の一例を示す図である。
図18(a)を参照して電子化文書は、ヘッダ部402と、本体部404と、しおりデータ部405と、フッダ部406とから構成される。
ヘッダ部402およびフッタ部406には電子化文書の属性についての情報、たとえば作成日時・作成者・著作権情報等が格納される。
本体部404は、各ページに対応する文書画像が格納される。また、しおりデータ部405には、しおりデータ生成部17が生成したしおりデータが格納される。
図18(b)に示されるように、複数のページデータとしおりデータがあり、ページツリーとしおり階層を介してドキュメントカテゴリの下に配置される構成を取る。具体的には、ページツリーにページ間の順序が記述される。
図19は、しおりデータ部405のデータ構造の一例を示す図である。
図19を参照して、しおりデータ部405には、選択されたグループの内容領域の文書画像内での位置を示す位置情報が格納される。本例においては、タイトルおよび見出しの内容領域に対してしおりデータが生成される場合について説明する。
たとえば、「しおり1」として格納される位置情報である「ページ1,(4)」は、対象となる内容領域が文書画像の「1」ページ目で、「ページ上の位置」が「4」であることを示している。当該「しおり1」は、グループID番号2のタイトルに対応するものである。
また、「しおり2」として格納される位置情報である「ページ1,(14)」は、対象となる内容領域が文書画像の「1」ページ目で、「ページ上の位置」が「14」であることを示している。当該「しおり2」は、グループID番号3の見出しに対応するものである。なお、他のしおりについても同様にしおりデータが生成されるものとする。
上述のような処理により文書画像に含まれる各内容領域に応じてグループ分けをして分類することにより、効率的にしおり等の閲覧ナビゲート情報を生成することができる。
なお、本例においては電子化文書400は、タイトル、ヘッダ、フッタ、見出し、本文のそれぞれに1つのグループが割当てられる構成について説明したが、複数のグループが割当てられる場合についても同様に適用することが可能である。
また、本実施の形態においては内容領域の属性として、領域内の文字サイズ、文字色、文字修飾の種類を用いてグルーピングする方式について説明したが、それ以外の文字を特定する属性情報を用いることも可能である。
たとえば、フォントの識別、インデント位置、センターリング・右揃え等の文字揃え、前後左右の余白の大きさ、領域の幅、高さと幅の比率等の文字の属性情報を用いることも可能である。
また、より多様なスタイルを持つ文書画像に対応するために文字修飾の種類としては太字、下線、囲みの他にイタリック体、幅広文字などを識別して属性パターンに含めることも可能である。
本実施の形態においては、原稿をスキャンすることにより簡単な操作で適切な位置にしおりが自動的に設定されたPDF形式の電子化文書を得ることができるため、電子化文書の閲覧時にPDFビューアのしおり機能を使った効率的な文書の閲覧が可能となる。
また、上記の実施の形態においてはしおりが設定されたPDF形式の電子化文書を生成するMFPに関するものについて説明したが、特にMFPに限られず、文書画像から抽出したタイトル・見出し等の領域についてしおり機能を利用する他の機器においても同様に適用することが可能である。
また、タイトル・見出し等の領域に対して選択的に文字認識処理を行ない文字コードを文書画像の検索キーとして生成する方式や、タイトル・見出し等の領域に相当する画像を組合せて、目次や要約を生成する方式にも適用可能である。本方式によりさまざまなスタイルの文書画像に対し適切なタイトル・見出し等の領域の抽出が可能となり、有用な検索キー、目次や要約等も生成することが可能である。
上述の実施の形態においては、本発明に係る処理がMFP1で実行される場合について説明したが、原稿300を読取るための画像読取機能を備えたコンピュータにおいて上記処理が実行されてもよい。この場合には、コンピュータを文書処理装置として機能させるための図4に示された処理機能を実行させるプログラムを提供することもできる。このようなプログラムは、コンピュータに付属するフレキシブルディスク、CD−ROM(Compact Disk-Read Only Memory)、ROM(Read Only Memory)、RAM(Random Access Memory)およびメモリカードなどのコンピュータ読取り可能な記憶媒体にて記憶させて、プログラム製品として提供することもできる。あるいは、コンピュータに内蔵するハードディスクなどの記憶媒体にて記憶させて、プログラムを提供することもできる。また、ネットワークを介したダウンロードによって、プログラムを提供することもできる。
また、画像読取機能を他の装置またはコンピュータで実現した上で、生成された文書画像を受取って、上記のような処理に従って閲覧ナビゲート情報のみを生成してもよい。また、文書画像と閲覧ナビゲート情報とが同一の電子化文書に含まれる構成について例示したが、必ずしも同一の電子化文書に閲覧ナビゲート情報を付加しなくてもよく、別のファイルとして出力してもよい。
なお、本発明にかかるプログラムは、コンピュータのオペレーティングシステム(OS)の一部として提供されるプログラムモジュールのうち、必要なモジュールを所定の配列で所定のタイミングで呼出して処理を実行させるものであってもよい。その場合、プログラム自体には上記モジュールが含まれずOSと協働して処理が実行される。このようなモジュールを含まないプログラムも、本発明にかかるプログラムに含まれ得る。
また、本発明にかかるプログラムは他のプログラムの一部に組込まれて提供されるものであってもよい。その場合にも、プログラム自体には上記他のプログラムに含まれるモジュールが含まれず、他のプログラムと協働して処理が実行される。このような他のプログラムに組込まれたプログラムも、本発明にかかるプログラムに含まれ得る。
提供されるプログラム製品は、ハードディスクなどのプログラム格納部にインストールされて実行される。なお、プログラム製品は、プログラム自体と、プログラムが記憶された記憶媒体とを含む。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
1 MFP、12 画像前処理部、13 画像バッファ部、14 圧縮処理部、15 電子化文書生成部、16 画像解析部、17 しおりデータ生成部、18 送信部、19画像処理部、100 制御部、102 メモリ部、104 画像読取部、106 プリント部、108,207 通信インターフェイス部、110 データ格納部、201 CPU、203 内部バス、205 ディスプレイ部、209 入力部、211 HDD、213 メモリ部、215 CD−ROMドライブ、217 FDDドライブ。