JP2010244412A

JP2010244412A - 文書処理装置、文書処理方法および文書処理プログラム

Info

Publication number: JP2010244412A
Application number: JP2009094167A
Authority: JP
Inventors: Koji Fujiwara; 浩次藤原
Original assignee: Konica Minolta Business Technologies Inc
Current assignee: Konica Minolta Business Technologies Inc
Priority date: 2009-04-08
Filing date: 2009-04-08
Publication date: 2010-10-28
Anticipated expiration: 2029-04-08
Also published as: JP5310206B2

Abstract

【課題】多種多様な文書に対して、従来よりも少ない作業量で見出し要素の誤検出および未検出を修正することのできる文書処理装置、文書処理方法および文書処理プログラムを提供すること。
【解決手段】文書処理装置は、文書画像に含まれる複数のテキスト要素を、予め定められた複数の特徴種別に基づいてグループ化する（Ｓ１０）。また、各テキスト要素の特徴に基づいて、複数のテキスト要素から初期見出し要素を抽出し（Ｓ１２，Ｓ１４）、抽出された初期見出し要素と、複数のテキスト要素のうち初期見出し要素以外の要素を表わす初期非見出し要素とのうち少なくともいずれかについて、グループ化の結果に従いグループごとに区別して表示する（Ｓ１６）。さらに、文書処理装置は、ユーザからの指示に基づいて、表示されている要素の見出し定義を、グループ単位で修正する（Ｓ１８，Ｓ２０）。
【選択図】図６

Description

本発明は、文書処理装置、文書処理方法および文書処理プログラムに関し、特に、文書データの見出し要素を検出することのできる文書処理装置、文書処理方法および文書処理プログラムに関する。

文書に対して自動で見出しを付ける際、多様な文書に対して精度を高く保つことは難しい。それに対する従来の対応としては、入力文書が、事前に用意しておいた文書タイプのどれであるかの情報を、自動判別するかまたはユーザ入力するなどして、適応的にテンプレート文書モデルなどを切換えて対応していた（特許文献１参照）。

また、音声の入力を対象とするものではあるが、未構造化文書をセクションに分解し、見出しを統計的モデルにより付与する技術も提案されている（特許文献２参照）。

特開平５−３４２３２６号公報特表２００７−５１４９９８号公報

オフィスなどで利用される文書は多種多様である。したがって、上記特許文献１の技術では、予め容易していたテンプレートでは対応しきれない。結果として、見出しを手動で修正して付け直す場合が多く発生していた。

しかしながら、見出しが検出ミスで漏れているときは、いちいち探し出して指定しなければならないため、非常に効率が悪いという問題があった。また、見出しの誤検出が多い場合には、似たような間違いによる誤検出が繰返して発生している場合が多く、これを効率良く修正する手段が求められていた。

また、上記特許文献２の技術においては、ユーザの一部修正による再度の見出しの付け直しへの言及はあるものの、見出し領域の抽出を行なうのではなく、別にあるキーワード群のいずれかとの対応付けを行なうものである。

本発明は、上記のような問題を解決するためになされたものであって、その目的は、多種多様な文書に対して、従来よりも少ない作業量で見出し要素の誤検出および未検出を修正することのできる文書処理装置、文書処理方法および文書処理プログラムを提供することである。

この発明のある局面に従う文書処理装置は、文書画像に含まれる複数のテキスト要素を、予め定められた複数の特徴種別に基づいてグループ化するためのグループ化手段と、各テキスト要素の特徴に基づいて、複数のテキスト要素から初期見出し要素を抽出するための抽出手段と、抽出された初期見出し要素と、複数のテキスト要素のうち初期見出し要素以外の要素を表わす初期非見出し要素とのうち少なくともいずれかについて、グループ化の結果に従いグループごとに区別して表示するための表示手段と、ユーザからの指示の入力を受付けるための入力手段と、指示に基づいて、表示手段に表示されている要素の見出し定義を、グループ単位で修正するための修正手段とを備える。

好ましくは、入力手段は、指示として、ユーザより少なくとも一つのグループの指定を受付け、修正手段は、ユーザに指定されたグループ内のテキスト要素が初期見出し要素である場合に、指定されたグループ内のテキスト要素を、非見出し要素に修正するための手段を含む。

好ましくは、修正手段は、ユーザに指定されたグループ内のテキスト要素が初期非見出し要素である場合に、指定されたグループ内のテキスト要素を、見出し要素に修正するための手段を含む。

好ましくは、入力手段は、指示として、ユーザより少なくとも一つのテキスト要素の指定を受付け、修正手段は、ユーザに指定されたテキスト要素が初期見出し要素である場合に、指定されたテキスト要素が、非見出し要素として抽出されるよう、見出し抽出の適用ルールを変更するための手段と、指定されたテキスト要素と同じグループに属するテキスト要素について、変更後の適用ルールに基づいて、見出しの再抽出を行なうための手段とを含む。

好ましくは、修正手段は、ユーザに指定されたテキスト要素が初期非見出し要素である場合に、指定されたテキスト要素が、見出し要素として抽出されるよう、見出し抽出の適用ルールを変更するための手段を含む。

好ましくは、抽出手段は、各テキスト要素について、各特徴種別に対する見出し度の重み付け加算値による統合見出し度を算出し、統合見出し度が所定のしきい値以上のテキスト要素を初期見出しとして抽出し、変更するための手段は、指定されたテキスト要素と、同じグループに属する他のテキスト要素とで統合見出し度の差が大きくなるよう各特徴種別への重みを変更する。

好ましくは、入力手段は、指示として、統合見出し度の境界となるテキスト要素の指定を受付けるための手段を含み、修正手段は、ユーザに指定されたテキスト要素が非初期見出し要素である場合に、指定されたテキスト要素に加え、指定されたテキスト要素の統合見出し度以上のテキスト要素を修正対象と判断する。

好ましくは、修正手段は、ユーザに指定されたテキスト要素が初期見出し要素である場合に、指定されたテキスト要素に加え、指定されたテキスト要素の統合見出し度以下のテキスト要素を修正対象と判断する。

好ましくは、修正手段は、ユーザに指定されたテキスト要素を、新たなグループとして切り出すための手段をさらに備える。

好ましくは、表示手段は、テキスト要素、あるいは、テキスト要素に対応する要素項目を囲む枠の属性をグループごとに変えて表示する。

好ましくは、表示手段は、グループごとに、テキスト要素に対応する要素項目を連続した位置に表示する。

好ましくは、入力手段は、さらに、見出しのみの表示、非見出しのみの表示、および全表示のうちいずれかの選択指示を受付け、表示手段は、選択指示に応じた表示を行なう。

この発明の他の局面に従う文書処理方法は、文書画像を記憶する記憶部と表示部とを備えた文書処理装置において実行される方法であって、記憶部に記憶された文書画像に含まれる複数のテキスト要素を、予め定められた複数の特徴種別に基づいてグループ化するステップと、各テキスト要素の特徴に基づいて、複数のテキスト要素から初期見出し要素を抽出するステップと、抽出された初期見出し要素と、複数のテキスト要素のうち初期見出し要素以外の要素を表わす初期非見出し要素とのうち少なくともいずれかについて、グループ化の結果に従いグループごとに区別して表示部に表示するステップと、ユーザからの指示に基づいて、表示部に表示されている要素の見出し定義を、グループ単位で修正するステップとを備える。

この発明のさらに他の局面に従う文書処理プログラムは、文書画像に含まれる複数のテキスト要素を、予め定められた複数の特徴種別に基づいてグループ化するステップと、各テキスト要素の特徴に基づいて、複数のテキスト要素から初期見出し要素を抽出するステップと、抽出された初期見出し要素と、複数のテキスト要素のうち初期見出し要素以外の要素を表わす初期非見出し要素とのうち少なくともいずれかについて、グループ化の結果に従いグループごとに区別して表示するステップと、ユーザからの指示に基づいて、表示されている要素の見出し定義を、グループ単位で修正するステップとをコンピュータに実行させる。

本発明によると、予め定められた複数の特徴種別に基づいてテキスト要素がグループ化される。そして、（初期）見出し検出結果を、グループ単位で修正することができる。したがって、ユーザによる修正の作業量を少なくすることができる。

本発明の実施の形態に従う文書処理装置を含むシステムの概略構成図である。本発明の実施の形態に従う文書処理装置における概略のハードウェア構成を示すブロック図である。本発明の実施の形態に従う文書処理装置が備える操作パネル部の外観例を示す図である。本発明の実施の形態に従う端末の概略のハードウェア構成を示す模式図である。本発明の実施の形態に従う文書処理装置の機能構成を示す機能ブロック図である。本発明の実施の形態に従う文書処理を示すフローチャートである本発明の実施の形態における要素管理情報のデータ構造例を示す図である。図６のステップＳ１６で表示される画面の一例を示す図である。本発明の実施の形態において、見出し要素のみの表示指示があった場合に表示される画面の一例を示す図である。（Ａ），（Ｂ）は、指定された全てのテキスト要素の見出し定義を反転する場合の画面遷移例を示す図である。（Ａ），（Ｂ）は、指定されたテキスト要素の見出し定義をグループ単位で反転する場合の画面遷移例を示す図である。本発明の実施の形態において文書処理装置が生成する電子化文書のデータ構造の一例を示す図である。本発明の実施の形態において、電子化文書に付加される見出しメタデータのデータ構造の一例を示す図である。本発明の実施の形態の変形例１において、図６のステップＳ１６で表示される画面の一例を示す図である。本発明の実施の形態の変形例２において、図６のステップＳ１６で表示される画面の一例を示す図である。

本発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰返さない。

＜構成について＞
（全体システム構成）
図１は、本発明の実施の形態に従う文書処理装置を含むシステムの概略構成図である。本実施の形態においては、代表的に、本発明に係る文書処理装置を搭載するＭＦＰ（Multi Function Peripheral）について説明する。なお、本発明に係る文書処理装置は、ＭＦＰに限らず、ＰＣ（Personal Computer）、複写機、ファクシミリ装置、スキャナ装置などにも適用可能である。

図１を参照して、本実施の形態に従うＭＦＰ１は、原稿３００を読取るための画像読取部１０４と、紙媒体などへの印刷処理を行なうためのプリント部１０６とを含む。

特に、本実施の形態に従うＭＦＰ１は、画像読取部１０４で原稿３００を読取ることで文書画像を取得し、この文書画像を含む電子化文書を生成する。この際、ＭＦＰ１は、読取った文書画像に含まれる文書要素のうち「見出し」であると特定されたものについて、付属情報を生成する。そして、ＭＦＰ１は、読取った文書画像に付属情報を付加して、電子化文書４００を生成する。代表的に、電子化文書４００にはＰＤＦ（Portable Document Format）などのフォーマットを採用できる。

「文書要素」とは、文書を構成する記述要素である。「付属情報」は、「メタデータ（meta data）」とも称される。付属情報は、少なくとも文書画像内における位置を特定するための位置データを含み、さらに、たとえば各文書要素に対応するテキストデータなどを含んでもよい。付属情報は、たとえば「しおり」である。

ＭＦＰ１は、インターネットを介して、メールサーバＭＳおよび複数の端末ＰＣ１，ＰＣ２（以下、「端末ＰＣ」という）と接続されている。

画像読取部１０４は、原稿をセットするための戴荷台と、原稿台ガラスと、戴荷台にセットされた原稿を原稿台ガラスに自動的に一枚ずつ搬送する搬送部と、読取られた原稿を排出するための排出台とを含む（いずれも図示しない）。これにより、複数枚の原稿を連続的に読取って、一つの電子化文書として生成することができる。

（ＭＦＰ１の概略構成）
図２は、本発明の実施の形態に従うＭＦＰ１における概略のハードウェア構成を示すブロック図である。

図２を参照して、ＭＦＰ１の機能構成としては、制御部１００と、メモリ部１０２と、画像読取部１０４と、プリント部１０６と、通信インターフェイス部１０８と、操作パネル部１１０と、記憶部１１２とを含む。

制御部１００は、代表的にＣＰＵ（Central Processing Unit）などの演算装置から構成され、プログラムを実行することで本実施の形態に従う文書処理を実現する。メモリ部１０２は、代表的にＤＲＡＭ（Dynamic Random Access Memory）などの揮発性の記憶装置であり、制御部１００で実行されるプログラムやプログラムの実行に必要なデータなどを保持する。通信インターフェイス部１０８は、代表的に、インターネットを介して端末ＰＣ（図１）との間でデータを送受信するための部位であり、たとえば、ＬＡＮアダプタおよびそれを制御するドライバソフトなどを含む。プリント部１０６は、プリント処理を行なうための部位であり、プリント処理に係るハードウェア構成に加えて、各部の作動を制御するための制御装置をも含む。記憶部１１２は、代表的にハードディスク装置やフラッシュメモリなどの不揮発性の記憶装置であり、制御部１００の動作のためのプログラムや制御部１００で生成された電子化文書などを格納する。

操作パネル部１１０の外観例を図３に示す。操作パネル部１１０は、液晶表示装置やタッチパネルなどから構成される表示パネル１１０ａと、ストップボタン１１０ｂと、スタートボタン１１０ｃと、英数キーなどを含む操作ボタン１１０ｄとを備えている。

なお、本実施の形態では、表示機能と指示の入力機能とを兼ね備えた操作パネル部１１０を備えることとしたが、これに代えて、表示部とハードウェアボタンを含む入力部との両方を備えることとしてもよい。

（端末の構成）
図４は、本発明の実施の形態に従う端末ＰＣの概略のハードウェア構成を示す模式図である。

図４を参照して、端末ＰＣは、たとえば一般的なパーソナルコンピュータであり、オペレーティングシステム（ＯＳ：Operating System）を含む各種プログラムを実行するＣＰＵ（Central Processing Unit）２０１と、ＣＰＵ２０１でのプログラムの実行に必要なデータを一時的に記憶するメモリ部２１３と、ＣＰＵ２０１で実行されるプログラムを不揮発的に記憶するハードディスク部（ＨＤＤ：Hard Disk Drive）２１１とを含む。また、ハードディスク部２１１には、文書データ（ＭＦＰ１で生成された電子化文書を含む）を表示するための閲覧アプリケーションプログラム（以下、「ビューワ」という）、および、文書データを印刷するための印刷ドライバソフトが記憶されている。このようなプログラムは、ＦＤＤドライブ２１７またはＣＤ−ＲＯＭドライブ２１５によって、それぞれフレキシブルディスク２１７ａまたはＣＤ−ＲＯＭ（Compact Disk-Read Only Memory）２１５ａなどから読取られてよい。

ＣＰＵ２０１は、キーボードやマウスなどからなる入力部２０９を介してユーザからの指示を受取るとともに、プログラムの実行によって生成される画面出力をディスプレイ部２０５へ出力する。また、ＣＰＵ２０１は、ＬＡＮカードなどからなる通信インターフェイス部２０７を介して、ＬＡＮやＷＡＮに接続されたＭＦＰ１やサーバ装置（図示せず）から電子化文書を取得し、ハードディスク部２１１などに格納する。また、上述の各部は、内部バス２０３を介して相互にデータを授受する。

なお、端末ＰＣは、パーソナルコンピュータに限定されず、携帯電話などの携帯端末であってもよい。その場合の端末ＰＣは、図４においてＦＤＤドライブ２１７やＣＤ−ＲＯＭドライブ２１５などを取り除いたものとほぼ等価であるので、詳細な説明は繰返さない。

（ＭＦＰの機能構成）
図５は、本発明の実施の形態に従うＭＦＰ１の機能構成を示す機能ブロック図である。

図５を参照して、ＭＦＰ１の機能構成としては、画像読取部１０４と、画像バッファ部１２と、圧縮処理部１４と、テキスト要素抽出部２０と、文字認識部２２と、テキスト要素分割部２４と、見出し要素検出部２６と、修正部２８と、メタデータ生成部３０と、電子化文書生成部３２と、ＵＩ（User Interface）部４０と、通信インターフェイス部１０８と、記憶部１１２とを含む。

画像読取部１０４は、原稿３００を読取って文書画像を取得し、その文書画像を画像バッファ部１２へ出力する。画像バッファ部１２は、画像読取部１０４が逐次的に出力する文書画像のデータを一時的に格納する部位であり、一旦格納した文書画像を圧縮処理部１４およびテキスト要素抽出部２０に出力する。

圧縮処理部１４は、画像バッファ部１２から出力される文書画像を圧縮処理して、電子化文書生成部３２へ出力する。この圧縮処理による圧縮度合いは、生成される電子化文書の大きさや、要求される文書画像の解像度などに応じて変化させてもよく、また圧縮処理はＪＰＥＧ（Joint Photographic Experts Group）などの非可逆変換であってもよい。なお、高解像度が要求される場合などには、圧縮処理を省略してもよい。

テキスト要素抽出部２０は、画像バッファ部１２から出力される文書画像を解析し、当該文書画像に含まれるテキスト領域（以下「初期テキスト要素」という）を抽出する。初期テキスト要素には、文書要素の種別（以下「要素種別」という）が「タイトル（表題）」、「セクション（章・節・項）見出し」、「キャプション」、「手書き注釈」、および「本文」である文書要素（以下、単に「テキスト要素」という）が含まれ得る。初期テキスト要素は、要素種別が図、表および写真である文書要素を含まない。

テキスト要素抽出部２０は、初期テキスト要素を抽出する過程において、「段（段組）」を検出し、さらに、各段の「行方向」、および、各段の「接続情報」を検出する。そして、抽出した各段の接続情報に基づいて、テキスト領域をハンドリングする。

段はたとえば、「図書の電子のための文書認識技術（鎌田博、藤本克仁、黒川浩司）、雑誌FUJITSU、VOL.49,No.6、1998」に開示された公知技術で検出することができる。各段の接続情報は、各段が、文脈等からどの段に接続されるべきかを示す情報（すなわち段の順序を示す情報）であり、たとえば特開平１０−４０２４８号公報に開示される公知の技術で検出することができる。行方向の検出は、周知の方法で検出することができる。

テキスト要素抽出部２０は、初期テキスト要素の抽出に際して、各初期テキスト要素（テキスト領域）の文書画像内における位置も抽出する。そして、抽出した初期テキスト要素ごとの位置情報を文字認識部２２に出力する。

文字認識部２２は、テキスト要素抽出部２０にて抽出された初期テキスト要素について、文字認識すなわち、ＯＣＲ（Optical Character Recognition）を実行する。具体的には、初期テキスト要素の各行について、文字認識処理により文字列を抽出する。これにより、各初期テキスト要素中の画像は、行単位でテキストデータに変換される。行単位のテキストデータは、テキスト要素分割部２４に出力される。

テキスト要素分割部２４は、テキスト要素抽出部２０で抽出された初期テキスト要素（テキスト領域）を、本文・見出しが混在したり異なる種類の見出し同士が混在したりしないように、予め定められた条件に基づいて分割する。具体的には、たとえば、初期テキスト要素は、行単位のテキストデータの属性（特徴）に基づいて分割される。

テキスト要素分割部２４は、たとえば、特開平６−２１４９８３号公報の参考文献に開示されているような複数種類の行特徴を用いて、各初期テキスト要素を分割することができる。

本実施の形態では、次のような種類の行特徴（以下「特徴種別」という）すなわち、行間、文字間隔、行の高さ、行揃え（左揃え／中央揃え／右揃え）、インデント（上記参考文献では「オフセット」）、字下げの有無（上記参考文献では「第１行オフセット」）、特定行頭文字（上記参考文献では「小タイトル」）が用いられる。なお、本実施の形態では、行間、文字間隔、行高さ、インデントについては、予め定められた間隔で量子化された値を用いるものとする。

テキスト要素分割部２４は、分割後の初期テキスト要素すなわち、（正式な）テキスト要素の各々について、文書画像中の対応する位置を示す位置データ、および、テキスト要素に含まれる少なくとも一部の文字列データを見出し要素検出部２６に出力する。

見出し要素検出部２６は、複数のテキスト要素のうち、要素種別が「見出し」であるテキスト要素（すなわち「見出し要素」）を検出（抽出）する。見出し要素検出部２６が抽出した見出し要素を、以下「初期見出し」ともいう。

具体的には次の手順により、初期見出しが抽出される。なお、見出し要素には、上記要素種別のうち、たとえば、「タイトル（表題）」および「セクション（章・節・項）見出し」の文書要素が含まれる。

まず、見出し要素検出部２６は、上記特徴種別に基づいて、各テキスト要素をクラスタリングし、テキスト要素をグループ化する。つまり、同じような特徴量（属性）を有するテキスト要素を同一のグループとする。

また、各テキスト要素について、上記特徴種別それぞれの特徴量に基づいて、統合見出し度を算出する。統合見出し度の算出方法については後述する。

そして、統合見出し度が予め定められたしきい値以上のテキスト要素を特定する。特定されたテキスト要素を、「初期見出し」として検出（特定）する。なお、グループ単位で初期見出しを特定してもよい。たとえば、グループ内の統合見出し度の平均値が予め定められたしきい値以上のグループを特定し、特定されたグループ内のテキスト要素を、「初期見出し」として特定してもよい。

以上のような処理を経て、見出し要素検出部２６は、各テキスト要素を管理するための管理情報（以下、「要素管理情報」という）を生成する。

要素管理情報は、少なくとも、テキスト要素ごとに、文書画像中の位置を示す位置データ、属するグループを特定するための識別データ（グループＩＤ）、および、見出しか否かの有無を示す識別データ（見出しフラグ）を有している。要素管理情報のデータ構造例については、後述する。

見出し要素検出部２６は、要素管理情報のうちの上記情報に基づいて、ＵＩ部４０に検出結果を表示する。また、要素管理情報を修正部２８に出力する。

ＵＩ部４０は、見出し要素を、それ以外のテキスト要素（以下「非見出し要素」ともいう）とともに表示する。また、ＵＩ部４０は、グループの違いが分かるように、グループＩＤごとに異なる表示形態でテキスト要素を表示する。なお、表示するテキスト要素は、見出し要素および非見出し要素のうちの一方であってもよい。

さらに、ＵＩ部４０は、ユーザより、テキスト要素の指定、あるいは、グループの指定などを受付ける。ユーザより見出し定義（見出し／非見出し）の修正指示などを受付けた場合には、その情報を修正部２８に出力する。

本実施の形態において、ＵＩ部４０は、上述の操作パネル部１１０に対応する。
修正部２８は、ＵＩ部４０から入力した修正指示に応じて、要素管理情報内のデータの修正・変更を行なう。修正が完了すると、要素管理情報のうち所定の情報をメタデータ生成部３０に出力する。

メタデータ生成部３０は、修正部２８から出力された情報に基づいて、メタデータを生成する。そして、メタデータ生成部３０は、生成したメタデータを電子化文書生成部１６へ出力する。

電子化文書生成部３２は、圧縮処理部１４からの（圧縮された）文書画像に、メタデータ生成部３０からのメタデータを付加することで、電子化文書を生成する。

電子化文書生成部３２は、生成した電子化文書をユーザによる設定などに応じて、記憶部１１２へ格納し、または通信インターフェイス部１０８へ出力する。通信インターフェイス部１０８は、電子化文書生成部３２で生成された電子化文書をＬＡＮなどのネットワークを介して、端末ＰＣ（図１）などへ送信する。

なお、図５に示した各機能ブロックの動作は、メモリ部１０２中に格納されたソフトウェアを実行することで実現されてもよいし、少なくとも１つについては、ハードウェアで実現されてもよい。

＜動作について＞
図６は、本発明の実施の形態に従う電子化文書生成処理を示すフローチャートである。図６のフローチャートに示される電子化文書生成処理は、制御部１００がプログラムをメモリ部１０２などに読出して実行し、図５に示される各機能を制御することで実現される。

図５および図６を参照して、まず、画像読取部１０４が原稿３００を（光学的に）読取って文書画像を生成する（ステップＳ２）。この生成された文書画像は、画像バッファ部１２に格納される。そして、圧縮処理部１４が、画像バッファ部１２に格納された文書画像を圧縮処理して、電子化文書生成部３２へ出力する。電子化文書生成部３２において、公知の手法により電子化文書が生成される。

一方、テキスト要素抽出部２０が、画像バッファ部１２に格納された文書画像を解析し、文書画像中の初期テキスト要素（テキスト領域）を抽出する（ステップＳ４）。

初期テキスト要素が抽出されると、文字認識部２２は、各初期テキスト要素の画像について文字認識（ＯＣＲ）を実行する（ステップＳ６）。これにより、行単位のテキストデータが生成される。

続いて、テキスト要素分割部２４は、各初期テキスト要素を、上記７つの特徴種別を用いて分割する（ステップＳ８）。初期テキスト要素が分割されると、分割後の各領域が（本来の）テキスト要素として特定される。テキスト要素分割部２４は、各テキスト要素（分割後の初期テキスト要素）を一意に特定するための識別データ（要素ＩＤ）をテキスト要素に付与する。

また、この時点で、テキスト要素ごとに、要素種別が判別されてもよい。そして、判別された要素種別が、各要素ＩＤに対応付けられてもよい。この時点では、要素種別が「本文」などのテキスト要素も存在し、テキスト要素には、上述したような、「タイトル（表題）」、「セクション（章・節・項）見出し」、「キャプション」、「手書き注釈」、および「本文」のうちのいずれか１つが対応付けられる。なお、このような要素種別の判別は、公知の手法により行なわれてよい。

次に、見出し要素検出部２６は、複数のテキスト要素を上記７つの特徴種別に基づいてグループ化する（ステップＳ１０）。見出し要素検出部２６は、各要素ＩＤに対応付けて、グループＩＤを記憶する。

なお、本実施の形態では上記７つの特徴種別を用いて初期テキスト要素の分割、および、テキスト要素のグループ化を行なうこととしたが、これら全ての特徴種別を用いなくてもよい。また、分割に用いる特徴種別とグループ化に用いる特徴種別とが完全に一致していなくてもよい。ただし、分割およびグループ化の精度をある程度高く保つためには、７つの特徴種別のうち、行の高さ、行揃えおよびインデントは必ず用いることが好ましい。

見出し要素検出部２６は、テキスト要素ごとに、統合見出し度を算出する（ステップＳ１２）。この処理について、具体的に説明する。

各特徴種別ｉについては、特徴種別の各値に対して、個別見出し度ｈ_ｉ（ｖ_ｉ）が予め設定されている。たとえば、特徴種別ｉを「文字サイズ」と仮定すると、その特徴量（ｖｉ）：…、１０、１２、…それぞれに対して、見出しらしさを表わす個別見出し度ｈ_ｉ：…、５０、１００、…が予め設定されている。

本実施の形態では、たとえば、特徴種別ごとに、特徴種別の各値と個別見出し度とが対応付けられたテーブルが、メモリ部１０２に予め記憶されている。

各テキスト化要素ｋについて、各個別見出し度に初期設定の重みｗ_ｉを掛ける。そして、個別見出し度の重み付け総和により、テキスト化要素ｋごとの統合見出し度Ｈｋが算出される。

統合見出し度Ｈ_ｋは、以下の式（１）により求められる。

なお、初期設定の重み係数ｗ_ｉは、たとえば、多数の文書を対象にした実験の結果に基づいて、予め定められている。

統合見出し度が算出されると、見出し要素検出部２６は、初期見出しを検出する（ステップＳ１４）。具体的には、統合見出し度が、予め定められたしきい値以上のテキスト要素を初期見出し（見出し要素）として検出する。それ以外のテキスト要素を初期非見出し（非見出し要素）と特定する。以上のような処理の結果、見出し要素検出部２６は、全てのテキスト要素についての要素管理情報を記述する。要素管理情報は、たとえばメモリ部１０２に一時記憶される。

図７は、本発明の実施の形態における要素管理情報のデータ構造例を示す図である。
図７を参照して、要素管理情報は、テキスト要素（ｋ）ごとに、要素ＩＤ、頁番号、領域左上座標、領域右下座標、要素種別、要素グループＩＤ、統合見出し度（Ｈ_ｋ）、重み係数（ここでは「ｗ_ｋｉ」）、個別見出し度（ここでは「ｈ_ｋｉ」）、見出しフラグ、文字列データを含む。

要素ＩＤは、各テキスト要素を一意に特定するための識別データである。頁番号は、対応のテキスト要素が存在するページを特定するための位置データである。また、領域左上座標および領域右下座標は、対応のテキスト要素のページ内での領域（矩形）を特定するための位置データである。領域左上座標および領域右下座標は、対応するテキスト要素の領域のサイズを特定するための情報でもある。要素種別は、対応するテキスト要素の種別を特定するための情報である。要素グループＩＤ（＝グループＩＤ）は、対応するテキスト要素が属するグループを一意に特定するための識別データである。なお、本実施の形態のような、テキスト要素のグループ化をした場合、同じ要素種別（たとえばセクション見出し）であっても、同じグループとは限らない。また逆に、異なる要素種別であったとしても、同一グループとなり得る。

統合見出し度および個別見出し度としては、対応するテキスト化要素についての最新の算出結果が格納される。個別見出し度は、７つの特徴種別それぞれについての見出し度を含む。重み係数も、７つの特徴種別それぞれについての値を含む。重み係数は、はじめの時点では、初期値（たとえば予め定められた値）がセットされる。なお、個別見出し度に代えて、７つの特徴種別それぞれについての特徴量（ここでは「ｖ_ｋｉ」）が格納されてもよい。

見出しフラグは、対応するテキスト要素が見出しか否かを示す識別データである。たとえば、見出しであれば「１」、それ以外（非見出し）であれば「０」がセットされる。文字列データは、対応するテキスト要素の少なくとも一部のテキストデータである。本実施の形態では、たとえば、本文についてのみ最初の１行目の文字列のみ格納される。または、全ての要素種別のテキスト要素について、行頭文字から所定バイト数の文字列のみが格納されてもよい。

再び図６を参照して、初期値の重み係数を用いた統合見出し度の算出結果に応じて、見出し要素が暫定的に特定されると、ＵＩ部４０に、その検出結果が表示される（ステップＳ１６）。具体的には、図３に示した操作パネル部１１０の表示パネル１１０ａに、図８のような画面ＳＣ１０を表示する。

図８は、図６のステップＳ１６で表示される画面ＳＣ１０の一例を示す図である。
図８を参照して、画面ＳＣ１０には、テキストデータを表示するためのテキスト表示領域５００と、文書画像データを表示するための画像表示領域５２０とを含む。

テキスト表示領域５００には、複数のテキスト要素の概要（一覧）が表示される。具体的には、複数のテキスト要素それぞれに対応する複数の要素項目５０１〜５１１が表示されている。要素項目５０１〜５１１は、初期判定結果が見出しであるか否かに関わらず、文書画像における配置順（読み順）に従って並べられている。破線で囲まれた要素項目５０４，５０８は、要素管理情報での見出しフラグが０（非見出し）の文字列データである。それ以外の実線で囲まれた要素項目５０１〜５０３，５０５〜５０７，５０９〜５１１は、要素管理情報での見出しフラグが１（見出し）の文字列データである。本実施の形態では、グループごとに、要素項目の枠（囲み線）の太さが変えられている。

なお、グループの違いが識別できれば、枠の太さによりグループを識別可能にする表示形態に限定されない。たとえば、枠の色、領域内の色、実線・点線のスタイル、点滅の仕方などにより、グループを識別可能にしてもよい。あるいは、枠を使わずに、グループを識別するための記号（たとえばグループ番号）等を各要素項目に対応付けて表示することで、グループを識別可能にしてもよい。

見出しと非見出しとの識別も、実線・点線によるものに限定されない。たとえば、見出し要素に対応する要素項目（以下「見出し要素項目」ともいう）にのみ、所定のマークを対応付けて表示してもよい。

画像表示領域５２０には、文書画像の一部が表示される。たとえば１頁単位で文書画像が表示される。文書画像中のテキスト要素も、テキスト表示領域５００における要素項目の枠と同種の枠で囲まれている。これにより、ユーザは、見出し／非見出しの修正の必要性を容易に把握することができる。

画面ＳＣ１０において、テキスト表示領域５００および画像表示領域５２０の下部には、複数のボタンＢＴ１〜ＢＴ６が表示されている。

見出しボタンＢＴ１は、テキスト表示領域５００において、見出し要素項目のみを表示するための指示を受付ける。非見出しボタンＢＴ２は、テキスト表示領域５００において、見出し要素項目以外の要素項目（以下「非見出し要素項目」ともいう）のみを表示するための指示を受付ける。このようなボタンＢＴ１，ＢＴ２が設けられるため、見出し・非見出しの検出結果の表示をＯＮ／ＯＦＦできる。これにより、見出し要素項目のみの表示や、非見出し要素項目のみの表示が可能となる。

見出しボタンＢＴ１がクリックされた場合に表示される画面ＳＣ２０の一例を図９に示す。

図９を参照して、画面ＳＣ２０のテキスト表示領域５００には、見出し要素項目５０１〜５０３，５０５〜５０７，５０９〜５１１のみが表示されている。このように、見出しのみの検出結果の表示が可能となるので、見出し要素の誤検出の発見を行ないやすくなる。

なお、非見出しボタンＢＴ２がクリックされた場合は、テキスト表示領域５００には、非見出し要素項目５０４，５０８のみが表示されることになる。これにより、非見出しのみの検出結果の表示が可能となるので、見出し要素の未検出の発見を行ないやすくなる。

境界指定ボタンＢＴ３は、ユーザが指定したグループよりも、統合見出し度がより低いテキスト要素またはより高いテキスト要素を一括指定するための指示を受付ける。境界指定ボタンＢＴ３がクリックされると、ユーザにより指定されたグループの見出し定義が「見出し」であれば、そのグループと、そのグループよりも統合見出し度が低いグループとが指定される。一方、ユーザにより指定されたグループの定義が「非見出し」であれば、そのグループと、そのグループよりも統合見出し度が高いグループとが指定される。なお、ユーザによるグループの指定は、たとえば、テキスト表示領域５００において、対象となるグループ内の要素項目をユーザが指定することで実現可能である。

グループボタンＢＴ４は、ユーザにより指定されたグループ内のテキスト要素全ての見出し定義を反転する指示を受付ける。ここでのユーザによるグループの指定も、上記のような方法により実現可能である。

指定要素ボタンＢＴ５は、ユーザにより指定されたテキスト要素の見出し定義を反転する指示を受付ける。

再検出ボタンＢＴ６は、ユーザにより指定されたグループについて、見出しの再検出の指示を受付ける。見出しの再検出の具体的方法については後述する。

再び図６を参照して、修正部２８は、修正対象のテキスト要素またはグループの指定を受付ける（ステップＳ１８）。具体的には、図８に示した画面ＳＣ１０（または図９に示した画面ＳＣ２０など）のテキスト表示領域５００に含まれる要素項目のうちから、ユーザにより一つの指定を受付ける。ユーザは、修正したいテキスト要素、または、修正したいグループに含まれる任意のテキスト要素に対応する要素項目を指定すればよい。なお、複数のテキスト要素を指定することも可能であることとする。

または、境界指定ボタンＢＴ３がクリックされ、その後一つのテキスト要素（に対応する要素項目）が選択されたとする。修正部２８は、要素管理情報を参照して、選択されたテキスト要素の見出しフラグが０か１かを検索する。そして、見出しフラグが１（見出し）であれば、そのテキスト要素の統合見出し度以下である要素を抽出する。見出しフラグが０（非見出し）であれば、そのテキスト要素の統合見出し度以上である要素を抽出する。
抽出された全てのテキスト要素に対応する要素項目がＵＩ部４０において、選択状態として表示される。具体的には、たとえば、対象の要素項目の領域が、所定の色で表示される。

次に、修正部２８は、ユーザからの指示に基づき、指定しているテキスト要素またはグループについて、見出し要素検出部２６での検出結果を修正する（ステップＳ２０）。具体的には、上記ボタンＢＴ４〜ＢＴ６のうちクリックされたボタンに応じて、修正部２８は、ステップＳ１８で選択状態とされているテキスト要素についての見出し定義を修正する処理を行なう。

以下、ボタンＢＴ４〜ＢＴ６それぞれが指示された場合の具体的な修正処理例について説明する。

指定要素ボタンＢＴ５が指示された場合について、図１０を参照しながら説明する。
図１０（Ａ），（Ｂ）は、指定された全てのテキスト要素の見出し定義を反転する場合の画面遷移例を示す図である。

図１０（Ａ）の画面ＳＣ３０を参照して、この例では、境界指定ボタンＢＴ３により修正対象のテキスト要素（に対応する要素項目）が指定されている。より詳細には、ユーザにより境界指定ボタンＢＴ３が押下（指示）される（状態（ｉ））。次に、ユーザにより要素項目５１０が押下されたとする（状態（ｉｉ））。要素項目５１０に対応するテキスト要素、すなわち、指定されたテキスト要素の定義は見出しである。したがって、指定されたテキスト要素（要素項目５１０に対応）の統合見出し度以下のテキスト要素全てが選択状態とされる。画面ＳＣ３０の例では、指定された要素項目５１０と、修正部２８により抽出されたテキスト要素に対応する要素項目５１１とが選択状態とされている。

図１０（Ｂ）の画面ＳＣ３１を参照して、次に、指定要素ボタンＢＴ５が押下されたとする（状態（ｉｉｉ））。そうすると、画面ＳＣ３０で選択状態とされていた要素項目５１０，５１１は、いずれも、見出し定義が反転される。つまり、修正部２８は、要素管理情報における、要素項目５１０，５１１に対応するテキスト要素の見出しフラグを１から０にリセットする。

これにより、画面ＳＣ３１に示されるように、要素項目５１０，５１１の枠の線は、見出しを表わす実線の線から、非見出しを表わす破線に変更される。

次に、グループボタンＢＴ４が指示された場合について、図１１を参照しながら説明する。

図１１（Ａ），（Ｂ）は、指定されたテキスト要素の見出し定義をグループ単位で反転する場合の画面遷移例を示す図である。

図１１（Ａ）の画面ＳＣ４０を参照して、ユーザにより要素項目５０３が指定されている（状態（ｉ））。

図１１（Ｂ）の画面ＳＣ４１を参照して、次にグループボタンＢＴ４が押下される（状態（ｉｉ））。そうすると、修正部２８は、要素管理情報において、指定されていたテキスト要素（要素項目５０３に対応）のグループＩＤを特定し、特定されたグループＩＤが対応付けられているテキスト要素を検索する。そして、特定されたグループＩＤのテキスト要素全ての見出しフラグを１から０にリセットする。

本例では、要素項目５０４に対応するテキスト要素が、要素項目５０３に対応のテキスト要素と同じグループＩＤであったとする。その場合、画面ＳＣ４１に示されるように、要素項目５０３，５０４の枠の線は、見出しを表わす実線の線から、非見出しを表わす破線に変更される。

次に、再検出ボタンＢＴ６が指示された場合について説明する。
たとえば、図１１（Ａ）の画面ＳＣ４０に示されるように、要素項目５０３が指定されていたとする。その場合に、再検出ボタンＢＴ６が押下されると、修正部２８は、要素項目５０３に対応のテキスト要素が含まれるグループについて、見出し判定ルール（見出し抽出ルール）を変更して見出しを再検出する。見出し判定ルールの変更は、同じグループ内において、指定されたテキスト要素（要素項目５０３に対応）と、それ以外のテキスト要素とで統合見出し度の差が大きくなるように、各特徴種別への重みを変更することにより行なわれる。これにより、指定されたテキスト要素だけが、見出し定義反転の対象となる可能性が高くなる。

具体的には、以下のような式により、指定要素（指定されたテキスト化要素）について、統合見出し度算出時の特徴種別iへの重み係数ｗ_ｉを更新する。そして、指定要素と同一グループ中のテキスト化要素の全てについて、再度、統合見出し度を算出する。

指定要素の定義が見出しの場合、以下の式（２）〜（４）により重み係数ｗ_ｉを更新する。指定要素の定義が非見出しの場合、以下の式（５），（６）により重み係数ｗ_ｉを更新する。

なお、式（３），（４），（６）において、指定要素の集合を“Ｕ”、指定要素のいずれかと同一グループ中の見出し要素の集合を“Ｖ”、指定要素のいずれかと同一グループ中の非見出し要素の集合を“Ｗ”と表わしているものとする。

同一グループ中のテキスト要素について、再度統合見出し度が算出されると、修正部２８は、要素管理情報の統合見出し度、重み係数および個別見出し度を更新する。

修正部２８は、統合見出し度を再算出したテキスト要素全てについて、再度、統合見出し度が予め定められたしきい値以上であるか否かを判定する。そして、統合見出し度がしきい値以上であるテキスト要素を見出し要素、それ以外を非見出し要素として特定する。その結果に基づいて、要素管理情報の見出しフラグの更新を行なう。

修正部２８は、見出しの再検出を行なうと、ＵＩ部４０において、再検出の結果に応じた表示がされる。

その後、確定指示があったかどうかが判断される（ステップＳ２１）。確定指示の入力の有無は、たとえば、図示しない確定ボタンが押下されたか否かにより判定可能である。

確定指示があったと判断された場合（ステップＳ２１においてＹＥＳ）、修正部２８は、図７に示したような要素管理情報のうち、見出しフラグが１（見出し）であるテキスト要素についての情報をメタデータ生成部３０に出力する。メタデータ生成部３０に出力される情報は、メタデータ（たとえばしおりデータ）の生成に必要な情報のみであってもよい。その後、ステップＳ２２に進む。

確定指示がなければ（ステップＳ２１においてＮＯ）、ステップＳ１８に戻り、上述のような修正処理を繰返す。

ステップＳ２２において、メタデータ生成部３０は、修正部２８より入力した情報に基づいて、見出し要素についてのメタデータ（見出しメタデータ）を生成する。そして、電子化文書生成部３２が、圧縮処理部１４からの（圧縮された）文書画像に、メタデータ生成部３０からの見出しメタデータを付加する（埋め込む）ことで、電子化文書を生成する（ステップＳ１１６）。

さらに、ユーザの設定に応じて、電子化文書の出力処理が実行される（ステップＳ２４）。具体的には、通信インターフェイス部１０８から、ネットワークを介して接続された所定の送信先に電子化文書が送信される。もしくは、ユーザの設定に応じて、記憶部１１２の所定のディレクトリに電子化文書が格納される。

以上で、本実施の形態における電子化文書の生成処理は終了する。
＜電子化文書の構造例について＞
図１２は、本発明の実施の形態においてＭＦＰ１が生成する電子化文書４００のデータ構造の一例を示す図である。

図１２を参照して、電子化文書４００は、ヘッダ部４０２と、文書画像部４０４と、メタデータ部４０６と、フッタ部４０８とからなる。ヘッダ部４０２およびフッタ部４０８には、電子化文書４００の属性についての情報、たとえば作成日時・作成者・著作権情報などが格納される。文書画像部４０４には、各ページに対応する文書画像が格納される。なお、この文書画像は、上述したように圧縮された状態で格納されてもよい。メタデータ部４０６には、文書画像に含まれる見出し要素を特定するための見出しメタデータが格納される。

図１３は、見出しメタデータのデータ構造の一例を示す図である。
図１３を参照して、見出しメタデータには、図７に示した要素管理情報のうち、見出しと特定されたテキスト要素すなわち、見出し要素についての情報が格納される。

具体的には、見出しメタデータには、見出し要素ごとに、要素ＩＤ、頁番号、領域左上座標、領域右下座標、要素種別、文字列が含まれる。見出しメタデータに含まれるこれらのデータは、図７にて既に説明しているため、ここでの説明は繰返さない。

以上のように、本実施の形態によると、テキスト要素がグループ化されるため、グループ単位でのテキスト要素の修正が可能である。したがって、ユーザは、少ない作業量で、見出し要素の誤検出あるいは未検出を修正することができる。

また、テキスト要素および対応の要素項目は、グループＩＤに応じて異なる表示形態にて表示される。つまり、見出し検出結果がグループごとに区別して表示される。したがって、ユーザは、修正対象のテキスト要素を直感的に把握することができる。

また、本実施の形態では、グループ単位だけでなく、個別指定でのテキスト要素の修正も可能である。したがって、状況に応じて、最適な方法で修正を行なうことができる。なお、本実施の形態において、個別指定での修正は、必須の処理ではない。

さらに、ユーザにより指定されたグループ内のテキスト要素について、見出しの再検出を行なうことができる。また、ユーザにより指定されたテキスト要素が見出しか否かに応じて、指定されたテキスト要素を含む見出し抽出の適用ルール（各特徴種別への重み）が変更される。その結果、ユーザ所望の結果になるまで、再検出を繰返すことができる。

なお、本実施の形態では、特徴種別の重み（重み係数ｗ_ｉ）の変更により見出しの再検出（見出し定義の修正）を行なったが、このような修正方法に限定されない。たとえば、公知の線形・非線形の識別器（たとえば、ニューラルネットワーク、サポートベクターマシン、ＬＶＱ（Learning vector quantization））などを適用可能である。これらの識別器についても、重みまたはそれと同等の意味を持つパラメータが存在し、同様の処理を行なうことができる。また、重みの修正についても、上記方法に限らず、ホー・カシュヤップ法など広く知られた学習規則を使用して実行することができる。

また、本実施の形態では、見出し要素検出部２６は、毎回、初期設定の重み係数を用いて初期見出し要素を抽出していた。しかしながら、過去の修正処理において、見出しの再検出に用いられた重み係数を利用することとしてもよい。

また、本実施の形態では、付属情報（本実施の形態ではメタデータ）を付加した電子化文書を記憶または送信するものとしたが、付属情報をメールに添付し、電子化文書は記憶部１１２に保存しておいてもよい。その場合には、送信先の端末ＰＣにおいてどこにデータが保存されるかは知りえないので、リンク情報を復元するための情報（以下「リンク復元情報」という）を各領域（見出し要素）に埋め込むことが望ましい。具体的には、リンク復元情報としてスクリプトを対応する箇所に記述すればよい。

＜変形例１＞
上記実施の形態では、一度、テキスト要素がグループ化されると、修正部２８による修正処理の間も、グループＩＤは維持されるものであった。しかし、修正部２８は、ユーザからの指示に基づいて、グループ中の一部のテキスト要素を別グループとして切り出す機能をさらに有していてもよい。

図１４は、本発明の実施の形態の変形例１において、図６のステップＳ１６で表示される画面ＳＣ５０の一例を示す図である。

図８に示した画面ＳＣ１０と比較すると、画面ＳＣ５０においては、グループボタンＢＴ４に代えて、グループ分割ボタンＢＴ１４が含まれる。グループ分割ボタンＢＴ１４は、同一グループの中で、指定されたテキスト要素とそれ以外のテキスト要素とを分割する指示を受付ける。

以下に、グループ分割ボタンＢＴ１４が指定された場合の、修正部２８の処理例について説明する。

まず、ユーザにより、要素項目５０１〜５１１のうち１つ以上が選択されているとする。選択されている１つ以上の要素項目に対応のテキスト要素は、全て同じグループに属している（同じグループＩＤ）とする。

その後、グループ分割ボタンＢＴ１４がユーザにより指示されると、選択されている１以上のテキスト要素のみ、他グループとして切り出される。つまり、選択されている１以上のテキスト要素は、修正部２８によって、それまでのグループＩＤとは異なる、未使用のグループＩＤが付与される。

選択されていたテキスト要素は、元のグループから切り出されるため、それまでの枠の線種とは異なる線種で表示される。その結果、よりユーザの意図に応じた修正が可能となる。

＜変形例２＞
上述の実施の形態および変形例１では、たとえば図８や図１４に示したように、テキスト表示領域５００には、文書画像中のテキスト要素の配置順序（読み順）に従って、テキスト要素に対応する要素項目を配置した。そして、グループごとに、テキスト要素および要素項目の囲み枠の線種を代えて表示した。

しかし、テキスト表示領域において、要素項目は、グループごとに連続した位置に表示されてもよい。

図１５は、本発明の実施の形態の変形例２において、図６のステップＳ１６で表示される画面ＳＣ６０の一例を示す図である。

図８に示した画面ＳＣ１０と比較すると、画面ＳＣ６０においては、テキスト表示領域５００に代えて、見出し要素に対応する要素項目を表示するための見出し要素領域５３０と、それ以外の要素項目を表示するための非見出し要素領域５４０とが含まれる。また、見出しボタンＢＴ１および非見出しボタンＢＴ２それぞれに代えて、見出し順ボタンＢＴ２１および見出し度ボタンＢＴ２２が含まれる。

見出し要素領域５３０には、グループ番号ごとに、そのグループ内に含まれるテキスト要素に対応の要素項目がまとめて表示されている。非見出し要素領域５４０も、同様であってよい。

見出し順ボタンＢＴ２１は、読み順に従った順序で要素項目を表示する指示を受付ける。見出し度ボタンＢＴ２２は、統合見出し度の順序で要素項目を表示する指示を受付ける。

画面ＳＣ６０の見出し要素領域５３０には、各グループにおいて、読み順に従った順序で要素項目が配置された例が示されている。このような状態で、見出し度ボタンＢＴ２２が指示されると、グループ内で、要素項目は、対応のテキスト要素の統合見出し度が高い順にソートされる。その後、見出し順ボタンＢＴ２１が指示されると、再び、画面ＳＣ６０のような表示に戻る。

このように、本変形例によると、ユーザは、上記実施の形態および変形例１では不可視であった統合見出し度を、要素項目の配置順序により知ることが可能となる。

なお、上記実施の形態での表示、変形例１での表示、変形例２での表示をそれぞれ組合わせてもよい。

また、本実施の形態の文書処理装置（たとえばＭＦＰ１）が行なう文書処理方法を、プログラムとして提供することもできる。このようなプログラムは、ＣＤ−ＲＯＭ（Compact Disc-ROM）などの光学媒体や、メモリカードなどのコンピュータ読取り可能な記録媒体にて記録させて、プログラム製品として提供することもできる。また、ネットワークを介したダウンロードによって、プログラムを提供することもできる。

なお、本発明にかかるプログラムは、コンピュータのオペレーティングシステム（ＯＳ）の一部として提供されるプログラムモジュールのうち、必要なモジュールを所定の配列で所定のタイミングで呼出して処理を実行させるものであってもよい。その場合、プログラム自体には上記モジュールが含まれずＯＳと協働して処理が実行される。このようなモジュールを含まないプログラムも、本発明にかかるプログラムに含まれ得る。

また、本発明にかかるプログラムは他のプログラムの一部に組込まれて提供されるものであってもよい。その場合にも、プログラム自体には上記他のプログラムに含まれるモジュールが含まれず、他のプログラムと協働して処理が実行される。このような他のプログラムに組込まれたプログラムも、本発明にかかるプログラムに含まれ得る。

提供されるプログラム製品は、ハードディスクなどのプログラム格納部にインストールされて実行される。なお、プログラム製品は、プログラム自体と、プログラムが記憶された記憶媒体とを含む。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

１２画像バッファ部、１４圧縮処理部、１６電子化文書生成部、２０テキスト要素抽出部、２２文字認識部、２４テキスト要素分割部、２６見出し要素検出部、２８修正部、３０メタデータ生成部、３２電子化文書生成部、４０ＵＩ部、１００制御部、１０２メモリ部、１０４画像読取部、１０６プリント部、１０８通信インターフェイス部、１１０操作パネル部、１１０ａ表示パネル、１１０ｂストップボタン、１１０ｃスタートボタン、１１０ｄ操作ボタン、１１２記憶部、２０１ＣＰＵ、２０３内部バス、２０５ディスプレイ部、２０７通信インターフェイス部、２０９入力部、２１１ハードディスク部、２１３メモリ部、２１５ＣＤ−ＲＯＭドライブ、２１７ＦＤＤドライブ、２１７ａフレキシブルディスク、３００原稿、ＰＣ１，ＰＣ２端末、ＭＳメールサーバ。

Claims

文書画像に含まれる複数のテキスト要素を、予め定められた複数の特徴種別に基づいてグループ化するためのグループ化手段と、
各前記テキスト要素の特徴に基づいて、前記複数のテキスト要素から初期見出し要素を抽出するための抽出手段と、
抽出された前記初期見出し要素と、前記複数のテキスト要素のうち前記初期見出し要素以外の要素を表わす初期非見出し要素とのうち少なくともいずれかについて、前記グループ化の結果に従いグループごとに区別して表示するための表示手段と、
ユーザからの指示の入力を受付けるための入力手段と、
前記指示に基づいて、前記表示手段に表示されている要素の見出し定義を、グループ単位で修正するための修正手段とを備える、文書処理装置。
前記入力手段は、前記指示として、ユーザより少なくとも一つのグループの指定を受付け、
前記修正手段は、ユーザに指定されたグループ内のテキスト要素が前記初期見出し要素である場合に、前記指定されたグループ内のテキスト要素を、非見出し要素に修正するための手段を含む、請求項１に記載の文書処理装置。
前記修正手段は、ユーザに指定されたグループ内のテキスト要素が前記初期非見出し要素である場合に、前記指定されたグループ内のテキスト要素を、見出し要素に修正するための手段を含む、請求項１または２に記載の文書処理装置。
前記入力手段は、前記指示として、ユーザより少なくとも一つのテキスト要素の指定を受付け、
前記修正手段は、
ユーザに指定されたテキスト要素が前記初期見出し要素である場合に、前記指定されたテキスト要素が、非見出し要素として抽出されるよう、見出し抽出の適用ルールを変更するための手段と、
前記指定されたテキスト要素と同じグループに属するテキスト要素について、変更後の適用ルールに基づいて、見出しの再抽出を行なうための手段とを含む、請求項１〜３のいずれか記載の文書処理装置。
前記修正手段は、ユーザに指定されたテキスト要素が前記初期非見出し要素である場合に、前記指定されたテキスト要素が、見出し要素として抽出されるよう、見出し抽出の適用ルールを変更するための手段を含む、請求項１〜４のいずれか記載の文書処理装置。
前記抽出手段は、前記各テキスト要素について、各前記特徴種別に対する見出し度の重み付け加算値による統合見出し度を算出し、前記統合見出し度が所定のしきい値以上のテキスト要素を前記初期見出しとして抽出し、
前記変更するための手段は、前記指定されたテキスト要素と、前記同じグループに属する他のテキスト要素とで前記統合見出し度の差が大きくなるよう前記各特徴種別への重みを変更する、請求項４または５に記載の文書処理装置。
前記入力手段は、前記指示として、前記統合見出し度の境界となるテキスト要素の指定を受付けるための手段を含み、
前記修正手段は、ユーザに指定されたテキスト要素が前記非初期見出し要素である場合に、前記指定されたテキスト要素に加え、前記指定されたテキスト要素の統合見出し度以上のテキスト要素を修正対象と判断する、請求項６に記載の文書処理装置。
前記修正手段は、ユーザに指定されたテキスト要素が前記初期見出し要素である場合に、前記指定されたテキスト要素に加え、前記指定されたテキスト要素の統合見出し度以下のテキスト要素を修正対象と判断する、請求項６または７に記載の文書処理装置。
前記修正手段は、ユーザに指定されたテキスト要素を、新たなグループとして切り出すための手段をさらに備える、請求項２〜８のいずれかに記載の文書処理装置。
前記表示手段は、前記テキスト要素、あるいは、前記テキスト要素に対応する要素項目を囲む枠の属性をグループごとに変えて表示する、請求項１〜９のいずれかに記載の文書処理装置。
前記表示手段は、グループごとに、前記テキスト要素に対応する要素項目を連続した位置に表示する、請求項１〜９のいずれかに記載の文書処理装置。
前記入力手段は、さらに、見出しのみの表示、非見出しのみの表示、および全表示のうちいずれかの選択指示を受付け、
前記表示手段は、前記選択指示に応じた表示を行なう、請求項１〜１１のいずれかに記載の文書処理装置。
文書画像を記憶する記憶部と表示部とを備えた文書処理装置において実行される方法であって、
前記記憶部に記憶された前記文書画像に含まれる複数のテキスト要素を、予め定められた複数の特徴種別に基づいてグループ化するステップと、
各前記テキスト要素の特徴に基づいて、前記複数のテキスト要素から初期見出し要素を抽出するステップと、
抽出された前記初期見出し要素と、前記複数のテキスト要素のうち前記初期見出し要素以外の要素を表わす初期非見出し要素とのうち少なくともいずれかについて、前記グループ化の結果に従いグループごとに区別して前記表示部に表示するステップと、
ユーザからの指示に基づいて、前記表示部に表示されている要素の見出し定義を、グループ単位で修正するステップとを備える、文書処理方法。
文書画像に含まれる複数のテキスト要素を、予め定められた複数の特徴種別に基づいてグループ化するステップと、
各前記テキスト要素の特徴に基づいて、前記複数のテキスト要素から初期見出し要素を抽出するステップと、
抽出された前記初期見出し要素と、前記複数のテキスト要素のうち前記初期見出し要素以外の要素を表わす初期非見出し要素とのうち少なくともいずれかについて、前記グループ化の結果に従いグループごとに区別して表示するステップと、
ユーザからの指示に基づいて、表示されている要素の見出し定義を、グループ単位で修正するステップとをコンピュータに実行させる、文書処理プログラム。