JP5310206B2 - 文書処理装置、文書処理方法および文書処理プログラム - Google Patents

文書処理装置、文書処理方法および文書処理プログラム Download PDF

Info

Publication number
JP5310206B2
JP5310206B2 JP2009094167A JP2009094167A JP5310206B2 JP 5310206 B2 JP5310206 B2 JP 5310206B2 JP 2009094167 A JP2009094167 A JP 2009094167A JP 2009094167 A JP2009094167 A JP 2009094167A JP 5310206 B2 JP5310206 B2 JP 5310206B2
Authority
JP
Japan
Prior art keywords
heading
text
elements
group
document processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009094167A
Other languages
English (en)
Other versions
JP2010244412A (ja
Inventor
浩次 藤原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2009094167A priority Critical patent/JP5310206B2/ja
Publication of JP2010244412A publication Critical patent/JP2010244412A/ja
Application granted granted Critical
Publication of JP5310206B2 publication Critical patent/JP5310206B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、文書処理装置、文書処理方法および文書処理プログラムに関し、特に、文書データの見出し要素を検出することのできる文書処理装置、文書処理方法および文書処理プログラムに関する。
文書に対して自動で見出しを付ける際、多様な文書に対して精度を高く保つことは難しい。それに対する従来の対応としては、入力文書が、事前に用意しておいた文書タイプのどれであるかの情報を、自動判別するかまたはユーザ入力するなどして、適応的にテンプレート文書モデルなどを切換えて対応していた(特許文献1参照)。
また、音声の入力を対象とするものではあるが、未構造化文書をセクションに分解し、見出しを統計的モデルにより付与する技術も提案されている(特許文献2参照)。
特開平5−342326号公報 特表2007−514998号公報
オフィスなどで利用される文書は多種多様である。したがって、上記特許文献1の技術では、予め容易していたテンプレートでは対応しきれない。結果として、見出しを手動で修正して付け直す場合が多く発生していた。
しかしながら、見出しが検出ミスで漏れているときは、いちいち探し出して指定しなければならないため、非常に効率が悪いという問題があった。また、見出しの誤検出が多い場合には、似たような間違いによる誤検出が繰返して発生している場合が多く、これを効率良く修正する手段が求められていた。
また、上記特許文献2の技術においては、ユーザの一部修正による再度の見出しの付け直しへの言及はあるものの、見出し領域の抽出を行なうのではなく、別にあるキーワード群のいずれかとの対応付けを行なうものである。
本発明は、上記のような問題を解決するためになされたものであって、その目的は、多種多様な文書に対して、従来よりも少ない作業量で見出し要素の誤検出および未検出を修正することのできる文書処理装置、文書処理方法および文書処理プログラムを提供することである。
この発明のある局面に従う文書処理装置は、文書画像に含まれる複数のテキスト要素を、予め定められた複数の特徴種別に基づいてグループ化するためのグループ化手段と、各テキスト要素の特徴に基づいて、複数のテキスト要素から初期見出し要素を抽出するための抽出手段と、抽出された初期見出し要素と、複数のテキスト要素のうち初期見出し要素以外の要素を表わす初期非見出し要素とのうち少なくともいずれかについて、グループ化の結果に従いグループごとに区別して表示するための表示手段と、ユーザからの指示の入力を受付けるための入力手段と、指示に基づいて、表示手段に表示されている要素の見出し定義を、グループ単位で修正するための修正手段とを備える。
好ましくは、入力手段は、指示として、ユーザより少なくとも一つのグループの指定を受付け、修正手段は、ユーザに指定されたグループ内のテキスト要素が初期見出し要素である場合に、指定されたグループ内のテキスト要素を、非見出し要素に修正するための手段を含む。
好ましくは、修正手段は、ユーザに指定されたグループ内のテキスト要素が初期非見出し要素である場合に、指定されたグループ内のテキスト要素を、見出し要素に修正するための手段を含む。
好ましくは、入力手段は、指示として、ユーザより少なくとも一つのテキスト要素の指定を受付け、修正手段は、ユーザに指定されたテキスト要素が初期見出し要素である場合に、指定されたテキスト要素が、非見出し要素として抽出されるよう、見出し抽出の適用ルールを変更するための手段と、指定されたテキスト要素と同じグループに属するテキスト要素について、変更後の適用ルールに基づいて、見出しの再抽出を行なうための手段とを含む。
好ましくは、修正手段は、ユーザに指定されたテキスト要素が初期非見出し要素である場合に、指定されたテキスト要素が、見出し要素として抽出されるよう、見出し抽出の適用ルールを変更するための手段を含む。
好ましくは、抽出手段は、各テキスト要素について、各特徴種別に対する見出し度の重み付け加算値による統合見出し度を算出し、統合見出し度が所定のしきい値以上のテキスト要素を初期見出しとして抽出し、変更するための手段は、指定されたテキスト要素と、同じグループに属する他のテキスト要素とで統合見出し度の差が大きくなるよう各特徴種別への重みを変更する。
好ましくは、入力手段は、指示として、統合見出し度の境界となるテキスト要素の指定を受付けるための手段を含み、修正手段は、ユーザに指定されたテキスト要素が非初期見出し要素である場合に、指定されたテキスト要素に加え、指定されたテキスト要素の統合見出し度以上のテキスト要素を修正対象と判断する。
好ましくは、修正手段は、ユーザに指定されたテキスト要素が初期見出し要素である場合に、指定されたテキスト要素に加え、指定されたテキスト要素の統合見出し度以下のテキスト要素を修正対象と判断する。
好ましくは、修正手段は、ユーザに指定されたテキスト要素を、新たなグループとして切り出すための手段をさらに備える。
好ましくは、表示手段は、テキスト要素、あるいは、テキスト要素に対応する要素項目を囲む枠の属性をグループごとに変えて表示する。
好ましくは、表示手段は、グループごとに、テキスト要素に対応する要素項目を連続した位置に表示する。
好ましくは、入力手段は、さらに、見出しのみの表示、非見出しのみの表示、および全表示のうちいずれかの選択指示を受付け、表示手段は、選択指示に応じた表示を行なう。
この発明の他の局面に従う文書処理方法は、文書画像を記憶する記憶部と表示部とを備えた文書処理装置において実行される方法であって、記憶部に記憶された文書画像に含まれる複数のテキスト要素を、予め定められた複数の特徴種別に基づいてグループ化するステップと、各テキスト要素の特徴に基づいて、複数のテキスト要素から初期見出し要素を抽出するステップと、抽出された初期見出し要素と、複数のテキスト要素のうち初期見出し要素以外の要素を表わす初期非見出し要素とのうち少なくともいずれかについて、グループ化の結果に従いグループごとに区別して表示部に表示するステップと、ユーザからの指示に基づいて、表示部に表示されている要素の見出し定義を、グループ単位で修正するステップとを備える。
この発明のさらに他の局面に従う文書処理プログラムは、文書画像に含まれる複数のテキスト要素を、予め定められた複数の特徴種別に基づいてグループ化するステップと、各テキスト要素の特徴に基づいて、複数のテキスト要素から初期見出し要素を抽出するステップと、抽出された初期見出し要素と、複数のテキスト要素のうち初期見出し要素以外の要素を表わす初期非見出し要素とのうち少なくともいずれかについて、グループ化の結果に従いグループごとに区別して表示するステップと、ユーザからの指示に基づいて、表示されている要素の見出し定義を、グループ単位で修正するステップとをコンピュータに実行させる。
本発明によると、予め定められた複数の特徴種別に基づいてテキスト要素がグループ化される。そして、(初期)見出し検出結果を、グループ単位で修正することができる。したがって、ユーザによる修正の作業量を少なくすることができる。
本発明の実施の形態に従う文書処理装置を含むシステムの概略構成図である。 本発明の実施の形態に従う文書処理装置における概略のハードウェア構成を示すブロック図である。 本発明の実施の形態に従う文書処理装置が備える操作パネル部の外観例を示す図である。 本発明の実施の形態に従う端末の概略のハードウェア構成を示す模式図である。 本発明の実施の形態に従う文書処理装置の機能構成を示す機能ブロック図である。 本発明の実施の形態に従う文書処理を示すフローチャートである 本発明の実施の形態における要素管理情報のデータ構造例を示す図である。 図6のステップS16で表示される画面の一例を示す図である。 本発明の実施の形態において、見出し要素のみの表示指示があった場合に表示される画面の一例を示す図である。 (A),(B)は、指定された全てのテキスト要素の見出し定義を反転する場合の画面遷移例を示す図である。 (A),(B)は、指定されたテキスト要素の見出し定義をグループ単位で反転する場合の画面遷移例を示す図である。 本発明の実施の形態において文書処理装置が生成する電子化文書のデータ構造の一例を示す図である。 本発明の実施の形態において、電子化文書に付加される見出しメタデータのデータ構造の一例を示す図である。 本発明の実施の形態の変形例1において、図6のステップS16で表示される画面の一例を示す図である。 本発明の実施の形態の変形例2において、図6のステップS16で表示される画面の一例を示す図である。
本発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰返さない。
<構成について>
(全体システム構成)
図1は、本発明の実施の形態に従う文書処理装置を含むシステムの概略構成図である。本実施の形態においては、代表的に、本発明に係る文書処理装置を搭載するMFP(Multi Function Peripheral)について説明する。なお、本発明に係る文書処理装置は、MFPに限らず、PC(Personal Computer)、複写機、ファクシミリ装置、スキャナ装置などにも適用可能である。
図1を参照して、本実施の形態に従うMFP1は、原稿300を読取るための画像読取部104と、紙媒体などへの印刷処理を行なうためのプリント部106とを含む。
特に、本実施の形態に従うMFP1は、画像読取部104で原稿300を読取ることで文書画像を取得し、この文書画像を含む電子化文書を生成する。この際、MFP1は、読取った文書画像に含まれる文書要素のうち「見出し」であると特定されたものについて、付属情報を生成する。そして、MFP1は、読取った文書画像に付属情報を付加して、電子化文書400を生成する。代表的に、電子化文書400にはPDF(Portable Document Format)などのフォーマットを採用できる。
「文書要素」とは、文書を構成する記述要素である。「付属情報」は、「メタデータ(meta data)」とも称される。付属情報は、少なくとも文書画像内における位置を特定するための位置データを含み、さらに、たとえば各文書要素に対応するテキストデータなどを含んでもよい。付属情報は、たとえば「しおり」である。
MFP1は、インターネットを介して、メールサーバMSおよび複数の端末PC1,PC2(以下、「端末PC」という)と接続されている。
画像読取部104は、原稿をセットするための戴荷台と、原稿台ガラスと、戴荷台にセットされた原稿を原稿台ガラスに自動的に一枚ずつ搬送する搬送部と、読取られた原稿を排出するための排出台とを含む(いずれも図示しない)。これにより、複数枚の原稿を連続的に読取って、一つの電子化文書として生成することができる。
(MFP1の概略構成)
図2は、本発明の実施の形態に従うMFP1における概略のハードウェア構成を示すブロック図である。
図2を参照して、MFP1の機能構成としては、制御部100と、メモリ部102と、画像読取部104と、プリント部106と、通信インターフェイス部108と、操作パネル部110と、記憶部112とを含む。
制御部100は、代表的にCPU(Central Processing Unit)などの演算装置から構成され、プログラムを実行することで本実施の形態に従う文書処理を実現する。メモリ部102は、代表的にDRAM(Dynamic Random Access Memory)などの揮発性の記憶装置であり、制御部100で実行されるプログラムやプログラムの実行に必要なデータなどを保持する。通信インターフェイス部108は、代表的に、インターネットを介して端末PC(図1)との間でデータを送受信するための部位であり、たとえば、LANアダプタおよびそれを制御するドライバソフトなどを含む。プリント部106は、プリント処理を行なうための部位であり、プリント処理に係るハードウェア構成に加えて、各部の作動を制御するための制御装置をも含む。記憶部112は、代表的にハードディスク装置やフラッシュメモリなどの不揮発性の記憶装置であり、制御部100の動作のためのプログラムや制御部100で生成された電子化文書などを格納する。
操作パネル部110の外観例を図3に示す。操作パネル部110は、液晶表示装置やタッチパネルなどから構成される表示パネル110aと、ストップボタン110bと、スタートボタン110cと、英数キーなどを含む操作ボタン110dとを備えている。
なお、本実施の形態では、表示機能と指示の入力機能とを兼ね備えた操作パネル部110を備えることとしたが、これに代えて、表示部とハードウェアボタンを含む入力部との両方を備えることとしてもよい。
(端末の構成)
図4は、本発明の実施の形態に従う端末PCの概略のハードウェア構成を示す模式図である。
図4を参照して、端末PCは、たとえば一般的なパーソナルコンピュータであり、オペレーティングシステム(OS:Operating System)を含む各種プログラムを実行するCPU(Central Processing Unit)201と、CPU201でのプログラムの実行に必要なデータを一時的に記憶するメモリ部213と、CPU201で実行されるプログラムを不揮発的に記憶するハードディスク部(HDD:Hard Disk Drive)211とを含む。また、ハードディスク部211には、文書データ(MFP1で生成された電子化文書を含む)を表示するための閲覧アプリケーションプログラム(以下、「ビューワ」という)、および、文書データを印刷するための印刷ドライバソフトが記憶されている。このようなプログラムは、FDDドライブ217またはCD−ROMドライブ215によって、それぞれフレキシブルディスク217aまたはCD−ROM(Compact Disk-Read Only Memory)215aなどから読取られてよい。
CPU201は、キーボードやマウスなどからなる入力部209を介してユーザからの指示を受取るとともに、プログラムの実行によって生成される画面出力をディスプレイ部205へ出力する。また、CPU201は、LANカードなどからなる通信インターフェイス部207を介して、LANやWANに接続されたMFP1やサーバ装置(図示せず)から電子化文書を取得し、ハードディスク部211などに格納する。また、上述の各部は、内部バス203を介して相互にデータを授受する。
なお、端末PCは、パーソナルコンピュータに限定されず、携帯電話などの携帯端末であってもよい。その場合の端末PCは、図4においてFDDドライブ217やCD−ROMドライブ215などを取り除いたものとほぼ等価であるので、詳細な説明は繰返さない。
(MFPの機能構成)
図5は、本発明の実施の形態に従うMFP1の機能構成を示す機能ブロック図である。
図5を参照して、MFP1の機能構成としては、画像読取部104と、画像バッファ部12と、圧縮処理部14と、テキスト要素抽出部20と、文字認識部22と、テキスト要素分割部24と、見出し要素検出部26と、修正部28と、メタデータ生成部30と、電子化文書生成部32と、UI(User Interface)部40と、通信インターフェイス部108と、記憶部112とを含む。
画像読取部104は、原稿300を読取って文書画像を取得し、その文書画像を画像バッファ部12へ出力する。画像バッファ部12は、画像読取部104が逐次的に出力する文書画像のデータを一時的に格納する部位であり、一旦格納した文書画像を圧縮処理部14およびテキスト要素抽出部20に出力する。
圧縮処理部14は、画像バッファ部12から出力される文書画像を圧縮処理して、電子化文書生成部32へ出力する。この圧縮処理による圧縮度合いは、生成される電子化文書の大きさや、要求される文書画像の解像度などに応じて変化させてもよく、また圧縮処理はJPEG(Joint Photographic Experts Group)などの非可逆変換であってもよい。なお、高解像度が要求される場合などには、圧縮処理を省略してもよい。
テキスト要素抽出部20は、画像バッファ部12から出力される文書画像を解析し、当該文書画像に含まれるテキスト領域(以下「初期テキスト要素」という)を抽出する。初期テキスト要素には、文書要素の種別(以下「要素種別」という)が「タイトル(表題)」、「セクション(章・節・項)見出し」、「キャプション」、「手書き注釈」、および「本文」である文書要素(以下、単に「テキスト要素」という)が含まれ得る。初期テキスト要素は、要素種別が図、表および写真である文書要素を含まない。
テキスト要素抽出部20は、初期テキスト要素を抽出する過程において、「段(段組)」を検出し、さらに、各段の「行方向」、および、各段の「接続情報」を検出する。そして、抽出した各段の接続情報に基づいて、テキスト領域をハンドリングする。
段はたとえば、「図書の電子のための文書認識技術(鎌田 博、藤本 克仁、黒川 浩司)、雑誌FUJITSU、VOL.49,No.6、1998」に開示された公知技術で検出することができる。各段の接続情報は、各段が、文脈等からどの段に接続されるべきかを示す情報(すなわち段の順序を示す情報)であり、たとえば特開平10−40248号公報に開示される公知の技術で検出することができる。行方向の検出は、周知の方法で検出することができる。
テキスト要素抽出部20は、初期テキスト要素の抽出に際して、各初期テキスト要素(テキスト領域)の文書画像内における位置も抽出する。そして、抽出した初期テキスト要素ごとの位置情報を文字認識部22に出力する。
文字認識部22は、テキスト要素抽出部20にて抽出された初期テキスト要素について、文字認識すなわち、OCR(Optical Character Recognition)を実行する。具体的には、初期テキスト要素の各行について、文字認識処理により文字列を抽出する。これにより、各初期テキスト要素中の画像は、行単位でテキストデータに変換される。行単位のテキストデータは、テキスト要素分割部24に出力される。
テキスト要素分割部24は、テキスト要素抽出部20で抽出された初期テキスト要素(テキスト領域)を、本文・見出しが混在したり異なる種類の見出し同士が混在したりしないように、予め定められた条件に基づいて分割する。具体的には、たとえば、初期テキスト要素は、行単位のテキストデータの属性(特徴)に基づいて分割される。
テキスト要素分割部24は、たとえば、特開平6−214983号公報の参考文献に開示されているような複数種類の行特徴を用いて、各初期テキスト要素を分割することができる。
本実施の形態では、次のような種類の行特徴(以下「特徴種別」という)すなわち、行間、文字間隔、行の高さ、行揃え(左揃え/中央揃え/右揃え)、インデント(上記参考文献では「オフセット」)、字下げの有無(上記参考文献では「第1行オフセット」)、特定行頭文字(上記参考文献では「小タイトル」)が用いられる。なお、本実施の形態では、行間、文字間隔、行高さ、インデントについては、予め定められた間隔で量子化された値を用いるものとする。
テキスト要素分割部24は、分割後の初期テキスト要素すなわち、(正式な)テキスト要素の各々について、文書画像中の対応する位置を示す位置データ、および、テキスト要素に含まれる少なくとも一部の文字列データを見出し要素検出部26に出力する。
見出し要素検出部26は、複数のテキスト要素のうち、要素種別が「見出し」であるテキスト要素(すなわち「見出し要素」)を検出(抽出)する。見出し要素検出部26が抽出した見出し要素を、以下「初期見出し」ともいう。
具体的には次の手順により、初期見出しが抽出される。なお、見出し要素には、上記要素種別のうち、たとえば、「タイトル(表題)」および「セクション(章・節・項)見出し」の文書要素が含まれる。
まず、見出し要素検出部26は、上記特徴種別に基づいて、各テキスト要素をクラスタリングし、テキスト要素をグループ化する。つまり、同じような特徴量(属性)を有するテキスト要素を同一のグループとする。
また、各テキスト要素について、上記特徴種別それぞれの特徴量に基づいて、統合見出し度を算出する。統合見出し度の算出方法については後述する。
そして、統合見出し度が予め定められたしきい値以上のテキスト要素を特定する。特定されたテキスト要素を、「初期見出し」として検出(特定)する。なお、グループ単位で初期見出しを特定してもよい。たとえば、グループ内の統合見出し度の平均値が予め定められたしきい値以上のグループを特定し、特定されたグループ内のテキスト要素を、「初期見出し」として特定してもよい。
以上のような処理を経て、見出し要素検出部26は、各テキスト要素を管理するための管理情報(以下、「要素管理情報」という)を生成する。
要素管理情報は、少なくとも、テキスト要素ごとに、文書画像中の位置を示す位置データ、属するグループを特定するための識別データ(グループID)、および、見出しか否かの有無を示す識別データ(見出しフラグ)を有している。要素管理情報のデータ構造例については、後述する。
見出し要素検出部26は、要素管理情報のうちの上記情報に基づいて、UI部40に検出結果を表示する。また、要素管理情報を修正部28に出力する。
UI部40は、見出し要素を、それ以外のテキスト要素(以下「非見出し要素」ともいう)とともに表示する。また、UI部40は、グループの違いが分かるように、グループIDごとに異なる表示形態でテキスト要素を表示する。なお、表示するテキスト要素は、見出し要素および非見出し要素のうちの一方であってもよい。
さらに、UI部40は、ユーザより、テキスト要素の指定、あるいは、グループの指定などを受付ける。ユーザより見出し定義(見出し/非見出し)の修正指示などを受付けた場合には、その情報を修正部28に出力する。
本実施の形態において、UI部40は、上述の操作パネル部110に対応する。
修正部28は、UI部40から入力した修正指示に応じて、要素管理情報内のデータの修正・変更を行なう。修正が完了すると、要素管理情報のうち所定の情報をメタデータ生成部30に出力する。
メタデータ生成部30は、修正部28から出力された情報に基づいて、メタデータを生成する。そして、メタデータ生成部30は、生成したメタデータを電子化文書生成部16へ出力する。
電子化文書生成部32は、圧縮処理部14からの(圧縮された)文書画像に、メタデータ生成部30からのメタデータを付加することで、電子化文書を生成する。
電子化文書生成部32は、生成した電子化文書をユーザによる設定などに応じて、記憶部112へ格納し、または通信インターフェイス部108へ出力する。通信インターフェイス部108は、電子化文書生成部32で生成された電子化文書をLANなどのネットワークを介して、端末PC(図1)などへ送信する。
なお、図5に示した各機能ブロックの動作は、メモリ部102中に格納されたソフトウェアを実行することで実現されてもよいし、少なくとも1つについては、ハードウェアで実現されてもよい。
<動作について>
図6は、本発明の実施の形態に従う電子化文書生成処理を示すフローチャートである。図6のフローチャートに示される電子化文書生成処理は、制御部100がプログラムをメモリ部102などに読出して実行し、図5に示される各機能を制御することで実現される。
図5および図6を参照して、まず、画像読取部104が原稿300を(光学的に)読取って文書画像を生成する(ステップS2)。この生成された文書画像は、画像バッファ部12に格納される。そして、圧縮処理部14が、画像バッファ部12に格納された文書画像を圧縮処理して、電子化文書生成部32へ出力する。電子化文書生成部32において、公知の手法により電子化文書が生成される。
一方、テキスト要素抽出部20が、画像バッファ部12に格納された文書画像を解析し、文書画像中の初期テキスト要素(テキスト領域)を抽出する(ステップS4)。
初期テキスト要素が抽出されると、文字認識部22は、各初期テキスト要素の画像について文字認識(OCR)を実行する(ステップS6)。これにより、行単位のテキストデータが生成される。
続いて、テキスト要素分割部24は、各初期テキスト要素を、上記7つの特徴種別を用いて分割する(ステップS8)。初期テキスト要素が分割されると、分割後の各領域が(本来の)テキスト要素として特定される。テキスト要素分割部24は、各テキスト要素(分割後の初期テキスト要素)を一意に特定するための識別データ(要素ID)をテキスト要素に付与する。
また、この時点で、テキスト要素ごとに、要素種別が判別されてもよい。そして、判別された要素種別が、各要素IDに対応付けられてもよい。この時点では、要素種別が「本文」などのテキスト要素も存在し、テキスト要素には、上述したような、「タイトル(表題)」、「セクション(章・節・項)見出し」、「キャプション」、「手書き注釈」、および「本文」のうちのいずれか1つが対応付けられる。なお、このような要素種別の判別は、公知の手法により行なわれてよい。
次に、見出し要素検出部26は、複数のテキスト要素を上記7つの特徴種別に基づいてグループ化する(ステップS10)。見出し要素検出部26は、各要素IDに対応付けて、グループIDを記憶する。
なお、本実施の形態では上記7つの特徴種別を用いて初期テキスト要素の分割、および、テキスト要素のグループ化を行なうこととしたが、これら全ての特徴種別を用いなくてもよい。また、分割に用いる特徴種別とグループ化に用いる特徴種別とが完全に一致していなくてもよい。ただし、分割およびグループ化の精度をある程度高く保つためには、7つの特徴種別のうち、行の高さ、行揃えおよびインデントは必ず用いることが好ましい。
見出し要素検出部26は、テキスト要素ごとに、統合見出し度を算出する(ステップS12)。この処理について、具体的に説明する。
各特徴種別iについては、特徴種別の各値に対して、個別見出し度h(v)が予め設定されている。たとえば、特徴種別iを「文字サイズ」と仮定すると、その特徴量(vi):…、10、12、…それぞれに対して、見出しらしさを表わす個別見出し度h:…、50、100、…が予め設定されている。
本実施の形態では、たとえば、特徴種別ごとに、特徴種別の各値と個別見出し度とが対応付けられたテーブルが、メモリ部102に予め記憶されている。
各テキスト化要素kについて、各個別見出し度に初期設定の重みwを掛ける。そして、個別見出し度の重み付け総和により、テキスト化要素kごとの統合見出し度Hkが算出される。
統合見出し度Hは、以下の式(1)により求められる。
Figure 0005310206
なお、初期設定の重み係数wは、たとえば、多数の文書を対象にした実験の結果に基づいて、予め定められている。
統合見出し度が算出されると、見出し要素検出部26は、初期見出しを検出する(ステップS14)。具体的には、統合見出し度が、予め定められたしきい値以上のテキスト要素を初期見出し(見出し要素)として検出する。それ以外のテキスト要素を初期非見出し(非見出し要素)と特定する。以上のような処理の結果、見出し要素検出部26は、全てのテキスト要素についての要素管理情報を記述する。要素管理情報は、たとえばメモリ部102に一時記憶される。
図7は、本発明の実施の形態における要素管理情報のデータ構造例を示す図である。
図7を参照して、要素管理情報は、テキスト要素(k)ごとに、要素ID、頁番号、領域左上座標、領域右下座標、要素種別、要素グループID、統合見出し度(H)、重み係数(ここでは「wki」)、個別見出し度(ここでは「hki」)、見出しフラグ、文字列データを含む。
要素IDは、各テキスト要素を一意に特定するための識別データである。頁番号は、対応のテキスト要素が存在するページを特定するための位置データである。また、領域左上座標および領域右下座標は、対応のテキスト要素のページ内での領域(矩形)を特定するための位置データである。領域左上座標および領域右下座標は、対応するテキスト要素の領域のサイズを特定するための情報でもある。要素種別は、対応するテキスト要素の種別を特定するための情報である。要素グループID(=グループID)は、対応するテキスト要素が属するグループを一意に特定するための識別データである。なお、本実施の形態のような、テキスト要素のグループ化をした場合、同じ要素種別(たとえばセクション見出し)であっても、同じグループとは限らない。また逆に、異なる要素種別であったとしても、同一グループとなり得る。
統合見出し度および個別見出し度としては、対応するテキスト化要素についての最新の算出結果が格納される。個別見出し度は、7つの特徴種別それぞれについての見出し度を含む。重み係数も、7つの特徴種別それぞれについての値を含む。重み係数は、はじめの時点では、初期値(たとえば予め定められた値)がセットされる。なお、個別見出し度に代えて、7つの特徴種別それぞれについての特徴量(ここでは「vki」)が格納されてもよい。
見出しフラグは、対応するテキスト要素が見出しか否かを示す識別データである。たとえば、見出しであれば「1」、それ以外(非見出し)であれば「0」がセットされる。文字列データは、対応するテキスト要素の少なくとも一部のテキストデータである。本実施の形態では、たとえば、本文についてのみ最初の1行目の文字列のみ格納される。または、全ての要素種別のテキスト要素について、行頭文字から所定バイト数の文字列のみが格納されてもよい。
再び図6を参照して、初期値の重み係数を用いた統合見出し度の算出結果に応じて、見出し要素が暫定的に特定されると、UI部40に、その検出結果が表示される(ステップS16)。具体的には、図3に示した操作パネル部110の表示パネル110aに、図8のような画面SC10を表示する。
図8は、図6のステップS16で表示される画面SC10の一例を示す図である。
図8を参照して、画面SC10には、テキストデータを表示するためのテキスト表示領域500と、文書画像データを表示するための画像表示領域520とを含む。
テキスト表示領域500には、複数のテキスト要素の概要(一覧)が表示される。具体的には、複数のテキスト要素それぞれに対応する複数の要素項目501〜511が表示されている。要素項目501〜511は、初期判定結果が見出しであるか否かに関わらず、文書画像における配置順(読み順)に従って並べられている。破線で囲まれた要素項目504,508は、要素管理情報での見出しフラグが0(非見出し)の文字列データである。それ以外の実線で囲まれた要素項目501〜503,505〜507,509〜511は、要素管理情報での見出しフラグが1(見出し)の文字列データである。本実施の形態では、グループごとに、要素項目の枠(囲み線)の太さが変えられている。
なお、グループの違いが識別できれば、枠の太さによりグループを識別可能にする表示形態に限定されない。たとえば、枠の色、領域内の色、実線・点線のスタイル、点滅の仕方などにより、グループを識別可能にしてもよい。あるいは、枠を使わずに、グループを識別するための記号(たとえばグループ番号)等を各要素項目に対応付けて表示することで、グループを識別可能にしてもよい。
見出しと非見出しとの識別も、実線・点線によるものに限定されない。たとえば、見出し要素に対応する要素項目(以下「見出し要素項目」ともいう)にのみ、所定のマークを対応付けて表示してもよい。
画像表示領域520には、文書画像の一部が表示される。たとえば1頁単位で文書画像が表示される。文書画像中のテキスト要素も、テキスト表示領域500における要素項目の枠と同種の枠で囲まれている。これにより、ユーザは、見出し/非見出しの修正の必要性を容易に把握することができる。
画面SC10において、テキスト表示領域500および画像表示領域520の下部には、複数のボタンBT1〜BT6が表示されている。
見出しボタンBT1は、テキスト表示領域500において、見出し要素項目のみを表示するための指示を受付ける。非見出しボタンBT2は、テキスト表示領域500において、見出し要素項目以外の要素項目(以下「非見出し要素項目」ともいう)のみを表示するための指示を受付ける。このようなボタンBT1,BT2が設けられるため、見出し・非見出しの検出結果の表示をON/OFFできる。これにより、見出し要素項目のみの表示や、非見出し要素項目のみの表示が可能となる。
見出しボタンBT1がクリックされた場合に表示される画面SC20の一例を図9に示す。
図9を参照して、画面SC20のテキスト表示領域500には、見出し要素項目501〜503,505〜507,509〜511のみが表示されている。このように、見出しのみの検出結果の表示が可能となるので、見出し要素の誤検出の発見を行ないやすくなる。
なお、非見出しボタンBT2がクリックされた場合は、テキスト表示領域500には、非見出し要素項目504,508のみが表示されることになる。これにより、非見出しのみの検出結果の表示が可能となるので、見出し要素の未検出の発見を行ないやすくなる。
境界指定ボタンBT3は、ユーザが指定したグループよりも、統合見出し度がより低いテキスト要素またはより高いテキスト要素を一括指定するための指示を受付ける。境界指定ボタンBT3がクリックされると、ユーザにより指定されたグループの見出し定義が「見出し」であれば、そのグループと、そのグループよりも統合見出し度が低いグループとが指定される。一方、ユーザにより指定されたグループの定義が「非見出し」であれば、そのグループと、そのグループよりも統合見出し度が高いグループとが指定される。なお、ユーザによるグループの指定は、たとえば、テキスト表示領域500において、対象となるグループ内の要素項目をユーザが指定することで実現可能である。
グループボタンBT4は、ユーザにより指定されたグループ内のテキスト要素全ての見出し定義を反転する指示を受付ける。ここでのユーザによるグループの指定も、上記のような方法により実現可能である。
指定要素ボタンBT5は、ユーザにより指定されたテキスト要素の見出し定義を反転する指示を受付ける。
再検出ボタンBT6は、ユーザにより指定されたグループについて、見出しの再検出の指示を受付ける。見出しの再検出の具体的方法については後述する。
再び図6を参照して、修正部28は、修正対象のテキスト要素またはグループの指定を受付ける(ステップS18)。具体的には、図8に示した画面SC10(または図9に示した画面SC20など)のテキスト表示領域500に含まれる要素項目のうちから、ユーザにより一つの指定を受付ける。ユーザは、修正したいテキスト要素、または、修正したいグループに含まれる任意のテキスト要素に対応する要素項目を指定すればよい。なお、複数のテキスト要素を指定することも可能であることとする。
または、境界指定ボタンBT3がクリックされ、その後一つのテキスト要素(に対応する要素項目)が選択されたとする。修正部28は、要素管理情報を参照して、選択されたテキスト要素の見出しフラグが0か1かを検索する。そして、見出しフラグが1(見出し)であれば、そのテキスト要素の統合見出し度以下である要素を抽出する。見出しフラグが0(非見出し)であれば、そのテキスト要素の統合見出し度以上である要素を抽出する。
抽出された全てのテキスト要素に対応する要素項目がUI部40において、選択状態として表示される。具体的には、たとえば、対象の要素項目の領域が、所定の色で表示される。
次に、修正部28は、ユーザからの指示に基づき、指定しているテキスト要素またはグループについて、見出し要素検出部26での検出結果を修正する(ステップS20)。具体的には、上記ボタンBT4〜BT6のうちクリックされたボタンに応じて、修正部28は、ステップS18で選択状態とされているテキスト要素についての見出し定義を修正する処理を行なう。
以下、ボタンBT4〜BT6それぞれが指示された場合の具体的な修正処理例について説明する。
指定要素ボタンBT5が指示された場合について、図10を参照しながら説明する。
図10(A),(B)は、指定された全てのテキスト要素の見出し定義を反転する場合の画面遷移例を示す図である。
図10(A)の画面SC30を参照して、この例では、境界指定ボタンBT3により修正対象のテキスト要素(に対応する要素項目)が指定されている。より詳細には、ユーザにより境界指定ボタンBT3が押下(指示)される(状態(i))。次に、ユーザにより要素項目510が押下されたとする(状態(ii))。要素項目510に対応するテキスト要素、すなわち、指定されたテキスト要素の定義は見出しである。したがって、指定されたテキスト要素(要素項目510に対応)の統合見出し度以下のテキスト要素全てが選択状態とされる。画面SC30の例では、指定された要素項目510と、修正部28により抽出されたテキスト要素に対応する要素項目511とが選択状態とされている。
図10(B)の画面SC31を参照して、次に、指定要素ボタンBT5が押下されたとする(状態(iii))。そうすると、画面SC30で選択状態とされていた要素項目510,511は、いずれも、見出し定義が反転される。つまり、修正部28は、要素管理情報における、要素項目510,511に対応するテキスト要素の見出しフラグを1から0にリセットする。
これにより、画面SC31に示されるように、要素項目510,511の枠の線は、見出しを表わす実線の線から、非見出しを表わす破線に変更される。
次に、グループボタンBT4が指示された場合について、図11を参照しながら説明する。
図11(A),(B)は、指定されたテキスト要素の見出し定義をグループ単位で反転する場合の画面遷移例を示す図である。
図11(A)の画面SC40を参照して、ユーザにより要素項目503が指定されている(状態(i))。
図11(B)の画面SC41を参照して、次にグループボタンBT4が押下される(状態(ii))。そうすると、修正部28は、要素管理情報において、指定されていたテキスト要素(要素項目503に対応)のグループIDを特定し、特定されたグループIDが対応付けられているテキスト要素を検索する。そして、特定されたグループIDのテキスト要素全ての見出しフラグを1から0にリセットする。
本例では、要素項目504に対応するテキスト要素が、要素項目503に対応のテキスト要素と同じグループIDであったとする。その場合、画面SC41に示されるように、要素項目503,504の枠の線は、見出しを表わす実線の線から、非見出しを表わす破線に変更される。
次に、再検出ボタンBT6が指示された場合について説明する。
たとえば、図11(A)の画面SC40に示されるように、要素項目503が指定されていたとする。その場合に、再検出ボタンBT6が押下されると、修正部28は、要素項目503に対応のテキスト要素が含まれるグループについて、見出し判定ルール(見出し抽出ルール)を変更して見出しを再検出する。見出し判定ルールの変更は、同じグループ内において、指定されたテキスト要素(要素項目503に対応)と、それ以外のテキスト要素とで統合見出し度の差が大きくなるように、各特徴種別への重みを変更することにより行なわれる。これにより、指定されたテキスト要素だけが、見出し定義反転の対象となる可能性が高くなる。
具体的には、以下のような式により、指定要素(指定されたテキスト化要素)について、統合見出し度算出時の特徴種別iへの重み係数wを更新する。そして、指定要素と同一グループ中のテキスト化要素の全てについて、再度、統合見出し度を算出する。
指定要素の定義が見出しの場合、以下の式(2)〜(4)により重み係数wを更新する。指定要素の定義が非見出しの場合、以下の式(5),(6)により重み係数wを更新する。
なお、式(3),(4),(6)において、指定要素の集合を“U”、指定要素のいずれかと同一グループ中の見出し要素の集合を“V”、指定要素のいずれかと同一グループ中の非見出し要素の集合を“W”と表わしているものとする。
Figure 0005310206
同一グループ中のテキスト要素について、再度統合見出し度が算出されると、修正部28は、要素管理情報の統合見出し度、重み係数および個別見出し度を更新する。
修正部28は、統合見出し度を再算出したテキスト要素全てについて、再度、統合見出し度が予め定められたしきい値以上であるか否かを判定する。そして、統合見出し度がしきい値以上であるテキスト要素を見出し要素、それ以外を非見出し要素として特定する。その結果に基づいて、要素管理情報の見出しフラグの更新を行なう。
修正部28は、見出しの再検出を行なうと、UI部40において、再検出の結果に応じた表示がされる。
その後、確定指示があったかどうかが判断される(ステップS21)。確定指示の入力の有無は、たとえば、図示しない確定ボタンが押下されたか否かにより判定可能である。
確定指示があったと判断された場合(ステップS21においてYES)、修正部28は、図7に示したような要素管理情報のうち、見出しフラグが1(見出し)であるテキスト要素についての情報をメタデータ生成部30に出力する。メタデータ生成部30に出力される情報は、メタデータ(たとえばしおりデータ)の生成に必要な情報のみであってもよい。その後、ステップS22に進む。
確定指示がなければ(ステップS21においてNO)、ステップS18に戻り、上述のような修正処理を繰返す。
ステップS22において、メタデータ生成部30は、修正部28より入力した情報に基づいて、見出し要素についてのメタデータ(見出しメタデータ)を生成する。そして、電子化文書生成部32が、圧縮処理部14からの(圧縮された)文書画像に、メタデータ生成部30からの見出しメタデータを付加する(埋め込む)ことで、電子化文書を生成する(ステップS116)。
さらに、ユーザの設定に応じて、電子化文書の出力処理が実行される(ステップS24)。具体的には、通信インターフェイス部108から、ネットワークを介して接続された所定の送信先に電子化文書が送信される。もしくは、ユーザの設定に応じて、記憶部112の所定のディレクトリに電子化文書が格納される。
以上で、本実施の形態における電子化文書の生成処理は終了する。
<電子化文書の構造例について>
図12は、本発明の実施の形態においてMFP1が生成する電子化文書400のデータ構造の一例を示す図である。
図12を参照して、電子化文書400は、ヘッダ部402と、文書画像部404と、メタデータ部406と、フッタ部408とからなる。ヘッダ部402およびフッタ部408には、電子化文書400の属性についての情報、たとえば作成日時・作成者・著作権情報などが格納される。文書画像部404には、各ページに対応する文書画像が格納される。なお、この文書画像は、上述したように圧縮された状態で格納されてもよい。メタデータ部406には、文書画像に含まれる見出し要素を特定するための見出しメタデータが格納される。
図13は、見出しメタデータのデータ構造の一例を示す図である。
図13を参照して、見出しメタデータには、図7に示した要素管理情報のうち、見出しと特定されたテキスト要素すなわち、見出し要素についての情報が格納される。
具体的には、見出しメタデータには、見出し要素ごとに、要素ID、頁番号、領域左上座標、領域右下座標、要素種別、文字列が含まれる。見出しメタデータに含まれるこれらのデータは、図7にて既に説明しているため、ここでの説明は繰返さない。
以上のように、本実施の形態によると、テキスト要素がグループ化されるため、グループ単位でのテキスト要素の修正が可能である。したがって、ユーザは、少ない作業量で、見出し要素の誤検出あるいは未検出を修正することができる。
また、テキスト要素および対応の要素項目は、グループIDに応じて異なる表示形態にて表示される。つまり、見出し検出結果がグループごとに区別して表示される。したがって、ユーザは、修正対象のテキスト要素を直感的に把握することができる。
また、本実施の形態では、グループ単位だけでなく、個別指定でのテキスト要素の修正も可能である。したがって、状況に応じて、最適な方法で修正を行なうことができる。なお、本実施の形態において、個別指定での修正は、必須の処理ではない。
さらに、ユーザにより指定されたグループ内のテキスト要素について、見出しの再検出を行なうことができる。また、ユーザにより指定されたテキスト要素が見出しか否かに応じて、指定されたテキスト要素を含む見出し抽出の適用ルール(各特徴種別への重み)が変更される。その結果、ユーザ所望の結果になるまで、再検出を繰返すことができる。
なお、本実施の形態では、特徴種別の重み(重み係数w)の変更により見出しの再検出(見出し定義の修正)を行なったが、このような修正方法に限定されない。たとえば、公知の線形・非線形の識別器(たとえば、ニューラルネットワーク、サポートベクターマシン、LVQ(Learning vector quantization))などを適用可能である。これらの識別器についても、重みまたはそれと同等の意味を持つパラメータが存在し、同様の処理を行なうことができる。また、重みの修正についても、上記方法に限らず、ホー・カシュヤップ法など広く知られた学習規則を使用して実行することができる。
また、本実施の形態では、見出し要素検出部26は、毎回、初期設定の重み係数を用いて初期見出し要素を抽出していた。しかしながら、過去の修正処理において、見出しの再検出に用いられた重み係数を利用することとしてもよい。
また、本実施の形態では、付属情報(本実施の形態ではメタデータ)を付加した電子化文書を記憶または送信するものとしたが、付属情報をメールに添付し、電子化文書は記憶部112に保存しておいてもよい。その場合には、送信先の端末PCにおいてどこにデータが保存されるかは知りえないので、リンク情報を復元するための情報(以下「リンク復元情報」という)を各領域(見出し要素)に埋め込むことが望ましい。具体的には、リンク復元情報としてスクリプトを対応する箇所に記述すればよい。
<変形例1>
上記実施の形態では、一度、テキスト要素がグループ化されると、修正部28による修正処理の間も、グループIDは維持されるものであった。しかし、修正部28は、ユーザからの指示に基づいて、グループ中の一部のテキスト要素を別グループとして切り出す機能をさらに有していてもよい。
図14は、本発明の実施の形態の変形例1において、図6のステップS16で表示される画面SC50の一例を示す図である。
図8に示した画面SC10と比較すると、画面SC50においては、グループボタンBT4に代えて、グループ分割ボタンBT14が含まれる。グループ分割ボタンBT14は、同一グループの中で、指定されたテキスト要素とそれ以外のテキスト要素とを分割する指示を受付ける。
以下に、グループ分割ボタンBT14が指定された場合の、修正部28の処理例について説明する。
まず、ユーザにより、要素項目501〜511のうち1つ以上が選択されているとする。選択されている1つ以上の要素項目に対応のテキスト要素は、全て同じグループに属している(同じグループID)とする。
その後、グループ分割ボタンBT14がユーザにより指示されると、選択されている1以上のテキスト要素のみ、他グループとして切り出される。つまり、選択されている1以上のテキスト要素は、修正部28によって、それまでのグループIDとは異なる、未使用のグループIDが付与される。
選択されていたテキスト要素は、元のグループから切り出されるため、それまでの枠の線種とは異なる線種で表示される。その結果、よりユーザの意図に応じた修正が可能となる。
<変形例2>
上述の実施の形態および変形例1では、たとえば図8や図14に示したように、テキスト表示領域500には、文書画像中のテキスト要素の配置順序(読み順)に従って、テキスト要素に対応する要素項目を配置した。そして、グループごとに、テキスト要素および要素項目の囲み枠の線種を代えて表示した。
しかし、テキスト表示領域において、要素項目は、グループごとに連続した位置に表示されてもよい。
図15は、本発明の実施の形態の変形例2において、図6のステップS16で表示される画面SC60の一例を示す図である。
図8に示した画面SC10と比較すると、画面SC60においては、テキスト表示領域500に代えて、見出し要素に対応する要素項目を表示するための見出し要素領域530と、それ以外の要素項目を表示するための非見出し要素領域540とが含まれる。また、見出しボタンBT1および非見出しボタンBT2それぞれに代えて、見出し順ボタンBT21および見出し度ボタンBT22が含まれる。
見出し要素領域530には、グループ番号ごとに、そのグループ内に含まれるテキスト要素に対応の要素項目がまとめて表示されている。非見出し要素領域540も、同様であってよい。
見出し順ボタンBT21は、読み順に従った順序で要素項目を表示する指示を受付ける。見出し度ボタンBT22は、統合見出し度の順序で要素項目を表示する指示を受付ける。
画面SC60の見出し要素領域530には、各グループにおいて、読み順に従った順序で要素項目が配置された例が示されている。このような状態で、見出し度ボタンBT22が指示されると、グループ内で、要素項目は、対応のテキスト要素の統合見出し度が高い順にソートされる。その後、見出し順ボタンBT21が指示されると、再び、画面SC60のような表示に戻る。
このように、本変形例によると、ユーザは、上記実施の形態および変形例1では不可視であった統合見出し度を、要素項目の配置順序により知ることが可能となる。
なお、上記実施の形態での表示、変形例1での表示、変形例2での表示をそれぞれ組合わせてもよい。
また、本実施の形態の文書処理装置(たとえばMFP1)が行なう文書処理方法を、プログラムとして提供することもできる。このようなプログラムは、CD−ROM(Compact Disc-ROM)などの光学媒体や、メモリカードなどのコンピュータ読取り可能な記録媒体にて記録させて、プログラム製品として提供することもできる。また、ネットワークを介したダウンロードによって、プログラムを提供することもできる。
なお、本発明にかかるプログラムは、コンピュータのオペレーティングシステム(OS)の一部として提供されるプログラムモジュールのうち、必要なモジュールを所定の配列で所定のタイミングで呼出して処理を実行させるものであってもよい。その場合、プログラム自体には上記モジュールが含まれずOSと協働して処理が実行される。このようなモジュールを含まないプログラムも、本発明にかかるプログラムに含まれ得る。
また、本発明にかかるプログラムは他のプログラムの一部に組込まれて提供されるものであってもよい。その場合にも、プログラム自体には上記他のプログラムに含まれるモジュールが含まれず、他のプログラムと協働して処理が実行される。このような他のプログラムに組込まれたプログラムも、本発明にかかるプログラムに含まれ得る。
提供されるプログラム製品は、ハードディスクなどのプログラム格納部にインストールされて実行される。なお、プログラム製品は、プログラム自体と、プログラムが記憶された記憶媒体とを含む。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
12 画像バッファ部、14 圧縮処理部、16 電子化文書生成部、20 テキスト要素抽出部、22 文字認識部、24 テキスト要素分割部、26 見出し要素検出部、28 修正部、30 メタデータ生成部、32 電子化文書生成部、40 UI部、100 制御部、102 メモリ部、104 画像読取部、106 プリント部、108 通信インターフェイス部、110 操作パネル部、110a 表示パネル、110b ストップボタン、110c スタートボタン、110d 操作ボタン、112 記憶部、201 CPU、203 内部バス、205 ディスプレイ部、207 通信インターフェイス部、209 入力部、211 ハードディスク部、213 メモリ部、215 CD−ROMドライブ、217 FDDドライブ、217a フレキシブルディスク、300 原稿、PC1,PC2 端末、MS メールサーバ。

Claims (14)

  1. 文書画像に含まれる複数のテキスト要素を、予め定められた複数の種類の行の特徴を示す特徴種別の特徴量に基づいてクラスタリングし、グループ化するグループ化手段と、
    各前記テキスト要素の特徴種別に従う特徴量に基づいて、前記複数のテキスト要素から初期見出しに対応する要素項目を抽出する抽出手段と、
    抽出された前記初期見出しに対応する要素項目と、前記複数のテキスト要素のうち前記初期見出しに対応する要素項目以外の要素項目を表わす初期非見出しに対応する要素項目とのうち少なくともいずれかについて、前記グループ化の結果に従いグループごとに区別して表示する表示手段と、
    ユーザからの指示の入力を受付ける入力手段と、
    前記指示に基づいて、前記表示手段に表示されている要素項目に関して見出しに対応する要素項目か否かを表す見出し定義を、グループ単位で修正する修正手段とを備える、文書処理装置。
  2. 前記入力手段は、前記指示として、ユーザより少なくとも一つのグループの指定を受付け、
    前記修正手段は、ユーザに指定されたグループ内のテキスト要素が前記初期見出しに対応する要素項目である場合に、前記指定されたグループ内の前記初期見出しに対応する要素項目を、非見出しに対応する要素項目に修正する手段を含む、請求項1に記載の文書処理装置。
  3. 前記修正手段は、ユーザに指定されたグループ内のテキスト要素が前記初期非見出しに対応する要素項目である場合に、前記指定されたグループ内の前記初期非見出しに対応する要素項目を、見出しに対応する要素項目に修正する手段を含む、請求項1または2に記載の文書処理装置。
  4. 前記入力手段は、前記指示として、ユーザより少なくとも一つの要素項目の指定を受付け、
    前記修正手段は、
    ユーザに指定された要素項目が、テキスト要素の特徴量に基づいて前記初期見出しに対応する要素項目として抽出されていた場合に、当該テキスト要素が非見出しに対応する要素項目として抽出されるよう、特徴量に基づいて見出しを抽出するための見出し抽出ルールを変更する手段と、
    前記指定された要素項目に対応するテキスト要素と同じグループに属するテキスト要素について、変更後の見出し抽出ルールに基づいて、見出しに対応する要素項目の再抽出を行なう手段とを含む、請求項1〜3のいずれか記載の文書処理装置。
  5. 前記修正手段は、ユーザに指定された要素項目が、テキスト要素の特徴量に基づいて前記初期非見出しに対応する要素項目として抽出されていた場合に、当該テキスト要素が見出しに対応する要素項目として抽出されるよう、特徴量に基づいて見出しを抽出するための見出し抽出ルールを変更する手段を含む、請求項1〜4のいずれか記載の文書処理装置。
  6. 前記抽出手段は、各前記テキスト要素について、各前記特徴種別に対応する見出し度と、当該見出し度に対応して割り当てられている重み係数とを種類毎にそれぞれ乗算して加算した加算値である統合見出し度を算出し、前記統合見出し度が所定のしきい値以上のテキスト要素を前記初期見出しに対応する要素項目として抽出し、
    前記変更する手段は、前記指定された要素項目に対応するテキスト要素と同じグループに属する他のテキスト要素とについて、前記統合見出し度の差が大きくなるように前記見出し度に対応して割り当てられている重み係数を変更する、請求項4または5に記載の文書処理装置。
  7. 前記入力手段は、前記指示として、前記統合見出し度の境界となる要素項目の指定を受付ける手段を含み、
    前記修正手段は、ユーザに指定された要素項目が前記非初期見出しに対応する要素項目である場合に、前記指定された要素項目に加え、前記指定された要素項目の統合見出し度以上の要素項目を修正対象と判断する、請求項6に記載の文書処理装置。
  8. 前記修正手段は、ユーザに指定された要素項目が前記初期見出しに対応する要素項目である場合に、前記指定された要素項目に加え、前記指定された要素項目の統合見出し度以下の要素項目を修正対象と判断する、請求項6または7に記載の文書処理装置。
  9. 前記修正手段は、ユーザに指定された要素項目を、新たなグループとして切り出す手段をさらに備える、請求項2〜8のいずれかに記載の文書処理装置。
  10. 前記表示手段は、前記テキスト要素、あるいは、前記テキスト要素に対応する抽出された要素項目を囲む枠の属性をグループごとに変えて表示する、請求項1〜9のいずれかに記載の文書処理装置。
  11. 前記表示手段は、グループごとに、前記テキスト要素に対応する抽出された要素項目を連続した位置に表示する、請求項1〜9のいずれかに記載の文書処理装置。
  12. 前記入力手段は、さらに、見出しに対応する要素項目のみの表示、非見出しに対応する要素項目のみの表示、および全ての要素項目の表示のうちいずれかの選択指示を受付け、
    前記表示手段は、前記選択指示に応じた表示を行なう、請求項1〜11のいずれかに記載の文書処理装置。
  13. 文書画像を記憶する記憶部と表示部とを備えた文書処理装置において実行される方法であって、
    前記記憶部に記憶された前記文書画像に含まれる複数のテキスト要素を、予め定められた複数の種類の業の特徴を示す特徴種別に基づいてクラスタリングし、グループ化するステップと、
    各前記テキスト要素の特徴種別に従う特徴量に基づいて、前記複数のテキスト要素から初期見出しに対応する要素項目を抽出するステップと、
    抽出された前記初期見出しに対応する要素項目と、前記複数のテキスト要素のうち前記初期見出しに対応する要素項目以外の要素項目を表わす初期非見出しに対応する要素項目とのうち少なくともいずれかについて、前記グループ化の結果に従いグループごとに区別して前記表示部に表示するステップと、
    ユーザからの指示に基づいて、前記表示部に表示されている要素項目に関して見出しに対応する要素項目か否かを表す見出し定義を、グループ単位で修正するステップとを備える、文書処理方法。
  14. 文書画像を記憶する記憶部と表示部とを備えた文書処理装置のコンピュータにおいて実行される文書処理プログラムであって、
    前記文書処理プログラムは、前記コンピュータに対して、
    前記記憶部に記憶された前記文書画像に含まれる複数のテキスト要素を、予め定められた複数の種類の業の特徴を示す特徴種別に基づいてクラスタリングし、グループ化するステップと、
    各前記テキスト要素の特徴種別に従う特徴量に基づいて、前記複数のテキスト要素から初期見出しに対応する要素項目を抽出するステップと、
    抽出された前記初期見出しに対応する要素項目と、前記複数のテキスト要素のうち前記初期見出しに対応する要素項目以外の要素項目を表わす初期非見出しに対応する要素項目とのうち少なくともいずれかについて、前記グループ化の結果に従いグループごとに区別して前記表示部に表示するステップと、
    ユーザからの指示に基づいて、前記表示部に表示されている要素項目に関して見出しに対応する要素項目か否かを表す見出し定義を、グループ単位で修正するステップとを備える、処理を実行させる、文書処理プログラム。
JP2009094167A 2009-04-08 2009-04-08 文書処理装置、文書処理方法および文書処理プログラム Expired - Fee Related JP5310206B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009094167A JP5310206B2 (ja) 2009-04-08 2009-04-08 文書処理装置、文書処理方法および文書処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009094167A JP5310206B2 (ja) 2009-04-08 2009-04-08 文書処理装置、文書処理方法および文書処理プログラム

Publications (2)

Publication Number Publication Date
JP2010244412A JP2010244412A (ja) 2010-10-28
JP5310206B2 true JP5310206B2 (ja) 2013-10-09

Family

ID=43097348

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009094167A Expired - Fee Related JP5310206B2 (ja) 2009-04-08 2009-04-08 文書処理装置、文書処理方法および文書処理プログラム

Country Status (1)

Country Link
JP (1) JP5310206B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015145991A1 (ja) * 2014-03-28 2015-10-01 日本電気株式会社 整合チェック箇所推定装置、整合チェックシステム、整合チェック箇所推定方法、整合性判定方法、および、記憶媒体
TWI549003B (zh) * 2014-08-18 2016-09-11 葆光資訊有限公司 自動切割章節方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3525443B2 (ja) * 1992-09-30 2004-05-10 富士ゼロックス株式会社 文書処理装置
JPH11175520A (ja) * 1997-12-09 1999-07-02 Fuji Xerox Co Ltd 文書解析方法および文書解析装置
JP2002297638A (ja) * 2001-03-29 2002-10-11 Ricoh Co Ltd 文書画像からのタイトル抽出方法
JP4480421B2 (ja) * 2004-03-04 2010-06-16 富士通株式会社 文書画像レイアウト解析プログラム
JP5176416B2 (ja) * 2007-07-20 2013-04-03 コニカミノルタビジネステクノロジーズ株式会社 文書処理装置、文書処理方法、および文書処理プログラム

Also Published As

Publication number Publication date
JP2010244412A (ja) 2010-10-28

Similar Documents

Publication Publication Date Title
JP4926004B2 (ja) 文書処理装置、文書処理方法及び文書処理プログラム
US8429154B2 (en) Document search device, imaging forming apparatus, and document search system
JP4682284B2 (ja) 文書差分検出装置
JP2010073114A6 (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
JP2010073114A (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
JP2008234658A (ja) テキスト検索エンジンにより検索されたページ番号付き文書全体を通してのコースツーファイン・ナビゲーション
JP2010086151A (ja) データ生成装置、スキャナ、及びコンピュータプログラム
US20210306494A1 (en) Information processing apparatus, and non-transitory computer readable medium
US9310971B2 (en) Document viewing device for display document data
US20110075932A1 (en) Image processing method and image processing apparatus for extracting heading region from image of document
US20220068276A1 (en) Information processor, print system, and control method
JP2009169675A (ja) 文書処理装置、文書処理方法および文書処理プログラム
JP5412916B2 (ja) 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
JP5310206B2 (ja) 文書処理装置、文書処理方法および文書処理プログラム
JP2012015896A (ja) 画像処理装置
US20110075941A1 (en) Data managing apparatus, data managing method and information storing medium storing a data managing program
JP2006085234A (ja) 電子文書作成装置、電子文書作成方法及び電子文書作成プログラム
JP7302175B2 (ja) 情報処理装置、及び情報処理プログラム
JP7383882B2 (ja) 情報処理装置、及び情報処理プログラム
US20190235797A1 (en) Image processing apparatus and storage medium
JP2007018158A (ja) 文字処理装置、文字処理方法及び記録媒体
JP5298484B2 (ja) 文書処理装置
JP2019160213A (ja) 情報処理システム、情報処理方法及びプログラム
JP2011039839A (ja) 文書処理装置、文書処理方法および文書処理プログラム
JP2004206521A (ja) 文書検索装置および文書検索プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111019

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130314

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130326

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20130415

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130508

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130604

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130617

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees