JP2011039580A

JP2011039580A - 文書処理装置、文書処理方法およびプログラム

Info

Publication number: JP2011039580A
Application number: JP2009183445A
Authority: JP
Inventors: Nobuhiro Mishima; 信広三縞; Eigo Iwai; 英剛岩井; Kazuo Inui; 和雄乾; Kaitaku Ozawa; 開拓小澤
Original assignee: Konica Minolta Business Technologies Inc
Current assignee: Konica Minolta Business Technologies Inc
Priority date: 2009-08-06
Filing date: 2009-08-06
Publication date: 2011-02-24
Anticipated expiration: 2029-08-06
Also published as: US20110032556A1; US8854635B2; JP4968293B2

Abstract

【課題】文書データから見出しなどの文字列をしおりとして抽出した結果、ユーザの意図しない文字列が抽出された場合でも効率良くその修正を行うことができるようにする。
【解決手段】文書処理装置１は、文書データ４０を取得する文書データ取得部４１と、文書データ４０から所定の文字列抽出条件に適合する文字列を抽出する文字列抽出部４５と、文字列抽出部４５によって抽出された各文字列が有する共通の特徴を抽出し、該共通の特徴をデータ化したフォーマット３９を生成するフォーマット生成部４６と、抽出された文字列の一覧表示を行うと共に、フォーマット３９を表示する表示装置２０と、フォーマット３９に対する修正を行うフォーマット修正部４７とを備えており、文字列抽出部４５は、フォーマット修正部４７によって修正されたフォーマットに適合するように文字列の再抽出を行う構成である。
【選択図】図４

Description

本発明は、文書処理装置、文書処理方法およびプログラムに関し、特に電子化された文書から見出しなどの文字列を抽出する技術に関する。

複合機やＭＦＰ（Multi Function Peripheral）などと呼ばれる画像処理装置は、原稿をスキャンして読み取った文書データをＰＤＦ（Portable Document Format）などの所定のファイル形式に変換して出力することができる。このとき、文書に含まれる各章や項目ごとのタイトルや見出しなどの文字列を抽出し、その抽出した文字列をしおりデータとして文書データに付加した状態で出力すれば、文書データ利用時の利便性が向上する。

従来、上述したような文字列を自動抽出する技術のひとつが、例えば特許文献１に開示されている。この従来技術では、文書画像から、その文書に含まれる文字列などの内容領域を行単位で抽出し、その抽出された内容領域の全体を少なくとも１つのグループに分類する。そして分類された各グループに所属する内容領域の文書画像内での位置に基づいて、各グループのしおりとしての適合度を評価し、その評価結果に基づいて、評価結果の最上位のものから少なくとも１つのグループをしおりデータの生成対象として選択する。そして、選択されたグループに所属する内容領域についての属性情報に基づいて、当該グループに所属する内容領域の文書画像内での位置を示すしおりデータを生成する。したがって、この従来技術では、文書に含まれる見出しなどの文字列を自動抽出することができる。

また従来、しおりデータを生成することにより、文書全体における文書要素の位置および種別をユーザが一見して把握することができるようにした技術も提案されている（例えば特許文献２）。

特開２００８−３０５０８８号公報特開２００８−３０５０８９号公報

しかしながら、上記従来の技術では、文書に含まれる見出しなどの文字列を抽出する際、所定の条件に基づいて抽出を行うため、ユーザが意図しない文字列がしおりとして抽出される可能性がある。それを防止するためには、文書データから文字列を抽出する際に用いる条件を修正する作業を行う必要があるが、従来はその修正作業を効率良く行うことができないという問題があった。

また書式などが異なる文書の種類ごとに、最適な条件は異なったものになるが、文書の書式などはユーザが自由に設定し得るものであるため、予めあらゆる書式に対応する最適な条件を設定しておくことは困難である。それ故、ユーザが意図しない文字列がしおりとして抽出された場合には、比較的簡単な操作でそれを修正できるようにすることが望まれる。

本発明は、上記従来の問題点を解決するためになされたものであり、処理対象となる文書から見出しなどの文字列を抽出した結果、ユーザの意図しない文字列が抽出された場合でも効率良くその修正を行うことができるようにした文書処理装置、文書処理方法およびプログラムを提供することを目的とする。

上記目的を達成するため、請求項１にかかる発明は、文書処理装置であって、文書データを取得する文書取得手段と、前記文書取得手段が取得した文書データから所定の文字列抽出条件に適合する文字列を抽出する文字列抽出手段と、前記文字列抽出手段によって抽出された各文字列が有する特徴を抽出し、該特徴をデータ化したフォーマットを生成するフォーマット生成手段と、前記文字列抽出手段によって抽出された文字列を一覧表示すると共に、前記フォーマット生成手段によって生成されるフォーマットを表示する表示手段と、前記フォーマットに対する修正を行うフォーマット修正手段と、を備え、前記文字列抽出手段は、前記フォーマット修正手段によって修正されたフォーマットに適合するように文字列を再抽出することを特徴としている。

また請求項２にかかる発明は、請求項１記載の文書処理装置において、前記フォーマット生成手段は、各文字列が有する共通した特徴に基づいて各特徴を階層構造化し、前記表示手段は、前記文字列抽出手段によって抽出される文字列を前記階層構造に対応付けて表示することを特徴としている。

また請求項３にかかる発明は、請求項１又は２記載の文書処理装置において、前記フォーマット生成手段が抽出する文字列の特徴には、文書の基準位置からの距離に関する位置条件が含まれることを特徴としている。

また請求項４にかかる発明は、請求項１乃至３のいずれかに記載の文書処理装置において、前記フォーマット生成手段が抽出する文字列の特徴には、該文字列に含まれるキーワードが含まれることを特徴としている。

また請求項５にかかる発明は、請求項１乃至４のいずれかに記載の文書処理装置において、前記フォーマット生成手段が抽出する文字列の特徴には、該文字列に含まれる数値情報が含まれることを特徴としている。

また請求項６にかかる発明は、請求項１乃至５のいずれかに記載の文書処理装置において、前記フォーマット生成手段が抽出する文字列の特徴には、該文字列の属性が含まれることを特徴としている。

また請求項７にかかる発明は、請求項１乃至６のいずれかに記載の文書処理装置において、前記フォーマット生成手段によって生成されるフォーマット、又は、前記フォーマット修正手段によって修正されるフォーマットを記憶する記憶手段をさらに備え、前記文字列抽出手段は、前記記憶手段に記憶されたフォーマットを読み出し、その読み出したフォーマットに適合するように文書データから文字列を抽出することを特徴としている。

また請求項８にかかる発明は、請求項７記載の文書処理装置において、前記記憶手段には、ユーザごとにフォーマットが対応付けられて記憶されており、前記文字列抽出手段は、文字列抽出を指示するユーザに対応付けられたフォーマットを前記記憶手段から読み出し、その読み出したフォーマットに適合するように文書データから文字列を抽出することを特徴としている。

また請求項９にかかる発明は、請求項７記載の文書処理装置において、前記フォーマットは、文書データの属性と関連付けて前記記憶手段に記憶されており、前記文字列抽出手段は、前記文書取得手段が取得する文書データの属性に基づいて前記記憶手段からフォーマットを読み出し、その読み出したフォーマットに適合するように文書データから文字列を抽出することを特徴としている。

また請求項１０にかかる発明は、請求項３記載の文書処理装置において、前記フォーマット修正手段は、前記表示手段に表示される文書の基準位置からの距離に関する位置条件の修正操作を受け付け、該修正操作に基づいてフォーマットに含まれる情報を修正し、前記文字列抽出手段は、前記フォーマット修正手段によって修正されたフォーマットの情報に適合するように文字列を再抽出することを特徴としている。

また請求項１１にかかる発明は、請求項１乃至１０のいずれかに記載の文書処理装置において、前記表示手段は、前記文書取得手段が取得した文書データに基づく文書のプレビュー画像をさらに表示し、文字列の一覧表示に含まれる各文字列と、前記プレビュー画像に含まれる各文字列とを相互に対応付けたリンク状態として表示することを特徴としている。

また請求項１２にかかる発明は、請求項１乃至１１のいずれかに記載の文書処理装置において、前記文書取得手段は、入力画像データに対して文字認識処理を行うことによって入力画像データをテキスト化した文書データに変換する文字認識手段をさらに備えることを特徴としている。

また請求項１３にかかる発明は、文書処理方法であって、文書データを取得するステップと、取得した文書データから所定の文字列抽出条件に適合する文字列を抽出するステップと、抽出された各文字列が有する特徴を抽出し、該特徴をデータ化したフォーマットを生成するステップと、抽出された各文字列を一覧表示すると共に、前記フォーマットを表示するステップと、前記フォーマットに対する修正を行うステップと、前記フォーマットが修正された場合、その修正されたフォーマットに適合するように文字列を再抽出するステップと、を有することを特徴としている。

さらに請求項１４にかかる発明は、プログラムであって、コンピュータを、文書データを取得する文書取得手段、前記文書取得手段が取得した文書データから所定の文字列抽出条件に適合する文字列を抽出する文字列抽出手段、前記文字列抽出手段によって抽出された各文字列が有する特徴を抽出し、該特徴をデータ化したフォーマットを生成するフォーマット生成手段、前記文字列抽出手段によって抽出された文字列を一覧表示すると共に、前記フォーマット生成手段によって生成されるフォーマットを表示する表示処理手段、および、前記フォーマットに対する修正を行うフォーマット修正手段として機能させ、さらに前記文字列抽出手段には、前記フォーマット修正手段によって修正されたフォーマットに適合するように文字列を再抽出させることを特徴としている。

本発明によれば、文書データから所定の文字列抽出条件に適合する文字列を抽出すると共に、各文字列が有する特徴を抽出して該特徴をデータ化したフォーマットを生成する。そして抽出した文字列の一覧表示を行うと共に、各文字列の特徴に基づいて生成したフォーマットを表示し、そのフォーマットに対する修正を行う。そして修正されたフォーマットに適合するように文字列の再抽出を行う。そのため、ユーザにとって意図しない文字列が抽出された場合でも、各文字列の特徴が表示されたフォーマットに対する修正操作を行うことにより、その修正されたフォーマットに適合するように文字列の再抽出が行われ、効率良くユーザの意図する文字列を抽出することができるようになる。

本発明の一実施形態における文書処理システムの一構成例を示す図である。文書処理装置として機能する画像処理装置のハードウェア構成の一例を示すブロック図である。画像処理装置が文書処理装置として機能する場合の制御部における機能ブロックを示す図である。文書データ処理部の詳細な構成例を示すブロック図である。しおりとして抽出される文字列の特徴をデータ化したフォーマットの概念を示す図である。表示装置に表示されるしおり抽出画面の一例を示す図である。表示装置に表示されるしおり抽出画面の別の例を示す図である。表示装置に表示されるしおり抽出画面のさらに別の例を示す図である。表示装置に表示されるしおり抽出画面のさらに別の例を示す図である。表示装置に表示されるしおり抽出画面のさらに別の例を示す図である。画像処理装置における動作の一例を示すフローチャートである。しおり処理の詳細な処理手順の一例を示すフローチャートである。文字列抽出処理の詳細な処理手順の一例を示すフローチャートである。フォーマット編集処理の詳細な処理手順の一例を示すフローチャートである。操作パネルの表示部に表示される表示画面の一例を示す図である。操作パネルの表示部に表示される表示画面の別の例を示す図である。操作パネルの表示部に表示される表示画面のさらに別の例を示す図である。操作パネルの表示部に表示される表示画面のさらに別の例を示す図である。操作パネルの表示部に表示される表示画面のさらに別の例を示す図である。

以下、本発明に関する好ましい実施形態について図面を参照しつつ詳細に説明する。尚、以下に説明する実施形態において互いに共通する部材には同一符号を付しており、それらについての重複する説明は省略する。

図１は、本実施形態における文書処理システムの一構成例を示す図である。この文書処理システムは、ＭＦＰなどの画像処理装置１と、一般的なパーソナルコンピュータなどで構成されるコンピュータ３と、メールサーバやデータサーバなどのサーバ機能を備えたサーバ装置４とを備え、これらがＬＡＮなどのネットワーク９を介して相互にデータ通信可能に接続された構成である。ネットワーク９には、インターネットなどの外部ネットワークが接続されていても良い。

本実施形態では、画像処理装置１が文書処理装置としての機能を搭載している場合について説明する。ただし、本発明にかかる文書処理装置は、画像処理装置１に限らず、コンピュータ３やサーバ装置４、或いはその他の装置に対しても適用可能である。

図１に示す画像処理装置１は、スキャン機能、ＢＯＸ機能、プリント機能、コピー機能などの複数の機能を有している。スキャン機能は、原稿を読み取って画像データを生成し、その画像データを画像処理装置１の内部に設けられた記憶装置３６（図２参照）に保存したり、或いはネットワーク９を介してコンピュータ３やサーバ装置４などに送信したりする機能である。ＢＯＸ機能は、画像処理装置１のＢＯＸに保存されている文書データに対する処理を行う機能であり、例えばＢＯＸに保存されている文書データを読み出し、ネットワーク９を介してコンピュータ３やサーバ装置４などに送信する機能である。ここで、ＢＯＸとは、記憶装置３６に設けられている文書データ格納用の記憶領域３８（図２参照）である。プリント機能は、ネットワーク９を介してコンピュータ３などから入力される文書データや、ＢＯＸに保存されている文書データを読み出してプリント出力を行う機能である。またコピー機能は、原稿を読み取ってコピー出力を行う機能である。

この画像処理装置１は、図１に示すように、装置本体１ａの上部に、原稿を読み取るスキャナ部１３が設けられている。スキャナ部１３は、原稿の画像を１枚ずつ読み取る画像読取部１１と、１枚又は複数枚の原稿を１枚ずつ画像読取部１１に搬送する自動原稿搬送装置（ＡＤＦ）１２とを備えており、例えば複数枚の原稿の連続自動読み取りが行えるようになっている。また装置本体１ａの中央部には、紙などの出力媒体に対して画像形成を行う画像形成部１４が設けられており、プリント出力やコピー出力を行う。スキャナ部１３の正面側にはユーザが操作可能な操作パネル１７が設けられている。操作パネル１７は、ユーザに対して各種情報を表示する表示部１５と、ユーザが操作する操作キー１６とを備えている。操作キー１６には、表示部１５の周囲に配置された押しボタンキーと、表示部１５の画面上に配置されたタッチパネルキーとが含まれる。

また画像処理装置１は、装置本体１ａの背面側から上方に延びる支持部によって支持された表示装置２０と、装置本体１ａの側面側に取り付けられたワーキングテーブル１９上に設けられるマウス２１とを備えている。表示装置２０は、操作パネル１７の表示部１５よりも高解像度で画像を表示可能な表示手段である。マウス２１は、操作パネル１７の操作キー１６と共に、画像処理装置１に対する入力操作を行うための操作入力手段である。本実施形態においてマウス２１は、表示装置２０に表示されるマウスポインタを操作するために使用される。

上記構成の画像処理装置１は、スキャン機能又はＢＯＸ機能において文書データを取得し、ユーザからしおり抽出の指示があった場合には、その取得した文書データに基づいて見出しなどの文字列を抽出してしおりデータを生成し、そのしおりデータを文書データに付加するように構成される。以下、このような画像処理装置１についてさらに詳しく説明する。

図２は、画像処理装置１のハードウェア構成の一例を示すブロック図である。図２に示すように画像処理装置１は、上述した構成の他、各部を制御する制御部３０と、表示装置２０およびマウス２１が接続される外部インタフェース３３と、ネットワーク９が接続されるネットワークインタフェース３４と、スキャナ部１３が原稿から読み取った画像データなどを一時的に記憶する画像メモリ３５と、ハードディスク装置などの不揮発性記憶手段で構成される記憶装置３６とを備えている。

制御部３０はＣＰＵ３１とメモリ３２とを備えている。ＣＰＵ３１は記憶装置３６に記憶されているプログラム３７を読み出して実行することにより、各部を制御する。またメモリ３２は、ＣＰＵ３１がプログラム３７を実行する際、一時的なデータなどを記憶するためのものである。制御部３０は、ＣＰＵ３１がプログラム３７を実行することにより各種処理を行う。特に本実施形態において制御部３０は、文書処理装置としての主たる処理を行う。すなわち、制御部３０は、文書データを取得し、その取得した文書データから文字列を抽出するための所定の条件（文字列抽出条件）に適合する文字列をしおりとして抽出する。そして抽出された各文字列が有する特徴を抽出し、その特徴をデータ化したフォーマット３９を生成する。尚、フォーマット３９については後に説明する。そして制御部３０は、文書データから抽出した文字列を表示装置２０に表示する。これにより、ユーザは、しおりとして抽出された文字列が所望の抽出結果となっているか否かを確認することができる。また制御部３０は、抽出した各文字列が有する特徴をデータ化したフォーマット３９を表示装置２０に表示する。ユーザは、文字列の抽出結果を確認した結果、所望する抽出結果となっていない場合には、マウス２１や操作キー１６などを操作することで表示装置２０に表示されたフォーマット３９に対する修正操作を行う。制御部３０は、そのような修正操作を受け付けてフォーマット３９を修正する。そして修正されたフォーマット３９に適合するように、文書データからの文字列の再抽出を行う。

記憶装置３６には、上記プログラム３７が記憶される他、上述したＢＯＸに対応する記憶領域３８が例えば複数のユーザごとに設定され、各記憶領域３８には文書データ４０が保存される。尚、記憶領域３８に保存される文書データ４０は、スキャナ部１３が原稿画像を読み取って生成された文書データであっても良いし、またネットワーク９を介してコンピュータ３などから入力した文書データであっても良い。

また図２に示すように、記憶装置３６には、フォーマット３９と、フォーマット管理テーブル３９ａとが記憶される。フォーマット３９は、上述したように、文書データから抽出される各文字列の特徴を表したデータであり、例えばユーザがフォーマット３９を画像処理装置１に登録しておくことを指定した場合に記憶装置３６に記憶される。尚、フォーマット３９の詳細については後にさらに詳しく説明する。また記憶装置３６には、複数のフォーマット３９を記憶しておくことができる。フォーマット管理テーブル３９ａは、記憶装置３６に記憶されるフォーマット３９を管理するためのテーブルデータである。フォーマット管理テーブル３９ａには、それぞれのフォーマット３９ごとに、例えばフォーマットを登録しておくことを指定したユーザの情報や、文書データの属性（例えばファイル名など）の情報などが対応付けられて記録されている。

図３は、画像処理装置１が文書処理装置として機能する場合の制御部３０における機能ブロックを示す図である。この場合、制御部３０は、文書データ取得部４１、文書データ処理部４２、表示処理部４３および出力処理部４４として機能し、文書データからしおり抽出を行う。ここで「しおり」とは、例えば文書に付された見出しやタイトル、サブタイトルなどの文字列の集合体であり、例えば文書が章、節、項などの複数の構成から成る場合、それら複数の構成のそれぞれに付された代表的な文字列（例えば、章タイトル、節タイトル、項タイトルなど）を抽出して文書中での出現順序に従って順位付けしたものである。

文書データ取得部４１は、しおり抽出の対象となる文書データを取得する処理部である。例えば、画像処理装置１のスキャン機能が使用される場合、文書データ取得部４１は、スキャナ部１３が原稿画像を読み取って画像メモリ３５に格納した文書データを取得する。また画像処理装置１のＢＯＸ機能が使用される場合、文書データ取得部４１は、ユーザによって指定された記憶領域３８に格納されている文書データ４０を読み出して取得する。この文書データ取得部４１は、ＯＣＲ（Optical Character Reader）などのような文字認識部４１ａを備えており、例えば文書データがテキストデータ化されていない画像データである場合、文字認識部４１ａが機能して画像データに含まれる全ての文字を抽出する。

文書データ処理部４２は、文書データ取得部４１が取得した文書データに対し、しおり抽出を行う処理部である。文書データ処理部４２は、操作キー１６又はマウス２１から入力されるユーザの指示に基づいて文書データからしおりとなる文字列抽出処理を行う。この文字列抽出処理は、ユーザからの指示に基づき、何度でも繰り返し実行することができる。そして文書データ処理部４２は、ユーザからの指示に基づき、しおり抽出処理で抽出された文字列に基づいてしおりデータを生成し、そのしおりデータを文書データに付加し、その文書データを出力処理部４４に出力する。

また表示処理部４３は、文書データ処理部４２において行われる文字列抽出処理の結果およびそれに対応するフォーマット３９を表示装置２０に表示する処理部である。さらに出力処理部４４は、文書データ処理部４２で生成されたしおりデータの付加された文書データを、ネットワークインタフェース３４を介してコンピュータ３に出力したり、或いは記憶装置３６の記憶領域３８に保存したりする処理部である。

図４は、文書データ処理部４２の詳細な構成例を示すブロック図である。文書データ処理部４２は、文字列抽出部４５、フォーマット生成部４６、フォーマット修正部４７、フォーマット適用部４８およびフォーマット記録部４９として機能する。

文字列抽出部４５は、文書データ取得部４１から入力される文書データ４０に基づいてしおりとなりうる文字列（しおり候補文字列）を抽出する処理部である。しおり候補文字列とは、文書データに含まれる全ての文字列のうちから抽出される、見出しやタイトル、サブタイトルなどに相当する文字列であって、ユーザの意図するしおりになっているか否かが未確定の状態の文字列である。文字列抽出部４５がしおり候補文字列を抽出する方法としては次の２つの方法がある。

第１の方法は、プログラム３７に予め設定された所定の文字列抽出条件に基づいて、その文字列抽出条件に適合する文字列を抽出する方法であり、例えば特開２００８−３０５０８８号公報に開示された方法である。この第１の方法では、所定の文字列抽出条件に基づいて文書データからしおり候補文字列の抽出が行われる。

第２の方法は、上述したフォーマット３９を適用して行う方法であり、文書データ４０に含まれる全ての文字列のうちから、フォーマット３９に規定された特徴に適合する文字列をしおり候補文字列として抽出する方法である。

フォーマット生成部４６は、文字列抽出部４５において上記第１の方法による文字列抽出が行われた場合、それによって抽出された各文字列が有する特徴を抽出し、該特徴をデータ化したフォーマットを生成する処理部である。このフォーマット生成部４６によりフォーマットを生成する処理の詳細については後に説明する。尚、文字列抽出部４５において上記第２の方法による文字列抽出が行われた場合は既にフォーマットが存在しているため、フォーマット生成部４６によるフォーマットの生成は行わない。

図５は、フォーマット３９の概念を示す図である。図５に示すように、フォーマット３９は、文字列抽出部４５により抽出されたしおり候補文字列の特徴を示す情報である。またフォーマット３９は、共通位置条件情報、共通キーワード情報、共通数値情報、および、共通属性情報の４つの特徴に関する情報を含む。また、フォーマット３９は、複数の階層を含み、それぞれの階層ごとに、共通位置条件情報、共通キーワード情報、共通数値情報、および、共通属性情報を持つ。図例の場合、フォーマット３９が第１階層から第３階層までの３階層である場合を示しているが、必ずしもこれに限られない。これら階層構造は、文書に含まれる大項目の見出し、中項目の見出し、小項目の見出し、…というように、しおり候補文字列の階層的な見出し構造に対応している。例えば、第１階層は大項目の見出しに対応しており、この第１階層には大項目の見出しに共通した特徴に関する情報が、共通位置条件情報、共通キーワード情報、共通数値情報、および、共通属性情報のそれぞれに記録されている。また第２階層は中項目の見出しに対応しており、この第２階層には中項目の見出しに共通した特徴に関する情報が、共通位置条件情報、共通キーワード情報、共通数値情報、および、共通属性情報のそれぞれに記録されている。さらに第３階層は小項目の見出しに対応しており、この第３階層には小項目の見出しに共通した特徴に関する情報が、共通位置条件情報、共通キーワード情報、共通数値情報、および、共通属性情報のそれぞれに記録されている。

共通位置条件情報は、各階層に対応するしおり候補文字列の文書の基準位置（例えば横書き文書の場合は用紙の左端部）からの距離情報を含み、文書における当該文字列が文書中に含まれている領域を示す情報である。例えば大項目の見出しの場合、第１階層の共通位置条件情報には、大項目の見出しとなるしおり候補文字列が含まれている領域を特定する情報が記録される。例えば、大項目、中項目、小項目の間で異なるインデント（字下げ設定）が付与されている場合、そのインデント量は、この共通位置条件情報に反映される。

共通キーワード情報は、各階層に対応するしおり候補文字列に共通して含まれる文字や文字列などを示す情報である。例えば、大項目の見出しにおいて、「１章」や「２章」などの文字列が含まれる場合、第１階層の共通キーワード情報は「章」となる。

共通数値情報は、各階層に対応するしおり候補文字列に共通する、しおり候補文字列における数字の配置位置を示す情報である。例えば、大項目の見出しが、「１章．…（大テーマ名）…」、「２章．…（大テーマ名）…」、…となっている場合、文字列の先頭文字が各章の番号を示す数値であるため、第１階層の共通数値情報には、文字列の先頭に大項目を規定する数値情報が含まれることが記録される。また中項目の見出しが、「１．１．…（中テーマ名）…」、「１．２．…（中テーマ名）…」、…となっている場合、文字列の先頭３文字（２文字目のドットを含む）が中項目の番号を示す数値であるため、第２階層の共通数値情報には、文字列の先頭３文字に中項目を規定する数値情報が含まれることが記録される。また第３階層以下の共通数値情報についてもこれと同様である。尚、この共通数値情報によっても、抽出された文字列を階層構造に設定することができる。

共通属性情報は、各階層に対応する文字列に共通する属性情報を規定した情報である。例えば、文字列のフォントや文字サイズ、アンダーラインやイタリック体などの文字装飾などが共通している場合、その共通した属性が記録される。

フォーマット生成部４６は、文字列抽出部４５において上記第１の方法による文字列抽出が行われた場合、しおり候補文字列として抽出された各文字列の特徴に基づいてしおり候補文字列を階層構造化し、それぞれの階層に共通した特徴を示す情報として、上述した共通位置条件情報、共通キーワード情報、共通数値情報および共通属性情報のそれぞれを生成してフォーマット３９を生成する。

例えば、上述したように大項目、中項目および小項目のそれぞれでインデント量が異なる場合、しおり候補文字列として抽出された各文字列が位置する領域は、そのインデント量に応じて異なっている。そのため、フォーマット生成部４６は、各しおり候補文字列の位置に関する特徴として、各しおり候補文字列の位置を示す位置情報を抽出する。そして複数のしおり候補文字列から同じ位置情報が抽出された場合、それら複数のしおり候補文字列をひとつのグループにグループ化する。これにより、位置に関する特徴が互いに共通している複数のしおり候補文字列が同じグループに分類される。尚、いずれのグループにも分類されないしおり候補文字列は、他の特徴が別のしおり候補文字列と共通しない限り、しおり候補から除外される。

また、フォーマット生成部４６は、各しおり候補文字列に含まれるキーワードに関する特徴として、各しおり候補文字列に含まれるキーワード情報を抽出する。例えば、しおり候補文字列に「章」、「節」、「項」といったキーワードが含まれる場合、それらがキーワード情報として抽出される。そして複数のしおり候補文字列から同じキーワード情報が抽出された場合、それら複数のしおり候補文字列をひとつのグループにグループ化する。これにより、キーワードに関する特徴が互いに共通している複数のしおり候補文字列が同じグループに分類される。尚、いずれのグループにも分類されないしおり候補文字列は、他の特徴が別のしおり候補文字列と共通しない限り、しおり候補から除外される。

また、フォーマット生成部４６は、各しおり候補文字列に含まれる数値に関する特徴として、各しおり候補文字列に含まれる数値情報を抽出する。例えば、しおり候補文字列の先頭部分に数値が含まれる場合、その数値が記載された先頭部分が数値情報として抽出される。そして複数のしおり候補文字列から同じ数値情報が抽出された場合、それら複数のしおり候補文字列をひとつのグループにグループ化する。これにより、数値に関する特徴が互いに共通している複数のしおり候補文字列が同じグループに分類される。尚、いずれのグループにも分類されないしおり候補文字列は、他の特徴が別のしおり候補文字列と共通しない限り、しおり候補から除外される。

さらにフォーマット生成部４６は、各しおり候補文字列の属性に関する特徴として、各しおり候補文字列の属性情報を抽出する。例えば、しおり候補文字列に設定されているフォントや文字サイズ、アンダーラインなどの文字装飾などが属性情報として抽出される。そして複数のしおり候補文字列から同じ属性情報が抽出された場合、それら複数のしおり候補文字列をひとつのグループにグループ化する。これにより、属性に関する特徴が互いに共通している複数のしおり候補文字列が同じグループに分類される。尚、いずれのグループにも分類されないしおり候補文字列は、他の特徴が別のしおり候補文字列と共通しない限り、しおり候補から除外される。

このようにフォーマット生成部４６は、しおり候補文字列から４つの特徴を抽出し、それら４つの特徴毎に、しおり候補文字列のグループ化を行う。したがって、４つの特徴のそれぞれから、４つのグループ群が得られることになる。

そしてフォーマット生成部４６は、４つのグループ群のうちから少なくとも１つのグループ群を選択し、その選択したグループ群に含まれる複数のグループを階層構造化する。ここでは、例えば、位置に関する特徴が共通しているしおり候補文字列をグループ化して得られた複数のグループを、インデント量などに応じて階層構造化する。そして、フォーマット生成部４６は、その階層構造に、しおり候補文字列を対応付ける。これにより、文書データ４０から抽出されたしおり候補文字列が階層構造化されることになる。またフォーマット生成部４６は、他のグループ群に含まれる複数のグループを、その階層構造に対応付ける。

そしてフォーマット生成部４６は、階層構造に対応付けた各グループの情報に基づいて、各階層のしおり候補文字列が共通した特徴を有することを示す情報を生成する。つまり、フォーマット生成部４６は、上述した共通位置条件情報、共通キーワード情報、共通数値情報および共通属性情報のそれぞれを階層毎に生成してフォーマット３９を生成する。

このような処理により、共通位置条件情報、共通キーワード情報、共通数値情報および共通属性情報のそれぞれが、しおり候補文字列の階層構造に対応した構造となる。そして、その結果、図５に示したようなフォーマット３９が生成される。

上記のように、文字列抽出部４５が機能して例えば上述した第１の方法で文書データ４０からしおり候補文字列を抽出し、フォーマット生成部４６がそのしおり候補文字列に基づいてフォーマット３９を生成した場合、文書データ処理部４２は、しおり候補文字列を表示処理部４３に出力すると共に、生成されたフォーマット３９を表示処理部４３に出力する。これにより、表示装置２０には、しおり候補文字列と、それに対応するフォーマット３９が表示されるので、ユーザは所望のしおり抽出結果が得られているか否かを確認することができる。

図４に戻り、フォーマット修正部４７は、ユーザからの指示に基づいてフォーマット３９を修正する処理部である。このフォーマット修正部４７は、図５に示した各階層の共通位置条件情報、共通キーワード情報、共通数値情報および共通属性情報を、ユーザによって行われる修正操作に基づいて修正する。

フォーマット適用部４８は、フォーマット修正部４７によって修正されたフォーマット３９を文字列抽出部４５に適用することにより、文字列抽出部４５で文字列の再抽出を行わせる処理部である。この再抽出では、文字列抽出部４５は、上述した第２の方法による文字列抽出を行う。つまり、フォーマット修正部４７によって修正されたフォーマット３９に規定された特徴に適合する文字列を抽出することにより、文書データ４０からしおり候補文字列の再抽出が行われる。そして再抽出の結果に基づいて、表示装置２０の表示画面が更新される。尚、前述したように、第２の方法による文字列抽出を行った場合には、フォーマット生成部４６によるフォーマットの生成は行わない。

フォーマット記録部４９は、フォーマット生成部４６によって生成されたフォーマット３９又はフォーマット修正部４７によって修正されたフォーマット３９を記憶装置３６に保存する処理部である。例えば、ユーザが表示装置２０の表示画面を見て所望のしおり抽出結果となっていることを確認し、そのしおりを付加して文書出力を行うことを指示した場合、フォーマット記録部４９は、その時点でのフォーマット３９を記憶装置３６に保存する。

このとき、フォーマット記録部４９は、記憶装置３６に保存するフォーマット３９と、操作を行ったログインユーザ又は文書データ４０の属性とを対応付けるための情報をフォーマット管理テーブル３９ａに登録しておく。これにより、例えば、同じユーザが画像処理装置１にログインしたとき、過去に使用したフォーマット３９を自動的に読み出すことができるようになる。また過去にしおり抽出を行った文書データと同じ属性の文書データに対してしおり抽出を行う際にも、過去に使用したフォーマット３９を自動的に読み出すことができるようになる。そのため、画像処理装置１の利便性が向上する。尚、文書データ４０の属性とは、例えば、文書データ４０のファイル名に含まれている文字列などである。

次に、しおり抽出の処理過程において表示装置２０で表示される画面の一例について説明する。図６乃至図１０は、それぞれ表示装置２０に表示されるしおり抽出画面の一例を示す図である。これら各図に示すように、しおり抽出画面には、上述したフォーマット３９の内容を表示するためのしおりフォーマット表示欄５１と、しおり候補として抽出された文字列を階層構造で表示するためのしおりプレビュー欄５２と、しおり抽出対象となる文書データ４０の内容をプレビュー表示するための文書プレビュー欄５３とが設定されている。

まず、図６は、文書データ処理部４２にしおり抽出対象となる文書データ４０が入力された状態の画面を示している。この状態では、未だしおり候補となる文字列抽出は行われていない。そのため、図６の画面では、文書プレビュー欄５３において文書データ４０の内容がプレビュー表示される。この例では、文書プレビュー欄５３において大項目、中項目および小項目を含む文書がプレビュー表示されている。そして、上述した第１の方法により、しおり候補となる文字列が抽出され、それに対応するフォーマット３９が生成されると、表示装置２０における画面は、図７に示す画面に変更される。

図７に示すように、しおり抽出が行われると、しおりフォーマット表示欄５１には、しおり候補として抽出された文字列に対応するフォーマット３９の内容が表示される。図例では、「しおり（文字列）」の欄に大項目、中項目および小項目の３階層に対応した文字列が表示される。また「しおり（文字列）」の欄の右側には、各階層の文字列に共通する特徴として、共通位置条件、共通キーワード、共通数値情報および属性情報のそれぞれが階層構造に対応して表示されている。またしおりプレビュー欄５２には、しおり候補として抽出された文字列が階層構造で表示される。さらに、文書プレビュー欄５３には、しおり候補として抽出された文字列が矩形枠などで装飾表示され、しおり候補として抽出された部分を確認し易い表示態様となっている。

ここで、しおりフォーマット表示欄５１およびしおりプレビュー欄５２に表示されるしおり候補として抽出された文字列は、文書データ４０に対してリンク形成が行われている。そのため、しおりフォーマット表示欄５１およびしおりプレビュー欄５２に表示される各文字列と、文書プレビュー欄５３に表示されるプレビュー画像に含まれる各文字列とが相互に対応付けたリンク状態として表示され、例えば抽出された複数の文字列のうちのひとつがユーザによって選択されると、その選択された文字列に対応する画像領域が文書プレビュー欄５３の所定の表示位置（例えば、左上端）に表示されるようになる。

以下に、フォーマット３９の修正操作について説明する。例えばユーザが図７の画面が表示されている状態でしおり候補として抽出された文字列を確認した結果、所望のしおり抽出結果となっていない場合、マウス２１などを操作することによってしおりフォーマット表示欄５１に表示されている各種情報を修正することにより、しおりとしての文字列を修正することができる。

図８は、ユーザが図７の表示画面に対して修正操作を行うことによって第３階層の文字列をしおり候補から除外した状態の画面を示す図である。例えば図８に示すように、ユーザはマウス２１を操作することにより、マウスポインタ５４をしおりフォーマット表示欄５１の左端に表示されている第３階層のチェックボタンに移動させ、第３階層のチェックボタンをクリック操作して第３階層として抽出された全ての文字列をしおり候補から外すことにより、図７の画面から図８の画面に切り替わる。つまり、この操作により、フォーマット３９に含まれる第３階層の各種情報が削除され、フォーマット３９が第１階層と第２階層から成るフォーマットに修正される。そして、その修正されたフォーマット３９に基づいてしおり候補となる文字列の再抽出が行われ、図８の画面では、その再抽出の結果が反映された画面となっている。

図８に示すように、しおりプレビュー欄５２には、しおり候補として再抽出された文字列が階層構造で表示される。つまり、この例では、第３階層に対応していた文字列が削除された状態となっている。また文書プレビュー欄５３には、しおり候補として抽出された文字列が矩形枠で装飾表示されるが、図７の画面と比較すると、小項目（第３階層）に対応する文字列の矩形枠が消えている。

次に、図９は、ユーザが図７の表示画面に対して修正操作を行うことによって第３階層の共通キーワードを第３階層の共通した特徴から除外した状態の画面を示す図である。例えば図９に示すように、ユーザがマウス２１を操作することにより、マウスポインタ５４を第３階層の共通キーワードに対応するチェックボタンに移動させ、そのチェックボタンをクリック操作して第３階層の共通キーワードを第３階層の共通した特徴から外すことにより、表示装置２０における画面は、図７の画面から図９の画面に切り替わる。図例では、第３階層の共通キーワードとして、「小」という文字が共通した特徴となっており、上記操作により、第３階層の共通キーワードの設定が解除されることになる。この操作により、フォーマット３９に含まれる第３階層の共通キーワードがフォーマット３９から削除され、フォーマットの修正が行われる。そして、その修正されたフォーマット３９に基づいてしおり候補となる文字列の再抽出が行われ、図９の画面では、その再抽出の結果が反映された画面となっている。

図９に示すように、しおりプレビュー欄５２には、「小」の文字を含まない小項目「１．１．４．Ｓｍａｌｌｔｈｅｍｅ」が新たにしおり候補として追加された状態となっている。また文書プレビュー欄５３には、しおり候補として追加された小項目の文字列が矩形枠で装飾表示されている。

次に、図１０は、ユーザが図７の表示画面に対して修正操作を行うことによって第２階層の共通位置条件を修正した状態の画面を示す図である。例えば図１０に示すように、ユーザはマウス２１を操作することにより、マウスポインタ５４を文書プレビュー欄５３の第２階層（中項目）に対応する矩形枠に移動させ、その矩形枠の右端部をドラッグして移動させることにより、第２階層の共通位置条件を修正することができる。ただし、共通位置条件に対する修正操作は必ずしもこれに限られず、例えばしおりフォーマット表示欄５１に表示される文書の基準位置からの距離の値（距離表示欄５１ａの値）をテンキーで入力し、修正することによって行うこともできる。尚、図例の場合、第２階層の共通位置条件は、矩形枠の右端部の位置が図７における位置よりも左側に移動しており、中項目に対応する文字列の存在する領域が狭くなるように修正されている。上記のような操作が行われると、フォーマット３９の第２階層における共通位置条件が修正され、フォーマットの修正が行われる。そして、その修正されたフォーマット３９に基づいてしおり候補となる文字列の再抽出が行われ、図１０の画面では、その再抽出の結果が反映された画面となっている。

図１０に示すように、しおりプレビュー欄５２は、当初第３階層のしおり候補に含まれていた中項目「１．３．中ＡＢＣＤＥＦ…」がしおり候補から削除された状態となっている。また文書プレビュー欄５３においても、中項目「１．３．中ＡＢＣＤＥＦ…」がしおり候補から除外された状態となっている。

このように本実施形態では、しおり候補として抽出された文字列がユーザの所望する抽出結果になっていない場合、表示装置２０に表示されるフォーマット３９に対してユーザが修正操作を行うことにより、画像処理装置１がその修正されたフォーマット３９に基づいてしおり候補となる文字列の再抽出を行うように構成されている。ここでユーザが行う修正操作は、しおり候補として抽出された各階層の文字列に共通する特徴（例えば、共通位置条件、共通キーワード、共通数値情報又は属性情報）を修正する操作であるので、操作が簡単である上、効率的に修正操作を行えるという利点がある。

次に、画像処理装置１における動作について説明する。図１１乃至図１４は、画像処理装置１における動作の一例を示すフローチャートである。尚、これらフローチャートに基づく処理は、主として画像処理装置１の制御部３０によって実行される。また図１５乃至図１９は、画像処理装置１における操作パネル１７の表示部１５に表示される表示画面の一例を示す図である。

図１１に示すように、画像処理装置１は、初期状態においてユーザがログインするのを待機する状態となっている（ステップＳ１０）。図１５は、このとき操作パネル１７の表示部１５に表示される表示画面を示している。図１５に示すように、ログイン待機状態では、表示部１５にＩＤ入力欄６１と、パスワード入力欄６２とが表示されている。ユーザは、例えば操作パネル１７の操作キー１６を操作することにより、これら入力欄に必要な情報を入力し、ＯＫキー６３を操作すると、画像処理装置１はユーザ認証を行う。そしてユーザ認証に成功すると、ユーザが特定されるので、画像処理装置１はユーザログイン状態となる（ステップＳ１０でＹＥＳ）。尚、図１５に示すキャンセルキー６４は、ＩＤ入力欄６１又はパスワード入力欄６２に入力した情報をキャンセルための操作キーである。

画像処理装置１がログイン状態に移行すると（ステップＳ１０でＹＥＳ）、ユーザは自身に対して予め設定された機能が使用できるようになる。そして画像処理装置１は、操作パネル１７に対するユーザの操作を受け付ける（ステップＳ１１）。

ここでユーザがスキャン機能を選択して原稿スキャンを指示した場合（ステップＳ１２でＹＥＳ）、画像処理装置１は、スキャナ部１３を動作させて原稿の読み取りを行う（ステップＳ１３）。そして、ユーザによってしおり抽出の指定が行われたか否かを判断し（ステップＳ１４）、しおり抽出指定がある場合（ステップＳ１４でＹＥＳ）、しおり処理を実行する（ステップＳ１５）。このしおり処理では、文書データ４０に、しおりデータが付加される。一方、しおり抽出指定がない場合（ステップＳ１４でＮＯ）、しおり処理は行わない。そして原稿から読み取った文書データを出力して処理を終了する（ステップＳ１６）。尚、しおり処理の詳細については後述する。

図１６は、ユーザがスキャン機能を選択した場合の表示画面の一例を示している。例えばユーザがスキャンキー６５を選択操作した後、さらにファイルキー６７を操作すると、図１６に示すような画面が表示される。この画面では、原稿から読み取った画像データをＰＤＦ、ＪＰＥＧおよびＴＩＦＦのうちのいずれのファイル形式で出力するかを選択するようになっており、図例ではＰＤＦキー６８が選択された状態となっている。そしてユーザがＯＫキー６９を操作することにより、出力ファイル形式が確定する。本実施形態では、例えばユーザがＰＤＦキー６８を選択した場合に、しおり抽出キー７０が操作できるようになる。そしてユーザがしおり抽出キー７０を操作することにより、画像処理装置１に対するしおり抽出指定が行われる。

図１１に戻り、ユーザログイン後、ユーザがＢＯＸ機能を選択してＢＯＸ操作を指示した場合（ステップＳ１２でＮＯ、且つ、ステップＳ１７でＹＥＳ）、画像処理装置１は、ユーザによって指定されたＢＯＸ（記憶領域３８）から文書データ４０を読み込む（ステップＳ１８）。そして、ユーザによってしおり抽出の指定が行われたか否かを判断し（ステップＳ１９）、しおり抽出指定がある場合（ステップＳ１９でＹＥＳ）、しおり処理を実行する（ステップＳ２０）。一方、しおり抽出指定がない場合（ステップＳ１９でＮＯ）、しおり処理は行わない。そしてＢＯＸ（記憶領域３８）から読み出した文書データを出力して処理を終了する（ステップＳ２１）。尚、この場合のしおり処理（ステップＳ２０）は、ステップＳ１５と同様であり、その詳細については後述する。

図１７は、ユーザがＢＯＸ機能を選択した場合の表示画面の一例を示している。例えばユーザがＢＯＸキー６６を選択操作した後、さらにファイルキー６７を操作すると、図１７に示すような画面が表示される。この画面では、ユーザによって選択されたＢＯＸに保存されている文書データの一覧表示が行われ、ユーザは所望する文書データ４０を選択することができる。図例では、「Ｒｅｐｏｒｔ０７．ｐｄｆ」というファイル名の文書データが選択された状態となっている。そしてユーザがＯＫキー７４を操作することにより、ＢＯＸから読み出す文書データが確定する。本実施形態では、例えばユーザがＰＤＦファイルを選択した場合に、しおり抽出キー７０が操作できるようになる。そしてユーザがしおり抽出キー７０を操作することにより、画像処理装置１に対するしおり抽出指定が行われる。

尚、ユーザログイン後、ユーザが、上記以外の処理を指示した場合（ステップＳ１２でＮＯ、且つ、ステップＳ１７でＮＯ）、画像処理装置１は、その他の処理（例えばコピー機能など）を行って処理を終了する（ステップＳ２２）。

次に、図１２は、しおり処理（ステップＳ１５，Ｓ２０）の詳細な処理手順の一例を示すフローチャートである。画像処理装置１は、しおり処理（ステップＳ１５，Ｓ２０）を開始すると、しおり抽出対象の文書データを取得する（ステップＳ１００）。例えば原稿スキャン後にしおり抽出を行う場合は画像メモリ３５から文書データ４０を取得し、ＢＯＸ操作によってしおり抽出を行う場合はユーザによって指定された記憶領域３８から文書データ４０を取得する。

そして画像処理装置１は、取得した文書データ４０に対する文字認識処理が必要であるか否かを判断する（ステップＳ１０１）。ここでは、文書データ４０が、文書に含まれる文字を文字コードによって表現しているテキスト化されたデータであるか否かに基づいて判断され、テキスト化されていないデータである場合に文字認識処理が必要と判断される。その結果、文字認識処理が必要な場合（ステップＳ１０１でＹＥＳ）、画像処理装置１は、文字認識処理を実行して文書データ４０に含まれる文字を１文字ずつ文字コードで表すことにより文書データ４０をテキスト化する（ステップＳ１０２）。これに対し、文字認識処理が必要でない場合（ステップＳ１０１でＮＯ）、文字認識処理は行わない。

続いて画像処理装置１は、テキスト化された文書データ４０に基づいてその文書に含まれる全ての文字列の切り出しを行う（ステップＳ１０３）。これにより、文書データ４０に含まれる全ての文字列が抽出されると共に、その文書における各文字列の大きさや位置などが特定される。

そして画像処理装置１は、ログインユーザに関連付けられたフォーマット３９、或いは、文書データ４０の属性に関連付けられたフォーマット３９が記憶装置３６に記憶されているか否かをフォーマット管理テーブル３９ａに基づいて判断する（ステップＳ１０４）。フォーマット管理テーブル３９ａにログインユーザに関連付けられたフォーマット、或いは、文書データ４０の属性に関連付けられたフォーマットが記録されている場合（ステップＳ１０４でＹＥＳ）、画像処理装置１は、その関連付けられたフォーマット３９を記憶装置３６から読み出し、フォーマット３９の設定を行う（ステップＳ１０５）。これに対し、関連付けられたフォーマット３９が存在しない場合には、フォーマット３９の設定は行わない。そして画像処理装置１は、操作パネル１７の表示部１５に対し、しおり抽出に関する設定画面を表示し、ユーザによるフォーマットの設定操作を受け付ける（ステップＳ１０６）。

図１８は、スキャン機能においてユーザがしおり抽出指定を行った場合の設定画面の一例を示している。この画面では、図１８（ａ），（ｂ）に示すように、しおり抽出方法の指定欄７１と、フォーマットの設定欄７２とが表示される。ここで図１８（ａ）はしおり抽出方法としてオートマチックが選択された状態を示している。オートマチックとは、上述した第１の方法によってしおり候補となる文字列を抽出することを指定するものである。例えば、画像処理装置１の記憶装置３６にログインユーザ「Ａ」に関連づけされたフォーマット３９が記憶されていない場合、このオートマチックがデフォルト値として設定された状態となり、表示部１５に表示される。そしてユーザがＯＫキー７３を操作すると、第１の方法による文字列抽出が指定される。

一方、図１８（ｂ）はしおり抽出方法として上述した第２の方法であるフォーマットを適用したしおり抽出方法が選択された状態を示している。また適用するフォーマット３９としてユーザ「Ａ」に関連付けされた「Ｆｏｒｍａｔ＿Ａ」が設定された状態を示している。例えば、画像処理装置１の記憶装置３６に記憶されている複数のフォーマット３９のうち、ログインユーザ「Ａ」に関連づけされたフォーマット３９として、「Ｆｏｒｍａｔ＿Ａ」が記憶されている場合、画像処理装置１は、しおり抽出方法として「フォーマット」をデフォルト値として設定し、さらにフォーマット設定として「Ｆｏｒｍａｔ＿Ａ」をデフォルト値として設定する。そしてユーザがＯＫキー７３を操作すると、「Ｆｏｒｍａｔ＿Ａ」に対応するフォーマット３９を適用して上述した第２の方法による文字列抽出が指定される。尚、ユーザが、文字列抽出時に適用するフォーマットを変更したい場合には、フォーマットの設定欄７２の右端に設けられたプルダウンボタン７２ａを押すと、記憶装置３６に記憶された全てのフォーマット３９がプルダウン表示され、その中から所望のフォーマット３９を選択することができる。また、しおり抽出方法を「オートマチック」に変更した場合には、しおり抽出方法の指定欄７１の右端に設けられたプルダウンボタンを押すと、オートマチックの選択項目がプルダウン表示されるので、その選択項目を選択することにより、変更することが可能である。

また図１９は、ＢＯＸ機能においてユーザがしおり抽出指定を行った場合の設定画面の一例を示している。スキャン機能の場合と同様に、この画面でも、図１９（ａ），（ｂ）に示すように、しおり抽出方法の指定欄７１と、フォーマットの設定欄７２とが表示される。ここで図１９（ａ）はしおり抽出方法としてオートマチックが選択された状態を示している。例えば、画像処理装置１の記憶装置３６にログインユーザ「Ａ」に関連づけされたフォーマット３９が記憶されておらず、且つ、画像処理装置１の記憶装置３６に文書データの属性のひとつであるファイル名「Ｒｅｐｏｒｔ０７．ｐｄｆ」に関連づけされたフォーマット３９が記憶されていない場合、このオートマチックがデフォルト値として設定された状態になる。そしてユーザがＯＫキー７３を操作すると、第１の方法による文字列抽出が指定される。

一方、図１９（ｂ）はしおり抽出方法として上述した第２の方法であるフォーマットを適用したしおり抽出方法が選択された状態を示している。また適用するフォーマット３９として文書データの属性のひとつであるファイル名「Ｒｅｐｏｒｔ０７．ｐｄｆ」に関連付けされた「Ｆｏｒｍａｔ＿Ｒｅｐｏｒｔ」が設定された状態を示している。例えば、しおり抽出対象として選択された文書データ４０のファイル名に「Ｒｅｐｏｒｔ」が含まれる場合、画像処理装置１の記憶装置３６に記憶されている複数のフォーマット３９のうちからその「Ｒｅｐｏｒｔ」を含むファイル名に関連付けされたフォーマット３９として「Ｆｏｒｍａｔ＿Ｒｅｐｏｒｔ」がデフォルト値として設定される。そしてユーザがＯＫキー７３を操作すると、「Ｆｏｒｍａｔ＿Ｒｅｐｏｒｔ」に対応するフォーマット３９を適用して上述した第２の方法による文字列抽出が指定される。尚、ユーザが適用するフォーマットを変更したい場合、或いは、しおり抽出方法を「オートマチック」に変更した場合には、上記と同様に、この画面に対する変更操作を行うことによって変更することが可能である。

上記のようにしてユーザが文字列抽出方法を指定すると、次に画像処理装置１は文字列抽出処理を実行する（ステップＳ１０７）。図１３は、この文字列抽出処理の詳細な処理手順の一例を示すフローチャートである。画像処理装置１は、しおり抽出方法を判定し、フォーマットの設定が行われているか否かを判断する（ステップＳ２００）。ここでフォーマットの設定が行われていない場合は（ステップＳ２００でＮＯ）、ステップＳ２０１に進む。これに対し、フォーマットの設定が行われている場合は（ステップＳ２００でＹＥＳ）、ステップＳ２２１に進む。

ステップＳ２０１〜Ｓ２１０は、上述した第１の方法による文字列抽出処理である。まず、この第１の方法による文字列抽出処理について説明する。画像処理装置１は、取得した文書データ４０に対して所定の文字列抽出条件に基づいてしおり候補となる文字列を全て抽出する（ステップＳ２０１）。ここでは、プログラム３７に予め設定された文字列抽出条件に適合する文字列が全て抽出される。

そして画像処理装置１は、ステップＳ２０１で抽出した各しおり候補文字列の位置に基づいてしおり候補文字列をグループ化する（ステップＳ２０２）。ここでは、しおり候補として抽出された各文字列が文書中において存在している位置が特定される。そして複数の文字列が互いに共通する位置に存在していれば、それらが一つのグループに纏められる。

次に画像処理装置１は、ステップＳ２０１で抽出した各しおり候補文字列からキーワードとなる文字列を抽出し、その抽出したキーワードに基づいてしおり候補文字列をグループ化する（ステップＳ２０３）。ここでは、例えば予め設定された「章」や「節」などのキーワードを抽出するようにしても良い。また、しおり候補文字列に含まれる１文字以上の文字列を自動抽出し、その抽出した文字列がキーワードとなり得るか否かを評価し、その評価値が所定値以上となるものをキーワードとして抽出するようにしても良い。そして各しおり候補文字列からキーワードを抽出した後、互いに共通するキーワードで各しおり候補文字列をグループ化する。

次に画像処理装置１は、ステップＳ２０１で抽出した各しおり候補文字列に含まれる数値情報を抽出し、その数値情報に基づいてしおり候補文字列をグループ化する（ステップＳ２０４）。ここでは、例えば各しおり候補文字列の先頭数文字が数値情報抽出対象となり、その数値情報抽出対象から数値情報が抽出される。そして抽出した数値情報において、数字と数字の間にドットなどが存在する場合、そのドットの数が互いに共通するもの同士で各しおり候補文字列をグループ化する。

次に画像処理装置１は、ステップＳ２０１で抽出した各しおり候補文字列の属性に基づいてしおり候補文字列をグループ化する（ステップＳ２０５）。ここでは、各しおり候補文字列のフォントなどの属性が判断され、互いに共通する属性同士で各しおり候補文字列をグループ化する。

上記ステップＳ２０２〜Ｓ２０５により、ステップＳ２０１で抽出した各しおり候補文字列から４つの特徴のそれぞれについてグループ群が生成される。画像処理装置１は、それら４つの特徴のうち、グループ化した少なくとも１つの特徴に基づいてしおり候補文字列を階層構造化する（ステップＳ２０６）。例えば、位置に関する特徴によってグループ化されたしおり候補文字列は、グループ毎にインデント量が異なるため、そのインデント量に応じて複数のグループを階層構造化する。そして、しおり候補文字列をその階層構造に対応付けることにより、しおり候補文字列を階層構造化する。

そして画像処理装置１は、グループ化した各特徴を階層構造に対応付けることにより、４つの特徴のそれぞれから生成される複数のグループを階層構造化する（ステップＳ２０７）。

そして画像処理装置１は、階層構造化した各グループの特徴をデータ化したフォーマット３９を生成する（ステップＳ２０９）。このとき、フォーマット生成部４６は、階層構造に対応付けた各グループで共通した特徴に基づいて、各階層毎に、上述した共通位置条件情報、共通キーワード情報、共通数値情報および共通属性情報のそれぞれを生成し、フォーマット３９を生成する。

そして最後に、しおり候補として抽出した文字列を文書データにリンク形成する（ステップＳ２１０）。このリンク形成では、しおり候補となる各文字列に対し、その文字列が文書データのどの位置に存在しているかを示す位置情報が付加される。

次にステップＳ２２１〜Ｓ２２８は、上述した第２の方法による文字列抽出処理である。この第２の方法による文字列抽出処理について説明する。画像処理装置１は、設定されたフォーマット３９を記憶装置３６から読み出す（ステップＳ２２１）。そしてその読み出したフォーマット３９の共通位置条件に基づいて文字列を抽出する（ステップＳ２２２）。ここでは、文書データ４０からフォーマット３９の階層ごとに設定された各共通位置条件情報に適合する全ての文字列が抽出される。

そして次に、画像処理装置１は、フォーマット３９の共通キーワードに基づいて文字列を抽出する（ステップＳ２２３）。ここでは、文書データ４０からフォーマット３９の階層ごとに設定された各共通キーワード情報に適合する全ての文字列が抽出される。

次に画像処理装置１は、フォーマット３９の共通数値情報に基づいて文字列を抽出する（ステップＳ２２４）。ここでは、文書データ４０からフォーマット３９の階層ごとに設定された各共通数値情報に適合する全ての文字列が抽出される。

さらに画像処理装置１は、フォーマット３９の共通属性に基づいて文字列を抽出する（ステップＳ２２５）。ここでは、文書データ４０からフォーマット３９の階層ごとに設定された各共通属性情報に適合する全ての文字列が抽出される。

上記ステップＳ２２２〜Ｓ２２５により、ステップＳ２２１で読み出したフォーマット３９に設定された、共通位置条件情報、共通キーワード情報、共通数値情報、および、共通属性情報の少なくとも１つに適合する文字列が全て抽出される。画像処理装置１は、それら抽出した文字列の中から、さらにしおり候補としての絞り込みを行うため、フォーマット３９に規定される全ての特徴を有する文字列をしおり候補として抽出する（ステップＳ２２６）。つまり、ここでは、ステップＳ２２１で読み出したフォーマット３９に設定されている共通位置条件情報、共通キーワード情報、共通数値情報、および、共通属性情報の全てに適合する文字列のみが階層毎に抽出される。そしてここで抽出された文字列のみがしおり候補となる。

そして画像処理装置１は、しおり候補として抽出した文字列のそれぞれを、フォーマット３９の階層構造に対応付ける（ステップＳ２２７）。これにより、しおり候補として抽出された文字列の階層構造化が行われる。そして画像処理装置１は、最後に、しおり候補として抽出した文字列を文書データにリンク形成する（ステップＳ２２８）。尚、リンク形成は、ステップＳ２１０と同様である。

図１２に戻り、文字列抽出処理（ステップＳ１０７）によってしおり候補となる文字列が抽出されると、画像処理装置１は、文字列抽出結果を表示装置２０に表示する（ステップＳ１０８）。このとき、表示装置２０には例えば図７に示した画面が表示され、しおりフォーマット表示欄５１には文字列抽出処理に対応したフォーマット３９の内容が表示される。つまり、第１の方法による文字列抽出が行われた場合には、図１３のステップＳ２０９で生成されるフォーマット３９の内容が表示され、第２の方法による文字列抽出が行われた場合には、図１３のステップＳ２２１で読み出されたフォーマット３９の内容が表示される。

ユーザは、文字列抽出結果の表示を確認し、所望の文字列抽出結果となっていない場合には、マウス２１などを操作することにより、フォーマット３９を修正するための編集操作を行う。これに対し、所望の文字列抽出結果となっていれば、ユーザは、フォーマット３９の編集操作は行わない。

画像処理装置１は、文字列抽出結果を表示した後、ユーザがフォーマット３９の編集操作を行ったか否かを判断する（ステップＳ１０９）。そして編集操作が行われた場合（ステップＳ１０９でＹＥＳ）、画像処理装置１はフォーマット編集処理を実行する（ステップＳ１１０）。

図１４は、フォーマット編集処理（ステップＳ１１０）の詳細な処理手順の一例を示すフローチャートである。画像処理装置１は、まず、ユーザによって行われた編集操作を解析する（ステップＳ３００）。

編集操作がフォーマット３９の共通位置条件を修正する編集であった場合（ステップＳ３０１でＹＥＳ）、ユーザの操作内容に基づいてフォーマット３９の共通位置条件情報を修正する（ステップＳ３０２）。一方、編集操作がフォーマット３９の共通位置条件を修正する編集でなかった場合（ステップＳ３０１でＮＯ）、ステップＳ３０２はスキップする。

また編集操作がフォーマット３９の共通キーワードを修正する編集であった場合（ステップＳ３０３でＹＥＳ）、ユーザの操作内容に基づいてフォーマット３９の共通キーワード情報を修正する（ステップＳ３０４）。一方、編集操作がフォーマット３９の共通キーワードを修正する編集でなかった場合（ステップＳ３０３でＮＯ）、ステップＳ３０４はスキップする。

また編集操作がフォーマット３９の共通数値情報を修正する編集であった場合（ステップＳ３０５でＹＥＳ）、ユーザの操作内容に基づいてフォーマット３９の共通数値情報を修正する（ステップＳ３０６）。一方、編集操作がフォーマット３９の共通数値情報を修正する編集でなかった場合（ステップＳ３０５でＮＯ）、ステップＳ３０６はスキップする。

さらに編集操作がフォーマット３９の共通属性を修正する編集であった場合（ステップＳ３０７でＹＥＳ）、ユーザの操作内容に基づいてフォーマット３９の共通属性情報を修正する（ステップＳ３０８）。一方、編集操作がフォーマット３９の共通属性を修正する編集でなかった場合（ステップＳ３０７でＮＯ）、ステップＳ３０８はスキップする。

そして画像処理装置１は、上記のようにしてユーザの編集操作に基づきフォーマット３９を修正した後、その修正したフォーマット３９を次回の文字列抽出処理に適用させるべく、フォーマットの設定を行う（ステップＳ３０９）。

そして図１２に示すように、文字列抽出処理（ステップＳ１０７）に戻り、修正されたフォーマット３９に基づいて再度しおり候補となる文字列の抽出処理が行われる。この場合の文字列抽出処理（ステップＳ１０７）では、図１３のステップＳ２２１〜Ｓ２２８に示した第２の方法による文字列抽出処理が行われる。そして文字列の再抽出が行われると、表示装置２０の表示画面が更新される（ステップＳ１０８）。

そしてユーザがフォーマット３９の編集操作を行わなかった場合（ステップＳ１０９でＮＯ）、画像処理装置１は、文字列抽出処理（ステップＳ１０７）で抽出した文字列に基づいて階層構造のしおりデータを生成し、そのしおりデータを文書データ４０に付加する（ステップＳ１１１）。これにより、文書データ４０を利用する際には、しおりデータを参照することができるようになるので、文書データ利用時の利便性が向上する。

そして画像処理装置１は、最終的に確定したフォーマット３９を、記憶装置３６に保存する（ステップＳ１１２）。このとき、画像処理装置１は、フォーマット管理テーブル３９ａに対し、ログインユーザとフォーマット３９とを関連付けた情報と、文書データ４０の属性とフォーマット３９とを関連付けた情報とを登録する。

以上のように、本実施形態では画像処理装置１が文書処理装置として機能することにより、しおり抽出対象となる文書データ４０から、見出しなどの文字列がしおり候補として抽出される。このとき、画像処理装置１は、しおり候補として抽出された各文字列が有する共通の特徴を抽出し、該共通の特徴をデータ化したフォーマットを生成する。そしてしおり候補として抽出された文字列を表示装置２０に一覧表示すると共に、データ化したフォーマットを表示し、ユーザによるフォーマット３９の修正操作を受け付ける。そして画像処理装置１は、ユーザの修正操作に基づいてフォーマット３９の修正を行い、修正後のフォーマット３９に適合するように文字列の再抽出を行うように構成されている。

そのため、ユーザが意図しない文字列がしおり候補として抽出された場合であっても、ユーザは表示装置２０に表示されたフォーマット３９の内容を見ながら、各階層の共通位置条件、共通キーワード、共通数値情報または共通属性を修正する操作を行えば、その修正に基づいてしおり候補となる文字列の再抽出が行われ、表示装置２０における文字列抽出結果の表示が更新される。それ故、文字列抽出結果を修正するためのユーザによる操作は従来よりも簡単なものになり、効率良くユーザの意図する文字列をしおりとして抽出することが可能になる。

また本実施形態では、文字列抽出処理に伴って生成されるフォーマット３９が記憶装置３６に保存されるため、例えばユーザが異なる文書を選択してしおり抽出を繰り返し行う場合には、前回使用したフォーマット３９を設定して第２の方法による文字列抽出処理を行うことにより、ユーザによる修正操作の回数を減少させることができるようになる。

以上、本発明に関する一実施形態について説明したが、本発明は上述した内容のものに限定されるものではなく、上述した他にも本発明には種々の変形例が適用可能である。

例えば、上述した本実施形態は、第１の方法によって抽出されたしおり候補文字列において、互いに共通している特徴を抽出することにより、フォーマット３９を生成し、それ以降は、そのフォーマット３９を用いて第２の方法によるしおり候補文字列の抽出を可能にすることを特徴としている。言い換えると、第１の方法では、文書データ４０からしおり候補文字列を抽出することができればよい。そのため、第１の方法は、必ずしも上述した方法に限られない。

例えば、上述した画像処理装置１は、操作パネル１７とは別に、文字列抽出結果などを表示するための表示装置２０を備えている。これは、操作パネル１７に設けられる表示部１５の表示解像度が低く、文書データに基づく文書プレビュー画像や、フォーマット３９の詳細な内容などを表示するのに適さないと考えられるためであるが、操作パネル１７の表示部１５が十分な表示解像度を備えている場合には、表示装置２０を設けることなく、表示部１５に対して文書データに基づく文書プレビュー画像や、フォーマット３９の詳細な内容などを表示するように構成しても良い。

また上述した実施形態では、しおり候補として抽出された文字列から共通した特徴を抽出する際、一例として、共通位置条件、共通キーワード、共通数値情報および共通属性のそれぞれに関する特徴を抽出することを例示したが、これら以外の特徴を抽出するものであっても構わない。

また上述した実施形態では、主として画像処理装置１が文書処理装置として機能する場合を例示したが、コンピュータ３を文書処理装置として機能させる場合には、上述した図１２のフローチャートに基づく処理を実行させるためのプログラム３７がコンピュータ３にインストールされ、コンピュータ３において図１２に基づく処理手順が実行されるように構成すれば良い。

１画像処理装置（文書処理装置）
１５表示部（表示手段）
１６操作キー（操作入力手段）
１７操作パネル
２０表示装置（表示手段）
２１マウス（操作入力手段）
３６記憶装置（記憶手段）
３７プログラム
３９フォーマット
４０文書データ
４１文書データ取得部（文書データ取得手段）
４１ａ文字認識部（文字認識手段）
４２文書データ処理部
４４出六処理部
４５文字列抽出部（文字列抽出手段）
４６フォーマット生成部（フォーマット生成手段）
４７フォーマット修正部（フォーマット修正手段）
４８フォーマット適用部（フォーマット適用手段）

Claims

文書データを取得する文書取得手段と、
前記文書取得手段が取得した文書データから所定の文字列抽出条件に適合する文字列を抽出する文字列抽出手段と、
前記文字列抽出手段によって抽出された各文字列が有する特徴を抽出し、該特徴をデータ化したフォーマットを生成するフォーマット生成手段と、
前記文字列抽出手段によって抽出された文字列を一覧表示すると共に、前記フォーマット生成手段によって生成されるフォーマットを表示する表示手段と、
前記フォーマットに対する修正を行うフォーマット修正手段と、
を備え、
前記文字列抽出手段は、前記フォーマット修正手段によって修正されたフォーマットに適合するように文字列を再抽出することを特徴とする文書処理装置。
前記フォーマット生成手段は、各文字列が有する共通した特徴に基づいて各特徴を階層構造化し、
前記表示手段は、前記文字列抽出手段によって抽出される文字列を前記階層構造に対応付けて表示することを特徴とする請求項１記載の文書処理装置。
前記フォーマット生成手段が抽出する文字列の特徴には、文書の基準位置からの距離に関する位置条件が含まれることを特徴とする請求項１又は２記載の文書処理装置。
前記フォーマット生成手段が抽出する文字列の特徴には、該文字列に含まれるキーワードが含まれることを特徴とする請求項１乃至３のいずれかに記載の文書処理装置。
前記フォーマット生成手段が抽出する文字列の特徴には、該文字列に含まれる数値情報が含まれることを特徴とする請求項１乃至４のいずれかに記載の文書処理装置。
前記フォーマット生成手段が抽出する文字列の特徴には、該文字列の属性が含まれることを特徴とする請求項１乃至５のいずれかに記載の文書処理装置。
前記フォーマット生成手段によって生成されるフォーマット、又は、前記フォーマット修正手段によって修正されるフォーマットを記憶する記憶手段をさらに備え、
前記文字列抽出手段は、前記記憶手段に記憶されたフォーマットを読み出し、その読み出したフォーマットに適合するように文書データから文字列を抽出することを特徴とする請求項１乃至６のいずれかに記載の文書処理装置。
前記記憶手段には、ユーザごとにフォーマットが対応付けられて記憶されており、
前記文字列抽出手段は、文字列抽出を指示するユーザに対応付けられたフォーマットを前記記憶手段から読み出し、その読み出したフォーマットに適合するように文書データから文字列を抽出することを特徴とする請求項７記載の文書処理装置。
前記フォーマットは、文書データの属性と関連付けて前記記憶手段に記憶されており、
前記文字列抽出手段は、前記文書取得手段が取得する文書データの属性に基づいて前記記憶手段からフォーマットを読み出し、その読み出したフォーマットに適合するように文書データから文字列を抽出することを特徴とする請求項７記載の文書処理装置。
前記フォーマット修正手段は、前記表示手段に表示される文書の基準位置からの距離に関する位置条件の修正操作を受け付け、該修正操作に基づいてフォーマットに含まれる情報を修正し、
前記文字列抽出手段は、前記フォーマット修正手段によって修正されたフォーマットの情報に適合するように文字列を再抽出することを特徴とする請求項３記載の文書処理装置。
前記表示手段は、前記文書取得手段が取得した文書データに基づく文書のプレビュー画像をさらに表示し、文字列の一覧表示に含まれる各文字列と、前記プレビュー画像に含まれる各文字列とを相互に対応付けたリンク状態として表示することを特徴とする請求項１乃至１０のいずれかに記載の文書処理装置。
前記文書取得手段は、入力画像データに対して文字認識処理を行うことによって入力画像データをテキスト化した文書データに変換する文字認識手段をさらに備えることを特徴とする請求項１乃至１１のいずれかに記載の文書処理装置。
文書データを取得するステップと、
取得した文書データから所定の文字列抽出条件に適合する文字列を抽出するステップと、抽出された各文字列が有する特徴を抽出し、該特徴をデータ化したフォーマットを生成するステップと、
抽出された各文字列を一覧表示すると共に、前記フォーマットを表示するステップと、
前記フォーマットに対する修正を行うステップと、
前記フォーマットが修正された場合、その修正されたフォーマットに適合するように文字列を再抽出するステップと、
を有することを特徴とする文書処理方法。
コンピュータを、
文書データを取得する文書取得手段、
前記文書取得手段が取得した文書データから所定の文字列抽出条件に適合する文字列を抽出する文字列抽出手段、
前記文字列抽出手段によって抽出された各文字列が有する特徴を抽出し、該特徴をデータ化したフォーマットを生成するフォーマット生成手段、
前記文字列抽出手段によって抽出された文字列を一覧表示すると共に、前記フォーマット生成手段によって生成されるフォーマットを表示する表示処理手段、および、
前記フォーマットに対する修正を行うフォーマット修正手段、
として機能させ、
前記文字列抽出手段には、前記フォーマット修正手段によって修正されたフォーマットに適合するように文字列を再抽出させることを特徴とするプログラム。