JP2006085582A

JP2006085582A - 文書処理装置およびプログラム

Info

Publication number: JP2006085582A
Application number: JP2004271734A
Authority: JP
Inventors: Hiroshi Masuichi; 博増市; Tsuguaki Ryu; 紹明劉; Michihiro Tamune; 道弘田宗; Masatoshi Tagawa; 昌俊田川; Kiyoshi Tashiro; 潔田代; Atsushi Ito; 篤伊藤; Kyosuke Ishikawa; 恭輔石川; Naoko Sato; 直子佐藤
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2004-09-17
Filing date: 2004-09-17
Publication date: 2006-03-30
Also published as: CN100447805C; US20060062492A1; CN1750018A

Abstract

【課題】文書を電子化した文書データに基づいてその文書の表題を特定する際の特定精度を向上させる。
【解決手段】文書の表題となる可能性が高い文字列またはその可能性が低い文字列の構文を表す構文データが記憶された記憶手段と、文書を電子化した文書データが入力される入力手段と、前記入力手段へ入力された文書データを解析し、文字列を表す文字列データを抽出する抽出手段と、前記抽出手段により抽出された文字列データの各々を解析し、前記文書データに対応する文書に記載されている文字列の構文を各文字列毎に特定する構文解析手段と、前記構文解析手段による特定結果と前記記憶手段の記憶内容とに基づいて、前記抽出手段により抽出された文字列データのうちから、前記文書データに対応する文書の表題を表す文字列データを特定する特定手段とを有する文書処理装置を提供する。
【選択図】図７

Description

紙文書を電子化する技術に関し、特に、その紙文書の記載内容に基づいてその表題を特定する技術に関する。

紙文書（以下、単に「文書」ともいう）は、情報の伝達や記録を行うための媒体として優れたものであるが、これを保存するために書庫などのスペースが必要になる、といった問題点がある。また、情報を紙文書に記録して保存している場合、後にその紙文書に記録された情報が必要になったときには、書庫などに収納されている多くの紙文書のなかから目的とする情報が記録された紙文書を探し出さなければならない。つまり、情報を紙文書に記録して保存するという形態は、業務の効率化の観点からも好ましくない。

このような背景の下、紙文書を電子化して保存することが行われるようになってきている。具体的には、スキャナ装置などによって紙文書の各ページに対応する画像を読み取り、その画像に対応する画像データ（以下、「文書画像データ」と呼ぶ）を紙文書毎にファイル化してハードディスクなどの記憶装置に記憶させることが行われるようになってきている。

ところで、上記ファイルをハードディスクなどに保存するに際し、各ファイル毎に固有の名称を付与して格納したり、電子化対象の文書をその種類毎に分類してファイル化し格納するようにしておくと便利であるが、このようなことを実現するためには、文書の表題を正確に特定することが必要である。何故ならば、上記名称としては文書の表題を含む文字列が用いられることが一般的であり、また、文書の表題はその文書の種類を正確に反映していることが一般的だからである。このため、上記文書画像データに基づいてその文書画像データに対応する文書の表題を特定する技術が種々提案されており、その一例としては特許文献１に開示された技術が挙げられる。より詳細に説明すると、特許文献１には、文字列の周囲の画像情報（文字列に付与されている下線を表す画像情報やその文字列とその上下に位置する文字列との間隔を表す画像情報）に基づいて文書の表題を特定する技術が開示されている。
特開平９−１３４４０６号公報

しかしながら、特許文献１に開示された技術では、電子化対象の紙文書に記載されている各文字列の意味内容とは無関係に下線などの修飾の有無や、他の文字列との位置関係に基づいて文書の表題を特定しているため、誤判断が発生し易く実用に耐え得るほどの特定精度を得ることができない、といった問題点がある。

本発明は、上記課題に鑑みて為されたものであり、文書を電子化した文書データに基づいてその文書の表題を特定する際の特定精度を向上させることを可能にする技術を提供することを目的としている。

上記課題を解決するために、本発明は、文書の表題となる可能性が高い文字列またはその可能性が低い文字列の構文を表す構文データが記憶された記憶手段と、文書を電子化した文書データが入力される入力手段と、前記入力手段へ入力された文書データを解析し、文字列を表す文字列データを抽出する抽出手段と、前記抽出手段により抽出された文字列データの各々を解析し、前記文書データに対応する文書に記載されている文字列の構文を各文字列毎に特定する構文解析手段と、前記構文解析手段による特定結果と前記記憶手段の記憶内容とに基づいて、前記抽出手段により抽出された文字列データのうちから、前記文書データに対応する文書の表題を表す文字列データを特定する特定手段とを有する文書処理装置を提供する。このような文書処理装置およびプログラムによれば、処理対象の文書に記載されている各文字列の構文に基づいて、その文書の表題が特定される。

より好ましい態様にあっては、前記記憶手段に記憶された構文データには、その構文データの表す構文を有する文字列が文書の表題となる可能性の度合いを表す重みデータが対応付けられており、前記特定手段は、前記構文解析手段により特定された構文を表す構文データに対応付けて前記記憶手段に記憶されている重みデータに基づいて、前記文書の表題を表す文字列データを特定する、ことを特徴とする。このような態様にあっては、文書の表題となる可能性が最も高い構文を有する文字列を処理対象の文書の表題として特定することが可能になる。

より好ましい態様にあっては、前記特定手段は、前記抽出手段により抽出された文字列データのうちから、文書の表題となる可能性が高い文字列データを前記構文解析手段による特定結果と前記記憶手段の記憶内容とに基づいて絞り込んでユーザへ提示し、ユーザによって選択された文字列データを前記文書の表題を表す文字列データとして特定する、ことを特徴とする。このような態様にあっては、上記文書に記載されている文字列をその構文に基づいて絞り込んだ表題候補のうちから上記文書の表題が特定される。このような態様は、文書の表題となる可能性が高い構文を有する文字列が複数あり、かつ、その可能性の度合いに大差がない場合に特に好適である。

また、別の好ましい態様にあっては、前記特定手段は、前記抽出手段により抽出された文字列データのうちから、文書の表題となる可能性が低い文字列データを前記構文解析手段による特定結果と前記記憶手段の記憶内容とに基づいて削除し、その残りの文字列データをユーザへ提示して、ユーザによって選択された文字列データを前記文書の表題を表す文字列データとして特定する、ことを特徴とする。このような態様にあっては、文書の表題となる可能性が低い文字列が排除された表題候補のうちから上記文書の表題が特定される。

より好ましい態様にあっては、前記抽出手段は、前記入力手段へ入力された文書データを解析して得られた文字列データのうちで、該文字列データに対応する文字列についての修飾の有無またはその文字列の上下に位置する文字列との間隔に基づいて、該文書データに対応する文書の表題となる可能性が高い文字列を表す文字列データのみを抽出する、ことを特徴とする。このような態様にあっては、各文字列に修飾が施されているか否かや、その上下に位置する文字列との間隔に基づいて絞り込まれた表題候補のうちから、更に、その構文に基づいて文書の表題が絞り込まれる。

また、上記課題を解決するために、本発明は、コンピュータ装置を、文書を電子化した文書データが入力された場合に、該文書データを解析し、文字列を表す文字列データを抽出する抽出手段と、前記抽出手段により抽出された文字列データの各々を解析し、前記文書データに対応する文書に記載されている文字列の構文を各文字列毎に特定する構文解析手段と、文書の表題となる可能性が高い文字列またはその可能性が低い文字列の構文を表すデータとして該コンピュータ装置に予め記憶されている構文データと前記構文解析手段による特定結果とに基づいて、前記抽出手段により抽出された文字列データのうちから、前記文書データに対応する文書の表題を表す文字列データを特定する特定手段として機能させるプログラムを提供する。また、本発明の別の態様にあっては、コンピュータ装置読み取り可能な記録媒体に上記プログラムを記録して提供するとしても良い。このようなプログラムによれば、処理対象の文書に記載されている各文字列の構文に基づいて、その文書の表題が特定される。

本発明によれば、電子化対象の文書に記載されている各文字列の構文、すなわち、各文字列の構造の文法上の特徴に基づいて、その文書の表題となる文字列が特定される。このため、修飾の有無や他の文字列ととの位置関係などに基づいて表題を特定する従来の技術に比較して、その特定精度を向上させることが可能になる、といった効果を奏する。

以下、図面を参照しつつ本発明を実施する際の最良の形態について説明する。
（Ａ：構成）
図１は、本発明の１実施形態に係る文書処理装置１１０を有する文書電子化システム１０の構成例を示すブロック図である。図１の画像読取装置１２０は、例えばＡＤＦ（Auto Document Feeder）などの自動給紙機構を備えたスキャナ装置であり、ＡＤＦにセットされた紙文書を１ページずつ読み取り、読み取った画像に対応する文書画像データをＬＡＮ（Local Area Network）などの通信線１３０を介して文書処理装置１１０へ引渡すものである。なお、本実施形態では、通信線１３０がＬＡＮである場合について説明するが、ＷＡＮ（Wide Area Network）やインターネットなどを含んでいても良いことは勿論である。また、本実施形態では、文書処理装置１１０と画像読取装置１２０とを夫々個別のハードウェアとして構成する場合について説明するが、両者を一体のハードウェアで構成するとしても良いことは勿論である。このような態様にあっては、通信線１３０は、係るハードウェア内で文書処理装置１１０と画像読取装置１２０とを接続する内部バスである。

図１の文書処理装置１１０は、画像読取装置１２０から引渡された文書画像データをファイル化して記憶し蓄積するものであり、図２に示す構成を有している。図２に示されているように、文書処理装置１１０は、制御部２００と、通信インターフェイス（以下、ＩＦ）部２１０と、記憶部２２０と、これら各構成要素間のデータ授受を仲介するバス２３０と、を備えている。

制御部２００は、例えばＣＰＵ（Central Processing Unit）であり、後述する記憶部２２０に記憶されている各種ソフトウェアを実行することによって、文書処理装置１１０の各部を制御するものである。通信ＩＦ部２１０は、通信線１３０を介して画像読取装置１２０に接続されており、この通信線１３０を介して画像読取装置１２０から送られてくる文書画像データを受取り、制御部２００へ引渡すものである。つまり、この通信ＩＦ部２１０は、画像読取装置１２０から送られてくる文書画像データが入力される入力手段として機能する。

記憶部２２０は、図２に示されているように、揮発性記憶部２２０ａと不揮発性記憶部２２０ｂとを含んでいる。揮発性記憶部２２０ａは、例えばＲＡＭ（Random Access Memory）であり、後述する各種ソフトウェアにしたがって作動している制御部２００によってワークエリアとして利用される。一方、不揮発性記憶部２２０ｂは、例えば、ハードディスクであり、上記文書画像データをファイル化して記憶し蓄積するためのものである。また、この不揮発性記憶部２２０ｂには、文書処理装置１１０に特有な機能を制御部２００に実現させるためのデータやソフトウェアが格納されている。以下、不揮発性記憶部２２０ｂに格納されているデータおよびソフトウェアについて説明する。

不揮発性記憶部２２０ｂに格納されているデータの一例としては、図３に示す構文テーブルに格納されたデータが挙げられる。この構文テーブルには、文字列の構文を表すデータ（以下、構文データ）に対応付けてその構文を有する文字列が文書の表題となる可能性を表す重みデータが格納されている。この構文テーブルの格納内容（すなわち、構文データとその構文データに対応付けられている重みデータ）は、上記通信ＩＦ部２１０を介して入力された文書画像データに対応する文書の表題をその文書画像データに基づいて特定する際に利用される。以下、構文データおよび重みデータについて説明する。

本実施形態では、上記構文データは、図４や図５または図６に示すような木構造を表すデータである。ここで、図４は、文書の表題となる可能性が低い文字列の構文を表す木構造の一例を示す図であり、図５と図６とは、夫々、文書の表題となる可能性が高い文字列の構文を表す木構造の一例を示す図である。具体的には、図４に示す木構造は、「押印および見積申請処理を必要とする書類は稟議決済書」という文字列の構文を表すものである。図４の木構造の示す構文は、名詞節（ＮＰ）および名詞からなる述部（Ｖｎｏｕｎ）によって全体が構成されている。この構文を有する文字列は、その末尾が名詞であるため、一見すると表題のように思われるが、実際には文書の表題となる可能性が低い（但し、新聞記事などにおいては表題となる可能性がある）ことが一般に知られている。これに対して、図５に示す木構造は、「押印および見積申請処理を必要とする稟議決済書」という文字列の構文を表すものであり、図６に示す木構造は、「押印および見積申請処理を必要とする稟議決済書について」という文字列の構文を表すものである。図５に示す木構造は、名詞（Ｎｚｅｒｏ）を関係詞節（Ｓｒｅｌ）で修飾し全体として名詞句（Ｎａｄｊ）で構成された構文を表すものであり、図６に示す木構造は、名詞句に各助詞相当語（ＰＰａｄｊｕｎｃｔ）が後続し全体として名詞節で構成された構文を表すものである。これら図５または図６に示す木構造の表す構文は、文書の表題となる可能性が高いことが一般に知られている。なお、本実施形態では、文字列の構文を木構造で表すデータを上記構文データとして用いる場合について説明するが、その構文を一意に表すことができるデータであれば他の形式のデータであっても勿論良い。

一方、上記構文データに対応付けて構文テーブルに格納されている重みデータは、本実施形態では以下のようにして算出されるデータである。すなわち、予め定められた複数個の文字列（例えば、１０万個の文字列）の各々について、その文字列が文書の表題である場合には“１”、逆に、文書の表題ではない場合には“０”の値を割り当て、その値を各構文毎に集計して算出されるデータである。このように、本実施形態では、上記重みデータとして、上記予め定められた複数の文字列のうちで、文書の表題である文字列の数をその構文毎に集計した値を用いる場合について説明するが、要は、各構文データの表す構文を有する文字列が文書の表題となる可能性の度合いを表すデータであれば、どの様なデータであっても良い。

一方、不揮発性記憶部２２０ｂに格納されているソフトウェアの一例をしては、オペレーティングシステム（Operating System 以下、「ＯＳ」）を制御部２００に実現させるためのＯＳソフトウェアや、紙文書電子化ソフトウェアとが挙げられる。ここで、紙文書電子化ソフトウェアとは、上記文書画像データをファイル化して不揮発性記憶部２２０ｂへ格納する際に、その文書画像データに対応する文書の表題に応じたファイル名を付与して格納する処理を制御部２００に実行させるためのソフトウェアである。以下、これらソフトウェアを実行することによって制御部２００に付与される機能について説明する。

文書処理装置１１０の電源（図示省略）が投入されると、制御部２００は、まず、ＯＳソフトウェアを不揮発性記憶部２２０ｂから読み出し、これを実行する。ＯＳソフトウェアにしたがって作動しＯＳを実現している状態の制御部２００には、文書処理装置１１０の各部を制御する機能や、他のソフトウェアを不揮発性記憶部２２０ｂから読み出し実行する機能が付与される。本実施形態では、上記ＯＳソフトウェアの実行を完了し、ＯＳを実現している状態の制御部２００は、即座に、上記紙文書電子化ソフトウェアを不揮発性記憶部２２０ｂから読み出し、これを実行する。図７は、紙文書電子化ソフトウェアにしたがって作動している制御部２００が行う紙文書電子化処理の流れを示すフローチャートである。図７に示されているように、上記紙文書電子化ソフトウェアにしたがって作動している制御部２００には、以下に述べる３つの機能が付与される。

第１に、通信ＩＦ部２１０を介して文書画像データ（すなわち、処理対象の紙文書に対応する文書画像データ）が入力された場合に、その文書画像データを解析し、文字列を表す文字列データを抽出する抽出機能である。詳細については後述するが、本実施形態では、この抽出機能により、下線の有無や他の文字列との記載位置に基づいて（すなわち、従来技術に基づいて）、表題となる可能性があると判断される文字列に対応する文字列データが抽出される。第２に、上記抽出機能により抽出された文字列データの各々を解析し、上記文書画像データに対応する紙文書に記載されている文字列の構文を各文字列毎に特定する構文解析機能である。そして、第３に、上記構文解析機能によって特定した各文字列の構文と上記構文テーブルの格納内容とに基づいて、前記抽出機能により抽出された文字列データのうちから、上記文書の表題を表す文字列データを特定する特定機能である。

以上に説明したように、本実施形態に係る文書処理装置１１０のハードウェア構成は一般的なコンピュータ装置と同一であり、不揮発性記憶部２２０ｂに格納されている各種ソフトウェアにしたがって制御部２００を作動させることによって、本発明に係る文書処理装置に特有な機能が実現される。このように、本実施形態では、本発明に係る文書処理装置に特有な機能をソフトウェアモジュールで実現する場合について説明したが、これらの機能を担っているハードウェアモジュールで本発明に係る文書処理装置を構成するとしても良いことは勿論である。具体的には、画像読取装置１２０から文書画像データが入力される入力手段と、上記構文テーブルが記憶されている記憶手段とを有している文書処理装置に、上記抽出機能を担っている抽出手段と、上記構文解析機能を担っている構文解析手段と、上記特定機能を担っている特定手段とを夫々ハードウェアモジュールで設け、これらハードウェアモジュールを図７に示すフローチャートにしたがって連携作動させるように組み合わせて、本発明に係る文書処理装置を構成するとしても良い。

（Ｂ：動作）
次いで、文書処理装置１１０が行う動作のうち、その特徴を顕著に示す動作について図面を参照しつつ説明する。

まず、ユーザが画像読取装置１２０のＡＤＦに紙文書をセットし、所定の操作（例えば、画像読取装置１２０の操作部に設けられている起動ボタンの押下など）を行うと、その紙文書の各ページに対応する画像が画像読取装置１２０によって読み取られ、各ページの画像に対応する文書画像データが通信線１３０を介して画像読取装置１２０から文書処理装置１１０へ送られる。

一方、文書処理装置１１０の制御部２００は、通信ＩＦ部２１０を介して上記文書画像データが入力されると、その文書画像データを揮発性記憶部２２０ａへ書き込み蓄積する。そして、制御部２００は、揮発性記憶部２２０ａに蓄積された文書画像データに対して図７に示すフローチャートにしたがった紙文書電子化処理を施してその文書画像データに対応する紙文書の表題を特定し、その表題を含むファイル名と対応付けて不揮発性記憶部２２０ｂへ書き込み、電子化処理を完了する。以下、制御部２００が行う動作について、図７を参照しつつ説明する。

図７は、制御部２００が行う紙文書電子化処理の流れを示すフローチャートである。図７に示されているように、制御部２００は、まず、揮発性記憶部２２０ａに蓄積された文書画像データを解析し、その文書画像データに対応する文書に記載されている文字列を表す文字列データとその文字列に下線が付与されているか否かおよびその文字列の上下に位置する文字列との間隔を表す属性データとを各文字列毎に全て抽出する（ステップＳＡ１）。具体的には、制御部２００は、上記文書画像データから文字列が記載された領域の画像に対応するデータブロックを抽出し、そのデータブロックに対応する画像にＯＣＲ（Optical Character Recognition）を用いて上記文字列データや属性データを抽出する。

次いで、制御部２００は、ステップＳＡ１にて抽出した文字列データのうちから、各文字列データに対応する属性データに基づいて従来の技術により表題候補となる文字列の文字列データを抽出する（ステップＳＡ２）。具体的には、制御部２００は、ステップＳＡ１にて抽出した属性データに基づいて、その属性データに対応する文字列データの表す文字列に下線が付与されているか否かを特定するとともに、その文字列とその文字列の上下に位置する文字列との間隔を特定する。そして、制御部２００は、下線が付与されており、かつ、上記間隔が所定の値よりも大きい文字列に対応する文字列データを表題候補として抽出する。

ステップＳＡ２に後続するステップＳＡ３では、制御部２００は、上記ステップＳＡ２にて抽出した表題候補の文字列データの各々について構文解析を施し、その文字列データに対応する文字列の構文を特定する。具体的には、制御部２００は、上記ステップＳＡ２にて絞り込んだ表題候補の文字列データの各々について構文解析を施し、前述した構文データを生成してその文字列データの表す文字列の構文を特定する。次いで、制御部２００は、ステップＳＡ３の特定結果と構文テーブルの格納内容とに基づいて、上記ステップＳＡ２にて抽出した表題候補の文字列データに、表題となる可能性が高い文字列に対応する文字列データが含まれているか否かを判定する（ステップＳＡ４）。より詳細に説明すると、制御部２００は、上記ステップＳＡ２にて抽出した文字列データの各々について、その文字列データについて上記ステップＳＡ３にて生成した構文データと同一の構文データに対応付けて構文テーブルに格納されている重みデータの値が所定の第１の閾値よりも大きいか否かを判定する。そして、制御部２００は、その判定結果が“Ｙｅｓ”である文字列データが１つでもある場合に、上記ステップＳＡ２にて絞り込んだ表題候補に表題となる可能性が高い文字列に対応する文字列データが含まれていると判定する。

ステップＳＡ４の判定結果が“Ｙｅｓ”である場合には、制御部２００は、上記ステップＳＡ４にて表題となる可能性が高いと判定された文字列に対応する文字列データを、上記文書画像データに対応する文書の表題の最終候補とする（ステップＳＡ５）。逆に、ステップＳＡ４の判定結果が“Ｎｏ”である場合には、制御部２００は、ステップＳＡ３の特定結果と構文テーブルの格納内容とに基づいて、上記ステップＳＡ２にて抽出した表題候補に、表題となる可能性が低い文字列に対応する文字列データが含まれているか否かを判定する（ステップＳＡ６）。より詳細に説明すると、制御部２００は、上記ステップＳＡ２にて抽出した文字列データの各々について、その文字列データについて上記ステップＳＡ３にて生成した構文データと同一の構文データに対応付けて構文テーブルに格納されている重みデータの値が所定の第２の閾値よりも小さいか否かを判定する。そして、制御部２００は、その判定結果が“Ｙｅｓ”である文字列データが１つでもあった場合には、表題になる可能性が低い文字列データが含まれていると判定する。なお、上記第２の閾値としては、上記第１の閾値と等しい値、または、上記第１の閾値よりも小さい値であれば何れであっても良い。

ステップＳＡ６の判定結果が“Ｙｅｓ”である場合には、制御部２００は、上記ステップＳＡ２にて絞り込んだ文字列データのうちから、上記ステップＳＡ６にて表題となる可能性が低いと判定された文字列に対応する文字列データを削除し、その残りの文字列データを上記文書の表題を表す文字列の最終候補とする（ステップＳＡ７）。逆に、ステップＳＡ６の判定結果が“Ｎｏ”である場合には、制御部２００は、上記ステップＳＡ２にて抽出した表題候補の文字列データの全てを、上記文書の表題を表す文字列の最終候補とする（ステップＳＡ８）。

上記ステップＳＡ５、ステップＳＡ７またはステップＳＡ８の何れかに後続して実行されるステップＳＡ９では、制御部２００は、上記最終候補の文字列データのうちから上記文書の表題とする文字列を表す文字列データを特定する（ステップＳＡ９）。具体的には、上記最終候補の文字列データが１個しかない場合には、制御部２００は、その文字列データの表す文字列を上記表題として特定し、上記最終候補の文字列データが複数ある場合には、表題となる可能性が最も高い文字列データ（すなわち、最も大きな値を有する重みデータを対応付けられた構文データの表す構文を有する文字列データ）の表す文字列を上記文書の表題として特定する。なお、最終候補の文字列データが複数ある場合には、それら複数の文字列をユーザに提示し、ユーザによって選択された文字列を上記文書の表題として特定するとしても勿論良い。以降、制御部２００は、上記ステップＳＡ９にて特定された表題に応じた名称を付与して上記文書画像データを不揮発性記憶部２２０ｂへ書き込み、紙文書電子化処理を終了する。

以上に説明したように、本実施形態に係る文書処理装置１１０によれば、電子化対象の文書の表題を特定する際に、その文書に記載されている文字列のうちから表題候補の文字列を従来技術に基づいて絞り込んだ後に、更に、それら文字列の構文に基づいて絞り込み、その文書の表題となる文字列が特定される。これにより、従来よりも精度良く表題を特定することが可能になるといった効果を奏する。なお、本実施形態では、文書処理装置１１０へ入力された文書画像データについてその文書画像データに対応する文書の表題を特定し、その表題に応じたファイル名を付与して文書処理装置１１０に備えられている記憶部へ書き込む場合について説明したが、この文書処理装置１１０とは別体の記憶装置に上記文書画像データと上記ファイル名を表す名称データとを対応付けて送信し、両者を対応付けて上記記憶装置に記憶させるようにしても勿論良い。

（Ｃ．変形）
以上、本発明を実施する際の最良の形態について説明したが、以下に述べるような変形を加えても良いことは勿論である。
（Ｃ−１：変形例１）
上述した実施形態では、紙文書の画像に対応する文書画像データに基づいてその紙文書の表題を特定する場合について説明した。しかしながら、ワードプロセッサなどにより作成された文書に対応するデータ（その文書に記載されている文字の文字コードや改行コードなどがその記載順に配列されたデータ：以下、コードデータという）に基づいて、その文書の表題を特定するとしても良いことは勿論である。要は、紙文書に対応する文書データであれば、画像データであるかコードデータであるかは問わない。

（Ｃ−２：変形例２）
上述した実施形態では、文書画像データから読み取った文字列データについて、従来技術（その文字列データの表す文字列に下線が付与されているか否か、および、その文字列の上下に位置する文字列との間隔に基づいて表題となる文字列を特定する技術）により表題候補となる文字列を絞り込んだ後に、その絞り込まれた文字列の各々についてその構文を解析し、その解析結果と構文テーブルの格納内容とに基づいて上記文書画像データに対応する文書の表題となる文字列を更に絞り込む場合について説明した。しかしながら、構文に基づいて文字列データの絞り込みを行った後に、上記従来技術による絞り込みを行って最終候補を絞り込むとしても勿論良い。なお、上述した実施形態では、従来技術による絞り込みの一例として、下線の有無および上下に位置する文字列との間隔に基づいて表題候補の絞り込みを行う場合について説明したが、その一方にのみ基づいて絞り込みを行うとしても良く、また、各文字列のフォント種別やフォントの大きさに基づいて絞り込みを行うとしても勿論良い。また、このような従来技術による絞り込みを一切行わずに、文書画像データから読み取った全ての文字列データについて、各文字列データの表す文字列の構文を解析し、その解析結果と構文テーブルの格納内容とに基づいてその文書画像データに対応する文書の表題候補を絞り込む（すなわち、図７に示すステップＳＡ２を行わずに、ステップＳＡ１の直後にステップＳＡ３を行う）としても勿論良い。

（Ｃ−３：変形例３）
上述した実施形態では、文字列の構文を表す構文データにその構文を有する文字列が文書の表題となる可能性を表す重みデータを対応付け、表題となる可能性が高い構文を表す構文データと、表題となる可能性が低い構文を表す構文データとを構文テーブルに格納しておく場合について説明した。しかしながら、文書の表題となる可能性が高い構文を表す構文データのみを上記構文テーブルに格納しておくとしても良く、逆に、文書の表題となる可能性が低い構文を表す構文データのみを上記構文テーブルに格納しておくとしても良い。また、文書の表題となる可能性が高い（または低い）構文を表す構文データのみを構文テーブルに格納しておく場合には、各構文データに上記重みデータを対応付けておく必要はない。

例えば、文書の表題となる可能性が高い構文を表す構文データのみを上記構文テーブルに格納しておく場合には、図７に示す紙文書電子化処理に替えて図８に示す紙文書電子化処理を実行させるようにすれば良い。図８に示す紙文書電子化処理が図７に示す紙文書電子化処理と異なっている点は、ステップＳＡ４の判定結果が“Ｎｏ”である場合には無条件にステップＳＡ８の処理を行うようにした点のみである。また、文書の表題となる可能性が低い構文を表す構文データのみを上記構文テーブルに格納しておく場合には、図７に示す紙文書電子化処理に替えて図９に示す紙文書電子化処理を実行させるようにすれば良い。図９に示す紙文書電子化処理が図７に示す紙文書電子化処理と異なっている点は、ステップＳＡ３に後続してステップＳＡ６の処理を行うようにした点のみである。

（Ｃ−４：変形例４）
上述した実施形態では、本発明に係る文書処理装置に特有な機能を制御部２００に実現させるためのソフトウェアを不揮発性記憶部２２０ｂに予め記憶させておく場合について説明した。しかしながら、例えばＣＤ−ＲＯＭ（Compact Disk- Read Only Memory）やＤＶＤ（Digital Versatile Disk）などのコンピュータ装置読み取り可能な記録媒体に、上記ソフトウェアを記録しておき、このような記録媒体を用いて一般的なコンピュータ装置に上記ソフトウェアをインストールするとしても良いことは勿論である。このようにすると、一般的なコンピュータ装置を本発明に係る文書処理装置として機能させることが可能になるといった効果を奏する。

本発明の１実施形態に係る文書処理装置１１０を有する文書電子化システムの全体構成の一例を示す図である。同文書処理装置１１０のハードウェア構成の一例を示す図である。同文書処理装置１１０の不揮発性記憶部２２０ｂに格納されている構文テーブルのテーブルフォーマットの一例を示す図である。文書の表題となる可能性が低い文字列の構文の一例を示す図である。文書の表題となる可能性が高い文字列の構文の一例を示す図である。文書の表題となる可能性が高い文字列の構文の一例を示す図である。同文書処理装置１１０の制御部２００が紙文書電子化ソフトウェアにしたがって行う紙文書電子化処理の流れを示すフローチャートである。変形例３に係る紙文書電子化処理の流れを示すフローチャートである。同変形例３に係る紙文書電子化処理の流れを示すフローチャートである。

符号の説明

１０…文書電子化システム、１１０…文書処理装置、１２０…画像読取装置、１３０…通信線、２００…制御部、２１０…通信ＩＦ部、２２０…記憶部、２２０ａ…揮発性記憶部、２２０ｂ…不揮発性記憶部。

Claims

文書の表題となる可能性が高い文字列またはその可能性が低い文字列の構文を表す構文データが記憶された記憶手段と、
文書を電子化した文書データが入力される入力手段と、
前記入力手段へ入力された文書データを解析し、文字列を表す文字列データを抽出する抽出手段と、
前記抽出手段により抽出された文字列データの各々を解析し、前記文書データに対応する文書に記載されている文字列の構文を各文字列毎に特定する構文解析手段と、
前記構文解析手段による特定結果と前記記憶手段の記憶内容とに基づいて、前記抽出手段により抽出された文字列データのうちから、前記文書データに対応する文書の表題を表す文字列データを特定する特定手段と
を有する文書処理装置。
前記記憶手段に記憶された構文データには、その構文データの表す構文を有する文字列が文書の表題となる可能性の度合いを表す重みデータが対応付けられており、
前記特定手段は、
前記構文解析手段により特定された構文を表す構文データに対応付けて前記記憶手段に記憶されている重みデータに基づいて、前記文書の表題を表す文字列データを特定する
ことを特徴とする請求項１に記載の文書処理装置。
前記特定手段は、
前記抽出手段により抽出された文字列データのうちから、文書の表題となる可能性が高い文字列データを前記構文解析手段による特定結果と前記記憶手段の記憶内容とに基づいて絞り込んでユーザへ提示し、ユーザによって選択された文字列データを前記文書の表題を表す文字列データとして特定する
ことを特徴とする請求項２に記載の文書処理装置。
前記特定手段は、
前記抽出手段により抽出された文字列データのうちから、文書の表題となる可能性が低い文字列データを前記構文解析手段による特定結果と前記記憶手段の記憶内容とに基づいて削除し、その残りの文字列データをユーザへ提示して、ユーザによって選択された文字列データを前記文書の表題を表す文字列データとして特定する
ことを特徴とする請求項２に記載の文書処理装置。
前記抽出手段は、
前記入力手段へ入力された文書データを解析して得られた文字列データのうちで、該文字列データに対応する文字列についての修飾の有無またはその文字列の上下に位置する文字列との間隔に基づいて、該文書データに対応する文書の表題となる可能性が高い文字列を表す文字列データのみを抽出する
ことを特徴とする請求項１乃至４の何れか１に記載の文書処理装置。
コンピュータ装置を、
文書を電子化した文書データが入力された場合に、該文書データを解析し、文字列を表す文字列データを抽出する抽出手段と、
前記抽出手段により抽出された文字列データの各々を解析し、前記文書データに対応する文書に記載されている文字列の構文を各文字列毎に特定する構文解析手段と、
文書の表題となる可能性が高い文字列またはその可能性が低い文字列の構文を表すデータとして該コンピュータ装置に予め記憶されている構文データと前記構文解析手段による特定結果とに基づいて、前記抽出手段により抽出された文字列データのうちから、前記文書データに対応する文書の表題を表す文字列データを特定する特定手段
として機能させるプログラム。