JP2016018279A

JP2016018279A - 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法

Info

Publication number: JP2016018279A
Application number: JP2014139112A
Authority: JP
Inventors: 山本　昭彦; Akihiko Yamamoto; 昭彦山本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2014-07-04
Filing date: 2014-07-04
Publication date: 2016-02-01

Abstract

【課題】多数の文書（文書ファイル）の中から信頼性が高いと思われる文書（文書ファイル）を検索し、その検索結果を出力する文書ファイル検索プログラム等を提供する。【解決手段】文書ファイル検索プログラムは、文書ファイルの登録に応じて、該文書ファイルから抽出された見出し項目を前記文書ファイルと関連付けて記憶部に記憶し、文書の種別についての指定を受け付け、記憶された文書の種別と見出し項目との対応関係に基づいて、指定された前記文書の種別に対応する見出し項目を特定し、前記記憶部において、特定した該見出し項目に対応づけられた文書ファイルを検索し、検索結果を出力する処理をコンピュータに実行させる。【選択図】図１１

Description

本発明は文書管理システムに記憶されている文書の情報を出力する技術に関する。

近年、各種文書を電子化し、電子化した文書を文書管理データベースに一元管理することが行われている。文書管理データベースには多種多様な文書が格納されるために、必要な文書を効率的に探し出せる機能が求められている。それに対して、予め所定のキーワードを定めておき、新規に文書が登録される際に、文書内に含まれるキーワードと当該文書の紐付けを行うシステムが提案されている（特許文献１）。文書登録時にキーワードとの紐付けを行うために、キーワード検索の際の検索時間が短縮できるという利点がある。

特開２００２−３６６４８３号公報

しかしながら、検索に頻繁に使うキーワードほど多くの文書に現れるため、検索にヒットした文書の件数が多数であり、目的に則した文書を特定するのが困難なことがある。特に、未完成な文書や定めた様式に従っていないなど、信頼性が低い文書をも登録されている場合は、文書の内容を参照しないと、参照すべき文書であるか否か判断できない。そのため、参照すべき文書を得るまでに時間が掛かってしまう。

一つの側面では、本発明の目的は、多数の文書（文書ファイル）の中から信頼性が高いと思われる文書（文書ファイル）を検索し、その検索結果を出力する文書ファイル検索プログラム等を提供することである。

プログラムの一観点によれば、文書ファイルの登録に応じて、該文書ファイルから抽出された見出し項目を前記文書ファイルと関連付けて記憶部に記憶し、文書の種別についての指定を受け付け、記憶された文書の種別と見出し項目との対応関係に基づいて、指定された前記文書の種別に対応する見出し項目を特定し、前記記憶部において、特定した該見出し項目に対応づけられた文書ファイルを検索し、検索結果を出力する処理をコンピュータに実行させる。

一つの側面では、多数の文書（文書ファイル）の中から信頼性が高いと思われる文書（文書ファイル）を検索し、その検索結果を出力することが可能となる。

文書情報出力システムの構成例を示す説明図である。文書構造の一例を示す説明図である。文書種別テーブルのレコードレイアウトの一例を示す説明図である。除外項目テーブルのレコードレイアウトの一例を示す説明図である。要素テーブルのレコードレイアウトの一例を示す説明図である。文書データの例を示す説明図である。要素テーブルの更新処理の手順の一例を示すフローチャートである。一次テーブルのレコードレイアウトの一例を示す説明図である。二次テーブルのレコードレイアウトの一例を示す説明図である。メタ情報テーブルのレコードレイアウトの一例を示す説明図である。文書情報出力処理の手順の一例を示すフローチャートである。文書情報出力処理の手順の一例を示すフローチャートである。一覧表示画面の一例を示す説明図である。添付ファイル表示画面の一例を示す説明図である。要素順表示画面の一例を示す説明図である。文書内容表示画面の一例を示す説明図である。文書情報出力装置の機能構成の一例を示すブロック図である。

以下、本明細書に開示する文書情報出力装置を、図面を参照しつつ、詳細に説明する。

図１は文書情報出力システムの構成例を示す説明図である。文書情報出力システムは、文書情報出力装置（文書ファイル検索装置）１、複数のユーザ端末２、ネットワークＮを含む。

文書情報出力装置１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１２、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１３、文書ＤＢ（ＤａｔｅＢａｓｅ）１４、大容量記憶装置（記憶部）１５、表示出力部１６、通信部１７、読取り部１８を含む。各構成はバスで接続されている。

ＣＰＵ１１はＲＯＭ１３に記憶された制御プログラム１Ｐに従いハードウェア各部を制御する。ＲＡＭ１２は例えばＳＲＡＭ（ＳｔａｔｉｃＲＡＭ）、ＤＲＡＭ（ＤｙｎａｍｉｃＲＡＭ）、フラッシュメモリである。ＲＡＭ１２はＣＰＵ１１によるプログラムの実行時に発生するデータを一時的に記憶する。

大容量記憶装置１５は例えばハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）である。大容量記憶装置１５は、要素テーブル１５ａ、文書種別テーブル１５ｂ、除外項目テーブル１５ｃ、一次テーブル１５ｄ、二次テーブル１５ｅを記憶している。表示出力部１６は、文書情報を表示する画像をＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）、液晶表示装置などの表示装置に出力する。

通信部１７はネットワークＮを介して、ユーザ端末２と通信を行う。読取り部１８はＣＤ（ＣｏｍｐａｃｔＤｉｓｋ）−ＲＯＭ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）−ＲＯＭを含む可搬型記憶媒体１ａを読み取る。ＣＰＵ１１は読取り部１８を介して、制御プログラム１Ｐを可搬型記憶媒体１ａより読み取り、ＲＡＭ１２に記憶し実行しても良い。また、ＣＰＵ１１がネットワークＮを介して他のコンピュータから制御プログラム１Ｐをダウンロードし、ＲＡＭ１２に記憶しても良い。さらにまた、半導体メモリ１ｂから、ＣＰＵ１１が制御プログラム１Ｐを読み込んでも良い。

次に、本実施の形態で扱う文書について説明する。文書情報出力装置１が扱う文書は、業務に使う文書である。したがって、各文書は一定の規則に従って作られているものと想定する。ここで、文書とは文章のみではなく、内容補足のための図表も含んでも良いものとする。文書は複数の項目から構成されている。各項目には、本体の文章や図表以外に、「１．」、「２．」や「ａ．」、「ｂ．」などの項番が付された見出し（タイトル）が含まれている。

文書にはヘッダ部、フッタ部を含んでも良い。ヘッダ部、フッタ部は、文書名、日付、作成部署名、ページ番号や、「関係者外秘」、「copyright」などのメタデータを含んでいる。文書を構成する各項目や、ヘッダ部、フッタ部に含む文書名などの各メタデータを要素と呼ぶ。

文書には予め定められた文書種別が付与されているものとする。文書種別の例としては、報告書、仕様書、マニュアル、議事録である。また、文書名には命名規則が予め定められている。文書の作成者は、命名規則に従い、文書名を付与するものとする。文書名により文書種別が示されている。

次に、複数の文書の中から信頼性の高い文書をどのようにして選択するのか、そのアルゴリズムの概要について説明する。文書を構成する複数の項目には各文書に含まれるべき項目である必須項目と、各文書に含まれていなくても良い任意項目があるものとする。ここで、文書の信頼性が高いとは、文書種別に応じた必須項目をより多く含むこととする。例えば、文書種別「報告書１」の必須項目の数が５とする場合、必須項目を５つ含む文書が最も信頼性が高く、必須項目を１つも含まない文書が最も信頼性が低いとみなされる。

各文書の信頼性を適切に評価するためには、必須項目をどのように設定するかが重要となる。しかしながら、必須項目を予め定めておくことは困難なことも多い。上述したように本実施の形態で扱う文書は業務に使う文書であるため、予め定められた形式に従い作成されていることが期待されている。しかし、業務内容や業務進め方などの変化に伴い、文書の形式も変更される場合が考えられる。それに合わせて、必須項目も変更する必要がある。また、全社的に共通の文書形式を定めたとしても、複数の部署で参照されるのではなく単一の部署で参照されることが想定される文書については、共通の文書形式を部署ごとにカスタマイズとして運用することも考えられる。以上のようなことから、本実施の形態においては、必須項目を適宜更新することにより、信頼性の高い文書を確実に識別可能とする。

より具体的には、複数の文書から項目の見出しを抽出し、抽出した見出しを含む文書の数を求める。より多くの文書に含まれる見出しを必須項目と判定し、文書の信頼性を評価する。必須項目の判定は、新たに文書が登録する度に、または、日次処理のように、一定間隔で行う。それにより、必須項目は常に最新の文書の内容を考慮したものとなるので、文書の形式が変更され、必須項目が大きく変化しても対応が可能となる。以下、より詳細に説明する。

文書ＤＢ１４に記憶するのは、電子化された文書である。文書は、メタデータ、添付ファイル（文書ファイル）を含む。添付ファイルは文書を構成する様々な形式のファイルである。添付ファイルは、例えば、文書作成ソフトウェア（ワープロソフトウェア）、表計算ソフトウェア、作図ソフトウェアにより作成される。文書は、一又は複数の添付ファイルから構成される。

メタデータは文書に付随するデータである。メタデータには、文書の作成者、作成日時、更新日時などや、検索やグループ分け、階層構造を示すためのラベルが含まれる。さらに、文書に含まれる各添付ファイルのファイル名、作成者、作成日時、更新日時などの情報を含んでも良い。

図２は文書構造の一例を示す説明図である。図２で示す例では、文書は階層構造となっている。階層の最上位は作成年度である。最上位階層により、文書は作成年度ごとにグループ分けが可能である。各文書の作成年度はメタデータとして文書ＤＢ１４に記憶する。図２では、２０１３年度作成文書が示されている。次の階層はシステムである。ここで言うシステムは、ユーザが使用又は取り扱っているコンピュータシステムのことを示す。文書はコンピュータシステムの仕様書、設計書、マニュアル、報告書等である。システムの階層では、文書をコンピュータシステム毎にグループ分けしている。図２では、Ａシステムに関する文書と、Ｂシステムに関する文書が示されている。その次の階層は添付ファイル又は複数の添付ファイルを束ねた書庫ファイルとなっている。図２では、Ａシステムの文書として、報告書Ａ１．ＺＩＰ及び報告書Ａ２．ＺＩＰの書庫ファイルが示されている。さらに、それぞれの書庫ファイルに含まれる添付ファイルが示されている。Ｂシステムでは書庫ファイルはなく、添付ファイルが示されている。書庫ファイル及び添付ファイルには命名規則があり、書庫ファイル名、添付ファイル名により、それぞれの内容が識別可能となっている。例えば、書庫ファイル報告書Ａ１．ＺＩＰは、Ａシステムに関する報告書であり、順番号１のものであることを示す。書庫ファイル報告書Ａ１．ＺＩＰには、３つの添付ファイルが含まれており、それぞれ枝番が付されている。報告書Ａ１−０１．ｘｌｓでは、「−０１」が枝番である。

図３は文書種別テーブル１５ｂのレコードレイアウトの一例を示す説明図である。文書種別テーブルは種別欄、要素数欄を含む。種別欄には文書種別を記憶する。要素数欄には最大の要素数を記憶する。最大の要素数は、文書種別ごとに想定する必須項目の最大数とする。

図４は除外項目テーブル１５ｃのレコードレイアウトの一例を示す説明図である。除外項目とは、主としてメタデータであり、後述する要素テーブル更新処理において検索対象としない項目である。除外項目テーブル１５ｃは種別欄、パターン欄を含む。種別欄は除外項目の種別を記憶する。パターン欄は除外項目を正規表現で表したものである。

図５は要素テーブル１５ａのレコードレイアウトの一例を示す説明図である。要素テーブル１５ａは、文書種別ごとの必須項目に関するデータを記憶する。要素テーブル１５ａは種別欄、要素名タイトル欄、照合件数欄を含む。種別欄は文書種別を記憶する。要素名タイトル欄は必須項目とする項目の見出し又は見出しの一部を記憶する。照合件数欄は、要素名タイトルを含む文書の数を記憶する。

次に、具体的に文書の例を用いて、文書情報出力装置１が行う処理を説明する。図６は文書データの例を示す説明図である。図６Ａに示すのは、文書名「Ａ１報告書１」の文書データである。ヘッダに文書名「Ａ１報告書１」、作成日「２０１４／４／４」、部署名「開発１部」が記載されている。フッタには、ページ番号「Ｐ１」、「関係者外秘」、「ｃｏｐｙｒｉｇｈｔ・・」が記載されている。本文は、４つの項目から構成されている。項目の見出しは、「１．ＸＸＸタイトルａ」、「２．ＸＸＸタイトルｂ」、「３．ＸＸＸタイトルｄ」、「４．ＸＸＸタイトルｅ」となっている。図６Ｂに示すのは、文書名「Ｂ１報告書１」の文書データである。ヘッダに文書名「Ｂ１報告書１」、作成日「２０１４／４／３０」、部署名「開発２部」が記載されている。フッタには、ページ番号「Ｐ１」、「関係者外秘」、「ｃｏｐｙｒｉｇｈｔ・・」が記載されている。本文は、４つの項目から構成されている。項目の見出しは、「１．ＸＸＸタイトルｂ」、「２．ＸＸＸタイトルｃ」、「３．ＸＸＸタイトルｅ」、「４．ＸＸＸタイトルｇ」となっている。図６Ｃに示すのは、文書名「Ｃ１報告書１」の文書データである。ヘッダに文書名「Ｃ１報告書１」、作成日「２０１４／５／１２」、部署名「開発３部」が記載されている。フッタには、ページ番号「Ｐ１」、「関係者外秘」、「ｃｏｐｙｒｉｇｈｔ・・」が記載されている。本文は、４つの項目から構成されている。項目の見出しは、「１．ＸＸＸタイトルａ」、「２．ＸＸＸタイトルｂ」、「３．ＸＸＸタイトルｃ」、「４．ＸＸＸタイトルｅ」となっている。以下、図６に示した３つの文書を用いて、文書情報出力装置１で行われる処理を説明する。

図７は要素テーブル１５ａの更新処理の手順の一例を示すフローチャートである。文書情報出力装置１のＣＰＵ１１は、更新された添付ファイルを検知する（ステップＳ１）。添付ファイルが更新されたか否かは、例えば、更新日時の変化や、ファイル容量の変化などにより判定する。これらに限らず、添付ファイルの更新を検知する他の公知技術を用いることが可能である。なお、更新された添付ファイルが複数の場合は、以下のステップＳ２以降の処理を添付ファイル毎に繰り返す。

ＣＰＵ１１は更新された添付ファイルがテキストファイルか否かを判定する（ステップＳ２）。ＣＰＵ１１は添付ファイルがテキストファイルであると判定した場合（ステップＳ２でＹＥＳ）、処理をステップＳ４に移す。ＣＰＵ１１は添付ファイルがテキストファイルではないと判定した場合（ステップＳ２でＮＯ）、添付ファイルのテキスト化を行う（ステップＳ３）。添付ファイルの形式毎に変換ツールを予め用意し、更新された添付ファイル毎に対応する変換ツールを選択し、テキスト化を行う。ワープロソフトウェアで作成された添付ファイルであれば、ファイルデータの中にテキストデータが含まれているので、それを抽出すれば良い。添付ファイルがテキスト付きＰＤＦファイルの場合も同様にファイルデータからテキストデータを抽出すれば良い。添付ファイルがテキスト付きでないＰＤＦファイルや画像ファイルの場合は、ファイルデータに含まれている画像データからＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）技術を用いてテキスト認識を行う。これら変換ツールは公知技術により実現可能である。なお、添付ファイルが、表計算ソフトウェアや作図ソフトウェアで作成されたものの場合、文書本体に含むべき文章が含まれている可能性は低い。よって、表計算ソフトウェアや作図ソフトウェアで作成された添付ファイルを処理対象外として良い。

次に、ＣＰＵ１１は除外項目の削除を行う（ステップＳ４）。除外項目の削除は、除外項目テーブル１５Ｃに定義されているパターン（除外要素情報）に当てはまる文字列を、テキスト化された添付ファイル内で検索し、検索にヒットしたものを削除する処理である。ＣＰＵ１１は必須項目の抽出を行う（ステップＳ５）。前述したように必須項目には見出しがあると前提するので、見出しの抽出を行う。ここで、見出しは、「項番」＋「４０字以内の文字列」＋「改行コード」とする。項番は例えば、「１．」、「１）」、「（１）」、「Ａ．」、「あ．」などの文字列である。ＣＰＵ１１は、これらのルールに当てはまる文字列をテキスト化された添付ファイルから抽出する。見出しを示す文字列パターンは予め規定し、制御プログラム１Ｐに埋め込んでおいても良いし、ＲＯＭ１３や大容量記憶装置１５に記憶しておいても良い。

抽出した必須項目は１次テーブル１５ｄに記憶する。図８は一次テーブル１５ｄのレコードレイアウトの一例を示す説明図である。一次テーブル１５ｄは文書名欄、必須項目欄を含む。文書名欄は文書名を記憶する。必須項目欄は上述のステップＳ５で抽出した項目を記憶する。図８には、図６で示した３つの報告書についての処理結果を示してある。なお、一次テーブル１５ｄに記憶する必須項目は、必須項目の候補となるものである。

次に、ＣＰＵ１１は検索に用いる文字列（要素名）の生成を行う（ステップＳ６）。ＣＰＵ１１は、ステップＳ５で抽出した見出しより項番を削除する。すなわち、見出しより項番を除いた残りの文字列の全部または一部が要素名である。

次に、ＣＰＵ１１は、添付ファイルの１つを照合元文書とし、それ以外の添付ファイルから１つを照合先文書として特定する（ステップＳ７）。ＣＰＵ１１は、特定した添付ファイルに要素名が含まれていないか検索を行う（ステップＳ８）。検索は、要素名を構成する文字列全体が一致する完全一致検索のみではなく、部分一致検索も行う。ＣＰＵ１１は、検索がヒットしたか否かを判定する（ステップＳ９）。

ＣＰＵ１１は、検索にヒットしたと判定した場合（ステップＳ９でＹＥＳ）、二次テーブル１５ｅを更新する（ステップＳ１０）。具体的には、照合元文書である添付ファイルの文書名、処理対象の必須項目、件数、要素名を対応付けて二次テーブル１５ｅを更新する。検索にヒットした要素名が既に記憶されている場合、ＣＰＵ１１は、当該要素名に対応した件数を加算する。ヒットした要素名が記憶されていない場合、ＣＰＵ１１は、検索にヒットした要素名、その件数を１として記憶する。図９は二次テーブル１５ｅのレコードレイアウトの一例を示す説明図である。二次テーブル１５ｅは、文書名欄、必須項目欄、件数欄、要素名欄を含む。文書名欄は文書名を記憶する。必須項目欄は文書に対応した必須項目を記憶する。件数欄は、要素項目が含まれている他の文書の件数（出現度数）を記憶する。要素名欄は要素項目を示す文字列を記憶する。ＣＰＵ１１は、検索にヒットしなかったと判定した場合（ステップＳ９でＮＯ）、処理をステップＳ１１に移す。

ＣＰＵ１１は、まだ照合（検索）をしていない要素名がある否かを判定する（ステップＳ１１）。ＣＰＵ１１は、未処理の要素名がある場合（ステップＳ１１でＹＥＳ）、処理をステップＳ８に戻す。未処理の要素名がない場合（ステップＳ１１でＮＯ）、ＣＰＵ１１は、まだ照合（検索）をしていない未処理の添付ファイルがあるか否かを判定する（ステップＳ１２）。ＣＰＵ１１は、未処理の添付ファイルがあると判定した場合（ステップＳ１２でＹＥＳ）、未処理の照合先文書（添付ファイル）を特定し（ステップＳ７）、ステップＳ８以降の処理を繰り返す。

図６に示した３つの文書「Ａ１報告書１」、「Ｂ１報告書１」、及び「Ｃ１報告書１」が処理対象とした場合は、「Ａ１報告書１」の必須項目は、「Ｂ１報告書１」、「Ｃ１報告書１」と照合する。「Ｂ１報告書１」の必須項目は、「Ａ１報告書１」、「Ｃ１報告書１」と照合する。「Ｃ１報告書１」の必須項目は、「Ａ１報告書１」、「Ｂ１報告書１」と照合する。

ＣＰＵ１１は、未処理の添付ファイルがないと判定した場合（ステップＳ１２でＮＯ）、二次テーブル１５ｅを元に、要素テーブル１５ａを更新する（ステップＳ１３）。具体的には、二次テーブル１５ｅに記憶されている文書名及び必須項目名毎に、件数と要素名とを取り出す。その中で、件数が最も多く、要素名を表す文字列の長さが所定の長さ（例えば、５文字）以上のものを選択し、それ以外のものは削除する。すなわち、文書名及び必須項目名毎に、１つの件数と要素名との組み合わせを選択する。選択した文書名、必須項目、件数、要素名のうち、文書名は文書種別に変換し、要素テーブル１５ａの種別欄に記憶する。要素名（検索文字列）は要素名タイトル欄に記憶する。件数は照合件数欄に記憶する。

図９に示す例では、Ａ１報告書１の必須項目「１．ＸＸＸタイトルａ」より生成した文字列「Ｘタイトルａ」が、他の文書１件の必須項目に含まれていることを示している。同様に「２．ＸＸＸタイトルｂ」より生成した文字列「ＸＸタイトルｂ」が、他の文書２件の必須項目に含まれていることを示している。同様に「３．ＸＸＸタイトルｄ」より生成した文字列は、いずれも他の文書には含まれていなかったことを示している。そのため、件数は０となり、要素名欄は空欄となっている。図９の示す以下の行も、上述と同様である。

なお、要素テーブルに記憶するのは、件数が所定件数以上としても良い。また、対象となる文書に占める割合が所定値以上ものとしても良い。例えば、報告書１が１０件ある場合に、割合が７０％以上ものを選択するならば、件数が７件以上の要素名が選択されることになる。要素テーブル１５ａに記憶された要素名を含む項目名が、必須項目である。

上述の例では、添付ファイルが３つの場合について述べたが、それに限らない。すでに文書ＤＢ１４に記憶されている添付ファイルがある場合には、それらの添付ファイルも含めて処理をするものとする。

また、要素テーブル１５ａの更新処理は、添付ファイルが新規登録される毎に、又は更新される毎に行うが、それに限らない。日次処理として、ユーザの利用が少ない時間帯に処理を実行しても良い。日次処理をする場合には、新規登録又は更新された添付ファイルをすぐに特定できるように、添付ファイルが新規登録又は更新されたときに、その添付ファイル名を文書ＤＢ１４などに記憶しておいても良い。また、１次テーブル１５ｄ及び２次テーブル１５ｅは更新処理毎に新たに生成するが、それに限らない。更新処理終了後においても、１次テーブル１５ｄ及び２次テーブル１５ｅを残しておき、次に更新処理を行う場合は、新規登録又は更新された添付ファイルに関する部分のみを更新すれば良い。それにより、文書ＤＢ１４に含まれている添付ファイルが増加しても、一度、１次テーブル１５ｄ及び２次テーブル１５ｅを生成すれば、その後の処理量を減らすことが可能となる。

次に、文書情報の出力について説明する。図１０はメタ情報テーブルのレコードレイアウトの一例を示す説明図である。メタ情報テーブルは、例えば、文書ＤＢ１４に添付ファイルとともに記憶する。メタ情報テーブルは、種別欄、ファイル名欄、用紙欄、枚数欄、容量欄、要素数欄を含む。種別欄は文書種別を記憶する。ファイル名欄は添付ファイルの名称を記憶する。用紙欄は添付ファイルに設定している用紙のサイズを記憶する。枚数欄は添付ファイルのページ数又は印刷時の出力枚数を記憶する。容量欄は添付ファイルのファイル容量を記憶する。要素数欄は要素テーブルに定義されている要素を添付ファイルが含んでいる件数を記憶する。メタ情報テーブルは添付ファイルが新規登録又は更新される毎に更新される。なお、要素数欄は後述する文書情報出力処理の際に更新される。それに限らず、要素テーブル１５ａが更新される毎に、更新してもよい。

図１１及び図１２は文書情報出力処理の手順の一例を示すフローチャートである。文書情報出力装置１のＣＰＵ１１はユーザからのリクエストに従い、文書の大分類を一覧表示する（ステップＳ２１）。大分類の一例は作成年度である。ＣＰＵ１１はユーザが選択した大分類を取得する（ステップＳ２２）。ＣＰＵ１１は大分類に含まれる文書を構成する添付ファイルをある種別毎に表示する（ステップＳ２３）。例えば、システム名毎に表示する。次に、ＣＰＵ１１は「分析」ボタンが押下されたか否かを判定する（ステップＳ２４）。ＣＰＵ１１は「分析」ボタンが押下されなかったと判定した場合（ステップＳ２４でＮＯ）、終了が指示されたものとして、処理を終了する。ＣＰＵ１１は、「分析」ボタンが押下されたと判定した場合（ステップＳ２４でＹＥＳ）、文書種別毎に、次の処理を行う。まず、ＣＰＵ１１は、各文書（添付ファイル）の見出しを抽出する（ステップＳ２５）。ＣＰＵ１１は要素テーブル１５ａから要素名を取得する（ステップＳ２６）。ＣＰＵ１１は抽出した見出しに要素名が含まれているか検索を行う（ステップＳ２７）。検索は、すべての見出しに対して、すべての要素名について行う。ＣＰＵ１１は文書毎に検索のヒット件数（要素数）を集計する（ステップＳ２８）。ＣＰＵ１１は文書毎に何件の要素名が含まれているかを求める。要素テーブル１５ａの更新処理後に、１次テーブル１５ｄを残してある場合は、添付ファイルの見出しは、１次テーブル１５ｄに記憶するものを利用しても良い。ＣＰＵ１１は求めた件数（要素数）を要素数メタ情報テーブルに記憶する。ＣＰＵ１１は求めた要素数の順番に文書を表示する（ステップＳ２９）。要素数は文書種別毎に求めるため、例えば、文書種別「報告書１」について、要素数順に表示する。

ＣＰＵ１１はユーザが「戻る」ボタンをマウスクリックで押下したか否かを判定する（ステップＳ３０）。ＣＰＵ１１は、ユーザが「戻る」ボタンを押下したと判定した場合（ステップＳ３０でＹＥＳ）、処理をステップＳ２３に戻し、種別表示を行う（ステップＳ２３）。以降は上述のとおりである。ＣＰＵ１１はユーザが「戻る」ボタンを押下していないと判定した場合（ステップＳ３０でＮＯ）、「改ページ」ボタンを押下した否かを判定する（ステップＳ３１）。ＣＰＵ１１は、ユーザが「改ページ」ボタンを押下したと判定した場合（ステップＳ３１でＹＥＳ）、表示しているものと異なる文書種別についての内容に表示を更新する（ステップＳ３２）。例えば、「報告書１」についての表示から、「報告書２」についての表示に更新する。ＣＰＵ１１は処理をステップＳ３０に戻す。

ＣＰＵ１１は、ユーザが「改ページ」ボタンを押下していないと判定した場合（ステップＳ３１でＮＯ）、ユーザが「前ページ」ボタンを押下したか否かを判定する（ステップＳ３３）。ＣＰＵ１１は、ユーザが「前ページ」ボタンを押下したと判定した場合（ステップＳ３３でＹＥＳ）、前のページの内容に表示を更新する（ステップＳ３４）。例えば、上述の例で言えば、「報告書２」についての表示から「報告書１」についての表示に更新する。なお、前ページがない場合、ＣＰＵ１１は表示更新を行わない。ＣＰＵ１１は処理をステップＳ３０に戻す。

ＣＰＵ１１は、ユーザが「前ページ」ボタンを押下していないと判定した場合（ステップＳ３３でＮＯ）、ユーザが文書を選択する操作を行ったか否かを判定する（ステップＳ３５）。ＣＰＵ１１は、ユーザが文書を選択する操作を行ったと判定した場合（ステップＳ３５でＹＥＳ）、文書に含まれる添付ファイルの一覧を表示する（ステップＳ３６）。ＣＰＵ１１は、ユーザが「戻る」ボタンを押下したか否かを判定する（ステップＳ３７）。ＣＰＵ１１は、ユーザが「戻る」ボタンを押下したと判定した場合（ステップＳ３７でＹＥＳ）、文書別の要素順表示に表示を更新し（ステップＳ３８）、処理をステップＳ３０に戻す。ＣＰＵ１１は、ユーザが文書を選択する操作を行わなかったと判定した場合（ステップＳ３５でＮＯ）、またはユーザが「戻る」ボタンを押下していないと判定した場合（ステップＳ３７でＮＯ）、終了が指示されたものとして、処理を終了する。

次に、文書情報出力装置１が出力した画像が表示装置に表示された場合の画面例を示す。図１３は一覧表示画面ｄ１の一例を示す説明図である。一覧表示画面ｄ１では大分類として作成年度ｄ１１、中分類としてシステム名ｄ１２が表示されている。作成年度の左の黒塗りの矩形は、選択している大分類を示している。図１３では、２０１３年度が選択されている。ユーザがマウスクリック等で大分類を選択し、添付一覧ボタンを押下すると、添付ファイル表示画面に遷移する。

図１４は添付ファイル表示画面ｄ２の一例を示す説明図である。添付ファイル表示画面ｄ２では、システム毎に、文書毎にグループ分けして表示している。図１４の例では、Ａシステムに関する表示ｄ１１、Ｂシステムに関する表示ｄ１２、Ｃシステムに関する表示ｄ１３がされている。各システムについての添付ファイルは、報告書毎にまとめられて表示されている。例えば、Ａシステムの報告書１はＡ１、Ｂシステムの報告書２はＢ２と表示されている。添付ファイル表示画面ｄ２で、ユーザが分析ボタンｄ１４を押下すると、要素順表示画面に遷移する。

図１５は要素順表示画面ｄ３の一例を示す説明図である。要素順表示画面ｄ３では、文種別ごとに要素数の降順に表示する。図１５の例では、文書種別「報告書１」について示している。１位についての情報ｄ３１、２位についての情報ｄ３２、３位についての情報ｄ３３が表示されている。各情報の先頭には文書名を示す文字列が示されている。図１５に示すように、要素数以外に枚数や容量を表示しても良い。枚数や容量は、上述したようにメタ情報テーブルに記憶されている。なお、図１５において、表示順を要素数の昇順に表示するように切り替えたり、枚数の降順や昇順、容量の降順や降順に表示するように切り替えたりすることが可能としても良い。

改頁ボタンｄ３４を押下すると、他の文書種別、例えば「報告書２」についての表示がされる。戻るボタンｄ３５を押下すると、添付ファイル表示画面に戻る。なお、要素順表示画面ｄ３が２頁以降の表示をしている場合は、「前頁」ボタンを表示させ、当該ボタンを押下した場合には、それより前に表示した文書種別の表示に戻しても良い。上述の例では、「報告書２」についての表示の場合に、「前頁」ボタンを押下する、「報告書１」についての表示に戻る。

要素順表示画面ｄ３において、文書を示すアイコンを選択すると、当該文書が選択されものとして、文書内容表示画面に遷移する。文書を示すアイコンは、中央に文書名を示す文字が表示されている矩形である。

図１６は文書内容表示画面ｄ４の一例を示す説明図である。図１６は文書Ｂ１、すなわち、Ｂシステムの報告書１が選択された場合の画面である。文書Ｂ１は３つのファイルｄ４１からなることが表示されている。戻るボタンｄ４２を押下すると、要素順表示画面ｄ３に戻る。なお、添付ファイル表示画面ｄ２において、文書を示すアイコンを選択した場合にも、文書内容表示画面ｄ４に遷移することとしても良い。その場合、戻るボタンｄ４２を押下したときは、直前の画面、添付ファイル表示画面ｄ２又は要素順表示画面ｄ３に戻せば良い。

本実施の形態においては、次のような効果を奏する。複数の文書に含まれる見出し文字列を要素（必須項目）として規定し、より多くの要素を含む文書を信頼性が高い文書として、表示出力する。それにより、ユーザは参照するに値する文書を容易に見つけ出すことが可能となる。

図１７は文書情報出力装置１の機能構成の一例を示すブロック図である。文書情報出力装置１は、取得部１１ａ、検索部１１ｂ、出力部１１ｃ、抽出部１１ｄ、生成部１１ｅ、特定部１１ｆ、除外部１１ｇ、変換部１１ｈを含む。ＣＰＵ１１が制御プログラム１Ｐを実行することにより、文書情報出力装置１は以下のように動作する。

取得部１１ａは、文書名及び見出しを含む複数の文書を取得する。検索部１１ｂは、複数の文書毎に、予め特定した検索文字列が見出しに含まれているかを検索する。出力部１１ｃは、検索ヒット件数を文書毎に集計し、集計した検索ヒット件数に基づいて、文書名を含む情報を出力する。抽出部１１ｄは、複数の文書から見出しを複数抽出する。生成部１１ｅは、抽出した各見出しを構成する文字列を生成する。特定部１１ｆは、生成した各文字列が、見出しの抽出元となった文書以外で見出しとして出現している出現度数を求め、求めた出現度数が所定値以上である文字列を検索文字列として特定する。除外部１１ｇは、見出しとして扱わない除外要素を定めた除外要素情報を取得し、取得した除外要素情報を用いて、文字列検索により複数の文書に含まれる除外要素を特定し、特定した除外要素を各文書から取り除く。変換部１１ｈは、テキスト形式でない文書をテキスト形式に変換する。

今回開示された実施の形態はすべての点で例示であって、制限的なものでは無いと考えられるべきである。本発明の範囲は、上記した意味では無く、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

以上の実施の形態に関し、さらに以下の付記を開示する。

（付記１）
文書ファイルの登録に応じて、該文書ファイルから抽出された見出し項目を前記文書ファイルと関連付けて記憶部に記憶し、
文書の種別についての指定を受け付け、
記憶された、文書の種別と見出し項目との対応関係に基づいて、指定された前記文書の種別に対応する見出し項目を特定し、前記記憶部において、特定した該見出し項目に対応づけられた文書ファイルを検索し、
検索結果を出力する、
処理をコンピュータに実行させる文書ファイル検索プログラム。

（付記２）
文書ファイルの登録に応じて、該文書ファイルから抽出された見出し項目を前記文書ファイルと関連付けて記憶した記憶部と、
文書の種別についての指定を受け付ける受付部と、
記憶された、文書の種別と見出し項目との対応関係に基づいて、指定された前記文書の種別に対応する見出し項目を特定し、前記記憶部において、特定した該見出し項目に対応づけられた文書ファイルを検索する検索部と、
検索結果を出力する出力部とを
備える文書ファイル検索装置。

（付記３）
文書ファイルの検索結果を出力するコンピュータが、
文書ファイルの登録に応じて、該文書ファイルから抽出された見出し項目を前記文書ファイルと関連付けて記憶部に記憶し、
文書の種別についての指定を受け付け、
記憶された、文書の種別と見出し項目との対応関係に基づいて、指定された前記文書の種別に対応する見出し項目を特定し、前記記憶部において、特定した該見出し項目に対応づけられた文書ファイルを検索し、
検索結果を出力する
文書ファイル検索方法。

（付記４）
文書名及び見出しを含む複数の文書を取得し、
前記複数の文書の内のそれぞれの文書について、所定の検索文字列が見出しに含まれているかを検索し、
検索ヒット件数を文書毎に集計し、
集計した検索ヒット件数に基づいて、文書名を含む情報を出力する
処理をコンピュータに実行させる文書情報出力プログラム。

（付記５）
前記複数の文書から見出しを複数抽出し、
抽出した各見出しを構成する文字列を生成し、
生成した各文字列が、見出しの抽出元となった文書以外で見出しとして出現している出現度数を求め、
求めた出現度数が所定値以上である文字列を前記検索文字列として特定する
処理をコンピュータに実行させる付記４に記載の文書情報出力プログラム。

（付記６）
前記抽出した各見出しを構成する文字列から長さの異なる複数の文字列を生成し、
生成した文字列が、見出しの抽出元となった文書以外で見出しとして出現している出現度数を前記生成した文字列毎に求め、
求めた出現度数が前記所定値以上であり、最も大きい文字列を前記検索文字列として特定する
処理をコンピュータに実行させる付記５に記載の文書情報出力プログラム。

（付記７）
予め定義されている見出しの正規表現を取得し、
取得した正規表現を用いた文字列検索により、前記文書から見出しを抽出する
処理をコンピュータに実行させる付記５又は６に記載の文書情報出力プログラム。

（付記８）
見出しとして扱わない除外要素を定めた除外要素情報を取得し、
取得した除外要素情報を用いて、文字列検索により前記複数の文書に含まれる除外要素を特定し、
特定した除外要素を各文書から取り除く
処理をコンピュータに実行させる付記４から７のいずれか１つに記載の文書情報出力プログラム。

（付記９）
各文書の種別を識別し、
前記見出しとして含むべき検索文字列は文書の種別と対応付けられており、
文書の種別毎に該文書の種別に対応した前記検索文字列を複数取得し、
文書の種別毎に検索し、集計し、文書名を含む情報を出力する
処理をコンピュータに実行させる付記４から付記８のいずれか１つに記載の文書情報出力プログラム。

（付記１０）
各文書の種別を識別し、
文書の種別毎に見出しを複数抽出し、
抽出した各見出しを構成する文字列を生成し、
生成した各文字列が、見出しの抽出元となった文書以外で見出しとして出現している出現度数を求め、
求めた出現度数が所定値以上である文字列を、文書の種別ごとの検索文字列として特定する
処理をコンピュータに実行させる付記５から付記９のいずれか１つに記載の文書情報出力プログラム。

（付記１１）
取得した前記複数の文書にテキスト形式でない文書が含まれている場合、
テキスト形式でない文書をテキスト形式に変換する
処理をコンピュータに実行させる付記４から付記１０のいずれか１つに記載の文書情報出力プログラム。

（付記１２）
前記文書名を含む情報として前記検索ヒット件数を出力する
処理をコンピュータに実行させる付記４から付記１１のいずれか１つに記載の文書情報出力プログラム。

（付記１３）
文書名及び見出しを含む複数の文書を取得する取得部と、
前記複数の文書の内のそれぞれの文書について、所定の検索文字列が見出しに含まれているかを検索する検索部と、
検索ヒット件数を文書毎に集計し、集計した検索ヒット件数に基づいて、文書名を含む情報を出力する出力部とを
備える文書情報出力装置。

（付記１４）
複数の文書から所定条件を満たす文書の文書情報を出力するコンピュータが、
文書名及び見出しを含む複数の文書を取得し、
前記複数の文書の内のそれぞれの文書について、所定の検索文字列が見出しに含まれているかを検索し、
検索ヒット件数を文書毎に集計し、
集計した検索ヒット件数に基づいて、文書名を含む情報を出力する
文書情報出力方法。

１文書情報出力装置（文書ファイル検索装置）
１１ＣＰＵ
１２ＲＡＭ
１３ＲＯＭ
１４文書ＤＢ
１５大容量記憶装置（記憶部）
１５ａ要素テーブル
１５ｂ文書種別テーブル
１５ｃ除外項目テーブル
１５ｄ一次テーブル
１５ｅ二次テーブル
１６表示出力部
１７通信部
１８読取り部
２ユーザ端末
Ｎネットワーク

Claims

文書ファイルの登録に応じて、該文書ファイルから抽出された見出し項目を前記文書ファイルと関連付けて記憶部に記憶し、
文書の種別についての指定を受け付け、
記憶された、文書の種別と見出し項目との対応関係に基づいて、指定された前記文書の種別に対応する見出し項目を特定し、前記記憶部において、特定した該見出し項目に対応づけられた文書ファイルを検索し、
検索結果を出力する、
処理をコンピュータに実行させる文書ファイル検索プログラム。
文書ファイルの登録に応じて、該文書ファイルから抽出された見出し項目を前記文書ファイルと関連付けて記憶した記憶部と、
文書の種別についての指定を受け付ける受付部と、
記憶された、文書の種別と見出し項目との対応関係に基づいて、指定された前記文書の種別に対応する見出し項目を特定し、前記記憶部において、特定した該見出し項目に対応づけられた文書ファイルを検索する検索部と、
検索結果を出力する出力部とを
備える文書ファイル検索装置。
文書ファイルの検索結果を出力するコンピュータが、
文書ファイルの登録に応じて、該文書ファイルから抽出された見出し項目を前記文書ファイルと関連付けて記憶部に記憶し、
文書の種別についての指定を受け付け、
記憶された、文書の種別と見出し項目との対応関係に基づいて、指定された前記文書の種別に対応する見出し項目を特定し、前記記憶部において、特定した該見出し項目に対応づけられた文書ファイルを検索し、
検索結果を出力する
文書ファイル検索方法。
文書名及び見出しを含む複数の文書を取得し、
前記複数の文書の内のそれぞれの文書について、所定の検索文字列が見出しに含まれているかを検索し、
検索ヒット件数を文書毎に集計し、
集計した検索ヒット件数に基づいて、文書名を含む情報を出力する
処理をコンピュータに実行させる文書情報出力プログラム。
前記複数の文書から見出しを複数抽出し、
抽出した各見出しを構成する文字列を生成し、
生成した各文字列が、見出しの抽出元となった文書以外で見出しとして出現している出現度数を求め、
求めた出現度数が所定値以上である文字列を前記検索文字列として特定する
処理をコンピュータに実行させる請求項４に記載の文書情報出力プログラム。
前記抽出した各見出しを構成する文字列から長さの異なる複数の文字列を生成し、
生成した文字列が、見出しの抽出元となった文書以外で見出しとして出現している出現度数を前記生成した文字列毎に求め、
求めた出現度数が前記所定値以上であり、最も大きい文字列を前記検索文字列として特定する
処理をコンピュータに実行させる請求項５に記載の文書情報出力プログラム。
文書名及び見出しを含む複数の文書を取得する取得部と、
前記複数の文書の内のそれぞれの文書について、所定の検索文字列が見出しに含まれているかを検索する検索部と、
検索ヒット件数を文書毎に集計し、集計した検索ヒット件数に基づいて、文書名を含む情報を出力する出力部とを
備える文書情報出力装置。
複数の文書から所定条件を満たす文書の文書情報を出力するコンピュータが、
文書名及び見出しを含む複数の文書を取得し、
前記複数の文書の内のそれぞれの文書について、所定の検索文字列が見出しに含まれているかを検索し、
検索ヒット件数を文書毎に集計し、
集計した検索ヒット件数に基づいて、文書名を含む情報を出力する
文書情報出力方法。