JP2016018279A - 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法 - Google Patents

文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法 Download PDF

Info

Publication number
JP2016018279A
JP2016018279A JP2014139112A JP2014139112A JP2016018279A JP 2016018279 A JP2016018279 A JP 2016018279A JP 2014139112 A JP2014139112 A JP 2014139112A JP 2014139112 A JP2014139112 A JP 2014139112A JP 2016018279 A JP2016018279 A JP 2016018279A
Authority
JP
Japan
Prior art keywords
document
search
file
information output
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014139112A
Other languages
English (en)
Inventor
山本 昭彦
Akihiko Yamamoto
昭彦 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2014139112A priority Critical patent/JP2016018279A/ja
Publication of JP2016018279A publication Critical patent/JP2016018279A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】多数の文書(文書ファイル)の中から信頼性が高いと思われる文書(文書ファイル)を検索し、その検索結果を出力する文書ファイル検索プログラム等を提供する。【解決手段】文書ファイル検索プログラムは、文書ファイルの登録に応じて、該文書ファイルから抽出された見出し項目を前記文書ファイルと関連付けて記憶部に記憶し、文書の種別についての指定を受け付け、記憶された文書の種別と見出し項目との対応関係に基づいて、指定された前記文書の種別に対応する見出し項目を特定し、前記記憶部において、特定した該見出し項目に対応づけられた文書ファイルを検索し、検索結果を出力する処理をコンピュータに実行させる。【選択図】図11

Description

本発明は文書管理システムに記憶されている文書の情報を出力する技術に関する。
近年、各種文書を電子化し、電子化した文書を文書管理データベースに一元管理することが行われている。文書管理データベースには多種多様な文書が格納されるために、必要な文書を効率的に探し出せる機能が求められている。それに対して、予め所定のキーワードを定めておき、新規に文書が登録される際に、文書内に含まれるキーワードと当該文書の紐付けを行うシステムが提案されている(特許文献1)。文書登録時にキーワードとの紐付けを行うために、キーワード検索の際の検索時間が短縮できるという利点がある。
特開2002−366483号公報
しかしながら、検索に頻繁に使うキーワードほど多くの文書に現れるため、検索にヒットした文書の件数が多数であり、目的に則した文書を特定するのが困難なことがある。特に、未完成な文書や定めた様式に従っていないなど、信頼性が低い文書をも登録されている場合は、文書の内容を参照しないと、参照すべき文書であるか否か判断できない。そのため、参照すべき文書を得るまでに時間が掛かってしまう。
一つの側面では、本発明の目的は、多数の文書(文書ファイル)の中から信頼性が高いと思われる文書(文書ファイル)を検索し、その検索結果を出力する文書ファイル検索プログラム等を提供することである。
プログラムの一観点によれば、文書ファイルの登録に応じて、該文書ファイルから抽出された見出し項目を前記文書ファイルと関連付けて記憶部に記憶し、文書の種別についての指定を受け付け、記憶された文書の種別と見出し項目との対応関係に基づいて、指定された前記文書の種別に対応する見出し項目を特定し、前記記憶部において、特定した該見出し項目に対応づけられた文書ファイルを検索し、検索結果を出力する処理をコンピュータに実行させる。
一つの側面では、多数の文書(文書ファイル)の中から信頼性が高いと思われる文書(文書ファイル)を検索し、その検索結果を出力することが可能となる。
文書情報出力システムの構成例を示す説明図である。 文書構造の一例を示す説明図である。 文書種別テーブルのレコードレイアウトの一例を示す説明図である。 除外項目テーブルのレコードレイアウトの一例を示す説明図である。 要素テーブルのレコードレイアウトの一例を示す説明図である。 文書データの例を示す説明図である。 要素テーブルの更新処理の手順の一例を示すフローチャートである。 一次テーブルのレコードレイアウトの一例を示す説明図である。 二次テーブルのレコードレイアウトの一例を示す説明図である。 メタ情報テーブルのレコードレイアウトの一例を示す説明図である。 文書情報出力処理の手順の一例を示すフローチャートである。 文書情報出力処理の手順の一例を示すフローチャートである。 一覧表示画面の一例を示す説明図である。 添付ファイル表示画面の一例を示す説明図である。 要素順表示画面の一例を示す説明図である。 文書内容表示画面の一例を示す説明図である。 文書情報出力装置の機能構成の一例を示すブロック図である。
以下、本明細書に開示する文書情報出力装置を、図面を参照しつつ、詳細に説明する。
図1は文書情報出力システムの構成例を示す説明図である。文書情報出力システムは、文書情報出力装置(文書ファイル検索装置)1、複数のユーザ端末2、ネットワークNを含む。
文書情報出力装置1は、CPU(Central Processing Unit)11、RAM(Random Access Memory)12、ROM(Read Only Memory)13、文書DB(DateBase)14、大容量記憶装置(記憶部)15、表示出力部16、通信部17、読取り部18を含む。各構成はバスで接続されている。
CPU11はROM13に記憶された制御プログラム1Pに従いハードウェア各部を制御する。RAM12は例えばSRAM(Static RAM)、DRAM(Dynamic RAM)、フラッシュメモリである。RAM12はCPU11によるプログラムの実行時に発生するデータを一時的に記憶する。
大容量記憶装置15は例えばハードディスク、SSD(Solid State Drive)である。大容量記憶装置15は、要素テーブル15a、文書種別テーブル15b、除外項目テーブル15c、一次テーブル15d、二次テーブル15eを記憶している。表示出力部16は、文書情報を表示する画像をCRT(Cathode Ray Tube)、液晶表示装置などの表示装置に出力する。
通信部17はネットワークNを介して、ユーザ端末2と通信を行う。読取り部18はCD(Compact Disk)−ROM、DVD(Digital Versatile Disc)−ROMを含む可搬型記憶媒体1aを読み取る。CPU11は読取り部18を介して、制御プログラム1Pを可搬型記憶媒体1aより読み取り、RAM12に記憶し実行しても良い。また、CPU11がネットワークNを介して他のコンピュータから制御プログラム1Pをダウンロードし、RAM12に記憶しても良い。さらにまた、半導体メモリ1bから、CPU11が制御プログラム1Pを読み込んでも良い。
次に、本実施の形態で扱う文書について説明する。文書情報出力装置1が扱う文書は、業務に使う文書である。したがって、各文書は一定の規則に従って作られているものと想定する。ここで、文書とは文章のみではなく、内容補足のための図表も含んでも良いものとする。文書は複数の項目から構成されている。各項目には、本体の文章や図表以外に、「1.」、「2.」や「a.」、「b.」などの項番が付された見出し(タイトル)が含まれている。
文書にはヘッダ部、フッタ部を含んでも良い。ヘッダ部、フッタ部は、文書名、日付、作成部署名、ページ番号や、「関係者外秘」、「copyright」などのメタデータを含んでいる。文書を構成する各項目や、ヘッダ部、フッタ部に含む文書名などの各メタデータを要素と呼ぶ。
文書には予め定められた文書種別が付与されているものとする。文書種別の例としては、報告書、仕様書、マニュアル、議事録である。また、文書名には命名規則が予め定められている。文書の作成者は、命名規則に従い、文書名を付与するものとする。文書名により文書種別が示されている。
次に、複数の文書の中から信頼性の高い文書をどのようにして選択するのか、そのアルゴリズムの概要について説明する。文書を構成する複数の項目には各文書に含まれるべき項目である必須項目と、各文書に含まれていなくても良い任意項目があるものとする。ここで、文書の信頼性が高いとは、文書種別に応じた必須項目をより多く含むこととする。例えば、文書種別「報告書1」の必須項目の数が5とする場合、必須項目を5つ含む文書が最も信頼性が高く、必須項目を1つも含まない文書が最も信頼性が低いとみなされる。
各文書の信頼性を適切に評価するためには、必須項目をどのように設定するかが重要となる。しかしながら、必須項目を予め定めておくことは困難なことも多い。上述したように本実施の形態で扱う文書は業務に使う文書であるため、予め定められた形式に従い作成されていることが期待されている。しかし、業務内容や業務進め方などの変化に伴い、文書の形式も変更される場合が考えられる。それに合わせて、必須項目も変更する必要がある。また、全社的に共通の文書形式を定めたとしても、複数の部署で参照されるのではなく単一の部署で参照されることが想定される文書については、共通の文書形式を部署ごとにカスタマイズとして運用することも考えられる。以上のようなことから、本実施の形態においては、必須項目を適宜更新することにより、信頼性の高い文書を確実に識別可能とする。
より具体的には、複数の文書から項目の見出しを抽出し、抽出した見出しを含む文書の数を求める。より多くの文書に含まれる見出しを必須項目と判定し、文書の信頼性を評価する。必須項目の判定は、新たに文書が登録する度に、または、日次処理のように、一定間隔で行う。それにより、必須項目は常に最新の文書の内容を考慮したものとなるので、文書の形式が変更され、必須項目が大きく変化しても対応が可能となる。以下、より詳細に説明する。
文書DB14に記憶するのは、電子化された文書である。文書は、メタデータ、添付ファイル(文書ファイル)を含む。添付ファイルは文書を構成する様々な形式のファイルである。添付ファイルは、例えば、文書作成ソフトウェア(ワープロソフトウェア)、表計算ソフトウェア、作図ソフトウェアにより作成される。文書は、一又は複数の添付ファイルから構成される。
メタデータは文書に付随するデータである。メタデータには、文書の作成者、作成日時、更新日時などや、検索やグループ分け、階層構造を示すためのラベルが含まれる。さらに、文書に含まれる各添付ファイルのファイル名、作成者、作成日時、更新日時などの情報を含んでも良い。
図2は文書構造の一例を示す説明図である。図2で示す例では、文書は階層構造となっている。階層の最上位は作成年度である。最上位階層により、文書は作成年度ごとにグループ分けが可能である。各文書の作成年度はメタデータとして文書DB14に記憶する。図2では、2013年度作成文書が示されている。次の階層はシステムである。ここで言うシステムは、ユーザが使用又は取り扱っているコンピュータシステムのことを示す。文書はコンピュータシステムの仕様書、設計書、マニュアル、報告書等である。システムの階層では、文書をコンピュータシステム毎にグループ分けしている。図2では、Aシステムに関する文書と、Bシステムに関する文書が示されている。その次の階層は添付ファイル又は複数の添付ファイルを束ねた書庫ファイルとなっている。図2では、Aシステムの文書として、報告書A1.ZIP及び報告書A2.ZIPの書庫ファイルが示されている。さらに、それぞれの書庫ファイルに含まれる添付ファイルが示されている。Bシステムでは書庫ファイルはなく、添付ファイルが示されている。書庫ファイル及び添付ファイルには命名規則があり、書庫ファイル名、添付ファイル名により、それぞれの内容が識別可能となっている。例えば、書庫ファイル報告書A1.ZIPは、Aシステムに関する報告書であり、順番号1のものであることを示す。書庫ファイル報告書A1.ZIPには、3つの添付ファイルが含まれており、それぞれ枝番が付されている。報告書A1−01.xlsでは、「−01」が枝番である。
図3は文書種別テーブル15bのレコードレイアウトの一例を示す説明図である。文書種別テーブルは種別欄、要素数欄を含む。種別欄には文書種別を記憶する。要素数欄には最大の要素数を記憶する。最大の要素数は、文書種別ごとに想定する必須項目の最大数とする。
図4は除外項目テーブル15cのレコードレイアウトの一例を示す説明図である。除外項目とは、主としてメタデータであり、後述する要素テーブル更新処理において検索対象としない項目である。除外項目テーブル15cは種別欄、パターン欄を含む。種別欄は除外項目の種別を記憶する。パターン欄は除外項目を正規表現で表したものである。
図5は要素テーブル15aのレコードレイアウトの一例を示す説明図である。要素テーブル15aは、文書種別ごとの必須項目に関するデータを記憶する。要素テーブル15aは種別欄、要素名タイトル欄、照合件数欄を含む。種別欄は文書種別を記憶する。要素名タイトル欄は必須項目とする項目の見出し又は見出しの一部を記憶する。照合件数欄は、要素名タイトルを含む文書の数を記憶する。
次に、具体的に文書の例を用いて、文書情報出力装置1が行う処理を説明する。図6は文書データの例を示す説明図である。図6Aに示すのは、文書名「A1報告書1」の文書データである。ヘッダに文書名「A1報告書1」、作成日「2014/4/4」、部署名「開発1部」が記載されている。フッタには、ページ番号「P1」、「関係者外秘」、「copyright・・」が記載されている。本文は、4つの項目から構成されている。項目の見出しは、「1.XXXタイトルa」、「2.XXXタイトルb」、「3.XXXタイトルd」、「4.XXXタイトルe」となっている。図6Bに示すのは、文書名「B1報告書1」の文書データである。ヘッダに文書名「B1報告書1」、作成日「2014/4/30」、部署名「開発2部」が記載されている。フッタには、ページ番号「P1」、「関係者外秘」、「copyright・・」が記載されている。本文は、4つの項目から構成されている。項目の見出しは、「1.XXXタイトルb」、「2.XXXタイトルc」、「3.XXXタイトルe」、「4.XXXタイトルg」となっている。図6Cに示すのは、文書名「C1報告書1」の文書データである。ヘッダに文書名「C1報告書1」、作成日「2014/5/12」、部署名「開発3部」が記載されている。フッタには、ページ番号「P1」、「関係者外秘」、「copyright・・」が記載されている。本文は、4つの項目から構成されている。項目の見出しは、「1.XXXタイトルa」、「2.XXXタイトルb」、「3.XXXタイトルc」、「4.XXXタイトルe」となっている。以下、図6に示した3つの文書を用いて、文書情報出力装置1で行われる処理を説明する。
図7は要素テーブル15aの更新処理の手順の一例を示すフローチャートである。文書情報出力装置1のCPU11は、更新された添付ファイルを検知する(ステップS1)。添付ファイルが更新されたか否かは、例えば、更新日時の変化や、ファイル容量の変化などにより判定する。これらに限らず、添付ファイルの更新を検知する他の公知技術を用いることが可能である。なお、更新された添付ファイルが複数の場合は、以下のステップS2以降の処理を添付ファイル毎に繰り返す。
CPU11は更新された添付ファイルがテキストファイルか否かを判定する(ステップS2)。CPU11は添付ファイルがテキストファイルであると判定した場合(ステップS2でYES)、処理をステップS4に移す。CPU11は添付ファイルがテキストファイルではないと判定した場合(ステップS2でNO)、添付ファイルのテキスト化を行う(ステップS3)。添付ファイルの形式毎に変換ツールを予め用意し、更新された添付ファイル毎に対応する変換ツールを選択し、テキスト化を行う。ワープロソフトウェアで作成された添付ファイルであれば、ファイルデータの中にテキストデータが含まれているので、それを抽出すれば良い。添付ファイルがテキスト付きPDFファイルの場合も同様にファイルデータからテキストデータを抽出すれば良い。添付ファイルがテキスト付きでないPDFファイルや画像ファイルの場合は、ファイルデータに含まれている画像データからOCR(Optical Character Recognition)技術を用いてテキスト認識を行う。これら変換ツールは公知技術により実現可能である。なお、添付ファイルが、表計算ソフトウェアや作図ソフトウェアで作成されたものの場合、文書本体に含むべき文章が含まれている可能性は低い。よって、表計算ソフトウェアや作図ソフトウェアで作成された添付ファイルを処理対象外として良い。
次に、CPU11は除外項目の削除を行う(ステップS4)。除外項目の削除は、除外項目テーブル15Cに定義されているパターン(除外要素情報)に当てはまる文字列を、テキスト化された添付ファイル内で検索し、検索にヒットしたものを削除する処理である。CPU11は必須項目の抽出を行う(ステップS5)。前述したように必須項目には見出しがあると前提するので、見出しの抽出を行う。ここで、見出しは、「項番」+「40字以内の文字列」+「改行コード」とする。項番は例えば、「1.」、「1)」、「(1)」、「A.」、「あ.」などの文字列である。CPU11は、これらのルールに当てはまる文字列をテキスト化された添付ファイルから抽出する。見出しを示す文字列パターンは予め規定し、制御プログラム1Pに埋め込んでおいても良いし、ROM13や大容量記憶装置15に記憶しておいても良い。
抽出した必須項目は1次テーブル15dに記憶する。図8は一次テーブル15dのレコードレイアウトの一例を示す説明図である。一次テーブル15dは文書名欄、必須項目欄を含む。文書名欄は文書名を記憶する。必須項目欄は上述のステップS5で抽出した項目を記憶する。図8には、図6で示した3つの報告書についての処理結果を示してある。なお、一次テーブル15dに記憶する必須項目は、必須項目の候補となるものである。
次に、CPU11は検索に用いる文字列(要素名)の生成を行う(ステップS6)。CPU11は、ステップS5で抽出した見出しより項番を削除する。すなわち、見出しより項番を除いた残りの文字列の全部または一部が要素名である。
次に、CPU11は、添付ファイルの1つを照合元文書とし、それ以外の添付ファイルから1つを照合先文書として特定する(ステップS7)。CPU11は、特定した添付ファイルに要素名が含まれていないか検索を行う(ステップS8)。検索は、要素名を構成する文字列全体が一致する完全一致検索のみではなく、部分一致検索も行う。CPU11は、検索がヒットしたか否かを判定する(ステップS9)。
CPU11は、検索にヒットしたと判定した場合(ステップS9でYES)、二次テーブル15eを更新する(ステップS10)。具体的には、照合元文書である添付ファイルの文書名、処理対象の必須項目、件数、要素名を対応付けて二次テーブル15eを更新する。検索にヒットした要素名が既に記憶されている場合、CPU11は、当該要素名に対応した件数を加算する。ヒットした要素名が記憶されていない場合、CPU11は、検索にヒットした要素名、その件数を1として記憶する。図9は二次テーブル15eのレコードレイアウトの一例を示す説明図である。二次テーブル15eは、文書名欄、必須項目欄、件数欄、要素名欄を含む。文書名欄は文書名を記憶する。必須項目欄は文書に対応した必須項目を記憶する。件数欄は、要素項目が含まれている他の文書の件数(出現度数)を記憶する。要素名欄は要素項目を示す文字列を記憶する。CPU11は、検索にヒットしなかったと判定した場合(ステップS9でNO)、処理をステップS11に移す。
CPU11は、まだ照合(検索)をしていない要素名がある否かを判定する(ステップS11)。CPU11は、未処理の要素名がある場合(ステップS11でYES)、処理をステップS8に戻す。未処理の要素名がない場合(ステップS11でNO)、CPU11は、まだ照合(検索)をしていない未処理の添付ファイルがあるか否かを判定する(ステップS12)。CPU11は、未処理の添付ファイルがあると判定した場合(ステップS12でYES)、未処理の照合先文書(添付ファイル)を特定し(ステップS7)、ステップS8以降の処理を繰り返す。
図6に示した3つの文書「A1報告書1」、「B1報告書1」、及び「C1報告書1」が処理対象とした場合は、「A1報告書1」の必須項目は、「B1報告書1」、「C1報告書1」と照合する。「B1報告書1」の必須項目は、「A1報告書1」、「C1報告書1」と照合する。「C1報告書1」の必須項目は、「A1報告書1」、「B1報告書1」と照合する。
CPU11は、未処理の添付ファイルがないと判定した場合(ステップS12でNO)、二次テーブル15eを元に、要素テーブル15aを更新する(ステップS13)。具体的には、二次テーブル15eに記憶されている文書名及び必須項目名毎に、件数と要素名とを取り出す。その中で、件数が最も多く、要素名を表す文字列の長さが所定の長さ(例えば、5文字)以上のものを選択し、それ以外のものは削除する。すなわち、文書名及び必須項目名毎に、1つの件数と要素名との組み合わせを選択する。選択した文書名、必須項目、件数、要素名のうち、文書名は文書種別に変換し、要素テーブル15aの種別欄に記憶する。要素名(検索文字列)は要素名タイトル欄に記憶する。件数は照合件数欄に記憶する。
図9に示す例では、A1報告書1の必須項目「1.XXXタイトルa」より生成した文字列「Xタイトルa」が、他の文書1件の必須項目に含まれていることを示している。同様に「2.XXXタイトルb」より生成した文字列「XXタイトルb」が、他の文書2件の必須項目に含まれていることを示している。同様に「3.XXXタイトルd」より生成した文字列は、いずれも他の文書には含まれていなかったことを示している。そのため、件数は0となり、要素名欄は空欄となっている。図9の示す以下の行も、上述と同様である。
なお、要素テーブルに記憶するのは、件数が所定件数以上としても良い。また、対象となる文書に占める割合が所定値以上ものとしても良い。例えば、報告書1が10件ある場合に、割合が70%以上ものを選択するならば、件数が7件以上の要素名が選択されることになる。要素テーブル15aに記憶された要素名を含む項目名が、必須項目である。
上述の例では、添付ファイルが3つの場合について述べたが、それに限らない。すでに文書DB14に記憶されている添付ファイルがある場合には、それらの添付ファイルも含めて処理をするものとする。
また、要素テーブル15aの更新処理は、添付ファイルが新規登録される毎に、又は更新される毎に行うが、それに限らない。日次処理として、ユーザの利用が少ない時間帯に処理を実行しても良い。日次処理をする場合には、新規登録又は更新された添付ファイルをすぐに特定できるように、添付ファイルが新規登録又は更新されたときに、その添付ファイル名を文書DB14などに記憶しておいても良い。また、1次テーブル15d及び2次テーブル15eは更新処理毎に新たに生成するが、それに限らない。更新処理終了後においても、1次テーブル15d及び2次テーブル15eを残しておき、次に更新処理を行う場合は、新規登録又は更新された添付ファイルに関する部分のみを更新すれば良い。それにより、文書DB14に含まれている添付ファイルが増加しても、一度、1次テーブル15d及び2次テーブル15eを生成すれば、その後の処理量を減らすことが可能となる。
次に、文書情報の出力について説明する。図10はメタ情報テーブルのレコードレイアウトの一例を示す説明図である。メタ情報テーブルは、例えば、文書DB14に添付ファイルとともに記憶する。メタ情報テーブルは、種別欄、ファイル名欄、用紙欄、枚数欄、容量欄、要素数欄を含む。種別欄は文書種別を記憶する。ファイル名欄は添付ファイルの名称を記憶する。用紙欄は添付ファイルに設定している用紙のサイズを記憶する。枚数欄は添付ファイルのページ数又は印刷時の出力枚数を記憶する。容量欄は添付ファイルのファイル容量を記憶する。要素数欄は要素テーブルに定義されている要素を添付ファイルが含んでいる件数を記憶する。メタ情報テーブルは添付ファイルが新規登録又は更新される毎に更新される。なお、要素数欄は後述する文書情報出力処理の際に更新される。それに限らず、要素テーブル15aが更新される毎に、更新してもよい。
図11及び図12は文書情報出力処理の手順の一例を示すフローチャートである。文書情報出力装置1のCPU11はユーザからのリクエストに従い、文書の大分類を一覧表示する(ステップS21)。大分類の一例は作成年度である。CPU11はユーザが選択した大分類を取得する(ステップS22)。CPU11は大分類に含まれる文書を構成する添付ファイルをある種別毎に表示する(ステップS23)。例えば、システム名毎に表示する。次に、CPU11は「分析」ボタンが押下されたか否かを判定する(ステップS24)。CPU11は「分析」ボタンが押下されなかったと判定した場合(ステップS24でNO)、終了が指示されたものとして、処理を終了する。CPU11は、「分析」ボタンが押下されたと判定した場合(ステップS24でYES)、文書種別毎に、次の処理を行う。まず、CPU11は、各文書(添付ファイル)の見出しを抽出する(ステップS25)。CPU11は要素テーブル15aから要素名を取得する(ステップS26)。CPU11は抽出した見出しに要素名が含まれているか検索を行う(ステップS27)。検索は、すべての見出しに対して、すべての要素名について行う。CPU11は文書毎に検索のヒット件数(要素数)を集計する(ステップS28)。CPU11は文書毎に何件の要素名が含まれているかを求める。要素テーブル15aの更新処理後に、1次テーブル15dを残してある場合は、添付ファイルの見出しは、1次テーブル15dに記憶するものを利用しても良い。CPU11は求めた件数(要素数)を要素数メタ情報テーブルに記憶する。CPU11は求めた要素数の順番に文書を表示する(ステップS29)。要素数は文書種別毎に求めるため、例えば、文書種別「報告書1」について、要素数順に表示する。
CPU11はユーザが「戻る」ボタンをマウスクリックで押下したか否かを判定する(ステップS30)。CPU11は、ユーザが「戻る」ボタンを押下したと判定した場合(ステップS30でYES)、処理をステップS23に戻し、種別表示を行う(ステップS23)。以降は上述のとおりである。CPU11はユーザが「戻る」ボタンを押下していないと判定した場合(ステップS30でNO)、「改ページ」ボタンを押下した否かを判定する(ステップS31)。CPU11は、ユーザが「改ページ」ボタンを押下したと判定した場合(ステップS31でYES)、表示しているものと異なる文書種別についての内容に表示を更新する(ステップS32)。例えば、「報告書1」についての表示から、「報告書2」についての表示に更新する。CPU11は処理をステップS30に戻す。
CPU11は、ユーザが「改ページ」ボタンを押下していないと判定した場合(ステップS31でNO)、ユーザが「前ページ」ボタンを押下したか否かを判定する(ステップS33)。CPU11は、ユーザが「前ページ」ボタンを押下したと判定した場合(ステップS33でYES)、前のページの内容に表示を更新する(ステップS34)。例えば、上述の例で言えば、「報告書2」についての表示から「報告書1」についての表示に更新する。なお、前ページがない場合、CPU11は表示更新を行わない。CPU11は処理をステップS30に戻す。
CPU11は、ユーザが「前ページ」ボタンを押下していないと判定した場合(ステップS33でNO)、ユーザが文書を選択する操作を行ったか否かを判定する(ステップS35)。CPU11は、ユーザが文書を選択する操作を行ったと判定した場合(ステップS35でYES)、文書に含まれる添付ファイルの一覧を表示する(ステップS36)。CPU11は、ユーザが「戻る」ボタンを押下したか否かを判定する(ステップS37)。CPU11は、ユーザが「戻る」ボタンを押下したと判定した場合(ステップS37でYES)、文書別の要素順表示に表示を更新し(ステップS38)、処理をステップS30に戻す。CPU11は、ユーザが文書を選択する操作を行わなかったと判定した場合(ステップS35でNO)、またはユーザが「戻る」ボタンを押下していないと判定した場合(ステップS37でNO)、終了が指示されたものとして、処理を終了する。
次に、文書情報出力装置1が出力した画像が表示装置に表示された場合の画面例を示す。図13は一覧表示画面d1の一例を示す説明図である。一覧表示画面d1では大分類として作成年度d11、中分類としてシステム名d12が表示されている。作成年度の左の黒塗りの矩形は、選択している大分類を示している。図13では、2013年度が選択されている。ユーザがマウスクリック等で大分類を選択し、添付一覧ボタンを押下すると、添付ファイル表示画面に遷移する。
図14は添付ファイル表示画面d2の一例を示す説明図である。添付ファイル表示画面d2では、システム毎に、文書毎にグループ分けして表示している。図14の例では、Aシステムに関する表示d11、Bシステムに関する表示d12、Cシステムに関する表示d13がされている。各システムについての添付ファイルは、報告書毎にまとめられて表示されている。例えば、Aシステムの報告書1はA1、Bシステムの報告書2はB2と表示されている。添付ファイル表示画面d2で、ユーザが分析ボタンd14を押下すると、要素順表示画面に遷移する。
図15は要素順表示画面d3の一例を示す説明図である。要素順表示画面d3では、文種別ごとに要素数の降順に表示する。図15の例では、文書種別「報告書1」について示している。1位についての情報d31、2位についての情報d32、3位についての情報d33が表示されている。各情報の先頭には文書名を示す文字列が示されている。図15に示すように、要素数以外に枚数や容量を表示しても良い。枚数や容量は、上述したようにメタ情報テーブルに記憶されている。なお、図15において、表示順を要素数の昇順に表示するように切り替えたり、枚数の降順や昇順、容量の降順や降順に表示するように切り替えたりすることが可能としても良い。
改頁ボタンd34を押下すると、他の文書種別、例えば「報告書2」についての表示がされる。戻るボタンd35を押下すると、添付ファイル表示画面に戻る。なお、要素順表示画面d3が2頁以降の表示をしている場合は、「前頁」ボタンを表示させ、当該ボタンを押下した場合には、それより前に表示した文書種別の表示に戻しても良い。上述の例では、「報告書2」についての表示の場合に、「前頁」ボタンを押下する、「報告書1」についての表示に戻る。
要素順表示画面d3において、文書を示すアイコンを選択すると、当該文書が選択されものとして、文書内容表示画面に遷移する。文書を示すアイコンは、中央に文書名を示す文字が表示されている矩形である。
図16は文書内容表示画面d4の一例を示す説明図である。図16は文書B1、すなわち、Bシステムの報告書1が選択された場合の画面である。文書B1は3つのファイルd41からなることが表示されている。戻るボタンd42を押下すると、要素順表示画面d3に戻る。なお、添付ファイル表示画面d2において、文書を示すアイコンを選択した場合にも、文書内容表示画面d4に遷移することとしても良い。その場合、戻るボタンd42を押下したときは、直前の画面、添付ファイル表示画面d2又は要素順表示画面d3に戻せば良い。
本実施の形態においては、次のような効果を奏する。複数の文書に含まれる見出し文字列を要素(必須項目)として規定し、より多くの要素を含む文書を信頼性が高い文書として、表示出力する。それにより、ユーザは参照するに値する文書を容易に見つけ出すことが可能となる。
図17は文書情報出力装置1の機能構成の一例を示すブロック図である。文書情報出力装置1は、取得部11a、検索部11b、出力部11c、抽出部11d、生成部11e、特定部11f、除外部11g、変換部11hを含む。CPU11が制御プログラム1Pを実行することにより、文書情報出力装置1は以下のように動作する。
取得部11aは、文書名及び見出しを含む複数の文書を取得する。検索部11bは、複数の文書毎に、予め特定した検索文字列が見出しに含まれているかを検索する。出力部11cは、検索ヒット件数を文書毎に集計し、集計した検索ヒット件数に基づいて、文書名を含む情報を出力する。抽出部11dは、複数の文書から見出しを複数抽出する。生成部11eは、抽出した各見出しを構成する文字列を生成する。特定部11fは、生成した各文字列が、見出しの抽出元となった文書以外で見出しとして出現している出現度数を求め、求めた出現度数が所定値以上である文字列を検索文字列として特定する。除外部11gは、見出しとして扱わない除外要素を定めた除外要素情報を取得し、取得した除外要素情報を用いて、文字列検索により複数の文書に含まれる除外要素を特定し、特定した除外要素を各文書から取り除く。変換部11hは、テキスト形式でない文書をテキスト形式に変換する。
今回開示された実施の形態はすべての点で例示であって、制限的なものでは無いと考えられるべきである。本発明の範囲は、上記した意味では無く、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
以上の実施の形態に関し、さらに以下の付記を開示する。
(付記1)
文書ファイルの登録に応じて、該文書ファイルから抽出された見出し項目を前記文書ファイルと関連付けて記憶部に記憶し、
文書の種別についての指定を受け付け、
記憶された、文書の種別と見出し項目との対応関係に基づいて、指定された前記文書の種別に対応する見出し項目を特定し、前記記憶部において、特定した該見出し項目に対応づけられた文書ファイルを検索し、
検索結果を出力する、
処理をコンピュータに実行させる文書ファイル検索プログラム。
(付記2)
文書ファイルの登録に応じて、該文書ファイルから抽出された見出し項目を前記文書ファイルと関連付けて記憶した記憶部と、
文書の種別についての指定を受け付ける受付部と、
記憶された、文書の種別と見出し項目との対応関係に基づいて、指定された前記文書の種別に対応する見出し項目を特定し、前記記憶部において、特定した該見出し項目に対応づけられた文書ファイルを検索する検索部と、
検索結果を出力する出力部とを
備える文書ファイル検索装置。
(付記3)
文書ファイルの検索結果を出力するコンピュータが、
文書ファイルの登録に応じて、該文書ファイルから抽出された見出し項目を前記文書ファイルと関連付けて記憶部に記憶し、
文書の種別についての指定を受け付け、
記憶された、文書の種別と見出し項目との対応関係に基づいて、指定された前記文書の種別に対応する見出し項目を特定し、前記記憶部において、特定した該見出し項目に対応づけられた文書ファイルを検索し、
検索結果を出力する
文書ファイル検索方法。
(付記4)
文書名及び見出しを含む複数の文書を取得し、
前記複数の文書の内のそれぞれの文書について、所定の検索文字列が見出しに含まれているかを検索し、
検索ヒット件数を文書毎に集計し、
集計した検索ヒット件数に基づいて、文書名を含む情報を出力する
処理をコンピュータに実行させる文書情報出力プログラム。
(付記5)
前記複数の文書から見出しを複数抽出し、
抽出した各見出しを構成する文字列を生成し、
生成した各文字列が、見出しの抽出元となった文書以外で見出しとして出現している出現度数を求め、
求めた出現度数が所定値以上である文字列を前記検索文字列として特定する
処理をコンピュータに実行させる付記4に記載の文書情報出力プログラム。
(付記6)
前記抽出した各見出しを構成する文字列から長さの異なる複数の文字列を生成し、
生成した文字列が、見出しの抽出元となった文書以外で見出しとして出現している出現度数を前記生成した文字列毎に求め、
求めた出現度数が前記所定値以上であり、最も大きい文字列を前記検索文字列として特定する
処理をコンピュータに実行させる付記5に記載の文書情報出力プログラム。
(付記7)
予め定義されている見出しの正規表現を取得し、
取得した正規表現を用いた文字列検索により、前記文書から見出しを抽出する
処理をコンピュータに実行させる付記5又は6に記載の文書情報出力プログラム。
(付記8)
見出しとして扱わない除外要素を定めた除外要素情報を取得し、
取得した除外要素情報を用いて、文字列検索により前記複数の文書に含まれる除外要素を特定し、
特定した除外要素を各文書から取り除く
処理をコンピュータに実行させる付記4から7のいずれか1つに記載の文書情報出力プログラム。
(付記9)
各文書の種別を識別し、
前記見出しとして含むべき検索文字列は文書の種別と対応付けられており、
文書の種別毎に該文書の種別に対応した前記検索文字列を複数取得し、
文書の種別毎に検索し、集計し、文書名を含む情報を出力する
処理をコンピュータに実行させる付記4から付記8のいずれか1つに記載の文書情報出力プログラム。
(付記10)
各文書の種別を識別し、
文書の種別毎に見出しを複数抽出し、
抽出した各見出しを構成する文字列を生成し、
生成した各文字列が、見出しの抽出元となった文書以外で見出しとして出現している出現度数を求め、
求めた出現度数が所定値以上である文字列を、文書の種別ごとの検索文字列として特定する
処理をコンピュータに実行させる付記5から付記9のいずれか1つに記載の文書情報出力プログラム。
(付記11)
取得した前記複数の文書にテキスト形式でない文書が含まれている場合、
テキスト形式でない文書をテキスト形式に変換する
処理をコンピュータに実行させる付記4から付記10のいずれか1つに記載の文書情報出力プログラム。
(付記12)
前記文書名を含む情報として前記検索ヒット件数を出力する
処理をコンピュータに実行させる付記4から付記11のいずれか1つに記載の文書情報出力プログラム。
(付記13)
文書名及び見出しを含む複数の文書を取得する取得部と、
前記複数の文書の内のそれぞれの文書について、所定の検索文字列が見出しに含まれているかを検索する検索部と、
検索ヒット件数を文書毎に集計し、集計した検索ヒット件数に基づいて、文書名を含む情報を出力する出力部とを
備える文書情報出力装置。
(付記14)
複数の文書から所定条件を満たす文書の文書情報を出力するコンピュータが、
文書名及び見出しを含む複数の文書を取得し、
前記複数の文書の内のそれぞれの文書について、所定の検索文字列が見出しに含まれているかを検索し、
検索ヒット件数を文書毎に集計し、
集計した検索ヒット件数に基づいて、文書名を含む情報を出力する
文書情報出力方法。
1 文書情報出力装置(文書ファイル検索装置)
11 CPU
12 RAM
13 ROM
14 文書DB
15 大容量記憶装置(記憶部)
15a 要素テーブル
15b 文書種別テーブル
15c 除外項目テーブル
15d 一次テーブル
15e 二次テーブル
16 表示出力部
17 通信部
18 読取り部
2 ユーザ端末
N ネットワーク

Claims (8)

  1. 文書ファイルの登録に応じて、該文書ファイルから抽出された見出し項目を前記文書ファイルと関連付けて記憶部に記憶し、
    文書の種別についての指定を受け付け、
    記憶された、文書の種別と見出し項目との対応関係に基づいて、指定された前記文書の種別に対応する見出し項目を特定し、前記記憶部において、特定した該見出し項目に対応づけられた文書ファイルを検索し、
    検索結果を出力する、
    処理をコンピュータに実行させる文書ファイル検索プログラム。
  2. 文書ファイルの登録に応じて、該文書ファイルから抽出された見出し項目を前記文書ファイルと関連付けて記憶した記憶部と、
    文書の種別についての指定を受け付ける受付部と、
    記憶された、文書の種別と見出し項目との対応関係に基づいて、指定された前記文書の種別に対応する見出し項目を特定し、前記記憶部において、特定した該見出し項目に対応づけられた文書ファイルを検索する検索部と、
    検索結果を出力する出力部とを
    備える文書ファイル検索装置。
  3. 文書ファイルの検索結果を出力するコンピュータが、
    文書ファイルの登録に応じて、該文書ファイルから抽出された見出し項目を前記文書ファイルと関連付けて記憶部に記憶し、
    文書の種別についての指定を受け付け、
    記憶された、文書の種別と見出し項目との対応関係に基づいて、指定された前記文書の種別に対応する見出し項目を特定し、前記記憶部において、特定した該見出し項目に対応づけられた文書ファイルを検索し、
    検索結果を出力する
    文書ファイル検索方法。
  4. 文書名及び見出しを含む複数の文書を取得し、
    前記複数の文書の内のそれぞれの文書について、所定の検索文字列が見出しに含まれているかを検索し、
    検索ヒット件数を文書毎に集計し、
    集計した検索ヒット件数に基づいて、文書名を含む情報を出力する
    処理をコンピュータに実行させる文書情報出力プログラム。
  5. 前記複数の文書から見出しを複数抽出し、
    抽出した各見出しを構成する文字列を生成し、
    生成した各文字列が、見出しの抽出元となった文書以外で見出しとして出現している出現度数を求め、
    求めた出現度数が所定値以上である文字列を前記検索文字列として特定する
    処理をコンピュータに実行させる請求項4に記載の文書情報出力プログラム。
  6. 前記抽出した各見出しを構成する文字列から長さの異なる複数の文字列を生成し、
    生成した文字列が、見出しの抽出元となった文書以外で見出しとして出現している出現度数を前記生成した文字列毎に求め、
    求めた出現度数が前記所定値以上であり、最も大きい文字列を前記検索文字列として特定する
    処理をコンピュータに実行させる請求項5に記載の文書情報出力プログラム。
  7. 文書名及び見出しを含む複数の文書を取得する取得部と、
    前記複数の文書の内のそれぞれの文書について、所定の検索文字列が見出しに含まれているかを検索する検索部と、
    検索ヒット件数を文書毎に集計し、集計した検索ヒット件数に基づいて、文書名を含む情報を出力する出力部とを
    備える文書情報出力装置。
  8. 複数の文書から所定条件を満たす文書の文書情報を出力するコンピュータが、
    文書名及び見出しを含む複数の文書を取得し、
    前記複数の文書の内のそれぞれの文書について、所定の検索文字列が見出しに含まれているかを検索し、
    検索ヒット件数を文書毎に集計し、
    集計した検索ヒット件数に基づいて、文書名を含む情報を出力する
    文書情報出力方法。
JP2014139112A 2014-07-04 2014-07-04 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法 Pending JP2016018279A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014139112A JP2016018279A (ja) 2014-07-04 2014-07-04 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014139112A JP2016018279A (ja) 2014-07-04 2014-07-04 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法

Publications (1)

Publication Number Publication Date
JP2016018279A true JP2016018279A (ja) 2016-02-01

Family

ID=55233488

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014139112A Pending JP2016018279A (ja) 2014-07-04 2014-07-04 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法

Country Status (1)

Country Link
JP (1) JP2016018279A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019194774A (ja) * 2018-05-01 2019-11-07 富士ゼロックス株式会社 情報処理装置及びプログラム
CN110427218A (zh) * 2018-05-01 2019-11-08 富士施乐株式会社 信息处理装置和非暂时性计算机可读介质
JP2023008685A (ja) * 2021-07-06 2023-01-19 株式会社 情報システムエンジニアリング 情報提供システム、情報提供方法、及びデータ構造

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0964976A (ja) * 1995-08-18 1997-03-07 Hitachi Ltd 電子新聞システム
JPH11282876A (ja) * 1998-03-28 1999-10-15 Matsushita Electric Ind Co Ltd 文書検索装置
JP2002342321A (ja) * 2001-05-17 2002-11-29 Ricoh Co Ltd 用語抽出装置と用語抽出方法及びそのプログラムを格納した記憶媒体
JP2003248690A (ja) * 2003-02-13 2003-09-05 Fuji Xerox Co Ltd 文書処理装置および方法
JP2006293656A (ja) * 2005-04-11 2006-10-26 Hitachi Advanced Digital Inc 文書検索処理方法とその記録媒体
JP2011039985A (ja) * 2009-08-18 2011-02-24 Toshiba Corp 文書処理装置およびプログラム
US20130275858A1 (en) * 2012-04-17 2013-10-17 Panasonic Corporation Information processing device

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0964976A (ja) * 1995-08-18 1997-03-07 Hitachi Ltd 電子新聞システム
JPH11282876A (ja) * 1998-03-28 1999-10-15 Matsushita Electric Ind Co Ltd 文書検索装置
JP2002342321A (ja) * 2001-05-17 2002-11-29 Ricoh Co Ltd 用語抽出装置と用語抽出方法及びそのプログラムを格納した記憶媒体
JP2003248690A (ja) * 2003-02-13 2003-09-05 Fuji Xerox Co Ltd 文書処理装置および方法
JP2006293656A (ja) * 2005-04-11 2006-10-26 Hitachi Advanced Digital Inc 文書検索処理方法とその記録媒体
JP2011039985A (ja) * 2009-08-18 2011-02-24 Toshiba Corp 文書処理装置およびプログラム
US20130275858A1 (en) * 2012-04-17 2013-10-17 Panasonic Corporation Information processing device

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019194774A (ja) * 2018-05-01 2019-11-07 富士ゼロックス株式会社 情報処理装置及びプログラム
CN110427218A (zh) * 2018-05-01 2019-11-08 富士施乐株式会社 信息处理装置和非暂时性计算机可读介质
JP7119544B2 (ja) 2018-05-01 2022-08-17 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
JP2023008685A (ja) * 2021-07-06 2023-01-19 株式会社 情報システムエンジニアリング 情報提供システム、情報提供方法、及びデータ構造

Similar Documents

Publication Publication Date Title
CN110083805B (zh) 一种将Word文件转换为EPUB文件的方法及系统
JP4682284B2 (ja) 文書差分検出装置
JP5138046B2 (ja) 検索システム、検索方法およびプログラム
US20060179039A1 (en) Method and system for performing secondary search actions based on primary search result attributes
CN107085583B (zh) 一种基于内容的电子文档管理方法及装置
JP2013541793A (ja) マルチモード検索クエリー入力手法
CN103136228A (zh) 一种图片搜索方法以及图片搜索装置
US10078672B2 (en) Search device, search method, and computer program product
JP3803961B2 (ja) データベース生成装置、データベース生成処理方法及びデータベース生成プログラム
US7284006B2 (en) Method and apparatus for browsing document content
US20070185832A1 (en) Managing tasks for multiple file types
US9524354B2 (en) Device, method, and program for processing data with tree structure
US20110252313A1 (en) Document information selection method and computer program product
JP2016018279A (ja) 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法
US11244000B2 (en) Information processing apparatus and non-transitory computer readable medium storing program for creating index for document retrieval
US10127208B2 (en) Document conversion device, document conversion method, and recording medium
JP2011053881A (ja) 文書管理システム
JP2010272006A (ja) 関係抽出装置、関係抽出方法、及びプログラム
JP2005258592A (ja) フォーマット変換装置およびファイル検索装置
JPWO2014170965A1 (ja) 文書処理方法、文書処理装置および文書処理プログラム
JP6361472B2 (ja) 対応情報生成プログラム、対応情報生成装置及び対応情報生成方法
JP5184987B2 (ja) 索引情報作成装置、索引情報作成方法及びプログラム
JP4307287B2 (ja) メタデータ抽出装置
JP7377565B2 (ja) 図面検索装置、図面データベース構築装置、図面検索システム、図面検索方法、及びプログラム
US11681862B1 (en) System and method for identifying location of content within an electronic document

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170406

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180228

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180828