JP2007226843A

JP2007226843A - 文書管理システム及び文書管理方法

Info

Publication number: JP2007226843A
Application number: JP2007156955A
Authority: JP
Inventors: Norito Watanabe; 範人渡辺; Ichiro Harashima; 一郎原島
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2007-06-14
Filing date: 2007-06-14
Publication date: 2007-09-06

Abstract

【課題】
インデクスの入力を自由形式にした場合、入力する人により記述がゆれてしまい、検索で漏れが起きる場合がある。
【解決手段】
入力された文書に対して索引となる文字列を、切り出し規則データにもとづき検索種別と共に切り出す切り出し処理部と、文字列を正式の表現に変換する個々の規則を持ち、文字列をそれぞれの規則に従い変換する複数の整形処理部と、該切り出し処理部が検索種別とともに切り出した文字列を、対応した整形規則データに従い、対応する該整形処理部を呼び出すことで、正式の表現に置き換える指示を行い、結果を整形文書ととして出力する整形処理制御部と、を持つ。
【効果】
別名や略称で記述されたインデクスを適宜正式名に置き換えることができ、漏れのない検索や解析を行うことが可能となる。
【選択図】図１

Description

本発明は、文書管理システム及び文書管理方法に関し、特に、出張報告や技術メモなどのような完全に定型化されていない文書データを、管理するものに関する。

従来、文書管理に関して、例えば、特開２０００−３４８０３０号公報がある。これは、構造化されていない単純な原文書から、予め登録されたフィールドを識別するデリミターをキーとして情報を抽出し、タグつきの構造化データに変換するものである。この方式によれば、特別なデータベース用の文書フォームを指定することなしに文書のデータベース化を行うことが可能となる。

また、入力されるフィールドが決まったとしても、記述が作成者に一任されている場合、表記ゆれの問題が生じる。例えば、全角・半角の違いや、「インタフェース」「インタフェイス」といった表記ゆれがあると、検索のキーワードに一致したものしか検索されないため検索漏れが起きてしまう。これを解決する手段として、あいまい検索と呼ばれる手法がある。この方法は、上記のようなパターンを正規化して（半角は全角化するなど）キーワードを統一する手法や、bi−gramやn−gram と呼ばれる部分文字一致での検索を行う方法などが提案されている。

特開２０００−３４８０３０号公報

従来技術では、作成者の記述の仕方によっては、検索の際に漏れてしまう場合がある。例えば、出張報告などでは、会社名を「株式会社日立製作所」と入力する場合もあれば、単に「日立」や「日製」といった入力をされる場合がある。この場合、名称が正式の名前の一部をとった略称になっているため、あいまい検索ではランクが低くなってしまうし、さらに「ＨＩＴＡＣＨＩ」など正式名とは文字列として関連の無い別名が入力されていた場合、あいまい検索でも検索されないものとなってしまう。

本発明の第１の目的は、作成者の記述の仕方が違っても、これら記述を統一的に検索できるようにすることである。

また、一般の文書は、インデクスとなるデータを識別するフィールドが明確に定義されていない場合や、定義されていてもユーザが、わずらわしさのために入力しない場合がある。本発明の第２の目的は、このような場合でもインデクスとなる情報の候補を抽出することである。

またさらに、文書が技術ノウハウなどのような明確に情報を伝える必要性の高いものの場合、文書は正確性や定量的な表現が重要となる。しかしながら、自由フォーマットで入力された文では、あいまいな表現が多用される場合がある。本発明の第３の目的は、あいまいな表現となる記述を抽出し、入力者に警告を発することで明確な文書を作成させることである。

また、複数の文書が存在する場合、その文書群の傾向を把握することが重要となる。つまり、どういった傾向の話題が多く記述されているか、また、どのような話題が最近多いかなども重要な情報である。本発明の第４の目的は、文書群から、その文書群の傾向を、各文書の内容を表すインデクスを抽出することで可視化することである。

出張報告や議事録，技術ノウハウ文書などは、大量に蓄積されて、必要により正確に検索されてその利用価値が高まる。例えば、出張報告の例では、顧客訪問の履歴を一覧することで２重の訪問を防止し、最新の状況を把握することで、顧客の状況に即応した対応を取ることができ、満足度の向上に役立てることができる。こういった利用を確実に行うためには、文書から必要な情報の抽出と、検索が重要となる。この目的のために、一般には、これら文書を入力する際に、必要となる情報をフィールドに分けた定形の文書フォームを決め、データベース化する方法が考えられる。しかしながら、情報を入力，収集する立場になれば、なるべく自由フォーマットで入力したいという要求もある。また最近では、これら文書は電子メールなどでやり取りされることも多く、この場合はテンプレートを用意したとしても、作成者の自由フォーマットで書かれる可能性が高くなってしまう。作成者の記述の仕方が違っても、これら記述を統一的に検索できるようにすることが必要である。

本発明の一つの特徴は、入力された文書に対して索引となる文字列を、切り出し規則データにもとづき検索種別と共に切り出す切り出し処理部と、文字列を正式の表現に変換する個々の規則を持ち、文字列をそれぞれの規則に従い変換する複数の整形処理部と、該切り出し処理部が検索種別とともに切り出した文字列を、対応した整形規則データに従い、対応する該整形処理部を呼び出すことで、正式の表現に置き換える指示を行い、結果を整形文書として出力する整形処理制御部とを持つことである。

また、本発明の他の特徴は、上記整形処理部は、用語の正規の名称と、該正規名の略称や略号，別名との対応表を保持し、該対応表に基づき上記切り出された文字列を正規の名称に変換するか、または、文字列を正規の表現に変換するルールを保持し該ルールに従い上記切り出された文字列を正規の名称に変換する手段を持つことである。

また、本発明のさらに他の特徴は、日付や報告対象が明記された報告文書で、変換ルールは、日付，報告人名，報告対象の組織名，報告目的の全てまたはいずれかを対象とするものである。

これにより、略称や組織名の変遷に影響しない正確なインデクスを作成することが可能となる。

また、本発明のさらに他の特徴は、上記辞書データは、報告対象を分類する手がかりとなる用語を、正式名，別名，上位概念用語，下位概念用語の情報と共に格納し、上記切り出し処理部は、該辞書データを利用した形態素解析により文字列に分解することで必要な用語を切り出し、上記、整形制御部は、該切り出された用語から正式表現を抽出するインデクス抽出処理部を呼び出すことでインデクス情報を文書に付加することである。これにより、明確にインデクスのフィールドを定義しなくても、その候補を抽出し、的確なインデクスを行うことが可能となる。

また、本発明のさらに他の特徴は、上記辞書データは、用語の意味が不適切な表現であるかどうかの情報を属性として保持し、上記切り出し処理部は、該辞書データを利用した形態素解析により文字列に分解することで必要な用語を切り出し、上記、整形制御部は、該切り出された文字列から不適切な表現である用語を抽出し、警告メッセージを表示する不適切表現抽出部を呼び出すことである。これにより、あいまい表現に対し適宜警告が発生するため明確な文書の蓄積が可能となる。

また、本発明のさらに他の特徴は、文書ごとに抽出されたインデクスの情報を格納するインデクス抽出データ格納部と、該インデクス抽出データ格納部のデータと該辞書データを利用し、該辞書データに登録された用語毎に、いくつの文書で利用されているかを可視化するインデクス情報可視化処理部をもつことである。これにより、注目する用語が文書群でどのような傾向で登録されているかを解析可視化することが可能となる。

本発明の上記特徴及びその他の特徴は、特許請求の範囲の記載及び以下の記載により、説明される。

本発明によれば、種々の記述の仕方された文書があっても、これら記述を統一的に検索できる。

以下、図面を用いて本発明の実施の形態を説明する。

図１は、本発明の一実施例の文書管理システムの構成と処理内容を示す。報告書などの入力文書１０１は切り出し処理部１０３にスキャナなどの入力装置を介してコンピュータで処理可能なデータとして入力される。ここで、入力文書１０１の具体的な例として、図２の入力文書例一２０１，入力文書例二２０２に示すような、フォーマットは決まっていないが、日付や訪問先を示す見出しがついているような形式の出張報告書を考える。切り出し処理部１０３では、入力された文書１０１から、日付や訪問場所などの索引対象となる文字列を抽出する。そのために、切り出し処理部１０３は切り出し規則データ保持部１０２から切り出し規則データを読み込み、これを参照して処理を行う。切り出し規則データの具体的な一例の内容を図３の切り出し規則データ例３０１に示す。切り出し規則データ例３０１は、データの種別を表すタグ名と、そのタグに関係して見出しとなりうる文字列を対応表形式で保持している。例えば、報告者情報であることを示す＜author＞に対しては、「報告者」「出張者」「＄（送信者）」が登録されている。ここで、「＄（送信者）」は、本文内に対応する見出しが見つからなかった場合の処理を示している。つまり、他の「報告者」や「出張者」という見出しが無かった場合には、その報告書の送信者を＜author＞にするという意味を示している。以下同様に、出張日情報を示す＜date＞，出張場所を示す＜place ＞，目的情報を示す＜purpose ＞，本文を示す＜body＞に関してそれぞれ定義されている。また、文字列が見出しかどうかの判別には、次のルールを採用することができる。

まず、文字列の区切り文字となるデリミター（例えば、改行，スペース，句読点，コロン，括弧など）を基準に文書を文字列に分解する。さらに分解された文字列に対し、切り出し規則データ例３０１に登録されている見出し文字列を探す。これを最後まで繰り返し、見出し文字列部分と、索引本体部分を切り分ける。その後、見出し文字列間に挟まれた文字列を、該当するタグに対する情報であると割り当てる。

以上のようにして、タグとそれに対する情報文字列に分けられたデータは、整形処理制御部１０５に入力される。

整形処理制御部１０５は、整形規則データ保持部１０４の整形規則データを参照し、対応する整形処理部を呼び出すことで、切り出し処理部１０３が出力したデータを整形し、整形文書１１１を出力する。整形規則データ保持部１０４の整形規則データの例としては、図４の整形規則データ例４０１に示すようなものが考えられる。この例では、＜author＞に対する情報は部署と氏名からなっており、それぞれ部署の正式名，氏名の正式名をデータベースから検索し置き換えすることを示している。この処理を行うのが会社名部署名整形処理部１０７である。同様に、＜date＞に関しては日付の正式表現、＜place ＞は会社名の整形をすることを示している。日付の整形処理は日時整形処理部１１０、目的名の整形処理は目的名整形処理部１０９が行う。また、報告の本体にあたる＜body＞は切り出された文字列をそのまましておき、整形しないことを示している。

会社名部署名整形処理部１０７は整形処理のため会社名部署名辞書部１０６を参照する。図６に、会社名部署名辞書部１０６の内容を示している。辞書の内容は会社名部署名辞書例６０１に示したような表形式になっており、会社名や部署名の正式名と、その別名，略号の対応がわかるようになっている。また、会社名とその下位組織である部署名が階層的な関係にあることも示している。このような、階層関係のデータも管理することにより、部署名だけで会社名を特定することが可能となることもある。同様に、部署の下位階層データとして所属する人員の名前を登録しておくことも考えられる。これにより、人名の入力だけで所属，会社名などを特定することも可能となる。この際、複数の候補がある場合は、一つに特定することはできないが、警告をユーザに表示し、対話的に入力してもらうという方法を採ることが可能である。

目的名整形処理部１０９における目的名整形処理の処理内容は、会社名部署名整形処理部１０７とほとんど同じ処理になる。参照する目的名辞書は、会社名部署名辞書例６０１と同様の表形式により出張の目的を体系立って整理したデータを目的名辞書部１０８に格納したものとなる。例えば、目的としては「打ち合わせ」「顧客訪問」「研修」などがあり、さらにその下位データとして、「打ち合わせ」では「営業打ち合わせ」や「販売打ち合わせ」などのデータが登録され、さらにそれぞれに同義の用語が定義されることになる。

日付整形処理部１１０では、入力された日付を表す文字列を、標準の日付表記形式に変換する。日付は人により、西暦で記載したり元号で表記したり、西暦でも４桁書いたり下２桁だけしか記載しなかったりする。また年月日を省略して「／」で区切ったり、月日年で記載したりと表記ゆれがおきる可能性が高い。そこで、日時整形処理部１１０は入力された日時を示す文字列を標準の日付表記形式に変換する。ここで標準の形式は、例えば、「ＹＹＹＹ−ＭＭ−ＤＤ」といった形式を採用することができる。ここで、ＹＹＹＹは西暦の４桁表示、ＭＭは月の２桁表示、ＤＤは日の２桁表示を示している。また、入力された文字が日付としてあいまい性がある場合がある。例えば、０１／１１は１月１１日か、１１月１日かが不明である。この場合、日付整形処理部１１０は、ユーザに警告を出し、対話的に入力してもらう処理をとることができる。また、入力された日時をシステムの時計から取得し、この時間と最も適合する日付に変換するという処理もとることができる。例えば、０１／１１の例では、処理している日時が１月２０日ならば、１月１１日だと判断する。また、出張報告書のように過去の報告の日時を入力していることが明確ならば、処理している日時が１月１０日でも１１月１日であると判断することもできる。

以上の処理により、整形処理制御部１０５は、順次データを整形し、結果として整形文書１１１を出力する。図２に示したような報告書のような入力文書例一２０１，入力文書例二を入力文書１０１としたときには、図５に示すタグ付きの整形文書である整形文書例一５０１，整形文書例二５０２にそれぞれ変換することができる。このようにデータの整形を行うことにより、報告者による表記のゆれを解消することができ、検索精度の向上を図ることができ、さらに、データの整理，解析を正確に行うことができるようになる。

本発明の第２の実施例を図７以降の図を用いて説明する。第２の実施例の具体的な内容としては、各種の機械設計や化学プラントなどの設計を行う際に有効となる設計ノウハウなどの文書を登録し整理するシステムに関するものである。設計メモやノウハウ集などは、活用される場合に的確に参照されることが重要である。このために、検索などに利用するインデクスが正確についている必要がある。また、技術文書であることから、あいまいな表現があると情報としての価値が落ちることになる。このシステムは、自由フォーマットで入力された文書から、その文書の内容を分類および検索するためのインデクスデータを作成することや、あいまいな表現を抽出することを目的とする。

図７は本システムの構成を示している。設計知識を記述した文書は入力文書７０１として切り出し処理部７０２に入力される。切り出し処理部７０２は、事前に登録された用語辞書部７０５と、必要ならば不適切用語辞書部７０７のデータを参照し切り出し処理を行う。ここでの切り出し処理は、一般に形態素解析処理や分かち書き処理と呼ばれ辞書に登録された用語を参考に、最長一致する文字列に文書を分かち書きするものである。なお、この処理は日本語の場合に必要になるものであり、英語などもともと単語として分かれているものは不要である。

分かち書きされた文書は整形処理制御部７０３に入力される。ここでは、インデクス抽出部７０４，不適切表現抽出部７０６を必要により呼び出す。なお、日時や、記入者名などを文書として入力する場合は、第１の実施例に示した会社名部署名整形処理部１０７や日時整形処理部１１０の処理を呼び出すことも可能である。

インデクス抽出処理は切り出し処理部７０２から入力された、分かち書き結果のデータから、用語辞書を参照し、略号を正式名に変換する処理と、その用語の上位概念の用語を求める処理を行う。図８を用いて、この処理の具体的な動作を説明する。

用語辞書部７０５は、現在対象としている設計分野の用語を体系立ってデータベース化したものであり、用語辞書例８０１のような構成をとっている。この例では、化学プラントや発電所などプラントの設計を対象としている。各種設計業務において、データを検索する観点は主に、「部品単位」「機能単位」「空間単位」などが考えられる。プラント設計においては、データを検索する観点としては、「機器」「系統」「建屋」などが考えられる。さらに、それぞれの観点でブレークダウンした用語がそれぞれの用語のもとに階層的にデータベース化されている。

ここに、入力文書７０１として「薬品系統のパイプは作業通路の上部には配置しないこと。」といったノウハウ文書８０２が入力された場合を考える。この入力文書は、切り出し処理部７０２により処理され、分かち書き結果として文書８０３「薬品系統／の／パイプ／は／作業通路／の／上部／には／配置／しないこと。」が得られる。この文書を整形処理制御部７０３は、インデクス抽出部７０４に渡し、処理することで、「系統」のもとの「薬品系統」，「機器」のもとの「配管」の略号の「パイプ」，「建屋」のもとの「通路」のもとの「作業通路」といった用語を抽出することができる（８０４）。ここで、一つのインデクスに複数の用語の候補がある場合には、図中の符号８０５に示すような用語の選択ウインドウをユーザに提示し、ユーザが抽出された用語から必要な用語を選択することができる。図中の符号８０５の例では、「建屋」のインデクスとして、「通路」という用語と、これの下位用語である「作業通路」が候補として表示されている。ユーザは両方を選択しても良いし、どちらかを選ぶことができる。また、用語選択ウインドウとしては、抽出された用語を基準に、上位用語，下位用語，上位用語の下位用語（兄弟用語）などを選択ウインドウ内で展開表示できるようにすることで、最適な用語を選択させることが可能である。表示方法としては、図中の符号８０１に示したような階層構造をユーザインタフェースとしてウインドウ８０５内に表示し選択させる方法がある。また、選択肢として１つの用語しか抽出されなかったインデクスに関しても、同様に、選択ウインドウを表示し、適宜最適な用語を追加したり、置き換えしたりすることも考えられる。以上のようにして抽出したインデクスを再利用可能な定形フォーマット８０６に割り当てることで整形文書７０８を作成することができる。

また、用語候補抽出の別案として、ユーザの過去の用語選択履歴を用いることも考えられる。これにより、よく利用する用語を選択候補として加えることが可能となる。また、さらに別案として、ユーザの業務ごとに予めインデクスの組を格納しておき、ユーザに業務を選択させることで一括してインデクスを入力することも可能である。

不適切表現抽出部７０６は、切り出し処理部７０２から入力された分かち書き結果のデータから、不適切用語辞書部７０７のデータを参照し不適切表現を抽出する処理を行う。設計文書などの技術文書では、「〜だろう」といったあいまいな言い回しや、比較対照の無い「大きい」といった形容詞表現は、知識としてあいまいであり、利用価値が低くなってしまう。このため、これらの表現を入力時にチェックすることができると、設計ノウハウデータベースとしての品質を向上することができる。

具体的な処理を図９に示す。不適切用語辞書部７０７は具体的には、不適切用語辞書例９０１のような内容を保持する。ここでは、あいまい語として。「だろう」「みたい」「思う」「感じる」などのあいまいな言い回しが登録されている。また、あいまいな表現となりうる形容詞用語として「大きい」「小さい」「高い」「低い」「広い」「狭い」などが登録されている。これら形容詞は比較対照が明記されずに使われた場合、あいまいな表現となる。

ここで、入力文書７０１として、図９の符号９０２「薬品系統のパイプは高い場所には配置しないほうが良いだろう」が入力された場合を考える。この入力文を切り出し処理部７０２が処理を行い、図長の符号９０３のように分かち書きを行う。結果は「薬品系統／の／パイプ／は／高い／場所／には／配置／しない／方／が／良い／だろう」となる。さらにこの中から、インデクスとなる用語抽出，不適切用語抽出をインデクス抽出部７０４，不適切表現抽出部７０６が行うことで、図中の符号９０４に示したように、「薬品系統」は「系統」のもとであり、「パイプ」は「配管」の同義語で、「機器」のもとであることが抽出される。さらに、「高い」「だろう」はあいまい用語として抽出される。整形処理制御部７０３は、不適切表現抽出部７０６により上記のように不適切表現が抽出された場合は、図中の符号９０５に示すような警告メッセージを画面に表示させたりすることで、ユーザに対し修正を促すことができる。

複数の文書からキーワードとなる用語を抽出することで、文書群の傾向つまり、文書を作成している組織の動向や特性を解析することが可能となる。例えば、設計部署でのノウハウ集を集めることにより、最近の問題点の傾向や、どういった技術力が貯まっているかを把握することができる。実施の一例を図１０に示す。

切り出し処理部７０２，整形処理制御部７０３，インデクス抽出部７０４，入力文書７０１，用語辞書部７０５，整形文書７０８は図７と同様である。これに対し、インデクス抽出部７０４が抽出した用語を、整形処理制御部７０３がインデクス抽出データ保持部１００１に格納する。解析を行う場合には、ユーザの指示に従いインデクス情報可視化処理部１００２がグラフなどにより可視化を行う。

インデクス抽出データ保持部１００１には、図１１のインデクス抽出データ例１１０１に示すようなデータが格納される。具体的には、処理を行った文書の文書名と、文書の作成日時または処理日時、さらに文書から抽出されたインデクス用語などが格納されている。

上記インデクス抽出データ保持部１００１に格納されたデータと、用語辞書部７０５を利用することで、インデクス情報可視化処理部１００２は処理した文書群に対する解析および可視化を行う。可視化した例を図１２の可視化グラフ例一１２０１および図１３の可視化グラフ例二１３０１に示す。

可視化グラフ例一１２０１では、用語辞書部７０５のデータを利用し、用語辞書に登録されている用語を使用している文書の数をグラフ化している。この例では、「配管」という用語を利用している文書が６０件あることを示している。用語辞書を利用しているため、この６０件の中には「配管」として記述されているものだけでなく、別名として「パイプ」として記述されているものも含めることができる。つまり、単なる用語の頻度分布とは異なり、意味的な内容も考慮した統計を取ることが可能となる。また、用語辞書として用語の上位概念，下位概念を階層的に管理することで、分類毎の分布を把握することも可能となる。可視化グラフ例一１２０１の例では、「配管」,「ポンプ」,「モータ」などは「機器」の分類となり、文書群で「機器」に関連した記述を持った文書が１２５件存在することを示している。このようなグラフを表示することで、文書群の中でどのような話題に関しての文書が多いか、また、話題の分布を把握することができる。さらに、必要な話題が登録されているかどうかを把握することができる。

可視化グラフ例二１３０１では、「機器」に関する文書がどのように増えているかを可視化している。これは、インデクス抽出データ保持部１００１に保持されたインデクス抽出データと用語辞書部７０５の用語辞書を参照することで表示することができる。インデクス情報可視化処理部１００２は、注目する用語「機器」から、用語辞書部７０５を参照し、関連する用語「機器」「配管」「ポンプ」などを検索する。さらに、これら用語が含まれている文書をインデクス抽出データ保持部１００１のインデクス抽出データに基づいて検索する。検索した結果を時間順に並べ替えグラフ化すると可視化グラフ例二１３０１に示すようなグラフを表示することができる。なお、このグラフには各時間単位ごとの文書件数を棒グラフで表示し、累積件数を折れ線グラフにして表示している。このようなグラフを表示することにより、指定した観点の話題がどのように増えているかを把握することができる。

以上の実施例は、文書を新規に入力する際にインデクスを順次付加する例に付いて記述した。しかしながら、本発明は既にデータベースとして入力済みの文書群に対して一括して応用することも可能である。このとき、変換する選択肢が複数ある場合や、あいまい表現などの確認を取るなど、対話的な処理が必要となる場合が問題となる。このような場合には、選択肢や確認のログを文書と関連付けてファイル化する方法を採ることができる。これにより、複数文書をバッチ処理によりインデクス付けを行うことが可能となる。

また、別の運用形態として、文書の検索時に本発明の処理を行うことも考えられる。これにより、表記ゆれを考慮した検索を行うことが可能となる。検索時に本発明の処理を行う際、用語の辞書に過去の履歴情報を格納しておくことで、用語が時期により使い方が変わったり、意味が変わったりした場合にも表記を正式名に変換することができるようになる。例えば、図６の会社名部署名辞書例６０１の表に示すように会社名が変更された場合や、会社が合併した場合など、その時期も含めてデータベース化しておくことが考えられる。これにより、検索対象の文書の作成日時と、履歴日時を比較することで、当時の正式名での検索や、現在の正式名による検索を行うことが可能となる。これは、会社名だけではなく、設計などの技術文書においても同様であり、技術が進歩することによる記述方法の変化や、技術体系の見直しに対応した文書検索を行うことが可能となる。

本発明は、その実施例を処理の構成により説明した。これらの処理は、コンピュータシステムを用い、コンピュータ上でソフトウエアを実行することで達成できる。また、一台のコンピュータ上で実現することも考えられるが、処理を分担する複数台のコンピュータ及び一台以上の記憶装置（ストレージ装置）をネットワークで連携させて構成することもできる。実際の運用には、この構成を実現するソフトウエアをプログラム製品として、磁気ディスクやＣＤなどのメディア（記録媒体）により提供することが考えられる。また、ソフトウエアはメディアを介さずネットワーク経由で流通させることも可能である。

また、ソフトウエアを提供するのではなく、サービスを提供する形態も考えられる。つまり、インタネットなどのネットワークを介して、顧客から文書群の提供を受け、その文書群に対してインデクス付加を行い顧客に返す形態や、文書群の整理，検索をサービスとして提供する形態も可能である。また、さらに用語の変換辞書を利用した用語の変換をサービスとすることも可能である。つまり、顧客から指定された検索のキーワードから正式名に変換し変換結果を戻す形態である。

入力文書を検索，解析するためのインデクス情報を、インデクスとする正式名に対して、別名，上位概念，下位概念を登録した辞書を参照することにより抽出し、さらに正式な形式に整形することで、インデクスをユーザが意識して設定することなしに正確なインデクス付けを行うことができる。また、インデクスが正規化されているため、別名を含めた件数の解析や、上位概念，下位概念の観点での解析を行うことが可能となる。

第１の実施例の構成を示す図。第１の実施例における入力文書例を示す図。切り出し規則データの構成例を示す図。整形規則データ例を示す図。第１の実施例における整形文書例を示す図。会社名部署名辞書の構成例を示す図。第２の実施例の構成を示す図。第２の実施例のインデクス抽出処理過程を示す図。第２の実施例の不適切表現抽出処理過程を示す図。第２の実施例の可視化を行う場合の構成を示す図。インデクス抽出データの構成例を示す図。可視化グラフの第１の例を示す図。可視化グラフの第２の例を示す図。

符号の説明

１０１，７０１…入力文書、１０２…切り出し規則データ保持部、１０３，７０２…切り出し処理部、１０４…整形規則データ保持部、１０５，７０３…整形処理制御部、１０６…会社名部署名辞書部、１０７…会社名部署名整形処理部、１０８…目的名辞書部、１０９…目的名整形処理部、１１０…日時整形処理部、１１１…整形文書、２０１…入力文書例一、２０２…入力文書例二、３０１…切り出し規則データ例、４０１…整形規則データ例、５０１…整形文書例一、５０２…整形文書例二、６０１…会社名部署名辞書例、７０４…インデクス抽出部、７０５…用語辞書部、７０６…不適切表現抽出部、７０７…不適切用語辞書部、７０８…整形文書、８０１…用語辞書例、９０１…不適切用語辞書例、１００１…インデクス抽出データ保持部、１００２…インデクス情報可視化処理部、１１０１…インデクス抽出データ例、１２０１…可視化グラフ例一、１３０１…可視化グラフ例二。

Claims

文書を管理するシステムであって、
入力された文書に対してインデクスとなる文字列を、データの検索種別を表すタグ名と
そのタグ名と関連付けられる複数の文字列からなる切り出し規則データにもとづき切り出す切り出し処理部と、
前記切り出し処理部で切り出した文字列を正式の表現に変換し、入力された文書のインデクスとして抽出する整形処理部を持ち、
かつ、文書ごとに抽出されたインデクスの情報を格納するインデクス抽出データ保持部と、
あらかじめ設定されたインデクスの用語を登録した辞書データを保存する用語辞書部と、前記インデクス抽出データ保持部のデータと前記辞書データを利用し、前記辞書データに登録された用語毎に、いくつの文書で利用されているかを検索し可視化するインデクス情報可視化処理部とを有することを特徴とする文書管理システム。
請求項１において、
インデクス情報可視化処理部は、該辞書の上位概念用語，下位概念用語の定義を利用することで、各文書のインデクスを上位概念用語で集計し、いくつの文書で利用されているかを可視化することを特徴とする文書管理システム。
請求項１において、
前記可視化は、検索した結果を時間順に並べて表示することを特徴とする文書管理システム。