JP2007226843A - 文書管理システム及び文書管理方法 - Google Patents

文書管理システム及び文書管理方法 Download PDF

Info

Publication number
JP2007226843A
JP2007226843A JP2007156955A JP2007156955A JP2007226843A JP 2007226843 A JP2007226843 A JP 2007226843A JP 2007156955 A JP2007156955 A JP 2007156955A JP 2007156955 A JP2007156955 A JP 2007156955A JP 2007226843 A JP2007226843 A JP 2007226843A
Authority
JP
Japan
Prior art keywords
document
data
index
dictionary
processing unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007156955A
Other languages
English (en)
Inventor
Norito Watanabe
範人 渡辺
Ichiro Harashima
一郎 原島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2007156955A priority Critical patent/JP2007226843A/ja
Publication of JP2007226843A publication Critical patent/JP2007226843A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】
インデクスの入力を自由形式にした場合、入力する人により記述がゆれてしまい、検索で漏れが起きる場合がある。
【解決手段】
入力された文書に対して索引となる文字列を、切り出し規則データにもとづき検索種別と共に切り出す切り出し処理部と、文字列を正式の表現に変換する個々の規則を持ち、文字列をそれぞれの規則に従い変換する複数の整形処理部と、該切り出し処理部が検索種別とともに切り出した文字列を、対応した整形規則データに従い、対応する該整形処理部を呼び出すことで、正式の表現に置き換える指示を行い、結果を整形文書ととして出力する整形処理制御部と、を持つ。
【効果】
別名や略称で記述されたインデクスを適宜正式名に置き換えることができ、漏れのない検索や解析を行うことが可能となる。
【選択図】図1

Description

本発明は、文書管理システム及び文書管理方法に関し、特に、出張報告や技術メモなどのような完全に定型化されていない文書データを、管理するものに関する。
従来、文書管理に関して、例えば、特開2000−348030号公報がある。これは、構造化されていない単純な原文書から、予め登録されたフィールドを識別するデリミターをキーとして情報を抽出し、タグつきの構造化データに変換するものである。この方式によれば、特別なデータベース用の文書フォームを指定することなしに文書のデータベース化を行うことが可能となる。
また、入力されるフィールドが決まったとしても、記述が作成者に一任されている場合、表記ゆれの問題が生じる。例えば、全角・半角の違いや、「インタフェース」「インタフェイス」といった表記ゆれがあると、検索のキーワードに一致したものしか検索されないため検索漏れが起きてしまう。これを解決する手段として、あいまい検索と呼ばれる手法がある。この方法は、上記のようなパターンを正規化して(半角は全角化するなど)キーワードを統一する手法や、bi−gramやn−gram と呼ばれる部分文字一致での検索を行う方法などが提案されている。
特開2000−348030号公報
従来技術では、作成者の記述の仕方によっては、検索の際に漏れてしまう場合がある。例えば、出張報告などでは、会社名を「株式会社日立製作所」と入力する場合もあれば、単に「日立」や「日製」といった入力をされる場合がある。この場合、名称が正式の名前の一部をとった略称になっているため、あいまい検索ではランクが低くなってしまうし、さらに「HITACHI」など正式名とは文字列として関連の無い別名が入力されていた場合、あいまい検索でも検索されないものとなってしまう。
本発明の第1の目的は、作成者の記述の仕方が違っても、これら記述を統一的に検索できるようにすることである。
また、一般の文書は、インデクスとなるデータを識別するフィールドが明確に定義されていない場合や、定義されていてもユーザが、わずらわしさのために入力しない場合がある。本発明の第2の目的は、このような場合でもインデクスとなる情報の候補を抽出することである。
またさらに、文書が技術ノウハウなどのような明確に情報を伝える必要性の高いものの場合、文書は正確性や定量的な表現が重要となる。しかしながら、自由フォーマットで入力された文では、あいまいな表現が多用される場合がある。本発明の第3の目的は、あいまいな表現となる記述を抽出し、入力者に警告を発することで明確な文書を作成させることである。
また、複数の文書が存在する場合、その文書群の傾向を把握することが重要となる。つまり、どういった傾向の話題が多く記述されているか、また、どのような話題が最近多いかなども重要な情報である。本発明の第4の目的は、文書群から、その文書群の傾向を、各文書の内容を表すインデクスを抽出することで可視化することである。
出張報告や議事録,技術ノウハウ文書などは、大量に蓄積されて、必要により正確に検索されてその利用価値が高まる。例えば、出張報告の例では、顧客訪問の履歴を一覧することで2重の訪問を防止し、最新の状況を把握することで、顧客の状況に即応した対応を取ることができ、満足度の向上に役立てることができる。こういった利用を確実に行うためには、文書から必要な情報の抽出と、検索が重要となる。この目的のために、一般には、これら文書を入力する際に、必要となる情報をフィールドに分けた定形の文書フォームを決め、データベース化する方法が考えられる。しかしながら、情報を入力,収集する立場になれば、なるべく自由フォーマットで入力したいという要求もある。また最近では、これら文書は電子メールなどでやり取りされることも多く、この場合はテンプレートを用意したとしても、作成者の自由フォーマットで書かれる可能性が高くなってしまう。作成者の記述の仕方が違っても、これら記述を統一的に検索できるようにすることが必要である。
本発明の一つの特徴は、入力された文書に対して索引となる文字列を、切り出し規則データにもとづき検索種別と共に切り出す切り出し処理部と、文字列を正式の表現に変換する個々の規則を持ち、文字列をそれぞれの規則に従い変換する複数の整形処理部と、該切り出し処理部が検索種別とともに切り出した文字列を、対応した整形規則データに従い、対応する該整形処理部を呼び出すことで、正式の表現に置き換える指示を行い、結果を整形文書として出力する整形処理制御部とを持つことである。
また、本発明の他の特徴は、上記整形処理部は、用語の正規の名称と、該正規名の略称や略号,別名との対応表を保持し、該対応表に基づき上記切り出された文字列を正規の名称に変換するか、または、文字列を正規の表現に変換するルールを保持し該ルールに従い上記切り出された文字列を正規の名称に変換する手段を持つことである。
また、本発明のさらに他の特徴は、日付や報告対象が明記された報告文書で、変換ルールは、日付,報告人名,報告対象の組織名,報告目的の全てまたはいずれかを対象とするものである。
これにより、略称や組織名の変遷に影響しない正確なインデクスを作成することが可能となる。
また、本発明のさらに他の特徴は、上記辞書データは、報告対象を分類する手がかりとなる用語を、正式名,別名,上位概念用語,下位概念用語の情報と共に格納し、上記切り出し処理部は、該辞書データを利用した形態素解析により文字列に分解することで必要な用語を切り出し、上記、整形制御部は、該切り出された用語から正式表現を抽出するインデクス抽出処理部を呼び出すことでインデクス情報を文書に付加することである。これにより、明確にインデクスのフィールドを定義しなくても、その候補を抽出し、的確なインデクスを行うことが可能となる。
また、本発明のさらに他の特徴は、上記辞書データは、用語の意味が不適切な表現であるかどうかの情報を属性として保持し、上記切り出し処理部は、該辞書データを利用した形態素解析により文字列に分解することで必要な用語を切り出し、上記、整形制御部は、該切り出された文字列から不適切な表現である用語を抽出し、警告メッセージを表示する不適切表現抽出部を呼び出すことである。これにより、あいまい表現に対し適宜警告が発生するため明確な文書の蓄積が可能となる。
また、本発明のさらに他の特徴は、文書ごとに抽出されたインデクスの情報を格納するインデクス抽出データ格納部と、該インデクス抽出データ格納部のデータと該辞書データを利用し、該辞書データに登録された用語毎に、いくつの文書で利用されているかを可視化するインデクス情報可視化処理部をもつことである。これにより、注目する用語が文書群でどのような傾向で登録されているかを解析可視化することが可能となる。
本発明の上記特徴及びその他の特徴は、特許請求の範囲の記載及び以下の記載により、説明される。
本発明によれば、種々の記述の仕方された文書があっても、これら記述を統一的に検索できる。
以下、図面を用いて本発明の実施の形態を説明する。
図1は、本発明の一実施例の文書管理システムの構成と処理内容を示す。報告書などの入力文書101は切り出し処理部103にスキャナなどの入力装置を介してコンピュータで処理可能なデータとして入力される。ここで、入力文書101の具体的な例として、図2の入力文書例一201,入力文書例二202に示すような、フォーマットは決まっていないが、日付や訪問先を示す見出しがついているような形式の出張報告書を考える。切り出し処理部103では、入力された文書101から、日付や訪問場所などの索引対象となる文字列を抽出する。そのために、切り出し処理部103は切り出し規則データ保持部102から切り出し規則データを読み込み、これを参照して処理を行う。切り出し規則データの具体的な一例の内容を図3の切り出し規則データ例301に示す。切り出し規則データ例301は、データの種別を表すタグ名と、そのタグに関係して見出しとなりうる文字列を対応表形式で保持している。例えば、報告者情報であることを示す<author>に対しては、「報告者」「出張者」「$(送信者)」が登録されている。ここで、「$(送信者)」は、本文内に対応する見出しが見つからなかった場合の処理を示している。つまり、他の「報告者」や「出張者」という見出しが無かった場合には、その報告書の送信者を<author>にするという意味を示している。以下同様に、出張日情報を示す<date>,出張場所を示す<place >,目的情報を示す<purpose >,本文を示す<body>に関してそれぞれ定義されている。また、文字列が見出しかどうかの判別には、次のルールを採用することができる。
まず、文字列の区切り文字となるデリミター(例えば、改行,スペース,句読点,コロン,括弧など)を基準に文書を文字列に分解する。さらに分解された文字列に対し、切り出し規則データ例301に登録されている見出し文字列を探す。これを最後まで繰り返し、見出し文字列部分と、索引本体部分を切り分ける。その後、見出し文字列間に挟まれた文字列を、該当するタグに対する情報であると割り当てる。
以上のようにして、タグとそれに対する情報文字列に分けられたデータは、整形処理制御部105に入力される。
整形処理制御部105は、整形規則データ保持部104の整形規則データを参照し、対応する整形処理部を呼び出すことで、切り出し処理部103が出力したデータを整形し、整形文書111を出力する。整形規則データ保持部104の整形規則データの例としては、図4の整形規則データ例401に示すようなものが考えられる。この例では、<author>に対する情報は部署と氏名からなっており、それぞれ部署の正式名,氏名の正式名をデータベースから検索し置き換えすることを示している。この処理を行うのが会社名部署名整形処理部107である。同様に、<date>に関しては日付の正式表現、<place >は会社名の整形をすることを示している。日付の整形処理は日時整形処理部110、目的名の整形処理は目的名整形処理部109が行う。また、報告の本体にあたる<body>は切り出された文字列をそのまましておき、整形しないことを示している。
会社名部署名整形処理部107は整形処理のため会社名部署名辞書部106を参照する。図6に、会社名部署名辞書部106の内容を示している。辞書の内容は会社名部署名辞書例601に示したような表形式になっており、会社名や部署名の正式名と、その別名,略号の対応がわかるようになっている。また、会社名とその下位組織である部署名が階層的な関係にあることも示している。このような、階層関係のデータも管理することにより、部署名だけで会社名を特定することが可能となることもある。同様に、部署の下位階層データとして所属する人員の名前を登録しておくことも考えられる。これにより、人名の入力だけで所属,会社名などを特定することも可能となる。この際、複数の候補がある場合は、一つに特定することはできないが、警告をユーザに表示し、対話的に入力してもらうという方法を採ることが可能である。
目的名整形処理部109における目的名整形処理の処理内容は、会社名部署名整形処理部107とほとんど同じ処理になる。参照する目的名辞書は、会社名部署名辞書例601と同様の表形式により出張の目的を体系立って整理したデータを目的名辞書部108に格納したものとなる。例えば、目的としては「打ち合わせ」「顧客訪問」「研修」などがあり、さらにその下位データとして、「打ち合わせ」では「営業打ち合わせ」や「販売打ち合わせ」などのデータが登録され、さらにそれぞれに同義の用語が定義されることになる。
日付整形処理部110では、入力された日付を表す文字列を、標準の日付表記形式に変換する。日付は人により、西暦で記載したり元号で表記したり、西暦でも4桁書いたり下2桁だけしか記載しなかったりする。また年月日を省略して「/」で区切ったり、月日年で記載したりと表記ゆれがおきる可能性が高い。そこで、日時整形処理部110は入力された日時を示す文字列を標準の日付表記形式に変換する。ここで標準の形式は、例えば、「YYYY−MM−DD」といった形式を採用することができる。ここで、YYYYは西暦の4桁表示、MMは月の2桁表示、DDは日の2桁表示を示している。また、入力された文字が日付としてあいまい性がある場合がある。例えば、01/11は1月11日か、11月1日かが不明である。この場合、日付整形処理部110は、ユーザに警告を出し、対話的に入力してもらう処理をとることができる。また、入力された日時をシステムの時計から取得し、この時間と最も適合する日付に変換するという処理もとることができる。例えば、01/11の例では、処理している日時が1月20日ならば、1月11日だと判断する。また、出張報告書のように過去の報告の日時を入力していることが明確ならば、処理している日時が1月10日でも11月1日であると判断することもできる。
以上の処理により、整形処理制御部105は、順次データを整形し、結果として整形文書111を出力する。図2に示したような報告書のような入力文書例一201,入力文書例二を入力文書101としたときには、図5に示すタグ付きの整形文書である整形文書例一501,整形文書例二502にそれぞれ変換することができる。このようにデータの整形を行うことにより、報告者による表記のゆれを解消することができ、検索精度の向上を図ることができ、さらに、データの整理,解析を正確に行うことができるようになる。
本発明の第2の実施例を図7以降の図を用いて説明する。第2の実施例の具体的な内容としては、各種の機械設計や化学プラントなどの設計を行う際に有効となる設計ノウハウなどの文書を登録し整理するシステムに関するものである。設計メモやノウハウ集などは、活用される場合に的確に参照されることが重要である。このために、検索などに利用するインデクスが正確についている必要がある。また、技術文書であることから、あいまいな表現があると情報としての価値が落ちることになる。このシステムは、自由フォーマットで入力された文書から、その文書の内容を分類および検索するためのインデクスデータを作成することや、あいまいな表現を抽出することを目的とする。
図7は本システムの構成を示している。設計知識を記述した文書は入力文書701として切り出し処理部702に入力される。切り出し処理部702は、事前に登録された用語辞書部705と、必要ならば不適切用語辞書部707のデータを参照し切り出し処理を行う。ここでの切り出し処理は、一般に形態素解析処理や分かち書き処理と呼ばれ辞書に登録された用語を参考に、最長一致する文字列に文書を分かち書きするものである。なお、この処理は日本語の場合に必要になるものであり、英語などもともと単語として分かれているものは不要である。
分かち書きされた文書は整形処理制御部703に入力される。ここでは、インデクス抽出部704,不適切表現抽出部706を必要により呼び出す。なお、日時や、記入者名などを文書として入力する場合は、第1の実施例に示した会社名部署名整形処理部107や日時整形処理部110の処理を呼び出すことも可能である。
インデクス抽出処理は切り出し処理部702から入力された、分かち書き結果のデータから、用語辞書を参照し、略号を正式名に変換する処理と、その用語の上位概念の用語を求める処理を行う。図8を用いて、この処理の具体的な動作を説明する。
用語辞書部705は、現在対象としている設計分野の用語を体系立ってデータベース化したものであり、用語辞書例801のような構成をとっている。この例では、化学プラントや発電所などプラントの設計を対象としている。各種設計業務において、データを検索する観点は主に、「部品単位」「機能単位」「空間単位」などが考えられる。プラント設計においては、データを検索する観点としては、「機器」「系統」「建屋」などが考えられる。さらに、それぞれの観点でブレークダウンした用語がそれぞれの用語のもとに階層的にデータベース化されている。
ここに、入力文書701として「薬品系統のパイプは作業通路の上部には配置しないこと。」といったノウハウ文書802が入力された場合を考える。この入力文書は、切り出し処理部702により処理され、分かち書き結果として文書803「薬品系統/の/パイプ/は/作業通路/の/上部/には/配置/しないこと。」が得られる。この文書を整形処理制御部703は、インデクス抽出部704に渡し、処理することで、「系統」のもとの「薬品系統」,「機器」のもとの「配管」の略号の「パイプ」,「建屋」のもとの「通路」のもとの「作業通路」といった用語を抽出することができる(804)。ここで、一つのインデクスに複数の用語の候補がある場合には、図中の符号805に示すような用語の選択ウインドウをユーザに提示し、ユーザが抽出された用語から必要な用語を選択することができる。図中の符号805の例では、「建屋」のインデクスとして、「通路」という用語と、これの下位用語である「作業通路」が候補として表示されている。ユーザは両方を選択しても良いし、どちらかを選ぶことができる。また、用語選択ウインドウとしては、抽出された用語を基準に、上位用語,下位用語,上位用語の下位用語(兄弟用語)などを選択ウインドウ内で展開表示できるようにすることで、最適な用語を選択させることが可能である。表示方法としては、図中の符号801に示したような階層構造をユーザインタフェースとしてウインドウ805内に表示し選択させる方法がある。また、選択肢として1つの用語しか抽出されなかったインデクスに関しても、同様に、選択ウインドウを表示し、適宜最適な用語を追加したり、置き換えしたりすることも考えられる。以上のようにして抽出したインデクスを再利用可能な定形フォーマット806に割り当てることで整形文書708を作成することができる。
また、用語候補抽出の別案として、ユーザの過去の用語選択履歴を用いることも考えられる。これにより、よく利用する用語を選択候補として加えることが可能となる。また、さらに別案として、ユーザの業務ごとに予めインデクスの組を格納しておき、ユーザに業務を選択させることで一括してインデクスを入力することも可能である。
不適切表現抽出部706は、切り出し処理部702から入力された分かち書き結果のデータから、不適切用語辞書部707のデータを参照し不適切表現を抽出する処理を行う。設計文書などの技術文書では、「〜だろう」といったあいまいな言い回しや、比較対照の無い「大きい」といった形容詞表現は、知識としてあいまいであり、利用価値が低くなってしまう。このため、これらの表現を入力時にチェックすることができると、設計ノウハウデータベースとしての品質を向上することができる。
具体的な処理を図9に示す。不適切用語辞書部707は具体的には、不適切用語辞書例901のような内容を保持する。ここでは、あいまい語として。「だろう」「みたい」「思う」「感じる」などのあいまいな言い回しが登録されている。また、あいまいな表現となりうる形容詞用語として「大きい」「小さい」「高い」「低い」「広い」「狭い」などが登録されている。これら形容詞は比較対照が明記されずに使われた場合、あいまいな表現となる。
ここで、入力文書701として、図9の符号902「薬品系統のパイプは高い場所には配置しないほうが良いだろう」が入力された場合を考える。この入力文を切り出し処理部702が処理を行い、図長の符号903のように分かち書きを行う。結果は「薬品系統/の/パイプ/は/高い/場所/には/配置/しない/方/が/良い/だろう」となる。さらにこの中から、インデクスとなる用語抽出,不適切用語抽出をインデクス抽出部704,不適切表現抽出部706が行うことで、図中の符号904に示したように、「薬品系統」は「系統」のもとであり、「パイプ」は「配管」の同義語で、「機器」のもとであることが抽出される。さらに、「高い」「だろう」はあいまい用語として抽出される。整形処理制御部703は、不適切表現抽出部706により上記のように不適切表現が抽出された場合は、図中の符号905に示すような警告メッセージを画面に表示させたりすることで、ユーザに対し修正を促すことができる。
複数の文書からキーワードとなる用語を抽出することで、文書群の傾向つまり、文書を作成している組織の動向や特性を解析することが可能となる。例えば、設計部署でのノウハウ集を集めることにより、最近の問題点の傾向や、どういった技術力が貯まっているかを把握することができる。実施の一例を図10に示す。
切り出し処理部702,整形処理制御部703,インデクス抽出部704,入力文書701,用語辞書部705,整形文書708は図7と同様である。これに対し、インデクス抽出部704が抽出した用語を、整形処理制御部703がインデクス抽出データ保持部1001に格納する。解析を行う場合には、ユーザの指示に従いインデクス情報可視化処理部1002がグラフなどにより可視化を行う。
インデクス抽出データ保持部1001には、図11のインデクス抽出データ例1101に示すようなデータが格納される。具体的には、処理を行った文書の文書名と、文書の作成日時または処理日時、さらに文書から抽出されたインデクス用語などが格納されている。
上記インデクス抽出データ保持部1001に格納されたデータと、用語辞書部705を利用することで、インデクス情報可視化処理部1002は処理した文書群に対する解析および可視化を行う。可視化した例を図12の可視化グラフ例一1201および図13の可視化グラフ例二1301に示す。
可視化グラフ例一1201では、用語辞書部705のデータを利用し、用語辞書に登録されている用語を使用している文書の数をグラフ化している。この例では、「配管」という用語を利用している文書が60件あることを示している。用語辞書を利用しているため、この60件の中には「配管」として記述されているものだけでなく、別名として「パイプ」として記述されているものも含めることができる。つまり、単なる用語の頻度分布とは異なり、意味的な内容も考慮した統計を取ることが可能となる。また、用語辞書として用語の上位概念,下位概念を階層的に管理することで、分類毎の分布を把握することも可能となる。可視化グラフ例一1201の例では、「配管」,「ポンプ」,「モータ」などは「機器」の分類となり、文書群で「機器」に関連した記述を持った文書が125件存在することを示している。このようなグラフを表示することで、文書群の中でどのような話題に関しての文書が多いか、また、話題の分布を把握することができる。さらに、必要な話題が登録されているかどうかを把握することができる。
可視化グラフ例二1301では、「機器」に関する文書がどのように増えているかを可視化している。これは、インデクス抽出データ保持部1001に保持されたインデクス抽出データと用語辞書部705の用語辞書を参照することで表示することができる。インデクス情報可視化処理部1002は、注目する用語「機器」から、用語辞書部705を参照し、関連する用語「機器」「配管」「ポンプ」などを検索する。さらに、これら用語が含まれている文書をインデクス抽出データ保持部1001のインデクス抽出データに基づいて検索する。検索した結果を時間順に並べ替えグラフ化すると可視化グラフ例二1301に示すようなグラフを表示することができる。なお、このグラフには各時間単位ごとの文書件数を棒グラフで表示し、累積件数を折れ線グラフにして表示している。このようなグラフを表示することにより、指定した観点の話題がどのように増えているかを把握することができる。
以上の実施例は、文書を新規に入力する際にインデクスを順次付加する例に付いて記述した。しかしながら、本発明は既にデータベースとして入力済みの文書群に対して一括して応用することも可能である。このとき、変換する選択肢が複数ある場合や、あいまい表現などの確認を取るなど、対話的な処理が必要となる場合が問題となる。このような場合には、選択肢や確認のログを文書と関連付けてファイル化する方法を採ることができる。これにより、複数文書をバッチ処理によりインデクス付けを行うことが可能となる。
また、別の運用形態として、文書の検索時に本発明の処理を行うことも考えられる。これにより、表記ゆれを考慮した検索を行うことが可能となる。検索時に本発明の処理を行う際、用語の辞書に過去の履歴情報を格納しておくことで、用語が時期により使い方が変わったり、意味が変わったりした場合にも表記を正式名に変換することができるようになる。例えば、図6の会社名部署名辞書例601の表に示すように会社名が変更された場合や、会社が合併した場合など、その時期も含めてデータベース化しておくことが考えられる。これにより、検索対象の文書の作成日時と、履歴日時を比較することで、当時の正式名での検索や、現在の正式名による検索を行うことが可能となる。これは、会社名だけではなく、設計などの技術文書においても同様であり、技術が進歩することによる記述方法の変化や、技術体系の見直しに対応した文書検索を行うことが可能となる。
本発明は、その実施例を処理の構成により説明した。これらの処理は、コンピュータシステムを用い、コンピュータ上でソフトウエアを実行することで達成できる。また、一台のコンピュータ上で実現することも考えられるが、処理を分担する複数台のコンピュータ及び一台以上の記憶装置(ストレージ装置)をネットワークで連携させて構成することもできる。実際の運用には、この構成を実現するソフトウエアをプログラム製品として、磁気ディスクやCDなどのメディア(記録媒体)により提供することが考えられる。また、ソフトウエアはメディアを介さずネットワーク経由で流通させることも可能である。
また、ソフトウエアを提供するのではなく、サービスを提供する形態も考えられる。つまり、インタネットなどのネットワークを介して、顧客から文書群の提供を受け、その文書群に対してインデクス付加を行い顧客に返す形態や、文書群の整理,検索をサービスとして提供する形態も可能である。また、さらに用語の変換辞書を利用した用語の変換をサービスとすることも可能である。つまり、顧客から指定された検索のキーワードから正式名に変換し変換結果を戻す形態である。
入力文書を検索,解析するためのインデクス情報を、インデクスとする正式名に対して、別名,上位概念,下位概念を登録した辞書を参照することにより抽出し、さらに正式な形式に整形することで、インデクスをユーザが意識して設定することなしに正確なインデクス付けを行うことができる。また、インデクスが正規化されているため、別名を含めた件数の解析や、上位概念,下位概念の観点での解析を行うことが可能となる。
第1の実施例の構成を示す図。 第1の実施例における入力文書例を示す図。 切り出し規則データの構成例を示す図。 整形規則データ例を示す図。 第1の実施例における整形文書例を示す図。 会社名部署名辞書の構成例を示す図。 第2の実施例の構成を示す図。 第2の実施例のインデクス抽出処理過程を示す図。 第2の実施例の不適切表現抽出処理過程を示す図。 第2の実施例の可視化を行う場合の構成を示す図。 インデクス抽出データの構成例を示す図。 可視化グラフの第1の例を示す図。 可視化グラフの第2の例を示す図。
符号の説明
101,701…入力文書、102…切り出し規則データ保持部、103,702…切り出し処理部、104…整形規則データ保持部、105,703…整形処理制御部、106…会社名部署名辞書部、107…会社名部署名整形処理部、108…目的名辞書部、109…目的名整形処理部、110…日時整形処理部、111…整形文書、201…入力文書例一、202…入力文書例二、301…切り出し規則データ例、401…整形規則データ例、501…整形文書例一、502…整形文書例二、601…会社名部署名辞書例、704…インデクス抽出部、705…用語辞書部、706…不適切表現抽出部、707…不適切用語辞書部、708…整形文書、801…用語辞書例、901…不適切用語辞書例、1001…インデクス抽出データ保持部、1002…インデクス情報可視化処理部、1101…インデクス抽出データ例、1201…可視化グラフ例一、1301…可視化グラフ例二。

Claims (3)

  1. 文書を管理するシステムであって、
    入力された文書に対してインデクスとなる文字列を、データの検索種別を表すタグ名と
    そのタグ名と関連付けられる複数の文字列からなる切り出し規則データにもとづき切り出す切り出し処理部と、
    前記切り出し処理部で切り出した文字列を正式の表現に変換し、入力された文書のインデクスとして抽出する整形処理部を持ち、
    かつ、文書ごとに抽出されたインデクスの情報を格納するインデクス抽出データ保持部と、
    あらかじめ設定されたインデクスの用語を登録した辞書データを保存する用語辞書部と、前記インデクス抽出データ保持部のデータと前記辞書データを利用し、前記辞書データに登録された用語毎に、いくつの文書で利用されているかを検索し可視化するインデクス情報可視化処理部とを有することを特徴とする文書管理システム。
  2. 請求項1において、
    インデクス情報可視化処理部は、該辞書の上位概念用語,下位概念用語の定義を利用することで、各文書のインデクスを上位概念用語で集計し、いくつの文書で利用されているかを可視化することを特徴とする文書管理システム。
  3. 請求項1において、
    前記可視化は、検索した結果を時間順に並べて表示することを特徴とする文書管理システム。
JP2007156955A 2007-06-14 2007-06-14 文書管理システム及び文書管理方法 Pending JP2007226843A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007156955A JP2007226843A (ja) 2007-06-14 2007-06-14 文書管理システム及び文書管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007156955A JP2007226843A (ja) 2007-06-14 2007-06-14 文書管理システム及び文書管理方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2002353180A Division JP2004185452A (ja) 2002-12-05 2002-12-05 文書管理システム及び文書管理方法

Publications (1)

Publication Number Publication Date
JP2007226843A true JP2007226843A (ja) 2007-09-06

Family

ID=38548523

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007156955A Pending JP2007226843A (ja) 2007-06-14 2007-06-14 文書管理システム及び文書管理方法

Country Status (1)

Country Link
JP (1) JP2007226843A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012043115A (ja) * 2010-08-18 2012-03-01 Nippon Telegr & Teleph Corp <Ntt> 文書検索装置、文書検索方法および文書検索プログラム
JP2016512634A (ja) * 2013-02-27 2016-04-28 ヒタチ データ システムズ コーポレーションHitachi Data Systems Corporation オブジェクトストレージインデキシングシステムのためのコンテンツクラス
JPWO2014196063A1 (ja) * 2013-06-06 2017-02-23 株式会社野村総合研究所 商品検索システムおよび商品検索プログラム
JP2017102977A (ja) * 2017-03-06 2017-06-08 株式会社野村総合研究所 商品検索システムおよび商品検索プログラム
JP2021002165A (ja) * 2019-06-20 2021-01-07 本田技研工業株式会社 応答装置、応答方法、およびプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1083400A (ja) * 1996-07-18 1998-03-31 Matsushita Electric Ind Co Ltd データ検索支援装置、データ検索支援方法及びプログラムを記憶した媒体
JP2001101194A (ja) * 1999-09-27 2001-04-13 Mitsubishi Electric Corp テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラムが記録された記録媒体
JP2002269116A (ja) * 2001-03-13 2002-09-20 Ricoh Co Ltd 文書検索システム及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1083400A (ja) * 1996-07-18 1998-03-31 Matsushita Electric Ind Co Ltd データ検索支援装置、データ検索支援方法及びプログラムを記憶した媒体
JP2001101194A (ja) * 1999-09-27 2001-04-13 Mitsubishi Electric Corp テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラムが記録された記録媒体
JP2002269116A (ja) * 2001-03-13 2002-09-20 Ricoh Co Ltd 文書検索システム及びプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012043115A (ja) * 2010-08-18 2012-03-01 Nippon Telegr & Teleph Corp <Ntt> 文書検索装置、文書検索方法および文書検索プログラム
JP2016512634A (ja) * 2013-02-27 2016-04-28 ヒタチ データ システムズ コーポレーションHitachi Data Systems Corporation オブジェクトストレージインデキシングシステムのためのコンテンツクラス
JPWO2014196063A1 (ja) * 2013-06-06 2017-02-23 株式会社野村総合研究所 商品検索システムおよび商品検索プログラム
JP2017102977A (ja) * 2017-03-06 2017-06-08 株式会社野村総合研究所 商品検索システムおよび商品検索プログラム
JP2021002165A (ja) * 2019-06-20 2021-01-07 本田技研工業株式会社 応答装置、応答方法、およびプログラム
JP7026659B2 (ja) 2019-06-20 2022-02-28 本田技研工業株式会社 応答装置、応答方法、およびプログラム
US11495225B2 (en) 2019-06-20 2022-11-08 Honda Motor Co., Ltd. Response device, response method, and storage medium

Similar Documents

Publication Publication Date Title
US8495042B2 (en) Information extraction apparatus and methods
US8977953B1 (en) Customizing information by combining pair of annotations from at least two different documents
US8504908B2 (en) Computer-implemented methods displaying, in a first part, a document and in a second part, a selected index of entities identified in the document
Koch et al. VarifocalReader—in-depth visual analysis of large text documents
US20110022941A1 (en) Information Extraction Methods and Apparatus Including a Computer-User Interface
US9613125B2 (en) Data store organizing data using semantic classification
US9239872B2 (en) Data store organizing data using semantic classification
WO2013033098A1 (en) Relational metal-model and associated domain context-based knowledge inference engine for knowledge discovery and organization
CN102640145A (zh) 可信查询系统和方法
US20090193325A1 (en) Apparatus, method and computer program product for processing documents
JP2005526317A (ja) ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム
US11977571B2 (en) Interactive patent visualization systems and methods
JPWO2005029379A1 (ja) 情報処理装置及び情報処理方法
CN102360367A (zh) 一种xbrl数据搜索方法及搜索引擎
US9081847B2 (en) Data store organizing data using semantic classification
Smith et al. Corpus tools and methods, today and tomorrow: Incorporating linguists’ manual annotations
WO2008041367A1 (fr) Dispositif de recherche de document, procédé de recherche de document et programme de recherche de document
Kuechler Business applications of unstructured text
JP2007226843A (ja) 文書管理システム及び文書管理方法
KR20110133909A (ko) 모든 자연어 표현의 각각의 의미마다 별도의 용어를 동적으로 생성하는 방법 및 이를 기반으로 하는 사전 관리기,문서작성기, 용어 주석기, 검색 시스템 및 문서정보체계 구축장치
Furth et al. Semantification of large corpora of technical documentation
Broughton A faceted classification as the basis of a faceted terminology: conversion of a classified structure to thesaurus format in the Bliss Bibliographic Classification
US11977722B2 (en) Interactive patent visualization systems and methods
JP2004185452A (ja) 文書管理システム及び文書管理方法
JP4877930B2 (ja) 文書処理装置及び文書処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070614

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091222

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100222

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100323