JP2006072881A - 文書管理システム、及び、文書管理方法 - Google Patents

文書管理システム、及び、文書管理方法 Download PDF

Info

Publication number
JP2006072881A
JP2006072881A JP2004258018A JP2004258018A JP2006072881A JP 2006072881 A JP2006072881 A JP 2006072881A JP 2004258018 A JP2004258018 A JP 2004258018A JP 2004258018 A JP2004258018 A JP 2004258018A JP 2006072881 A JP2006072881 A JP 2006072881A
Authority
JP
Japan
Prior art keywords
document
user
vector
management system
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004258018A
Other languages
English (en)
Inventor
Asuya Eto
明日也 江藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2004258018A priority Critical patent/JP2006072881A/ja
Publication of JP2006072881A publication Critical patent/JP2006072881A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 多数の文書を管理する文書管理システムにおいて、ユーザが望む文書を高速かつ的確に検索できるようにする。
【解決手段】 ファイル管理システム111により管理される各種ファイル及び文書データベース123,124に格納される各種文書について、ベクトル空間解析を行って類似度を判定することにより、指定された条件に適合する文書を自動的に検索する文書管理システム1である。ユーザがユーザコンソール装置13を操作して文書を閲覧等した際のアクセス履歴を記録し、記録されたアクセス履歴に基づいて、検索対象の文書の概念ベクトルを学習することによって、指定された条件に適合し、かつ、ユーザの行動傾向に関連する文書を検索する。
【選択図】 図1

Description

本発明は、文書管理システム、及び、文書管理方法に関する。
従来、コンピュータによる文書管理の手法は著しく進歩しており、近年ではベクトル空間解析を利用した検索手法等が提案されている(例えば、特許文献1参照。)。
特開平10−198691号公報
特許文献1に開示されたように、ベクトル空間解析を利用した文書管理においては、概念検索等の高度な検索機能を利用できる。このような検索技術の進歩により、極めて多数の文書の中から、比較的容易に、目的とする文書を発見することができるようになった。
ところが、文書管理上における検索技術の進歩は、適切な検索条件が設定された場合に、高速かつ的確に、目的の文書を探し出すことを目的としている。このため、ユーザが適切な検索条件を設定することを前提としており、目的とする文書を探し出せるような適切な検索条件をユーザが検討する手間については、特に改善が図られることが無かった。
そこで本発明は、多数の文書を管理する文書管理システムにおいて、ユーザが望む文書を高速かつ的確に検索できるとともに、ユーザが検索条件等を検討・設定する手間を省くことができるようにすることである。
上記の目的を達成するため、本発明の文書管理システムは、指定された条件に基づいて文書を検索する文書検索システムであって、当該システムにおけるユーザの行動履歴を記録する記録手段と、前記記録手段により記録されたユーザの行動履歴に基づいて、前記検索対象の文書間における類似度を学習する学習手段と、前記検索対象の文書のうち1または複数の文書が指定された場合に、指定された文書との類似度に基づいて、前記検索対象の文書を検索する検索手段とを備えることを特徴とする。
また、本発明において、前記検索対象の各文書についてベクトル空間解析を行うことにより概念ベクトルを生成するベクトル生成手段と、前記ベクトル生成手段により生成された前記検索対象の各文書の概念ベクトルを記憶するベクトル記憶手段と、をさらに備え、前記記録手段は、前記ユーザの行動履歴として、前記ユーザがアクセスした文書及びそのアクセス順序を記録するものであり、前記学習手段は、前記ユーザがアクセスした文書及びそのアクセス順序に基づいて、アクセスされた文書について前記ベクトル記憶手段に記憶された概念ベクトルを修正するものであって、前記検索手段は、前記ベクトル記憶手段に記憶された前記検索対象の各文書の概念ベクトルに基づいて類似度を判定し、前記指定された文書と類似度の高い文書を検索する構成としても良い。
また、本発明において、前記学習手段は、前記記録手段により記録された、前記ユーザがアクセスした文書及びそのアクセス順序を文書化して当該文書の概念ベクトルであるユーザベクトルを生成するとともに、前記ユーザがアクセスした文書について前記ベクトル記憶手段に記憶された概念ベクトルに基づいて、前記ユーザベクトルを修正する構成としても良い。
本発明の文書管理方法は、指定された条件に基づいて文書を検索する文書検索システムにおける文書管理方法であって、当該システムにおけるユーザの行動履歴を記録し、記録されたユーザの行動履歴に基づいて、前記検索対象の文書間における類似度を学習し、前記検索対象の文書のうち1または複数の文書が指定された場合に、指定された文書との類似度に基づいて前記検索対象の文書を検索することを特徴とする。
なお、本発明において「文書」とは、複数の文字列からなる実質的な文書ファイルに加え、仮想的に文書とみなされる各種情報をも含む。
本発明の文書管理システム及び文書管理方法によれば、指定された条件に基づいて文書を検索する文書検索システムであって、記録手段によって、当該システムにおけるユーザの行動履歴を記録し、学習手段によって、記録手段により記録されたユーザの行動履歴に基づいて、検索対象の文書間における類似度を学習し、検索対象の文書のうち1または複数の文書が指定された場合に、検索手段によって、指定された文書との類似度に基づいて、検索対象の文書を検索する。これにより、ユーザが1または複数の文書を指定した場合に、指定された文書に関連し、かつ、ユーザの行動履歴すなわちユーザがアクセス(閲覧など)した文書の履歴等に関連する文書を検索することができるので、ユーザが真に求める文書を的確に検索できる。そして、ユーザは、検索条件として一つの文書を指定すれば良いので、検索条件の検討を厳密に行う必要がなく、時間と手間を大幅に省くことができる。
また、本発明において、ベクトル生成手段によって、検索対象の各文書についてベクトル空間解析を行うことにより概念ベクトルを生成し、ベクトル生成手段により生成された検索対象の各文書の概念ベクトルをベクトル記憶手段に記憶し、記録手段が、ユーザの行動履歴として、ユーザがアクセスした文書及びそのアクセス順序を記録し、学習手段が、ユーザがアクセスした文書及びそのアクセス順序に基づいて、アクセスされた文書についてベクトル記憶手段に記憶された概念ベクトルを修正し、検索手段が、ベクトル記憶手段に記憶された検索対象の各文書の概念ベクトルに基づいて類似度を判定し、指定された文書と類似度の高い文書を検索する構成とした場合、ベクトル空間解析を利用して文書を検索する手法を用い、ユーザの行動履歴に基づいて各文書の概念ベクトル自体を修正することにより、ユーザの行動履歴を各文書間の類似度に良好にかつ効率よく反映させることが可能となり、より的確にユーザが求める文書を検索することができる。
また、本発明において、学習手段が、記録手段により記録された、ユーザがアクセスした文書及びそのアクセス順序を文書化して当該文書の概念ベクトルであるユーザベクトルを生成するとともに、ユーザがアクセスした文書についてベクトル記憶手段に記憶された概念ベクトルに基づいて、ユーザベクトルを修正するものとした場合、検索対象の各文書の概念ベクトルを学習するとともに、ユーザの行動履歴を示すユーザベクトルについても学習を実行するので、ユーザの行動履歴を検索結果に良好に反映させることが可能となり、より的確に、ユーザが求める文書を検索できる。
以下、本発明の実施の形態を図面に基づき説明する。
図1は、本発明を適用した実施の形態における文書管理システム1の概略構成を示す機能ブロック図である。図1に示すように、文書管理システム1は、管理システム10及びユーザコンソール装置13により構成される。
管理システム10は、検索制御部101、コンテキストベクトルインデックス102、ユーザインターフェイス制御部103、学習制御部104、概念ベクトル生成部105、文書管理部106、マッピングテーブル107、文書アダプタ108,109,110、及びファイル管理システム111の各機能部と、文書概念ベクトルデータベース121、ユーザ関心・ビジネスコンテキストベクトルデータベース122及び文書データベース123,124の各データベースとを備える。
ここで、文書管理システム1による処理の対象となるアイテムについて説明する。文書管理システム1においては、複数の文字のみからなる所謂「文書」の他、ソフトウェアにより管理される各種の「アイテム」を、仮想的に文書として取り扱う。
「アイテム」とは、例えば、ソフトウェアによる住所録管理機能により作成・管理される個々の連絡先、プロジェクト管理機能により管理されるプロジェクト自体及び各プロジェクトに含まれるタスク、オンラインディスカッション機能により作成・管理されるスレッド、URL(Uniform Resource Locator)等を含む。文書管理システム1においては、各アイテムの属性として「メモ」を設定できる。この「メモ」はHTML文書として記述され、それ自体を独立して編集・表示することも可能である。
文書管理システム1は、各アイテム中の文字列、各アイテムのタイトルに含まれる文字列、各アイテムの「メモ」属性に含まれる文字列等からなる文書として、各アイテムを取り扱うことにより、全てのアイテムを仮想的に文書として処理することが可能である。
以下の説明において、「アイテム」及び「文書」の語は、実質的な文書ファイル及び仮想的に文書とみなされるものを含む意味で用いる。
ファイル管理システム111は、OS(Operating System)等、文書ファイル及びそれ以外の各種ファイルを管理するシステムである。ファイル管理システム111は、図示しない記録媒体に記録されたファイルを管理する。ファイル管理システム111により管理されるファイルは、各々アイテムとして処理される。
文書データベース123,124は、複数の文書、及び、上述したように文書管理システム1において仮想的に文書とみなされる各種アイテム(例えば、プロジェクト管理ソフトウェアにより管理されるタスク)のデータを格納するデータベースである。
なお、図1に示す文書管理システム1は、一つのファイル管理システム111と2つの文書データベース123,124を備える構成としたが、本発明はこれに限定されるものではなく、複数のファイル管理システムを備える構成としても良いし、文書データベースの数についても制限はない。
文書アダプタ108,109,110は、ファイル管理システム111及び文書データベース123,124と、後述する文書管理部106とを接続するアダプタであって、文書管理部106の制御に従って、ファイル管理システム111及び文書データベース123,124により管理されるアイテムのデータを読み出して文書管理部106へ出力し、或いは、文書管理部106により新規に登録されたアイテムのデータをファイル管理システム111及び文書データベース123,124に登録させる処理等を行う。
文書管理部106は、マッピングテーブル107を有する。マッピングテーブル107は、ファイル管理システム111及び文書データベース123,124により管理される全てのアイテムについて、ファイル管理システム111及び文書データベース123,124により管理される各アイテムの格納場所(ファイルパス等)や各アイテムに付された識別情報(ID等)が設定されたテーブルである。
文書管理部106は、マッピングテーブル107に設定された情報に基づき、文書アダプタ108,109,110を介して接続されるファイル管理システム111及び文書データベース123,124により管理されるアイテムのデータについて、読み出し制御、新規登録の制御等の各種処理を実行する。
検索制御部101は、文書管理部106を介してファイル管理システム111及び文書データベース123,124により管理される各種アイテムのデータを参照することにより、通常の検索処理(図示略)を実行する。
また、検索制御部101は、後述する関連アイテム検索処理(図6)を実行し、ユーザの操作により指定されたアイテムに関連するアイテムを検索する。
概念ベクトル生成部105は、文書管理部106を介して、ファイル管理システム111及び文書データベース123,124により管理される各種アイテムのデータをもとに、後述する初期学習処理(図2)を実行して、各アイテムの概念ベクトルを生成して文書概念ベクトルデータベース121に格納させる。また、初期学習処理において、概念ベクトル生成部105は、各アイテムの概念ベクトルのクラスタリング及びインデックスの生成を実行し、処理結果を文書概念ベクトルデータベース121に格納する。
学習制御部104は、文書概念ベクトルデータベース121に格納された概念ベクトルを初期値として、後述する学習処理(図4)を実行し、ユーザベクトルの修正処理を実行して、実行結果をユーザ関心・ビジネスコンテキストベクトルデータベース122に格納する。
コンテキストベクトルインデックス102は、後述するインデックス処理(図5)において、ユーザ関心・ビジネスコンテキストベクトルデータベース122に格納されたベクトルのクラスタリング及びインデックス付けを実行する。
ユーザインターフェイス制御部103は、ユーザコンソール装置13におけるユーザの操作内容を取得して検索制御部101に出力する。また、ユーザインターフェイス制御部103は、後述するユーザアクセス記録処理(図3)を実行し、ユーザコンソール装置13の操作に基づいてユーザのアクセス内容を記録する。
また、ユーザインターフェイス制御部103は、検索制御部101による検索結果等をユーザコンソール装置13が有するモニタ131に表示するための表示情報を生成して、ユーザコンソール装置13に出力する。
ユーザコンソール装置13は、文書管理システム1を使用するユーザが操作するコンソールであって、文書管理システム1におけるマンマシンインターフェイスとして機能する。具体的には、ユーザコンソール装置13は、モニタ131、キーボード132及びマウス133を備えて構成される。
なお、文書管理システム1におけるベクトル空間解析に係る処理(概念ベクトルの生成、ベクトルのクラスタリング、インデックスの生成、ベクトルの圧縮等)は、いずれも、特許文献1等の技術文献に開示された公知の処理であるから、ここでは詳述しない。
次に、文書管理システム1の動作について説明する。
図2は、文書管理システム1により実行される初期学習処理を示すフローチャートである。
図2に示す初期学習処理において、概念ベクトル生成部105は、ファイル管理システム111及び文書データベース123,124により管理される各種アイテムの中から処理対象となる最初のアイテムをターゲットとして設定する(ステップS11)。
続いて、概念ベクトル生成部105は、アイテムの内容文書について形態素解析を実行し(ステップS12)、さらに、不要語の除去及びキーワードの抽出を実行する(ステップS13)。そして、概念ベクトル生成部105は、概念ベクトルを生成して、生成した概念ベクトルを当該アイテムに対応づけて文書概念ベクトルデータベース121に格納する(ステップS14)。
その後、概念ベクトル生成部105は、ベクトルの圧縮(ステップS15)、クラスタリング(ステップS16)、及びインデックスの生成(ステップS16)を実行し、生成したインデックスを文書概念ベクトルデータベース121に格納させる(ステップS17)。
ここで、概念ベクトル生成部105は、ターゲットに設定したアイテムがファイル管理システム111及び文書データベース123,124により管理される全アイテムのうち最後のアイテムか否かを判別する(ステップS18)。ここで、ターゲットのアイテムが最後のアイテムであって、全アイテムの処理が完了したのであれば(ステップS18;Yes)、概念ベクトル生成部105は本処理を終了する。一方、ターゲットのアイテムが最後のアイテムでなかった場合(ステップS18;No)、概念ベクトル生成部105は、次のアイテムをターゲットとして設定し(ステップS19)、ステップS12に戻る。
以上の初期学習処理により、文書概念ベクトルデータベース121には、文書管理システム1により文書として取り扱われる全てのアイテムについて、概念ベクトル及びインデックスが格納される。
図3は、ユーザアクセス記録処理を示すフローチャートである。
図3のユーザアクセス記録処理は、ユーザコンソール装置13を操作するユーザが文書管理システム1にログインしてからログアウトするまでの間において、ユーザがアクセスしたアイテムを記録する処理である。
ユーザコンソール装置13の操作によってユーザが所定の情報(ユーザID、パスワード等)を入力して、文書管理システム1に対するログインを要求すると、ユーザインターフェイス制御部103は、入力された情報に基づいてログイン処理を実行する(ステップS21)。
ここで、ユーザインターフェイス制御部103は、ユーザが入力した情報が有効なものであった場合に、ユーザに対してログインを許可するとともに、ユーザがアクセスするアイテムの記録を開始する(ステップS22)。ユーザインターフェイス制御部103は、記録開始に先だって、参照リストの初期化を行う。
続いて、文書管理システム1においては、ユーザコンソール装置13の操作に従って、例えば検索制御部101による検索処理等のアクションが実行される(ステップS23)。ユーザインターフェイス制御部103は、ユーザアクションが実行される毎に、いずれかのアイテムが参照されたか否かを判別し(ステップS24)、アイテムが参照された場合は参照されたアイテムを参照リストに追加する(ステップS25)。
そして、ユーザコンソール装置13の操作によってユーザがログアウトを要求した場合(ステップS26;Yes)、ユーザインターフェイス制御部103は、参照リストをユーザ関心・ビジネスコンテキストベクトルデータベース122に送信し(ステップS27)、ユーザをログアウトさせる処理を行って(ステップS28)、本処理を終了する。
図4は、文書管理システム1により実行される学習処理を示すフローチャートである。
図4に示す学習処理は、図3のユーザアクセス記録処理により記録された参照リストに従って、学習制御部104により、ユーザ関心・ビジネスコンテキストベクトルデータベース122に格納される各アイテムの概念ベクトル及びユーザベクトルを修正する処理である。最初に文書管理システム1において学習処理を実行する場合、学習制御部104は、文書概念ベクトルデータベース121に格納された概念ベクトルと、図3のユーザアクセス記録処理により生成・送信される参照リストとに基づいて処理を行う。2回目以降の学習処理は、ユーザ関心・ビジネスコンテキストベクトルデータベース122に格納された概念ベクトルと、ユーザベクトルと、図3のユーザアクセス記録処理により生成・送信される参照リストとに基づいて実行される。
ここで、ユーザベクトルとは、ユーザの行動傾向を示す情報を仮想的に一つの文書として、当該文書の概念ベクトルを生成したものである。本実施の形態においては、一例として、図3のユーザアクセス記録処理において生成・送信される参照リストを、ユーザの行動傾向を示す一つの文書として取り扱う。
文書管理システム1は、参照リストを一つの文書として他のアイテムと同一のベクトル空間における解析を行い、概念ベクトルを生成する。これにより複数のアイテム間の関連だけでなく、各アイテムとユーザの行動傾向(嗜好)との関連性をも正確に分析することが可能となる。
図4に示す学習処理では、参照リストに含まれる全アイテム、すなわちユーザが一回のログイン−ログアウト間にアクセスした全てのアイテムについて、参照リストに含まれる順番、すなわちユーザがアクセスした順に、処理が行われる。
最初に学習処理を実行する場合、学習制御部104は、まず、文書管理システム1において取り扱われる全てのアイテムのうち、参照リストにおける先頭(最初)のアイテムをターゲットに設定する(ステップS31)。
続いて、学習制御部104は、ターゲットに設定したアイテムについて、文書概念ベクトルデータベース121に格納される概念ベクトルを参照し、隣接するアイテムの学習を行う(ステップS32)。ここで、隣接するアイテムとは、参照リストにおけるアクセス順序が隣り合うことを指す。学習処理において最初にステップS32の処理を行う場合、ターゲットは参照リストの先頭(最初)のアイテムに設定されている。そこで、ステップS32では、参照リストにおけるアクセス順が2番目のアイテムを参照する。
そして、学習制御部104は、ターゲットのアイテムの概念ベクトルと、ターゲットのアイテムに隣接するアイテムの概念ベクトルとが接近するように、ターゲットに隣接するアイテムの概念ベクトルを修正する処理を行う。このように、文書管理システム1においては、概念ベクトルを修正する処理を「学習」と呼ぶ。
さらに、学習制御部104は、図3のユーザアクセス記録処理により生成・送信される参照リストに基づいてユーザベクトルを生成し、ユーザベクトルを、ターゲットに設定したアイテムの概念ベクトルに基づいて修正する(ステップS33)。ここでユーザベクトルを修正する処理は、例えば、ユーザベクトルを、ターゲットに設定したアイテムの概念ベクトルに近づける処理である。
その後、学習制御部104は、ユーザベクトルの学習係数を低減させる(ステップS34)。学習係数とは、学習の必要性を判断する基準となる係数であり、学習処理の実行前は、所定の初期値に設定される。文書管理システム1において、あるユーザのユーザベクトルに関する学習係数が所定の値まで低下した場合は、それ以上の学習を行わないようにすることができる。ここで所定の値とは、経験その他の条件に応じて任意に設定可能である。また、学習係数が高い場合は、優先して学習を行うようにすることもできる。
ここで、学習制御部104は、ターゲットに設定したアイテムが参照リストに含まれる全アイテムのうち最後のアイテムか否かを判別する(ステップS35)。ここで、ターゲットのアイテムが最後のアイテムであって、参照リスト中の全アイテムの処理が完了したのであれば(ステップS35;Yes)、学習制御部104は本処理を終了する。一方、ターゲットのアイテムが最後のアイテムでなかった場合(ステップS35;No)、学習制御部104は、参照リスト中の次のアイテムをターゲットとして設定し(ステップS36)、ステップS32に戻る。
2回目以降の学習処理において、学習制御部104は、ステップS31においてターゲットを設定した後、ステップS32で、ターゲットのアイテムについてユーザ関心・ビジネスコンテキストベクトルデータベース122に格納された概念ベクトルを参照し、隣接するアイテムの学習を行う。続いて、学習制御部104は、ステップS33において、図3のユーザアクセス記録処理により生成・送信される参照リストに基づいてユーザベクトルを修正する。この処理は、例えば、ユーザがアクセスした文書の概念ベクトルにユーザベクトルを近づける処理である。さらに、学習制御部104は、ユーザベクトルを、ターゲットに設定したアイテムの概念ベクトルに基づいて修正し、その後、ステップS34で学習係数を低減させ、ステップS35に移行する。
なお、図4に示す学習処理により修正されたアイテムの概念ベクトル及びユーザベクトルは、ユーザ関心・ビジネスコンテキストベクトルデータベース122に格納される。従って、文書概念ベクトルデータベース121に格納される各アイテムの概念ベクトルは初期値として用いられ、あるアイテムについて2回目以降の学習処理が行われる場合は、ユーザ関心・ビジネスコンテキストベクトルデータベース122に格納された概念ベクトルに基づいて処理が行われる。
図4に示す学習処理は、図3のユーザアクセス記録処理が実行され、新たな参照リストが生成・送信される毎、或いは、一定時間毎に実行される。
図5は、文書管理システム1により実行されるインデックス処理を示すフローチャートである。
図5に示すインデックス処理において、コンテキストベクトルインデックス102は、ユーザ関心・ビジネスコンテキストベクトルデータベース122に格納されたベクトルのクラスタリングを実行し(ステップS41)、各クラスタをツリー状にインデックス付けし、インデックス付けに係る情報を記憶する(ステップS42)。
これにより、後述する関連アイテム検索処理(図6)を迅速に実行できる。
図6は、文書管理システム1により実行される関連アイテム検索処理を示すフローチャートである。
図6に示す関連アイテム検索処理においては、まず、ユーザコンソール装置13の操作によってユーザが任意のアイテムを選択する(ステップS51)。
ここで、検索制御部101はコンテキストベクトルインデックス102を参照し、選択されたアイテムが従属するクラスタを検索する(ステップS52)。そして、検索制御部101は、該当するクラスタに従属するアイテムを抽出し(ステップS53)、抽出したアイテムを、ステップS51で選択されたアイテムとのベクトル距離に応じて並べ替えて一覧を作成し(ステップS54)、作成した一覧をユーザコンソール装置13のモニタ131に表示させる(ステップS55)。
図7は、図6のステップS55において表示される画面の一例を示す図である。上述のように、文書管理システム1においては、狭義の「文書」のみならず様々なアイテムを仮想的に文書として処理するため、図7に示す画面においても、「.doc」や「.txt」といった文書ファイルの他、様々なアイテムが一覧表示される。ユーザは、画面上に一覧表示された関連アイテムを適宜選択して、内容を参照する処理や各アイテムの関連づけを設定する処理等を行うことができる。
以上のように、文書管理システム1においては、関連アイテム検索処理により、ユーザが一つのアイテムを選択した場合に、当該アイテムに関連するアイテムの一覧が表示される。関連アイテム検索処理は、ユーザ関心・ビジネスコンテキストベクトルデータベース122に格納されるアイテムの概念ベクトル及びユーザベクトルをインデックス付けした情報に基づいて実行される。ユーザ関心・ビジネスコンテキストベクトルデータベース122においては、文書管理システム1において仮想的に文書として扱う全てのアイテムの概念ベクトルと、ユーザベクトルとが格納される。これら各アイテムの概念ベクトル及びユーザベクトルは、ユーザがアイテムにアクセスした記録に基づいて適宜修正されたものである。従って、関連アイテム検索処理により一覧表示されるアイテムは、ユーザが選択したアイテムに強く関連するだけでなく、ユーザの行動傾向(嗜好)に対しても強く関連するアイテムである。
すなわち、文書管理システム1によれば、ユーザの行動傾向を加味しながら関連するアイテム(文書)を効率良く検索することが可能となる。
また、図4に示す学習処理においては、ユーザがアイテムをアクセスした記録である参照リストに従って、各アイテムの概念ベクトルそのものが修正され、ユーザ関心・ビジネスコンテキストベクトルデータベース122に格納される。つまり、ユーザの行動履歴を示す参照リストに基づくアイテムの概念ベクトルの修正を、アイテムの概念ベクトルを生成したのと同一のベクトル空間において行う。これにより、ユーザの行動履歴をアイテムの概念ベクトルに良好に反映させることができるので、ユーザが真に求めるアイテムを検索することが可能となる。
なお、上記実施の形態において、文書管理システム1は、管理システム10及びユーザコンソール装置13を備える一つのシステムとして説明したが、本発明はこれに限定されるものではなく、例えば、管理システム10の機能を担うサーバ装置と、ユーザコンソール装置13及び管理システム10のユーザインターフェイス制御部103の機能を担うクライアント装置とを、通信回線を介して接続した構成としても良い。この場合、一台のサーバ装置に対して複数のクライアント装置を用いることが可能であり、多くのユーザに対して利便性の高い文書検索サービスを提供できる。なお、この場合、上述したユーザアクセス記録処理(図3)をクライアント装置において実行し、当該ユーザアクセス記録処理において作成された参照リストをサーバ装置へ送信する構成とすれば、より効率よく処理を行うことができる。
この他、文書管理システム1の具体的な細部構成等については特に制限はなく、本発明の趣旨を損なうことのない範囲において任意に変更可能であることは勿論である。
本発明の実施の形態における文書管理システム1の概略構成を示す機能ブロック図である。 図1の文書管理システム1により実行される初期学習処理を示すフローチャートである。 図1の文書管理システム1により実行されるユーザアクセス記録処理を示すフローチャートである。 図1の文書管理システム1により実行される学習処理を示すフローチャートである。 図1の文書管理システム1により実行されるインデックス処理を示すフローチャートである。 図1の文書管理システム1により実行される関連アイテム検索処理を示すフローチャートである。 図6の関連アイテム検索処理において表示される画面の一例を示す図である。
符号の説明
1 文書管理システム
10 管理システム
101 検索制御部
102 コンテキストベクトルインデックス
103 ユーザインターフェイス制御部
104 学習制御部
105 概念ベクトル生成部
106 文書管理部
107 マッピングテーブル
108,109,110 文書アダプタ
121 文書概念ベクトルデータベース
122 ユーザ関心・ビジネスコンテキストベクトルデータベース
123,124 文書データベース
13 ユーザコンソール装置

Claims (4)

  1. 指定された条件に基づいて文書を検索する文書検索システムであって、
    当該システムにおけるユーザの行動履歴を記録する記録手段と、
    前記記録手段により記録されたユーザの行動履歴に基づいて、前記検索対象の文書間における類似度を学習する学習手段と、
    前記検索対象の文書のうち1または複数の文書が指定された場合に、指定された文書との類似度に基づいて前記検索対象の文書を検索する検索手段と、
    を備えることを特徴とする文書管理システム。
  2. 前記検索対象の各文書についてベクトル空間解析を行うことにより概念ベクトルを生成するベクトル生成手段と、
    前記ベクトル生成手段により生成された前記検索対象の各文書の概念ベクトルを記憶するベクトル記憶手段と、をさらに備え、
    前記記録手段は、前記ユーザの行動履歴として、前記ユーザがアクセスした文書及びそのアクセス順序を記録するものであり、
    前記学習手段は、前記ユーザがアクセスした文書及びそのアクセス順序に基づいて、アクセスされた文書について前記ベクトル記憶手段に記憶された概念ベクトルを修正するものであって、
    前記検索手段は、前記ベクトル記憶手段に記憶された前記検索対象の各文書の概念ベクトルに基づいて類似度を判定し、前記指定された文書と類似度の高い文書を検索するものであること、
    を特徴とする請求項1記載の文書管理システム。
  3. 前記学習手段は、前記記録手段により記録された、前記ユーザがアクセスした文書及びそのアクセス順序を文書化して当該文書の概念ベクトルであるユーザベクトルを生成するとともに、前記ユーザがアクセスした文書について前記ベクトル記憶手段に記憶された概念ベクトルに基づいて、前記ユーザベクトルを修正することを特徴とする請求項2記載の文書管理システム。
  4. 指定された条件に基づいて文書を検索する文書検索システムにおける文書管理方法であって、当該システムにおけるユーザの行動履歴を記録し、記録されたユーザの行動履歴に基づいて、前記検索対象の文書間における類似度を学習し、前記検索対象の文書のうち1または複数の文書が指定された場合に、指定された文書との類似度に基づいて前記検索対象の文書を検索することを特徴とする文書管理方法。
JP2004258018A 2004-09-06 2004-09-06 文書管理システム、及び、文書管理方法 Pending JP2006072881A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004258018A JP2006072881A (ja) 2004-09-06 2004-09-06 文書管理システム、及び、文書管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004258018A JP2006072881A (ja) 2004-09-06 2004-09-06 文書管理システム、及び、文書管理方法

Publications (1)

Publication Number Publication Date
JP2006072881A true JP2006072881A (ja) 2006-03-16

Family

ID=36153418

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004258018A Pending JP2006072881A (ja) 2004-09-06 2004-09-06 文書管理システム、及び、文書管理方法

Country Status (1)

Country Link
JP (1) JP2006072881A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008250893A (ja) * 2007-03-30 2008-10-16 Fujitsu Ltd 情報検索装置、情報検索方法およびそのプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008250893A (ja) * 2007-03-30 2008-10-16 Fujitsu Ltd 情報検索装置、情報検索方法およびそのプログラム

Similar Documents

Publication Publication Date Title
CA2935272C (en) Coherent question answering in search results
US8276060B2 (en) System and method for annotating documents using a viewer
RU2501078C2 (ru) Ранжирование результатов поиска с использованием расстояния редактирования и информации о документе
US20080021891A1 (en) Searching a document using relevance feedback
JP5417471B2 (ja) 構造化文書管理装置、構造化文書検索方法
JP2015525929A (ja) 検索品質を改善するための重みベースのステミング
US9069771B2 (en) Music recognition method and system based on socialized music server
KR101103126B1 (ko) 정보 처리 장치 및 정보 처리 방법
JP2003228585A (ja) ファイル管理方法とこの方法を利用可能なファイル管理装置
US20070185832A1 (en) Managing tasks for multiple file types
JP2011133928A (ja) 記憶装置に記憶してある文書ファイルを検索する検索装置、検索システム、検索方法及びコンピュータプログラム
JP3702268B2 (ja) 情報検索システム、情報検索方法およびプログラム
JP5162215B2 (ja) データ処理装置、データ処理方法、および、プログラム
EP3273365B1 (en) Method for generating search index and server utilizing the same
JP2006072881A (ja) 文書管理システム、及び、文書管理方法
JP2002049638A (ja) 文書情報検索装置、方法、文書情報検索プログラム及び文書情報検索プログラムを格納したコンピュータ可読の記録媒体
JP2006185059A (ja) コンテンツ管理装置
JP2009146013A (ja) コンテンツ検索方法及び装置並びにプログラム
KR100942902B1 (ko) 웹페이지 검색 방법 및 상기 방법을 컴퓨터에서 구현하는 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
JP2001117942A (ja) 情報検索装置、情報検索方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4111508B2 (ja) データ属性管理方法
JP2009129280A (ja) 文書検索方法、文書検索装置および文書検索プログラム
JP2009129013A (ja) 文書検索方法、文書検索装置および文書検索プログラム
JP2009199552A (ja) 検索ナビゲーション装置及び方法
JP2006072628A (ja) 情報抽出装置