JP4977420B2 - 検索インデックス作成装置 - Google Patents

検索インデックス作成装置 Download PDF

Info

Publication number
JP4977420B2
JP4977420B2 JP2006247451A JP2006247451A JP4977420B2 JP 4977420 B2 JP4977420 B2 JP 4977420B2 JP 2006247451 A JP2006247451 A JP 2006247451A JP 2006247451 A JP2006247451 A JP 2006247451A JP 4977420 B2 JP4977420 B2 JP 4977420B2
Authority
JP
Japan
Prior art keywords
task
information
work
user
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006247451A
Other languages
English (en)
Other versions
JP2008070997A (ja
Inventor
彰 烏谷
高弘 松田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2006247451A priority Critical patent/JP4977420B2/ja
Priority to EP07106582A priority patent/EP1901185A3/en
Priority to US11/742,077 priority patent/US8533150B2/en
Publication of JP2008070997A publication Critical patent/JP2008070997A/ja
Application granted granted Critical
Publication of JP4977420B2 publication Critical patent/JP4977420B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、計算機で情報(ファイルやメールなど)を検索するシステムにおける検索索引の作成技術に関する。
従来、情報検索システムにおける検索索引(以下「検索インデックス」又は単に「インデックス」ともいう)の作成技術として、次の2つがある。
a.情報毎のインデックス作成
これは、検索対象の情報毎にキーワードや属性(以下「メタデータ」ともいう)を抽出してインデックスを作成する技術である。検索時には、情報毎に検索条件(以下「クエリー」ともいう)と照合して、検索条件を満たす情報を返す。Google(登録商標)やMSN Search(MSNは登録商標)などの多くの情報検索システムが、この方法によりインデックスを作成している。例えば特許文献1には、ユーザの業務内容から業務で扱っている文書を自動的に抽出して、その業務の業務名と担当者、文書名を登録し、それら登録されたメタデータを使って文書を検索する技術が開示されている。
b.情報群のインデックス作成
これは、例えば特許文献2に開示されているように、複数の情報を予め定められた参照番号を用いて情報群に分類し、情報群毎にインデックスを作成する技術である。情報群中のキーワードや文書タイトルなどを抽出してインデックスを作成する。検索時には、情報群とクエリーとを照合して、検索条件を満たす情報群を返す。クエリーと一致しないが情報群には含まれている情報を検索することができる。
図26は、このb.の技術を適用した従来の装置の概要を示す図である。同図に示したように、従来の装置は、ユーザが作業(以下、「タスク」ともいう)を行う計算機(PC)101が、情報群検出部102と情報群データベース(以下「情報群DB」という)103とインデックス作成部104とインデックス記録部105とを備えて構成されている。情報群検出部102は、計算機101の内部又は外部にある情報記録部106に記録されているユーザが操作可能な情報を、各情報に予め定められている参照番号に基づいて情報群に分類し、分類した情報群に関するデータを情報群DB103に記録する。インデックス作成部104は、情報群DB103に記録された情報群に関するデータに基づいて、情報群毎にインデックスを作成する。インデックスの作成では、情報群中のキーワードや文書タイトルなどが抽出されてインデックスが作成される。作成されたインデックスは、インデックス記録部105に記録され、情報群の検索の際に使用される。
特開平11−39293号公報 特開平11−143912号公報
ところで、上述のa.の技術では、ユーザが作業の中で複数の情報を扱っていて、それらの情報をひとまとめにして検索したいと考えても、情報群毎にインデックスを作成しないので、情報群を検索することができない。また、特許文献1では、業務名、担当者名、文書名などメタデータのみを登録して照合しており、文書内容を扱うことができない。特許文献1は、業務の抽出に操作履歴のシーケンスのみを用いており、 その内容に基づいた判断を行っていないので、十分な精度で業務を抽出できない可能性がある。例えば、業務中にユーザが飛び込みで別の業務を始めた場合にも、そこで扱った情報をそのまま業務で扱った情報として登録してしまう可能性がある。
上述のb.の技術では、情報群を作るために予め参照番号を各情報に設定しておく必要がある。参照番号のない情報は情報群に含まれないので、検索対象にもならない。また参照番号は固定で動的には変化しない。従って、ユーザの情報の使い方(情報群の分類方法)や視点が変わった場合、参照番号を付け直してインデックスを作り直す必要がある。例えば、ユーザが日常的に複数の情報を扱う作業をした場合、各情報の関連性は日々のタスクによって変化する。しかしながら、b.の技術では情報群が固定であるために、ユーザがある時点のタスクを手がかりに情報を探したくても、 そのタスクに相当する情報群が存在しない可能性がある。情報群がなければ、そのインデックスも存在しないので、タスクに関連する情報を検索することができない。
本発明は、上記実情に鑑み、ユーザのタスクを自動的に検出して、タスクで扱っていた情報群毎にインデックス(タスクインデックス)を作成することができ、さらに、各情報群のタスクインデックスの類似性を比較して、類似性の高い情報群同士をまとめたもののタスクインデックスを作成することもできる、検索インデックス作成装置、検索インデックス作成方法、及び、検索インデックス作成プログラムを提供することを目的とする。
上記目的を達成するため、本発明の第1の態様に係る検索インデックス作成装置は、ユーザの計算機での情報操作を監視してユーザが計算機で行った情報操作を検出する情報操作監視手段と、前記情報操作監視手段により検出された情報操作に関するデータを蓄積する情報操作データベースと、前記情報操作データベースに蓄積された情報操作に関するデータを分析してユーザの作業を検出し、当該作業で扱っていた情報群を同定して、当該作業に関するデータをタスクデータベースに登録するタスク検出手段と、を有することを特徴とする。
この装置によれば、ユーザが計算機で行っている作業を自動的に検出することができ、その作業で扱っていた情報群を特定することができる。
また、本発明の第2の態様に係る検索インデックス作成装置は、上記第1の態様において、前記タスクデータベースに蓄積された作業に関するデータから、作業同士の類似性を比較し、作業同士で内容の似た作業を検出して、当該作業同士で内容の似た作業をまとめた作業に関するデータを前記タスクデータベースに登録するタスク間類似性分析手段を有する、ことを特徴とする。
この装置によれば、作業同士の類似性を比較して、作業同士で内容の似た作業を検出することができる。
また、本発明の第3の態様に係る検索インデックス作成装置は、上記第1又は2の態様において、前記タスクデータベースに蓄積された作業に関するデータを取得し、作業毎に、作業で扱っていた情報群の検索索引を作成するタスクインデックス作成手段を有する、ことを特徴とする。
この装置によれば、作業毎に、作業で扱っていた情報群の検索索引を作成することができる。よって、予め情報に参照番号を付けずに動的に作業を検出して検索索引を作成できる。また、日々の情報操作に基づいて検出した作業の情報群に対して検索索引が作成されるので、ユーザが過去に行った作業を手がかりに(その時点の記憶を用いて)情報を検索できる。また、この装置によれば、作業同士の類似性を比較して、作業同士で内容の似た作業を検出し、内容の似た作業同士をまとめて大きな作業を作り、その大きな作業で扱っていた情報群の検索索引を作成することもできる。
また、本発明の第4の態様に係る検索インデックス作成装置は、上記第1乃至3の何れか一つの態様において、前記タスク検出手段は、情報操作を一定時間間隔毎に切り分けてユーザの作業を検出する、ことを特徴とする。
この装置によれば、ユーザが現在扱っている情報に係る作業だけでなく、一定のスパンで扱っている情報群に係る作業を検出することができる。
また、本発明の第5の態様に係る検索インデックス作成装置は、上記第1乃至3の何れか一つの態様において、前記タスク検出手段は、情報操作の流れを判別してユーザの作業を検出する、ことを特徴とする。
この装置によれば、ユーザの情報操作の流れに対応した作業を検出し、そこで扱っていた情報群を特定することができる。
また、本発明の第6の態様に係る検索インデックス作成装置は、上記第1乃至3の何れか一つの態様において、前記タスク検出手段は、情報操作で扱っている情報群の類似度から判別してユーザの作業を検出する、ことを特徴とする。
この装置によれば、ユーザの情報操作の内容に対応した作業を検出し、そこで扱っていた情報群を特定することができる。
また、本発明の第7の態様に係る検索インデックス作成装置は、上記第1乃至3の何れか一つの態様において、前記タスク検出手段は、情報操作を一定時間間隔毎に切り分けた後に、当該切り分けた情報操作で扱っている情報群の類似度から判別してユーザの作業を検出する、ことを特徴とする。
この装置によれば、情報群の類似性だけを用いてユーザの作業を検出する場合よりも、少ない負荷でユーザの作業を検出することができる。
また、本発明の第8の態様に係る検索インデックス作成装置は、上記第1乃至3の何れか一つの態様において、前記タスク検出手段は、情報操作の流れを判別して情報操作を切り分けた後に、当該切り分けた情報操作で扱っている情報群の類似度から判別してユーザの作業を検出する、ことを特徴とする。
この装置によれば、情報群の類似性だけを用いてユーザの作業を検出する場合よりも、少ない負荷でユーザの作業を検出することができる。また、同じ作業目的でまったく内容の異なる情報群を扱った場合でも、情報操作の流れを用いて検出しているので、情報群だけを用いて検出した時よりも精度高く作業を検出することができる。
また、本発明の第9の態様に係る検索インデックス作成装置は、上記第3の態様において、作業の検出と検出した作業に関するデータの前記タスクデータベースへの登録、及び、検出した作業で扱っていた情報群の検索索引の作成を繰り返し行って、繰り返す度に小さな作業を大きな作業にまとめて検出し、検出した作業に関するデータを前記タスクデータベースに登録する、ことを特徴とする。
この装置によれば、作業の検出を繰り返し行うことで、作業を階層化(小作業⇒中作業⇒高作業)して検出することができるので、ユーザの情報ニーズに応じたレベルの作業(例えば日単位の作業、週単位の作業、月単位の作業、年単位の作業など)の検出が可能になる。
また、本発明の第10の態様に係る検索インデックス作成装置は、上記第3の態様において、前記タスクインデックス作成手段は、複数の作業がまとめられた作業に関するデータを取得したときに、前記タスクデータベースを参照して、当該まとめられた作業に含まれる作業に関するデータを取得し、まとめられた作業毎に、当該まとめられた作業で扱っていた情報群の検索索引を作成する、ことを特徴とする。
この装置によれば、作業の検出を繰り返し行って作業を階層化(小作業⇒中作業⇒高作業)し、その検出した作業毎に検索索引を作成することができるので、ユーザの情報ニーズに応じたレベルの作業(例えば日単位の作業、週単位の作業、月単位の作業、年単位の作業など)を探索することが可能になる。
また、本発明の第11の態様に係る検索インデックス作成装置は、ユーザの計算機での情報操作を監視してユーザが計算機で行った情報操作を検出する情報操作監視手段と、前記情報操作監視手段により検出された情報操作に関するデータを蓄積する情報操作データベースと、前記情報操作データベースに蓄積された情報操作に関するデータを分析してユーザの作業を検出し、当該作業で扱っていた情報群を同定して、当該作業に関するデータをタスクデータベースに登録するタスク検出手段と、を有し、前記タスク検出手段は、最新の情報操作の操作対象の内容と、記憶手段に記憶されているテーブルに登録されている操作対象の内容との間の類似性が高いか否かを判定し、両者の間の類似性が高いと判定した場合には、前記テーブルに前記最新の情報操作の操作対象を追加登録し、両者の間の類似性が高くないと判定した場合には、前記テーブルを前記記憶手段から削除すると共に新規にテーブルを作成して前記記憶手段に記憶し、新規に作成した前記テーブルに前記最新の情報操作の操作対象を登録し、前記記憶手段に記憶されているテーブルに登録されている操作対象を扱っているタスクを、ユーザの作業として検出する、ことを特徴とする。
また、本発明は、上記各態様に係る装置に限らず、方法及びプログラムとして構成することもできる。
本発明によれば、ユーザのタスクを自動的に検出して、タスクで扱っていた情報群毎にインデックス(タスクインデックス)を作成できるので、情報を検索する際には、作成されたタスクインデックスとクエリーとを照合して、検索条件を満たす情報郡を検索結果として返すことができる。また、各情報群のタスクインデックスの類似性を比較して、類似性の高い情報群同士をまとめたもののタスクインデックスも作成できるので、タスクインデックスの類似性が高い、つまり内容が似ていると考えられるタスク同士をまとめて、そのまとめたタスクで扱っていた情報群を一度に検索できるようになる。よって、ユーザの探索視点・情報要求を汲み取り、ユーザの記憶している内容に応じた情報探索を実現することができる。
以下、図面を参照しながら本発明の実施の形態を説明する。
図1は、本発明の一実施の形態に係る検索インデックス作成装置の概要を示す図である。
同図において、計算機(PC)1は、ユーザが作業を行うことが可能な計算機であり、内部に、情報操作監視部2と情報操作データベース(以下単に「情報操作DB」という)3とタスク検出部4とタスクデータベース(以下単に「タスクDB」という)5とタスク間類似性分析部6とタスクインデックス作成部7とタスクインデックス記録部8とを有した検索インデックス作成装置、を備えている。また、計算機1は、図示は省略するが、ネットワークを介して、1つ以上の装置(例えば、他の計算機(PC)やファイルサーバ等)とも接続されている。
尚、本実施の形態では、計算機1が検索インデックス作成装置を備えるものとするが、例えば、ネットワークを介して接続されている複数の装置(複数の計算機等)が検索インデックス作成装置の構成要素を分散して備えるようにすることもできる。
情報記録部9は、ユーザによる計算機1からの情報操作が可能な情報が記録されている記録部を示しており、計算機1の内部、外部、又はその両方に存在する。
計算機1が備えた検索インデックス作成装置は、詳しくは後述するように、ユーザのタスクを自動的に検出し、ユーザがタスクで扱っていた複数の情報(情報群)を抽出し、その情報群を分析して情報群のインデックスを作成する。尚、以下においては、ユーザがタスクで扱っていた情報群のインデックスを「タスクインデックス」という。また、検索インデックス作成装置は、タスクインデックスからタスク毎の類似度を算出し、類似度の高い(作業内容の似た)タスクをまとめて大きなタスクのタスクインデックスを作成する。そして、ユーザが情報を検索するときには、計算機1が、これらのタスクインデックスとクエリーとを照合して検索条件を満たすタスクインデックスを取得し、そのタスクで扱っていた情報群を返す。
このような検索インデックス作成装置において、情報操作監視部2は、ユーザが計算機で行う情報操作(情報の参照・作成・印刷、メールの送信・受信・参照、Webページ閲覧など)を監視し、ユーザが計算機で行った情報操作を検出する。情報操作を検出すると、検出した情報操作の操作内容、操作対象、及び操作日時などの情報操作に関するデータを情報操作DB3へ登録する。これにより、ユーザが計算機で行った全ての情報操作が情報操作DB3に蓄えられるようになり、後に、情報操作DB3を参照してユーザの情報操作を分析し、ユーザの情報処理の流れやユーザが扱った情報の変遷を取り出すことが可能になる。
タスク検出部4は、情報操作DB3を参照してユーザの情報操作を分析し、ユーザのタスク(タスクの始まりから終わり)を検出する。ここで、タスクの検出方法としては、ユーザの情報操作を一定時間間隔毎(例えば10分、30分毎など)に分割して検出したり、ユーザの情報操作の区切り(例えばファイルのOPENからCLOSEまでなど)を抽出して検出したり、ユーザが扱っている情報群の間の類似度の変化を求めて検出したり、といった方法がある。また、これらの方法を組み合わせてユーザの情報操作を分析してタスクを検出する方法もある。
例えば、情報群の類似度の変化を使って検出する方法では、ユーザが扱っている情報群をドキュメント空間へマッピングする。ドキュメント空間は、情報に含まれるキーワードや属性の出現頻度を要素とするベクトル空間である。タスク検出部4は、ユーザの情報操作や一定時間間隔など、予め定めた区切り毎に情報群をドキュメント空間へマッピングする。この時ドキュメント空間へマッピングした情報群のベクトルと前回マッピングした時のベクトルとの角度あるいは内積などを求めて、ユーザが扱っている情報の類似度を得る。ここで、この類似度が大きく変化するということは、ユーザが扱っている情報群が大きく変わったということを意味するので、タスクが変わったと推定してタスクを検出する。
タスク検出部4は、このようにしてタスクを検出すると、検出したタスクでユーザが扱っていた情報群を同定し、検出したタスクに関するデータをタスクDB5へ登録する。
タスク間類似性分析部6は、タスクDB5を参照してタスクに関するデータを取り出し、それぞれのタスクの類似性を比較する。ここで、タスクの類似性は、各タスクのタスクインデックス(後述のタスクインデックス作成部7により作成されタスクインデックス記録部8に記録されたタスクインデックス)を取得してその内容を比較する。タスクインデックスの内容を比較する方法としては、例えば、各タスクのタスクインデックスをドキュメント空間へマッピングして内容を比較する方法がある。この方法では、ドキュメント空間へマッピングしたタスクインデックスのベクトル同士の角度や内積を求めて、タスク間の類似度を得る。この類似度が近いということは、ユーザが似たような情報群を扱ったタスクを行っていたことを意味するので、タスク同士が似ていると判断して、これらのタスクを1つの大きなタスクにまとめて、まとめたタスクに関するデータをタスクDB5へ登録する。
このタスク間類似性分析部6を再帰的に呼び出すことにより、個々の小さなタスクから、複数のタスクが集まった大きなタスクまで、様々なレベルのタスクを検出し、そのタスクインデックスの作成が可能になる。
タスクインデックス作成部7は、タスク検出部4やタスク間類似性分析部6が検出したタスクで扱っていた情報群を抽出して、その情報群のタスクインデックスを作成する。タスクインデックス作成部7が作成したタスクインデックスは、タスクインデックス記録部8に記録される。
このようにして作成されタスクインデックス記録部8に記録されたタスクインデックスは、ユーザが情報を検索する際に、計算機1によって、クエリーと照合され、そこで検索条件を満たすタスクインデックスが取得されて、そのタスクで扱っていた情報群が返される。
図2は、本実施の形態に係る検索インデックス作成装置により作成されるタスクインデックスの一例を、従来の装置(図26参照)と対比して示す図である。
同図において、上段の部分は、ユーザが1日目〜5日目までの各タスクで扱っていた情報を示し、中段の部分は、従来の装置により作成されたインデックスの例を示し、下段の部分は、本実施の形態に係る装置により作成されたタスクインデックスの例を示している。尚、上段の部分に示した各情報の( )内の小文字アルファベットは、予め定められた参照番号を示している。
この場合、従来の装置では、ユーザが行った作業(タスク)とは関係なく、予め各情報に定められた参照番号に従って情報群を求めた後に、それぞれの情報群毎にインデックスを作成する。従って、同図の例では、情報A1,A2,A3が参照番号a、情報B1とB2が参照番号b、情報C1が参照番号cに設定されているので、それぞれ参照番号でまとめて情報群が作られ、そのインデックスが作成される。しかし、ユーザは日々のタスクで、予め定められた参照番号とは関係なくタスクに関係する情報を扱う可能性がある。ユーザはそれぞれのタスクで扱った情報を記憶しているが、インデックスはユーザが行ったタスクとは無関係に作られているので、このインデックスを使用した場合、ユーザの記憶に沿った検索を行うことができない。
これに対し、本実施の形態に係る装置では、日々のタスク毎に、そのタスクで扱った情報を取り出して、タスクインデックスを作成する。従って、ユーザが記憶しているタスクと対応するタスクインデックスを作成することができ、ユーザの記憶に沿った検索を行うことができる。尚、同図の例では、タスクの検出方法として日数(日単位)を用いたが、詳しくは後述するように、タスクはこれに限らず様々な方法で検出することができる。
以下、本実施の形態に係る検索インデックス作成装置の動作を、各構成要素毎に詳細に説明する。
まず、情報操作監視部2の動作を、図3及び図4を用いて詳細に説明する。
情報操作監視部2は、情報に関する様々な操作を監視して、ユーザが行った操作を検出し、検出した操作を情報操作DB3に登録する。監視においては、ユーザが計算機で扱った全ての情報に対する操作を監視する。例えば、ファイルやメール、アドレス帳、予定表、映像、音楽など様々な情報が、操作を監視する対象になる。監視する操作は、情報のオープン、クローズ、読出し、書き込み、印刷、コピー、移動、情報を表示するウィンドウのフォーカスや最大化、最小化など様々な操作になり、それを検出する。
図3は、このような情報操作監視部2の動作を示すフローチャートである。
同図に示したように、情報操作監視部2は、まず、監視対象となる計算機上において、監視対象となるソフトウェアが動作しているか(実行中であるか)否かを判定する(S1)。ここで、その判定結果がNOの場合には、本フローが終了する。
一方、S1がYESの場合には、続いて、監視対象となるソフトウェア上でユーザにより情報操作が行われたか否かを判定する(S2)。ここで、その判定結果がNOの場合には処理がS1へ戻る。
一方、S2の判定結果がYESの場合には、続いて、S2で行われた情報操作が監視対象の情報操作であるか否かを判定する(S3)。ここで、その判定結果がNOの場合には処理がS1へ戻る。
一方、S3の判定結果がYESの場合には、続いて、S2で行われた情報操作に関するデータを情報操作DB3へ記録(登録)し(S4)、処理がS1へ戻る。
図4は、図3に示した情報操作監視部2の動作により情報操作DB3に記録された情報操作に関するデータの一例を示す図である。
図4に示したように、情報操作DB3には、検出された情報操作毎に、当該情報操作にユニークに付与された操作ID(「操作ID」)と、当該情報操作が行われた日付及び時間(「日付」及び「時間」)と、当該情報操作の内容(「操作」)と、当該情報操作の操作対象(「操作対象」)と、必要に応じて記録される操作詳細(「操作詳細」)と、当該情報操作を行ったユーザ名(「ユーザ」)と、当該情報操作が行われた時に使用された計算機名(「PC名」)とが記録される。
次に、タスク検出部4の動作を、図5乃至図18を用いて詳細に説明する。
タスク検出部4は、情報操作DB3を参照して新しい情報操作の有無を調べる。ここで新しい情報操作が存在した場合には、タスク分析を行ってタスクを検出し、当該タスクで扱っていた情報群を同定して、検出したタスクに関する情報をタスクDB5へ記録(登録)する。
尚、タスク検出部4が新しい情報操作の有無を検出する方法としては、例えば、タスク検出部4が定期的に情報操作DB3を参照したり、或いは、情報操作監視部2が情報操作DB3に情報操作に関するデータを記録(登録)した際に(図3のS4参照)その旨をタスク検出部4に通知したりして行うという方法がある。
図5は、そのようなタスク検出部4の動作を示すフローチャートである。
同図に示したように、タスク検出部4は、まず、情報操作DB3を参照する(S11)。
続いて、参照した情報操作DB3に、タスク検出の対象ユーザによる対象計算機上(対象PC上)での新しい情報操作に関するデータが記録されているか否かを判定する(S12)。ここで、その判定結果がNOの場合には、本フローが終了する。
一方、S12の判定結果がYESの場合には、情報操作DB3から最新の情報操作の操作IDを読み出す(S13)。
続いて、詳しくは図6乃至図16を用いて後述するように、S13で読み出した操作IDに基づきタスク分析を行って、タスク(タスクの始めから終わり)の検出を行う(S14)。尚、このタスク分析では、タスクの開始を検出した後、タスクの終了を検出するまでの間、ユーザの情報操作を後述の方法で分析し続ける。
続いて、S14でタスク(タスクの始めから終わり)を検出したか否かを判定する(S15)。ここで、その判定結果がNOの場合には、本フローが終了する。
一方、S15の判定結果がYESの場合には、詳しくは図17及び図18を用いて後述するように、検出したタスクで扱っていた情報群を同定して、検出したタスクに関するデータをタスクDB5へ記録(登録)し(S16)、本フローが終了する。但し、S16において、検出したタスクに関するデータが既にタスクDB5に登録済みの場合には、タスクDB5の内容を更新する。
ここで、S14におけるタスク分析と、S16におけるタスクDB5への登録(又はタスクDB5の更新)について、更に詳しく説明する。
まず、S14におけるタスク分析について説明する。
タスク分析には、
(1)一定時間間隔毎に情報操作を切り出してタスクを検出する方法と、
(2)情報操作の流れを判別してタスクを検出する方法と、
(3)情報操作で扱った情報群(複数の情報)の類似性を比較してタスクを検出する方法と、
(4)これらの方法を組み合わせてタスクを検出する方法と、
がある。(1)〜(4)の各方法を用いたタスク分析について順に説明する。
まず、(1)の方法を用いたタスク分析を、図6及び図7を用いて説明する。
図6は、(1)の方法を用いてタスク分析を行う場合のフローチャートである。
同図に示したように、この場合、タスク検出部4は、まず、図5のS13で情報操作DB3から読み出した最新の情報操作の操作IDを取得する(S21)。
続いて、その最新の情報操作の日時を取得する(S22)。
続いて、タスク開始日時が設定済みか否かを判定する(S23)。
S23の判定において、その判定結果がNOの場合には、S21で取得した操作IDとS22で取得した日時を、タスク開始操作IDとタスク開始日時として設定すると共に内部RAM(random access memory)等に記憶し(S24)、本フローが終了する。
一方、S23の判定結果がYESの場合には、S22で取得した日時が、設定されているタスク開始日時に所定時間単位を加えた日時以内か否かを判定する(S25)。尚、所定時間単位とは、情報操作を一定時間間隔毎に切り出してタスクを検出するときの、その一定時間間隔のことであり、例えば、30分、1時間、1日、1週間など予め定めた時間間隔である。
S25の判定において、その判定結果がYESの場合には、本フローが終了する。
一方、S25の判定結果がNOの場合には、S21で取得した操作IDに係る情報操作の一つ前の情報操作の操作IDを、タスク終了操作IDとして取得する(S26)。
続いて、設定されているタスク開始操作IDからS26で取得したタスク終了操作IDまでの情報操作をタスクとして検出する(S27)。
続いて、S21で取得した操作IDとS22で取得した日時を、タスク開始操作IDとタスク開始日時として設定すると共に内部RAM等に記憶し(S28)、本フローが終了する。
ここで、(1)の方法を用いてタスク分析を行った場合の具体例を、図7を用いて説明する。
図7は、情報操作DB3に登録されている情報操作に関するデータの一例を示す図である。
本例では、同図に示した操作ID(0011)の情報操作が最新の情報操作であるとし、タスク分析での所定時間単位を1時間であるとし、タスク開始操作IDとして操作ID(0008)が設定されているものとする。
この場合は、まず、最新の情報操作の操作ID(0011)が取得され、その情報操作の日時(Sep/14/06 12:35 PM)が取得される。続いて、設定済みのタスク開始日時であるタスク開始操作ID(0008)の日時(Sep/14/06 11:20 AM)が取得される。続いて、操作ID(0011)に係る情報操作の操作日時(Sep/14/06 12:35 PM)が、タスク開始日時(Sep/14/06 11:20 AM)に所定時間単位(1時間)を加えた日時(Sep/14/06 12:20 PM)以内か否かが判定される。本例では、その判定結果がNOとなるので、操作ID(0011)に係る情報操作の一つ前の情報操作の操作ID(0010)がタスク終了操作IDとして取得される。続いて、タスク開始操作ID(0008)からタスク終了操作ID(0010)までの情報操作(同図の黒塗り部分)がタスクとして検出される。続いて、操作ID(0011)と、その情報操作の日時(Sep/14/06 12:35 PM)が、タスク開始操作IDとタスク開始日時として設定され内部RAM等に記憶される。
尚、(1)の方法を用いたタスク分析では、この例で説明した以外にも、一日刻み単位(当日の0:00AMから11:59PM)や一週間刻み単位(日曜日から土曜日)、時間刻み単位(8:00AM〜8:59AM, 9:00AM〜9:59AM,…)といった具合に、それぞれの刻み単位内に起こった情報操作をタスクとして検出するようにすることもできる。
このような(1)の方法を用いたタスク分析によれば、ユーザが現在扱っている情報に係るタスクだけでなく、一定のスパンで扱っている情報群に係るタスクを検出することができる。
次に、(2)の方法を用いたタスク分析を、図8及び図9を用いて説明する。
(2)の方法を用いたタスク分析では、例えば、ユーザがある情報をオープンしてからクローズするまでは同一のタスクを行っていると考えられるので、こういった情報操作の流れからタスクを検出する。この間にユーザが他の情報に対して情報操作を行った場合には、それらの情報操作も同一タスクのために行われたものとして検出する。
図8は、このような(2)の方法を用いてタスク分析を行う場合のフローチャートである。
同図に示したように、この場合、タスク検出部4は、まず、図5のS13で情報操作DB3から読み出した最新の情報操作の操作ID(以下単に「最新情報操作ID」ともいう)と、その情報操作の操作(例えばOPEN、CLOSE等)を取得する(S31)。
続いて、取得した操作が、情報の参照開始もしくは参照終了に関する操作であるか否かを判定する(S32)。ここで、その判定結果がNOの場合には本フローが終了する。
一方、S32の判定結果がYESであって情報の参照開始に関する操作である場合には、続いて、その操作で参照している情報以外に、現在参照中の情報が有るか否かを判定する(S33)。ここで、その判定結果がYESの場合には本フローが終了する。一方、S33の判定結果がNOの場合には、続いて、S31で取得した最新情報操作IDをタスク開始操作IDに設定して内部RAM等に記憶し(S34)、本フローが終了する。
一方、S32の判定結果がYESであって情報の参照終了に関する操作である場合には、続いて、その操作で参照を終える情報以外に、現在参照中の情報が有るか否かを判定する(S35)。ここで、その判定結果がYESの場合には本フローが終了する。一方、S35の判定結果がNOの場合には、続いて、S31で取得した最新情報操作IDをタスク終了操作IDに設定する(S36)。続いて、タスク開始操作IDからタスク終了操作IDまでの情報操作を、タスクとして検出し(S37)、本フローが終了する。
ここで、(2)の方法を用いてタスク分析を行った場合の具体例を、図9を用いて説明する。
図9は、情報操作DB3に登録されている情報操作に関するデータの一例を示す図である。
本例では、同図に示した操作ID(0011)の情報操作が、最新の情報操作であるとする。
この場合は、操作ID(0011)が最新情報操作IDとして取得され、その情報操作の操作(CLOSE)が取得される。続いて、その操作(CLOSE)が参照終了に関する操作であって、且つ、その時に他に参照中の情報はないので、その操作ID(0011)がタスク終了操作IDとして設定される。
タスク開始操作IDについては、過去に、操作ID(0008)が最新情報操作IDとして取得され、その情報操作の操作(OPEN)が取得された時点において、その操作(OPEN)が参照開始に関する操作であって、且つ、その時に他に参照中の情報が無かったので、その操作ID(0008)がタスク開始操作IDに設定されている。
よって、操作ID(0011)がタスク終了操作IDとして設定されると、続いて、タスク開始操作ID(0008)からタスク終了操作ID(0011)までの情報操作(同図の黒塗り部分)がタスクとして検出される。
このような(2)の方法を用いたタスク分析によれば、ユーザの情報操作の流れに対応したタスクを検出することができる。
次に、(3)の方法を用いたタスク分析を、図10乃至図12を用いて説明する。
(3)の方法を用いたタスク分析では、タスク検出部4は、ユーザが情報操作で扱った情報群をベクトル空間にマッピングする。ここで、各ベクトルの要素は、情報に含まれるキーワードや属性の頻度である。タスク検出部4は、前回までの情報操作で扱った情報群のベクトル和と、新しい情報操作で扱っている情報のベクトルとの類似性を比較し、その値の大小でタスクを検出する。類似性が高い場合は、ユーザが似たような情報を扱い続けていることを意味する。従って、ユーザのタスクが継続していると判断して、タスクの操作対象テーブルに新しい情報操作で扱っている情報を加える。一方、類似性が低い場合は、ユーザの扱う情報の内容が大きく変わったことを意味する。従って、ユーザが新しくタスクを開始したとして、新しく操作対象テーブルを作成して、新しい情報操作で扱っている情報を登録する。類似性の大小を判断する閾値は、予め設定しておく。尚、作成された操作対象テーブルは、内部RAM等に記憶される。
図10は、このような(3)の方法を用いてタスク分析を行う場合のフローチャートである。
同図に示したように、この場合、タスク検出部4は、まず、図5のS13で情報操作DB3から読み出した最新の情報操作の操作IDと、その情報操作の操作対象(例えばファイルA、ファイルB等)を取得する(S41)。
続いて、取得した操作対象は、操作対象テーブルに未登録か否かを判定する(S42)。ここで、その判定結果がNOの場合には処理がS51へ進む。
一方、S42の判定結果がYESの場合には、続いて、その操作対象の内容を取得し(S43)、取得した内容をベクトル空間であるドキュメント空間にマッピングして、操作対象ベクトル1を取得する(S44)。
続いて、操作対象テーブルに登録されている全ての操作対象の内容を取得し(S45)、その取得した内容をドキュメント空間にマッピングして、操作対象ベクトル2を取得する(S46)。
続いて、操作対象ベクトル1と操作対象ベクトル2の類似性(例えば角度や内積等)を取得する(S47)。尚、両ベクトルの類似性を、例えば、両者の角度や内積とした場合には、類似性の大小(高低)を0、1等といった2値ではなく0から1等の範囲の程度で表現することができる。
続いて、類似性の高低を比較するために、取得した類似性が予め定めた閾値以上か否かを判定する(S48)。尚、取得した類似性が閾値以上であれば類似性が高いことを、閾値未満であれば類似性が低いことを表す。ここで、その判定結果がNOの場合には、操作対象テーブルを削除し(S49)、処理がS50へ進む。
一方、S48の判定結果がYESの場合には、S41で取得した操作対象を操作対象テーブルに追加登録する(S50)。或いは、S49の後に行われる場合には、新しく操作対象テーブルを作成して、それにS41で取得した操作対象を登録する(S50)。
S50の後、又は、S42がNoの場合には、続いて、操作対象テーブルを、タスクで扱っている操作対象の一覧として検出する(S51)。尚、操作対象テーブルを、タスクで扱っている操作対象の一覧として検出したということは、すなわち、操作対象テーブルに登録されている操作対象を扱っているタスクが検出されたことになる。
また、S51では、S49で操作対象テーブルが削除されてS50で新規に操作対象テーブルが作成されていた場合には、そのこと(新しいタスクを検出したこと)も併せて検出される。
S51の処理が終わると、本フローが終了する。
ここで、(3)の方法を用いてタスク分析を行った場合の具体例を図11(a),(b),(c) 及び図12を用いて説明する。
図11(a) は、情報操作DB3に登録されている情報操作に関するデータの一例を示す図、同図(b) は、操作ID(0009)が情報操作DB3に登録される前の操作対象テーブルの内容を示す図、同図(c) は、操作ID(0009)が情報操作DB3に登録された後の操作対象テーブルの内容を示す図である。図12は、操作対象がマッピングされたドキュメント空間の一例を示す図である。尚、同図に示したドキュメント空間において、ベクトルの成分は操作対象に含まれる各単語の頻度とし、類似性は操作対象ベクトル1と操作対象ベクトル2との角度とする。
本例では、図11(a) に示した操作ID(0009)の情報操作が、最新の情報操作であるとする。
この場合は、まず、操作ID(0009)が最新情報操作IDとして取得され、その操作対象の内容(ファイルC1)が取得される。続いて、その内容(ファイルC1)がドキュメント空間にマッピングされ、操作対象ベクトル1(図12参照)が取得される。
続いて、操作対象テーブル(図11(b) 参照)に登録されている全ての操作対象の内容(ファイルA2)が取得され、その内容(ファイルA2)がベクトル空間にマッピングされ、操作対象ベクトル2(図12参照)が取得される。
続いて、操作対象ベクトル1と操作対象ベクトル2の類似性が取得され、その値が閾値以上か否かが判定される。
この判定で、閾値以上であると判定されたときには、これまでの操作対象テーブル(図11(b) 参照)に最新情報操作ID(0009)の操作対象の内容(ファイルC1)が追加登録される(同図(c) 参照)。続いて、その操作対象テーブル(同図(c) 参照)が、タスクで扱っている操作対象の一覧として検出される。
このような(3)の方法を用いたタスク分析によれば、ユーザの情報操作の内容に対応したタスクを検出することができる。
次に、(4)の方法を用いたタスク分析について説明する。
ここでは、(4)の方法を用いたタスク分析として、(1)と(3)を組み合わせた方法を用いたタスク分析と、(2)と(3)を組み合わせた方法を用いたタスク分析とを説明する。
まず、(1)と(3)を組み合わせた方法を用いたタスク分析を、図13及び図14(a),(b),(c)を用いて説明する。
(1)と(3)を組み合わせた方法を用いたタスク分析では、タスク検出部4が、情報操作を一定時間間隔毎に切り出した後に、その間にユーザが扱っている情報の類似性を用いてタスクを検出する。
図13は、このような(1)と(3)を組み合わせた方法を用いてタスク分析を行う場合のフローチャートである。
同図に示したように、この場合、タスク検出部4は、まず、図5のS13で情報操作DB3から読み出した最新の情報操作の操作IDを取得する(S61)。
続いて、その最新の情報操作の日時を取得する(S62)。
続いて、S62で取得した最新の情報操作の日時から、タスク分析での所定時間単位分差し引いた日時を、タスク開始日時として取得する(S63)。尚、所定時間単位とは、情報操作を一定時間間隔毎に切り出してタスクを検出するときの、その一定時間間隔のことであり、例えば、30分、1時間、1日、1週間など予め定めた時間間隔である。
続いて、タスク開始日時以降で、最初の情報操作の操作IDを、タスク開始操作IDとして取得する(S64)。
続いて、S64で取得したタスク開始操作IDからS61で取得したタスク終了操作IDまでの操作対象の内容を取得する(S65)。
続いて、S65で取得した内容をベクトル空間であるドキュメント空間にマッピングして、操作対象ベクトル1を取得する(S66)。
続くS67乃至S70では、図10に示したS45乃至S49と同様の処理が行われるので、ここでは説明を省略する。
続いて、S69の判定結果がYESの場合には、S65で取得した操作対象(操作対象ベクトル1の操作対象)を操作対象テーブルに追加登録する(S71)。或いは、S70の後に行われる場合には、新しく操作対象テーブルを作成して、それにS65で取得した操作対象を登録する(S71)。
続くS72以降については、図10に示したS51以降と同様の処理が行われるので、ここでは説明を省略する。
ここで、(1)と(3)を組み合わせた方法を用いてタスク分析を行った場合の具体例を、図14(a),(b),(c)を用いて説明する。
図14(a) は、情報操作DB3に登録されている情報操作に関するデータの一例を示す図、同図(b) は、操作ID(0012)が情報操作DB3に登録される前の操作対象テーブルの内容を示す図、同図(c) は、操作ID(0012)が情報操作DB3に登録された後の操作対象テーブルの内容を示す図である。
本例では、図14(a) に示した操作ID(0012)の情報操作が、最新の情報操作であるとし、タスク分析での所定時間単位を30分とする。
この場合は、まず、最新の情報操作の操作ID(0012)がタスク終了操作IDとして取得され、その情報操作の日時(Sep/14/06 13:00 PM)が取得される。続いて、その日時から30分を差し引いた日時(Sep/14/06 12:30 PM)が、タスク開始日時として取得され、タスク開始日時以降で、最初の情報操作の操作ID(0011)が取得される。続いて、タスク開始操作ID(0011)からタスク終了操作ID(0012)までの情報操作で扱った操作対象の内容(ファイルA2、メールD1)が取得される。続いて、取得された内容がドキュメント空間にマッピングされ、そのベクトル和から操作対象ベクトル1が取得される。
続いて、操作対象テーブル(同図(b) 参照)に登録されている全ての操作対象の内容(ファイルA2、ファイルC1)が取得され、その内容(ファイルA2、ファイルC1)がベクトル空間にマッピングされ、そのベクトル和から操作対象ベクトル2が取得される。
続いて、操作対象ベクトル1と操作対象ベクトル2の類似性(例えば両者の間の角度)が取得され、その値が閾値以上か否かが判定される。
この判定で、閾値以上であると判定されたときには、操作対象テーブル(同図(b) 参照)に、操作対象ベクトル1の操作対象の内容(ファイルA2、メールD1)が追加登録される(同図(c) 参照)。尚、操作対象の内容が重複する場合には(本例ではファイルA2が重複)、上書き登録される。
続いて、その操作対象テーブル(同図(c) 参照)が、タスクで扱っている操作対象の一覧として検出される。
このような(1)と(3)を組み合わせた方法を用いたタスク分析によれば、 情報群の類似性だけを用いてユーザのタスクを検出する場合よりも、少ない負荷でユーザのタスクを検出することができる。
次に、(2)と(3)を組み合わせた方法を用いたタスク分析を、図15及び図16(a),(b),(c)を用いて説明する。
(2)と(3)を組み合わせた方法を用いたタスク分析では、タスク検出部4が、情報操作の流れを判別した後に、その間にユーザが扱っている情報の類似性を用いてタスクを検出する。
図15は、このような(2)と(3)を組み合わせた方法を用いてタスク分析を行う場合のフローチャートである。
同図において、S81乃至S86では、図8に示したS31乃至S36と同様の処理が行われるので、ここでは説明を省略する。
S86が終了すると、続いて、タスク開始操作IDからタスク終了操作IDまでの情報操作で扱った操作対象の内容を取得し(S87)、取得した内容をベクトル空間であるドキュメント空間にマッピングして、操作対象ベクトル1を取得する(S88)。
続くS89以降については、図13に示したS67以降と同様の処理が行われるので、ここでは説明を省略する。
ここで、(2)と(3)を組み合わせた方法を用いてタスク分析を行った場合の具体例を、図16(a),(b),(c)を用いて説明する。
図16(a) は、情報操作DB3に登録されている情報操作に関するデータの一例を示す図、同図(b) は、操作ID(0013)が情報操作DB3に登録される前の操作対象テーブルの内容を示す図、同図(c) は、操作ID(0013)が情報操作DB3に登録された後の操作対象テーブルの内容を示す図である。
本例では、図16(a) に示した操作ID(0013)の情報操作が、最新の情報操作であるとする。
この場合は、操作ID(0013)が最新情報操作IDとして取得され、その情報操作の操作(CLOSE)が取得される。続いて、その操作(CLOSE)が参照終了に関する操作であって、且つ、他に参照中の情報が無いので、その操作ID(0013)がタスク終了操作IDに設定される。
タスク開始操作IDについては、過去に、操作ID(0012)が最新情報操作IDとして取得され、その情報操作の操作(OPEN)が取得された時点において、その操作(OPEN)が参照開始に関する操作であって、且つ、その時に他に参照中の情報が無かったので、その操作ID(0012)がタスク開始操作IDに設定されている。
よって、操作ID(0013)がタスク終了操作IDとして設定されると、続いて、タスク開始操作ID(0012)からタスク終了操作ID(0013)までの情報操作で扱った操作対象の内容(メールD1)が取得される。続いて、取得された内容(メールD1)がドキュメント空間にマッピングされ、操作対象ベクトル1が取得される。
続いて、操作対象テーブル(同図(b) 参照)に登録されている全ての操作対象の内容(ファイルA2、ファイルC1)が取得され、その内容(ファイルA2、ファイルC1)がベクトル空間にマッピングされ、そのベクトル和から操作対象ベクトル2が取得される。
続いて、操作対象ベクトル1と操作対象ベクトル2の類似性(例えば両者の間の角度)が取得され、その値が閾値以上か否かが判定される。
この判定で、閾値以上であると判定されたときには、操作対象テーブル(同図(b) 参照)に、操作対象ベクトル1の操作対象の内容(メールD1)が追加登録される(同図(c) 参照)。
続いて、その操作対象テーブル(同図(c) 参照)が、タスクで扱っている操作対象の一覧として検出される。
このような(2)と(3)を組み合わせた方法を用いたタスク分析によれば、情報群の類似性だけを用いてユーザのタスクを検出する場合よりも、少ない負荷でユーザのタスクを検出することができる。また、同じ作業目的でまったく内容の異なる情報群を扱った場合でも、情報操作の流れを用いて検出しているので、情報群だけを用いて検出した時よりも精度高くタスクを検出することができる。
次に、図5のS16におけるタスクDB5への登録(又はタスクDB5の更新)について、図17及び図18を用いて説明する。
図17は、そのS16におけるタスクDB5への登録(又はタスクDB5の更新)のフローチャートを示す図である。
同図に示したように、タスク検出部4は、まず、タスク分析の結果を取得する(S101)。このS101では、図5のS14のタスク分析において、タスクとしてタスク開始操作IDからタスク終了操作IDまでの情報操作が検出されていた場合には、そのタスク開始操作IDとタスク終了操作IDをタスク分析結果として取得する。一方、S14のタスク分析において、タスクとして操作対象テーブルが検出されていた場合には、その操作対象テーブルをタスク分析結果として取得する。また、操作対象テーブルが検出されていた場合に、更に、新しいタスクを検出したことも検出されていた場合には、タスク分析結果として取得した操作対象テーブルを、新規に作成された操作対象テーブルとして取得する。
S101でタスク開始操作IDとタスク終了操作IDを取得した場合には、続いて、情報操作DB3を参照して、タスク開始操作IDからタスク終了操作IDまでの操作対象、ユーザ名、PC名等を取得し(S102)、取得したこれらの情報(タスクに関するデータ)をタスクDB5へ登録する(S103)。尚、登録時には、タスクを一意に定めるタスクIDと登録日時(登録日と登録時間)も付加される。
一方、S101で操作対象テーブルを取得した場合には、続いて、それが新規に作成された操作対象テーブルであるか否かを判定する(S104)。
S104の判定結果がYESの場合には、タスクDB5を参照して、最後に登録されたタスクの登録日時(以下「タスク登録日時」ともいう)を取得する(S105)。続いて、S101で取得した操作対象テーブルを参照して、その操作対象を取得する(S106)。続いて、情報操作DB3を参照して、S105で取得したタスク登録日時以降に、S106で取得した操作対象に対して行われた情報操作の操作IDやユーザ名、PC名等を取得し(S107)、取得したこれらの情報(タスクに関するデータ)をタスクDB5へ登録する(S103)。
一方、S104の判定結果がNOの場合には、タスクDB5を参照して、最後に登録されたタスクのタスクIDとそのタスク登録日時を取得する(S108)。続いて、S101で取得した操作対象テーブルを参照して、その操作対象を取得する(S109)。続いて、情報操作DB3を参照して、S108で取得したタスク登録日時以降に、S109で取得した操作対象に対して行われた情報操作の操作IDやユーザ名、PC名等を取得する(S110)。続いて、S110で取得した情報(タスクに関するデータ)をタスクDB5に反映するため、タスクDB5の該当タスクID(S108で取得したタスクID)の情報を更新する(S111)。尚、この更新において、S110で取得した情報と該当タスクIDの情報との間で重複する部分については、該当タスクIDの情報がS110で取得した情報によって上書きされる。
図18は、図17に示したフローによって登録或いは更新されたタスクDB5の内容を示す図である。
同図に示したように、タスクDB5には、登録されるタスク毎に、当該タスクに一意に定められたタスクID(「タスクID」)と、当該タスクが登録された日時(「登録日」及び「登録時間」)と、当該タスクで扱った情報群である情報操作の対象(「操作対象」)と、当該タスクを構成する情報操作の操作ID(「対象となる操作ID」)と、当該タスクを行ったユーザ名(「ユーザ」)と、当該タスクで使用された計算機名(「PC名」)等が記録される。尚、タスクIDは、タスクをタスクDB5に新規に登録する場合に割り振られる。また、既にタスクDB5に登録済みのタスクに関する情報を更新する場合は、上述のとおり、古いタスクに関する情報が上書きされる。
次に、タスク間類似性分析部6の動作について図19及び図20を用いて詳細に説明する。
タスク間類似性分析部6は、タスク同士の類似性を評価(分析)して、複数のタスクをまとめた大きなタスクを検出する。ここで、タスクに対してタスク間類似性分析部6による分析回数をタスクの多重化度(以下「タスク多重化度」ともいう)と定義すると、タスク間類似性分析部6は、同じ多重化度のタスク同士の類似性を分析する。
具体的には、タスク間類似性分析部6は、タスクDB5を参照して同じ多重化度のタスクを取得した後、タスク検出部4による情報の類似性を用いたタスク検出と同様に、各タスクをドキュメント空間にマッピングしてベクトル化する。タスク間類似性分析部6がタスクをドキュメント空間にマッピングする場合、そのタスクのタスクインデックス(詳しくは後述するタスクインデックス作成部7により作成されタスクインデックス記録部8に記録されたタスクインデックス)を取得して、タスクで扱った情報群に含まれるキーワードとその頻度を用いてドキュメント空間にマッピングすることができる。タスク間の類似性は、ドキュメント空間にマッピングしたベクトル同士の類似性を、その角度や内積等により求めて、類似性の高いタスク同士をまとめて新しいタスクを検出し、タスクDB5へ登録する。タスク間類似性分析部6が検出した、複数のタスクをまとめた新しいタスクをタスクDB5へ登録する際には、新たにタスクIDを割り当てて、そのタスクID、登録日時、多重化度、及び、まとめられたタスクのタスクIDを記録する。タスクの多重化度は、新しいタスクにまとめられたタスクの多重化度に+1する。このような処理を多重化度を変えて繰り返すことで、小さなタスクをまとめた大きなタスクを検出することができる。また、タスク間類似性分析部6は、タスクDB5に登録されているタスクの多重化度が予め定めた最大値に達したり、タスクDB5に登録したタスクの数が予め定めた最大値に達したりした時に、この処理を終えるようにすることができる。
図19は、このようなタスク間類似性分析部6の動作を示すフローチャートである。
同図に示したように、タスク間類似性分析部6は、まず、タスク多重化度N=0に設定する(S121)。
続いて、タスクDB5を参照し(S122)、タスク多重化度Nのタスクを取得する(S123)。
続いて、タスク多重化度Nのタスクが有るか否かを判定する(S124)。ここで、その判定結果がNOの場合には、本フローが終了する。
一方、S124の判定結果がYESの場合には、取得したタスクをドキュメント空間にマッピングする(S125)。ここでのマッピングでは、タスクの操作対象をドキュメント空間にマッピングして、そのベクトル和をタスクのベクトルとする。
尚、このS125において、取得したタスクが1つだけであった場合には、そのドキュメント空間へのマッピングを行わずに、不図示ではあるが、続くS126及びS127をジャンプしてS128へ処理が進む。
S125の後、続いて、ドキュメント空間にマッピングされた各タスクのベクトルの類似性(例えば角度)を比較する(S126)。尚、各タスクのベクトルの類似性を、例えば、角度や内積とした場合には、類似性の大小を0、1等といった2値ではなく0から1等の範囲の程度で表現することができる。
続いて、S126の比較の結果、類似性が、多重化度に応じて予め定めた閾値以内のタスクをまとめて、新しいタスクとしてタスクDB5に登録する(S127)。尚、この時には、タスク多重化度N+1と、被多重化タスクとしてまとめられたタスクのタスクIDも、併せて登録される。このような処理は、新しいタスクとしてタスクDB5に登録される全てのタスクに対して行われる。
続いて、タスク多重化度Nの値が、予め定めた多重化度に達したか否かを判定する(S128)。その判定結果がYESの場合には、本フローが終了する。
一方、S128の判定結果がNOの場合には、多重化度N=N+1とし(S129)、S123へ処理が戻る。
ここで、このようなタスク間類似性分析部6の動作が行われた場合の具体例を、図20を用いて説明する。
本例では、タスク間類似性分析部6の動作が行われる前におけるタスクDB5に登録されている内容を図18に示したものであるとする。また、図18では不図示であるが、タスクID(0001)、(0002)、及び、(0003)の各タスクは何れもタスク多重化度として0がタスクDB5に登録されている。
この場合、タスク間類似性分析部6の動作が行われると、まず、多重化度が0のタスクID(0001)、(0002)、及び、(0003)のタスクが取得され、各タスクの操作対象がドキュメント空間にマッピングされ、タスク毎に、タスクの操作対象のベクトル和が求められタスクのベクトルが作られる。
続いて、タスクのベクトルの類似性が比較され、類似性の高い(閾値内の)タスクをまとめて新しいタスクとしてタスクDB5に登録される。本例では、図20に示すように、類似性の高いタスクとして、タスクID(0001)及び(0002)のタスクがまとめられ、新しいタスク(タスクID(0004))としてタスクDB5に登録される。このとき、タスクID(0004)のタスクのタスク多重化度として1(0+1)が登録され、また、その被多重化タスクIDとして、まとめられたタスクのタスクID(0001)及び(0002)が登録される。もちろん、このときには、その登録日時も登録される。
本例では、これで処理が終了するが、例えば、他にも、タスク多重化度が同一の複数のタスクがタスクDB5に登録されていた場合には、このような処理が、予め定められたタスク多重化度に達するまで繰り返し行われる。但し、予め定められたタスク多重化度に達する以前であっても、次(N=N+1)のタスク多重化度のタスクが存在しなくなった場合には、そこで処理が終了する。
このようなタスク間類似性分析部6の動作によれば、タスクを階層化(小タスク⇒中タスク⇒高タスク)して取得することができるので、ユーザの情報ニーズに応じたレベルのタスク(例えば日単位のタスク、週単位のタスク、月単位のタスク、年単位のタスクなど)の取得が可能になる。
次に、タスクインデックス作成部7の動作について図21及び図22(a),(b)を用いて説明する。
タスクインデックス作成部7は、タスクDB5を参照して、タスクインデックスが未作成のタスクが有るかどうかを調べ、タスクインデックスが未作成のタスクが有った場合にはタスクインデックスを作成し、それをタスクインデックス記録部8に記録する。このタスクインデックスの作成及び記録では、タスクで操作対象となった情報群を取得して、その情報群の内容や属性を取り出し、取り出した内容について形態素解析やn-gramなどの分かち書きを行って、分かち書きした各要素のTF(Term Frequency)やIDF(Inverted document frequency)などを算出して、これらの組み合わせをタスクインデックスとして作成し記録する。
図21は、このようなタスクインデックス作成部7の動作を示すフローチャートである。
同図に示したように、タスクインデックス作成部7は、まず、タスクDB5を参照する(S131)。
続いて、タスクインデックスを未作成のタスクが有るか否かを判定する(S132)。ここで、その判定結果がNOの場合には、本フローが終了する。
一方、S132の判定結果がYESの場合には、タスクインデックスを未作成のタスク(タスクに関するデータ)を取得する(S133)。
続いて、S133で取得したタスクに関するデータから、タスクインデックスを未作成のタスクが多重化タスクであるか否かを判定する(S134)。
S134の判定結果がYESの場合には、多重化タスクに含まれているタスク多重化度0の被多重化タスク(被多重化タスクに関するデータ)を取得し(S135)、その被多重化タスクに関するデータから、全ての被多重化タスクの全ての操作対象を取得する(S136)。
一方、S134の判定結果がNOの場合には、S133で取得したタスクに関するデータから、当該タスクの全ての操作対象を取得する(S136)。
続いて、取得した全ての操作対象の内容を取得し、その内容の分かち書きを行って、分かち書きした各要素のTF・IDF(TFとIDFの積)を算出する(S137)。
続いて、分かち書きした要素と各要素のTF・IDFを、当該タスクのタスクインデックスとして、タスクインデックス記録部8に記録し(S138)、本フローが終了する。
このような動作により、タスク毎に、当該タスクで扱っていた情報群のタスクインデックスが作成され、記録される。
尚、分かち書きした要素と各要素のTF・IDFは、タスクで扱っていた情報群から抽出された、タスクを特徴付ける情報でもあるので、これをタスクインデックスとすることで、ユーザが実際にタスクで扱っていた情報群に関して記憶している内容を使ってタスクインデックスを作成することができる。また、分かち書きした要素であるキーワードや属性を、タスクを特徴付ける情報とすることで、タスクの中身や目的を取り出すこともできる。
図22(a),(b) は、図21に示したタスクインデックス作成部7の動作によりタスクインデックス記録部8に記録されたタスクインデックスの一例を示す図である。
本例では、同図(a),(b) に示したように、タスクインデックスを2つのテーブルに分けて記録(登録)している。同図(a) に示したテーブルは、情報群の内容を分かち書きした要素や属性を登録する要素テーブルである。より詳しくは、この要素テーブルは、要素や属性とそれに一意に割り当てられたID、さらにその要素がいくつの操作対象に含まれているかを表すDF(Document Frequency)や登録日時などを登録する。同図(b) に示したテーブルは、各タスクで扱った操作対象にどういった要素や属性が含まれているのか、その要素や属性は検索する上でどれぐらいの重要性を持つのかを登録する要素重みテーブルである。より詳しくは、この要素重みテーブルは、タスクを一意に表すタスクID、そのタスクで扱った操作対象の情報群に含まれていた要素や属性を一意に表す要素ID、その要素IDの要素がこのタスクで扱った操作対象の中に何回出現したかを表すTF、その要素IDの検索重み(TF×DFの逆数)、登録日時などを登録する。尚、要素の検索重みは、検索方法に合わせて、これ以外にも2値(0:要素が出現しなかった,1要素が出現した)や、確率(要素の出現確率)などを用いることもできる。
このようなタスクインデックス作成部7の動作によれば、タスク検出部4により検出されたタスク毎にタスクインデックスを作成することができることは勿論のこと、階層化(小タスク⇒中タスク⇒高タスク)されたタスク毎にタスクインデックスを作成することもできるので、情報検索時に、計算機1は、ユーザの情報ニーズに応じたレベルのタスク(例えば日単位のタスク、週単位のタスク、月単位のタスク、年単位のタスクなど)で扱っていた情報群を探索することが可能になる。
ここで、計算機1がタスクインデックス記録部8に記録されているタスクインデックスを用いて情報検索を行うときの動作を、図23を用いて説明する。
図23は、計算機1が、タスクインデックス記録部8に記録されているタスクインデックスを用いて、タスクで扱った情報群を検索するときのフローチャートを示す図である。
同図に示したように、計算機1は、まず、検索条件を記したクエリーを取得する(S141)。クエリーは、ユーザが手動で検索条件を記したクエリー、或いは、計算機1が自動的に検索条件を記したクエリーである。尚、クエリーは、検索方法(例えばBOOLEAN検索やベクトル空間を用いた検索等)に合わせて記述される。
続いて、S141で取得したクエリーと、タスクインデックス記録部8に記録されている各タスクのタスクインデックスとの適合度合いを比較する(S142)。すなわち、検索を実施する。
続いて、S142の比較の結果、その適合度合いが予め定めた閾値以上であるか否かを判定する(S143)。ここで、その判定結果がNOの場合には、本フローが終了する。
一方、S143の判定結果がYESの場合には、その適合度合いが予め定めた閾値以上のタスクインデックスを取得する(S144)。
続いて、S144で取得したタスクインデックスからタスクIDを取得し、タスクDB5を参照して、取得したタスクIDのタスクで扱った情報群を取得し提示する(S145)。すなわち、S144で取得したタスクインデックスの操作対象をタスクDB5から取得して提示する。
尚、本フローのS143において、適合度合いの判定方法は、検索方法によって変わる。例えば、検索方法がBOOLEAN検索の場合、検索条件に指定された要素が出現したタスクはどれかをタスクインデックスを用いて探し出す。或いは、例えば、検索方法がベクトル空間を用いた検索の場合、検索条件に指定された要素が出現したタスクがどれかをタスクインデックスを用いて探し出した後、図12等を用いて説明した情報の類似性によるタスク分析と同様にして適合度合いを調べる。すなわち、検索条件をドキュメント空間にマッピングしたベクトルと、タスクインデックスの各タスクをドキュメント空間にマッピングしたベクトルとの類似性を調べて、類似性が高いタスクを適合度合いが高いタスクとして得る。
以上のように、本実施の形態に係る検索インデックス作成装置によれば、ユーザが計算機で行っているタスクを自動的に検出して、タスク毎に、タスクで扱っていた情報群を特定し、その情報群からタスクインデックスを作成することができる。よって、予め情報に参照番号を付けずに動的にタスクを検出してタスクインデックスを作成することができる。また、日々の情報操作に基づいて検出したタスクで扱っていた情報群に対してタスクインデックスが作成されるので、ユーザが過去に行ったタスクを手がかりに(その時点の記憶を用いて)情報を検索できる。
また、タスク同士の類似性を比較して、タスク同士で内容の似たタスクを検出し、内容の似たタスク同士をまとめて大きなタスクを作り、その大きなタスクで扱っていた情報群のタスクインデックスを作成することもできる。
ところで、図1に示した検索インデックス作成装置を備えた計算機1は、例えば、図24に示すような情報処理装置 (コンピュータ)を用いて構成される。
同図に示した情報処理装置 は、CPU(中央処理装置)11、メモリ12、入力装置13、出力装置14、外部記憶装置15、媒体駆動装置16、ネットワーク接続装置17を備え、それらはバス18により互いに接続されている。
メモリ12は、例えば、ROM(read only memory)、RAM等を含み、処理に用いられるプログラムおよびデータを格納する。CPU11は、メモリ12を利用してプログラムを実行することにより、必要な処理を行う。
図1に示した情報操作監視部2、タスク検出部4、タスク間類似性分析部6、及びタスクインデックス作成部7は、メモリ12に格納されたプログラムまたはその機能に対応する。
入力装置13は、例えば、キーボード、ポインティングデバイス、タッチパネル等であり、ユーザからの指示や情報の入力に用いられる。出力装置14は、例えば、ディスプレイ、プリンタ、スピーカ等であり、ユーザへの問い合わせや処理結果等の出力に用いられる。
外部記憶装置15は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク装置、テープ装置等である。情報処理装置 は、この外部記憶装置15に、上記プログラムおよびデータを格納しておき、必要に応じて、それらをメモリ12にロードして使用する。
媒体駆動装置16は、可搬記録媒体19を駆動し、その記録内容にアクセスする。可搬記録媒体19は、メモリカード、フレキシブルディスク、CD−ROM(compact disk read only memory )、光ディスク、光磁気ディスク等の任意のコンピュータ読み取り可能な記録媒体である。ユーザは、この可搬記録媒体19に上記プログラムおよびデータを格納しておき、必要に応じて、それらをメモリ12にロードして使用する。
図1に示した情報操作DB3、タスクDB5、タスクインデックス記録部8、及び情報記録部9の各々は、メモリ12、外部記憶装置15、又は可搬記録媒体19に対応する。また、タスク開始操作IDとタスク開始日時や、タスク開始操作IDや、操作対象テーブルが記憶される内部RAMは、メモリ12に対応する。
ネットワーク接続装置17は、LAN(local area network)やインターネット等の任意の通信ネットワークに接続され、通信に伴うデータ変換を行う。情報処理装置 は、必要に応じて、上記プログラムおよびデータを外部の装置からネットワーク接続装置17を介して受け取り、それらをメモリ12にロードして使用する。
図25は、図24の情報処理装置 にプログラムおよびデータを供給することのできるコンピュータ読み取り可能な記録媒体を示している。可搬記録媒体19やサーバ21のデータベース22に格納されたプログラムおよびデータは、情報処理装置23のメモリ12にロードされる。サーバ21は、そのプログラムおよびデータを搬送する搬送信号を生成し、ネットワーク上の任意の伝送媒体を介して情報処理装置23に送信する。CPU11は、そのデータを用いてそのプログラムを実行し、必要な処理を行う。
以上、本発明について詳細に説明したが、本発明は上記実施形態に限定されず、本発明の要旨を逸脱しない範囲において、各種の改良及び変更を行っても良いのはもちろんである。
(付記1)
ユーザの計算機での情報操作を監視してユーザが計算機で行った情報操作を検出する情報操作監視手段と、
前記情報操作監視手段により検出された情報操作に関するデータを蓄積する情報操作データベースと、
前記情報操作データベースに蓄積された情報操作に関するデータを分析してユーザの作業を検出し、当該作業で扱っていた情報群を同定して、当該作業に関するデータをタスクデータベースに登録するタスク検出手段と、
を有することを特徴とする検索インデックス作成装置。
(付記2)
前記タスクデータベースに蓄積された作業に関するデータから、作業同士の類似性を比較し、作業同士で内容の似た作業を検出して、当該作業同士で内容の似た作業をまとめた作業に関するデータを前記タスクデータベースに登録するタスク間類似性分析手段を有する、
ことを特徴とする付記1記載の検索インデックス作成装置。
(付記3)
前記タスクデータベースに蓄積された作業に関するデータを取得し、作業毎に、作業で扱っていた情報群の検索索引を作成するタスクインデックス作成手段を有する、
ことを特徴とする付記1又は2記載の検索インデックス作成装置。
(付記4)
前記タスクインデックス作成手段により作成された検索索引を記録するタスクインデックス記録手段を有する、
ことを特徴とする付記3記載の検索インデックス作成装置。
(付記5)
前記タスク検出手段は、情報操作を一定時間間隔毎に切り分けてユーザの作業を検出する、
ことを特徴とする付記1乃至4の何れか一つに記載の検索インデックス作成装置。
(付記6)
前記タスク検出手段は、情報操作の流れを判別してユーザの作業を検出する、
ことを特徴とする付記1乃至4の何れか一つに記載の検索インデックス作成装置。
(付記7)
前記タスク検出手段は、情報操作で扱っている情報群の類似度から判別してユーザの作業を検出する、
ことを特徴とする付記1乃至4の何れか一つに記載の検索インデックス作成装置。
(付記8)
前記タスク検出手段は、情報操作を一定時間間隔毎に切り分けた後に、当該切り分けた情報操作で扱っている情報群の類似度から判別してユーザの作業を検出する、
ことを特徴とする付記1乃至4の何れか一つに記載の検索インデックス作成装置。
(付記9)
前記タスク検出手段は、情報操作の流れを判別して情報操作を切り分けた後に、当該切り分けた情報操作で扱っている情報群の類似度から判別してユーザの作業を検出する、
ことを特徴とする付記1乃至4の何れか一つに記載の検索インデックス作成装置。
(付記10)
前記タスク検出手段は、ユーザの作業を検出する際に、情報操作で扱っている情報群をベクトル空間にマッピングして、当該マッピングしたベクトル同士の内積を類似度とする、
ことを特徴とする付記7乃至9の何れか一つに記載の検索インデックス作成装置。
(付記11)
前記タスク間類似性分析手段は、作業同士の類似性を比較する際に、情報操作で扱っている情報群をベクトル空間にマッピングして、当該マッピングしたベクトル同士の内積を類似度とする、
ことを特徴とする付記2記載の検索インデックス作成装置。
(付記12)
作業の検出と検出した作業に関するデータの前記タスクデータベースへの登録、及び、検出した作業で扱っていた情報群の検索索引の作成を繰り返し行って、繰り返す度に小さな作業を大きな作業にまとめて検出し、検出した作業に関するデータを前記タスクデータベースに登録する、
ことを特徴とする付記3記載の検索インデックス作成装置。
(付記13)
前記タスクインデックス作成手段は、複数の作業がまとめられた作業に関するデータを取得したときに、前記タスクデータベースを参照して、当該まとめられた作業に含まれる作業に関するデータを取得し、まとめられた作業毎に、当該まとめられた作業で扱っていた情報群の検索索引を作成する、
ことを特徴とする付記3記載の検索インデックス作成装置。
(付記14)
前記タスクインデックス作成手段は、作業で扱っていた情報群から、当該作業を特徴付ける情報を抽出して検索索引とする、
ことを特徴とする付記3又は13記載の検索インデックス作成装置。
(付記15)
前記タスクインデックス作成手段は、前記作業を特徴付ける情報として、作業で扱っていた情報群の内容を分かち書きしたキーワードや属性を用いて検索索引とする、
ことを特徴とする付記14記載の検索インデックス作成装置。
(付記16)
ユーザの計算機での情報操作を監視してユーザが計算機で行った情報操作を検出し、
検出した情報操作に関するデータを情報操作データベースに蓄積させ、
前記情報操作データベースに蓄積された情報操作に関するデータを分析してユーザの作業を検出し、当該作業で扱っていた情報群を同定して、当該作業に関するデータをタスクデータベースに登録する、
ことを特徴とする検索インデックス作成方法。
(付記17)
前記タスクデータベースに蓄積された作業に関するデータから、作業同士の類似性を比較し、作業同士で内容の似た作業を検出して、当該作業同士で内容の似た作業をまとめた作業に関するデータを前記タスクデータベースに登録する、
ことを特徴とする付記16記載の検索インデックス作成方法。
(付記18)
前記タスクデータベースに蓄積された作業に関するデータを取得し、作業毎に、作業で扱っていた情報群の検索索引を作成する、
ことを特徴とする付記16又は17記載の検索インデックス作成方法。
(付記19)
ユーザの計算機での情報操作を監視してユーザが計算機で行った情報操作を検出する情報操作監視機能と、
前記情報操作監視機能により検出された情報操作に関するデータを情報操作データベースに蓄積させる機能と、
前記情報操作データベースに蓄積された情報操作に関するデータを分析してユーザの作業を検出し、当該作業で扱っていた情報群を同定して、当該作業に関するデータをタスクデータベースに登録するタスク検出機能と、
をコンピュータに実現させるための検索インデックス作成プログラム。
(付記20)
前記タスクデータベースに蓄積された作業に関するデータから、作業同士の類似性を比較し、作業同士で内容の似た作業を検出して、当該作業同士で内容の似た作業をまとめた作業に関するデータを前記タスクデータベースに登録するタスク間類似性分析機能、
をコンピュータに実現させるための付記19記載の検索インデックス作成プログラム。
(付記21)
前記タスクデータベースに蓄積された作業に関するデータを取得し、作業毎に、作業で扱っていた情報群の検索索引を作成するタスクインデックス作成機能、
をコンピュータに実現させるための付記19又は20記載の検索インデックス作成プログラム。
本発明の一実施の形態に係る検索インデックス作成装置の概要を示す図である。 本発明の一実施の形態に係る検索インデックス作成装置により作成されるタスクインデックスの一例を、従来の装置と対比して示す図である。 情報操作監視部の動作を示すフローチャートである。 情報操作監視部の動作により情報操作DBに記録された情報操作に関するデータの一例を示す図である。 タスク検出部の動作を示すフローチャートである。 一定時間間隔毎に情報操作を切り出してタスクを検出する方法を用いてタスク分析を行う場合のフローチャートである。 情報操作DBに登録されている情報操作に関するデータの一例を示す図である。 情報操作の流れを判別してタスクを検出する方法を用いてタスク分析を行う場合のフローチャートである。 情報操作DBに登録されている情報操作に関するデータの一例を示す図である。 情報操作で扱った情報群(複数の情報)の類似性を比較してタスクを検出する方法を用いてタスク分析を行う場合のフローチャートである。 (a) は情報操作DBに登録されている情報操作に関するデータの一例を示す図、(b) は操作ID(0009)が情報操作DBに登録される前の操作対象テーブルの内容を示す図、(c) は操作ID(0009)が情報操作DBに登録された後の操作対象テーブルの内容を示す図である。 操作対象がマッピングされたドキュメント空間の一例を示す図である。 情報操作を一定時間間隔毎に切り出した後に、その間にユーザが扱っている情報の類似性を用いてタスクを検出する方法を用いてタスク分析を行う場合のフローチャートである。 (a) は情報操作DB3登録されている情報操作に関するデータの一例を示す図、(b) は操作ID(0012)が情報操作DBに登録される前の操作対象テーブルの内容を示す図、(c) は操作ID(0012)が情報操作DBに登録された後の操作対象テーブルの内容を示す図である。 情報操作の流れを判別した後に、その間にユーザが扱っている情報の類似性を用いてタスクを検出する方法を用いてタスク分析を行う場合のフローチャートである。 (a) は情報操作DBに登録されている情報操作に関するデータの一例を示す図、(b) は操作ID(0013)が情報操作DBに登録される前の操作対象テーブルの内容を示す図、(c) は操作ID(0013)が情報操作DBに登録された後の操作対象テーブルの内容を示す図である。 S16におけるタスクDB5への登録(又はタスクDB5の更新)のフローチャートを示す図である。 登録或いは更新されたタスクDB5の内容を示す図である。 タスク間類似性分析部の動作を示すフローチャートである。 タスク間類似性分析部の動作が行われた後のタスクDBに登録されている内容の一例を示す図である。 タスクインデックス作成部の動作を示すフローチャートである。 (a),(b) は、タスクインデックス作成部の動作によりタスクインデックス記録部に記録されたタスクインデックスの一例を示す図である。 計算機が、タスクインデックス記録部に記録されているタスクインデックスを用いて、タスクで扱った情報群を検索するときのフローチャートを示す図である。 情報処理装置の構成図である。 記録媒体を示す図である。 情報群のインデックス作成を行う従来の装置の概要を示す図である。
符号の説明
1 計算機
2 情報操作監視部
3 情報操作データベース
4 タスク検出部
5 タスクデータベース
6 タスク間類似性分析部
7 タスクインデックス作成部
8 タスクインデックス記録部
9 情報記録部
11 CPU
12 メモリ
13 入力装置
14 出力装置
15 外部記憶装置
16 媒体駆動装置
17 ネットワーク接続装置
18 バス
19 可搬記録媒体
21 サーバ
22 データベース
23 情報処理装置
101 計算機
102 情報群検出部
103 情報群データベース
104 インデックス作成部
105 インデックス記録部
106 情報記録部

Claims (9)

  1. ユーザの計算機での情報操作を監視してユーザが計算機で行った情報操作を検出する情報操作監視手段と、
    前記情報操作監視手段により検出された情報操作に関するデータを蓄積する情報操作データベースと、
    前記情報操作データベースに蓄積された情報操作に関するデータを分析してユーザの作業を検出し、当該作業で扱っていた情報群を同定して、当該作業に関するデータをタスクデータベースに登録するタスク検出手段と、
    を有し、
    前記タスク検出手段は、最新の情報操作の操作対象の内容と、記憶手段に記憶されているテーブルに登録されている操作対象の内容との間の類似性が高いか否かを判定し、
    両者の間の類似性が高いと判定した場合には、前記テーブルに前記最新の情報操作の操作対象を追加登録し、両者の間の類似性が高くないと判定した場合には、前記テーブルを前記記憶手段から削除すると共に新規にテーブルを作成して前記記憶手段に記憶し、新規に作成した前記テーブルに前記最新の情報操作の操作対象を登録し、
    前記記憶手段に記憶されているテーブルに登録されている操作対象を扱っているタスクを、ユーザの作業として検出する、
    ことを特徴とする検索インデックス作成装置。
  2. 前記タスクデータベースに蓄積された作業に関するデータから、作業同士の類似性を比較し、作業同士で内容の似た作業を検出して、当該作業同士で内容の似た作業をまとめた作業に関するデータを前記タスクデータベースに登録するタスク間類似性分析手段を有する、
    ことを特徴とする請求項1記載の検索インデックス作成装置。
  3. 前記タスクデータベースに蓄積された作業に関するデータを取得し、作業毎に、作業で扱っていた情報群の検索索引を作成するタスクインデックス作成手段を有する、
    ことを特徴とする請求項1又は2記載の検索インデックス作成装置。
  4. 前記タスク検出手段は、情報操作を一定時間間隔毎に切り分けた後に、当該切り分けた情報操作の操作対象の内容を、前記最新の情報操作の操作対象の内容として、処理を行う、
    ことを特徴とする請求項1乃至3の何れか一つに記載の検索インデックス作成装置。
  5. 前記タスク検出手段は、情報操作の流れを判別して情報操作を切り分けた後に、当該切り分けた情報操作の操作対象の内容を、前記最新の情報操作の操作対象の内容として、処理を行う、
    ことを特徴とする請求項1乃至3の何れか一つに記載の検索インデックス作成装置。
  6. 作業の検出と検出した作業に関するデータの前記タスクデータベースへの登録、及び、検出した作業で扱っていた情報群の検索索引の作成を繰り返し行って、繰り返す度に小さな作業を大きな作業にまとめて検出し、検出した作業に関するデータを前記タスクデータベースに登録する、
    ことを特徴とする請求項3記載の検索インデックス作成装置。
  7. 前記タスクインデックス作成手段は、複数の作業がまとめられた作業に関するデータを取得したときに、前記タスクデータベースを参照して、当該まとめられた作業に含まれる作業に関するデータを取得し、まとめられた作業毎に、当該まとめられた作業で扱っていた情報群の検索索引を作成する、
    ことを特徴とする請求項3記載の検索インデックス作成装置。
  8. ユーザの計算機での情報操作を監視してユーザが計算機で行った情報操作を検出し、
    検出した情報操作に関するデータを情報操作データベースに蓄積させ、
    前記情報操作データベースに蓄積された情報操作に関するデータを分析してユーザの作業を検出し、当該作業で扱っていた情報群を同定して、当該作業に関するデータをタスクデータベースに登録し、
    前記ユーザの作業の検出では、最新の情報操作の操作対象の内容と、記憶手段に記憶されているテーブルに登録されている操作対象の内容との間の類似性が高いか否かを判定し、
    両者の間の類似性が高いと判定した場合には、前記テーブルに前記最新の情報操作の操作対象を追加登録し、両者の間の類似性が高くないと判定した場合には、前記テーブルを前記記憶手段から削除すると共に新規にテーブルを作成して前記記憶手段に記憶し、新規に作成した前記テーブルに前記最新の情報操作の操作対象を登録し、
    前記記憶手段に記憶されているテーブルに登録されている操作対象を扱っているタスクを、ユーザの作業として検出する、
    ことを特徴とする検索インデックス作成方法。
  9. ユーザの計算機での情報操作を監視してユーザが計算機で行った情報操作を検出する情報操作監視機能と、
    前記情報操作監視機能により検出された情報操作に関するデータを情報操作データベースに蓄積させる機能と、
    前記情報操作データベースに蓄積された情報操作に関するデータを分析してユーザの作業を検出し、当該作業で扱っていた情報群を同定して、当該作業に関するデータをタスクデータベースに登録するタスク検出機能と、
    をコンピュータに実現させ、
    前記タスク検出機能は、最新の情報操作の操作対象の内容と、記憶手段に記憶されているテーブルに登録されている操作対象の内容との間の類似性が高いか否かを判定し、
    両者の間の類似性が高いと判定した場合には、前記テーブルに前記最新の情報操作の操作対象を追加登録し、両者の間の類似性が高くないと判定した場合には、前記テーブルを前記記憶手段から削除すると共に新規にテーブルを作成して前記記憶手段に記憶し、新規に作成した前記テーブルに前記最新の情報操作の操作対象を登録し、
    前記記憶手段に記憶されているテーブルに登録されている操作対象を扱っているタスクを、ユーザの作業として検出する、
    ことを特徴とする検索インデックス作成プログラム。
JP2006247451A 2006-09-13 2006-09-13 検索インデックス作成装置 Expired - Fee Related JP4977420B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2006247451A JP4977420B2 (ja) 2006-09-13 2006-09-13 検索インデックス作成装置
EP07106582A EP1901185A3 (en) 2006-09-13 2007-04-20 Search index generation apparatus
US11/742,077 US8533150B2 (en) 2006-09-13 2007-04-30 Search index generation apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006247451A JP4977420B2 (ja) 2006-09-13 2006-09-13 検索インデックス作成装置

Publications (2)

Publication Number Publication Date
JP2008070997A JP2008070997A (ja) 2008-03-27
JP4977420B2 true JP4977420B2 (ja) 2012-07-18

Family

ID=38927319

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006247451A Expired - Fee Related JP4977420B2 (ja) 2006-09-13 2006-09-13 検索インデックス作成装置

Country Status (3)

Country Link
US (1) US8533150B2 (ja)
EP (1) EP1901185A3 (ja)
JP (1) JP4977420B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101739400B (zh) * 2008-11-11 2014-08-13 日电(中国)有限公司 生成索引的方法和装置以及检索方法和装置
JP2010244388A (ja) * 2009-04-08 2010-10-28 Pioneer Electronic Corp 情報提供装置、情報提供方法、及び情報提供用プログラム
CN102023865A (zh) * 2010-12-15 2011-04-20 中兴通讯股份有限公司 一种产品生产过程能力分析系统及方法
US8621070B1 (en) * 2010-12-17 2013-12-31 Netapp Inc. Statistical profiling of cluster tasks
US8954366B2 (en) * 2012-07-11 2015-02-10 Sap Se Service to recommend opening an information object based on task similarity
JP6262502B2 (ja) * 2013-11-25 2018-01-17 シャープ株式会社 ファイル提示システム、制御装置、端末装置、提示方法、および提示プログラム
JP6171906B2 (ja) * 2013-12-10 2017-08-02 富士通株式会社 作業集計装置、作業集計プログラム及び作業集計方法

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10326289A (ja) * 1997-03-28 1998-12-08 Nippon Telegr & Teleph Corp <Ntt> 情報提供方法、システムおよびそのプログラムを格納した記憶媒体
JP3547069B2 (ja) * 1997-05-22 2004-07-28 日本電信電話株式会社 情報関連づけ装置およびその方法
US6012053A (en) * 1997-06-23 2000-01-04 Lycos, Inc. Computer system with user-controlled relevance ranking of search results
JPH1139293A (ja) * 1997-07-15 1999-02-12 Toshiba Corp 文書管理方法、文書検索方法、及び文書検索装置
US6119117A (en) * 1997-07-15 2000-09-12 Kabushiki Kaisha Toshiba Document management method, document retrieval method, and document retrieval apparatus
JPH11143912A (ja) * 1997-09-08 1999-05-28 Fujitsu Ltd 関連文書表示装置
US6865715B2 (en) * 1997-09-08 2005-03-08 Fujitsu Limited Statistical method for extracting, and displaying keywords in forum/message board documents
US5974412A (en) * 1997-09-24 1999-10-26 Sapient Health Network Intelligent query system for automatically indexing information in a database and automatically categorizing users
US6134532A (en) * 1997-11-14 2000-10-17 Aptex Software, Inc. System and method for optimal adaptive matching of users to most relevant entity and information in real-time
JPH11250080A (ja) * 1998-02-27 1999-09-17 Toshiba Corp 業務支援システムおよび業務支援方法
JPH11265378A (ja) 1998-03-17 1999-09-28 Ntt Data Corp 自動情報検索装置及び文書作成支援システム
JP2000172696A (ja) 1998-12-03 2000-06-23 Toshiba Corp ドキュメント管理システム
AU2001290505A1 (en) * 2000-03-28 2001-12-11 Dana-Farber Cancer Institute, Inc. Molecular database for antibody characterization
JP2002032388A (ja) * 2000-07-14 2002-01-31 Ricoh Co Ltd 文書体系化方法、文書選択方法、文書管理装置、文書処理管理システム及び記録媒体
US6990631B2 (en) * 2000-07-14 2006-01-24 Ricoh Company, Ltd. Document management apparatus, related document extracting method, and document processing assist method
NL1016056C2 (nl) * 2000-08-30 2002-03-15 Koninkl Kpn Nv Methode en systeem voor personalisatie van digitale informatie.
US7007294B1 (en) 2000-10-30 2006-02-28 Koninklijke Philips Electronics N.V. Method and apparatus for automatic generation of query search terms for a program recommender
US20020147754A1 (en) * 2001-01-31 2002-10-10 Dempsey Derek M. Vector difference measures for data classifiers
US6778979B2 (en) * 2001-08-13 2004-08-17 Xerox Corporation System for automatically generating queries
US6928639B2 (en) * 2001-09-11 2005-08-09 International Business Machines Corporation Time-interval based monitor function for dynamic insertion into and removal from a running application
US7665024B1 (en) * 2002-07-22 2010-02-16 Verizon Services Corp. Methods and apparatus for controlling a user interface based on the emotional state of a user
US7197366B2 (en) * 2003-05-15 2007-03-27 International Business Machines Corporation Method and system for administering devices including an action log
US7162473B2 (en) * 2003-06-26 2007-01-09 Microsoft Corporation Method and system for usage analyzer that determines user accessed sources, indexes data subsets, and associated metadata, processing implicit queries based on potential interest to users
US7225187B2 (en) * 2003-06-26 2007-05-29 Microsoft Corporation Systems and methods for performing background queries from content and activity
JP2005309727A (ja) 2004-04-21 2005-11-04 Hitachi Ltd ファイルシステム
US7496563B2 (en) * 2004-08-04 2009-02-24 International Business Machines Corporation Method for locating documents a user has previously accessed
US7707284B2 (en) * 2005-08-03 2010-04-27 Novell, Inc. System and method of searching for classifying user activity performed on a computer system
US7664746B2 (en) * 2005-11-15 2010-02-16 Microsoft Corporation Personalized search and headlines
US7451162B2 (en) * 2005-12-14 2008-11-11 Siemens Aktiengesellschaft Methods and apparatus to determine a software application data file and usage
US20070299631A1 (en) * 2006-06-27 2007-12-27 Microsoft Corporation Logging user actions within activity context
US8407213B2 (en) * 2006-08-31 2013-03-26 Ektimisi Semiotics Holdings, Llc System and method for identifying a location of interest to be named by a user

Also Published As

Publication number Publication date
JP2008070997A (ja) 2008-03-27
EP1901185A3 (en) 2008-09-17
US20080065682A1 (en) 2008-03-13
EP1901185A2 (en) 2008-03-19
US8533150B2 (en) 2013-09-10

Similar Documents

Publication Publication Date Title
US11748323B2 (en) System and method of search indexes using key-value attributes to searchable metadata
US11126647B2 (en) System and method for hierarchically organizing documents based on document portions
US9135252B2 (en) System and method for near and exact de-duplication of documents
US8296301B2 (en) Systems and methods for probabilistic data classification
JP4977420B2 (ja) 検索インデックス作成装置
US8595229B2 (en) Search query generator apparatus
Kalashnikov et al. Web people search via connection analysis
US9626434B2 (en) Systems and methods for generating and using aggregated search indices and non-aggregated value storage
MX2008000520A (es) Indice y busqueda de contenedor inteligente.
CN106095738B (zh) 推荐表单片段
KR20070057599A (ko) 데이터 중복 처리 방지 기능을 가지는 스트림 데이터 처리시스템 및 그 방법
CN105868366B (zh) 基于概念关联的概念空间导航方法
JP2008210024A (ja) 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体
US20150302036A1 (en) Method, system and computer program for information retrieval using content algebra
Skluzacek et al. Skluma: An extensible metadata extraction pipeline for disorganized data
Röder et al. Detecting similar linked datasets using topic modelling
Albusac et al. PMSC-UGR: A test collection for expert recommendation based on PubMed and Scopus
Wang et al. A data cleaning method for citeseer dataset
EP1762946A1 (en) A method and a system for performing a multidimensional categorization of a document repository
KR101088483B1 (ko) 이종 분류체계들을 매핑시키는 방법 및 장치
KR20150134645A (ko) 저자명 명확화 장치 및 그 방법 및 그 방법을 컴퓨터로 판독할 수 있도록 기록한 기록매체
Wang et al. Summary generation for temporal extractions
JP4974436B2 (ja) ファイル検索装置およびファイル検索方法
JP4220483B2 (ja) 情報収集システム、情報収集方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090512

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110425

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120410

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120416

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150420

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees