JP4977420B2 - 検索インデックス作成装置 - Google Patents
検索インデックス作成装置 Download PDFInfo
- Publication number
- JP4977420B2 JP4977420B2 JP2006247451A JP2006247451A JP4977420B2 JP 4977420 B2 JP4977420 B2 JP 4977420B2 JP 2006247451 A JP2006247451 A JP 2006247451A JP 2006247451 A JP2006247451 A JP 2006247451A JP 4977420 B2 JP4977420 B2 JP 4977420B2
- Authority
- JP
- Japan
- Prior art keywords
- task
- information
- work
- user
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
a.情報毎のインデックス作成
これは、検索対象の情報毎にキーワードや属性(以下「メタデータ」ともいう)を抽出してインデックスを作成する技術である。検索時には、情報毎に検索条件(以下「クエリー」ともいう)と照合して、検索条件を満たす情報を返す。Google(登録商標)やMSN Search(MSNは登録商標)などの多くの情報検索システムが、この方法によりインデックスを作成している。例えば特許文献1には、ユーザの業務内容から業務で扱っている文書を自動的に抽出して、その業務の業務名と担当者、文書名を登録し、それら登録されたメタデータを使って文書を検索する技術が開示されている。
これは、例えば特許文献2に開示されているように、複数の情報を予め定められた参照番号を用いて情報群に分類し、情報群毎にインデックスを作成する技術である。情報群中のキーワードや文書タイトルなどを抽出してインデックスを作成する。検索時には、情報群とクエリーとを照合して、検索条件を満たす情報群を返す。クエリーと一致しないが情報群には含まれている情報を検索することができる。
また、本発明の第2の態様に係る検索インデックス作成装置は、上記第1の態様において、前記タスクデータベースに蓄積された作業に関するデータから、作業同士の類似性を比較し、作業同士で内容の似た作業を検出して、当該作業同士で内容の似た作業をまとめた作業に関するデータを前記タスクデータベースに登録するタスク間類似性分析手段を有する、ことを特徴とする。
また、本発明の第3の態様に係る検索インデックス作成装置は、上記第1又は2の態様において、前記タスクデータベースに蓄積された作業に関するデータを取得し、作業毎に、作業で扱っていた情報群の検索索引を作成するタスクインデックス作成手段を有する、ことを特徴とする。
また、本発明の第5の態様に係る検索インデックス作成装置は、上記第1乃至3の何れか一つの態様において、前記タスク検出手段は、情報操作の流れを判別してユーザの作業を検出する、ことを特徴とする。
また、本発明の第6の態様に係る検索インデックス作成装置は、上記第1乃至3の何れか一つの態様において、前記タスク検出手段は、情報操作で扱っている情報群の類似度から判別してユーザの作業を検出する、ことを特徴とする。
また、本発明の第7の態様に係る検索インデックス作成装置は、上記第1乃至3の何れか一つの態様において、前記タスク検出手段は、情報操作を一定時間間隔毎に切り分けた後に、当該切り分けた情報操作で扱っている情報群の類似度から判別してユーザの作業を検出する、ことを特徴とする。
また、本発明の第8の態様に係る検索インデックス作成装置は、上記第1乃至3の何れか一つの態様において、前記タスク検出手段は、情報操作の流れを判別して情報操作を切り分けた後に、当該切り分けた情報操作で扱っている情報群の類似度から判別してユーザの作業を検出する、ことを特徴とする。
また、本発明の第11の態様に係る検索インデックス作成装置は、ユーザの計算機での情報操作を監視してユーザが計算機で行った情報操作を検出する情報操作監視手段と、前記情報操作監視手段により検出された情報操作に関するデータを蓄積する情報操作データベースと、前記情報操作データベースに蓄積された情報操作に関するデータを分析してユーザの作業を検出し、当該作業で扱っていた情報群を同定して、当該作業に関するデータをタスクデータベースに登録するタスク検出手段と、を有し、前記タスク検出手段は、最新の情報操作の操作対象の内容と、記憶手段に記憶されているテーブルに登録されている操作対象の内容との間の類似性が高いか否かを判定し、両者の間の類似性が高いと判定した場合には、前記テーブルに前記最新の情報操作の操作対象を追加登録し、両者の間の類似性が高くないと判定した場合には、前記テーブルを前記記憶手段から削除すると共に新規にテーブルを作成して前記記憶手段に記憶し、新規に作成した前記テーブルに前記最新の情報操作の操作対象を登録し、前記記憶手段に記憶されているテーブルに登録されている操作対象を扱っているタスクを、ユーザの作業として検出する、ことを特徴とする。
図1は、本発明の一実施の形態に係る検索インデックス作成装置の概要を示す図である。
計算機1が備えた検索インデックス作成装置は、詳しくは後述するように、ユーザのタスクを自動的に検出し、ユーザがタスクで扱っていた複数の情報(情報群)を抽出し、その情報群を分析して情報群のインデックスを作成する。尚、以下においては、ユーザがタスクで扱っていた情報群のインデックスを「タスクインデックス」という。また、検索インデックス作成装置は、タスクインデックスからタスク毎の類似度を算出し、類似度の高い(作業内容の似た)タスクをまとめて大きなタスクのタスクインデックスを作成する。そして、ユーザが情報を検索するときには、計算機1が、これらのタスクインデックスとクエリーとを照合して検索条件を満たすタスクインデックスを取得し、そのタスクで扱っていた情報群を返す。
タスク間類似性分析部6は、タスクDB5を参照してタスクに関するデータを取り出し、それぞれのタスクの類似性を比較する。ここで、タスクの類似性は、各タスクのタスクインデックス(後述のタスクインデックス作成部7により作成されタスクインデックス記録部8に記録されたタスクインデックス)を取得してその内容を比較する。タスクインデックスの内容を比較する方法としては、例えば、各タスクのタスクインデックスをドキュメント空間へマッピングして内容を比較する方法がある。この方法では、ドキュメント空間へマッピングしたタスクインデックスのベクトル同士の角度や内積を求めて、タスク間の類似度を得る。この類似度が近いということは、ユーザが似たような情報群を扱ったタスクを行っていたことを意味するので、タスク同士が似ていると判断して、これらのタスクを1つの大きなタスクにまとめて、まとめたタスクに関するデータをタスクDB5へ登録する。
同図において、上段の部分は、ユーザが1日目〜5日目までの各タスクで扱っていた情報を示し、中段の部分は、従来の装置により作成されたインデックスの例を示し、下段の部分は、本実施の形態に係る装置により作成されたタスクインデックスの例を示している。尚、上段の部分に示した各情報の( )内の小文字アルファベットは、予め定められた参照番号を示している。
まず、情報操作監視部2の動作を、図3及び図4を用いて詳細に説明する。
同図に示したように、情報操作監視部2は、まず、監視対象となる計算機上において、監視対象となるソフトウェアが動作しているか(実行中であるか)否かを判定する(S1)。ここで、その判定結果がNOの場合には、本フローが終了する。
図4は、図3に示した情報操作監視部2の動作により情報操作DB3に記録された情報操作に関するデータの一例を示す図である。
タスク検出部4は、情報操作DB3を参照して新しい情報操作の有無を調べる。ここで新しい情報操作が存在した場合には、タスク分析を行ってタスクを検出し、当該タスクで扱っていた情報群を同定して、検出したタスクに関する情報をタスクDB5へ記録(登録)する。
同図に示したように、タスク検出部4は、まず、情報操作DB3を参照する(S11)。
続いて、詳しくは図6乃至図16を用いて後述するように、S13で読み出した操作IDに基づきタスク分析を行って、タスク(タスクの始めから終わり)の検出を行う(S14)。尚、このタスク分析では、タスクの開始を検出した後、タスクの終了を検出するまでの間、ユーザの情報操作を後述の方法で分析し続ける。
一方、S15の判定結果がYESの場合には、詳しくは図17及び図18を用いて後述するように、検出したタスクで扱っていた情報群を同定して、検出したタスクに関するデータをタスクDB5へ記録(登録)し(S16)、本フローが終了する。但し、S16において、検出したタスクに関するデータが既にタスクDB5に登録済みの場合には、タスクDB5の内容を更新する。
まず、S14におけるタスク分析について説明する。
(1)一定時間間隔毎に情報操作を切り出してタスクを検出する方法と、
(2)情報操作の流れを判別してタスクを検出する方法と、
(3)情報操作で扱った情報群(複数の情報)の類似性を比較してタスクを検出する方法と、
(4)これらの方法を組み合わせてタスクを検出する方法と、
がある。(1)〜(4)の各方法を用いたタスク分析について順に説明する。
図6は、(1)の方法を用いてタスク分析を行う場合のフローチャートである。
同図に示したように、この場合、タスク検出部4は、まず、図5のS13で情報操作DB3から読み出した最新の情報操作の操作IDを取得する(S21)。
続いて、タスク開始日時が設定済みか否かを判定する(S23)。
S23の判定において、その判定結果がNOの場合には、S21で取得した操作IDとS22で取得した日時を、タスク開始操作IDとタスク開始日時として設定すると共に内部RAM(random access memory)等に記憶し(S24)、本フローが終了する。
一方、S25の判定結果がNOの場合には、S21で取得した操作IDに係る情報操作の一つ前の情報操作の操作IDを、タスク終了操作IDとして取得する(S26)。
続いて、S21で取得した操作IDとS22で取得した日時を、タスク開始操作IDとタスク開始日時として設定すると共に内部RAM等に記憶し(S28)、本フローが終了する。
図7は、情報操作DB3に登録されている情報操作に関するデータの一例を示す図である。
(2)の方法を用いたタスク分析では、例えば、ユーザがある情報をオープンしてからクローズするまでは同一のタスクを行っていると考えられるので、こういった情報操作の流れからタスクを検出する。この間にユーザが他の情報に対して情報操作を行った場合には、それらの情報操作も同一タスクのために行われたものとして検出する。
同図に示したように、この場合、タスク検出部4は、まず、図5のS13で情報操作DB3から読み出した最新の情報操作の操作ID(以下単に「最新情報操作ID」ともいう)と、その情報操作の操作(例えばOPEN、CLOSE等)を取得する(S31)。
一方、S32の判定結果がYESであって情報の参照開始に関する操作である場合には、続いて、その操作で参照している情報以外に、現在参照中の情報が有るか否かを判定する(S33)。ここで、その判定結果がYESの場合には本フローが終了する。一方、S33の判定結果がNOの場合には、続いて、S31で取得した最新情報操作IDをタスク開始操作IDに設定して内部RAM等に記憶し(S34)、本フローが終了する。
図9は、情報操作DB3に登録されている情報操作に関するデータの一例を示す図である。
この場合は、操作ID(0011)が最新情報操作IDとして取得され、その情報操作の操作(CLOSE)が取得される。続いて、その操作(CLOSE)が参照終了に関する操作であって、且つ、その時に他に参照中の情報はないので、その操作ID(0011)がタスク終了操作IDとして設定される。
次に、(3)の方法を用いたタスク分析を、図10乃至図12を用いて説明する。
同図に示したように、この場合、タスク検出部4は、まず、図5のS13で情報操作DB3から読み出した最新の情報操作の操作IDと、その情報操作の操作対象(例えばファイルA、ファイルB等)を取得する(S41)。
一方、S42の判定結果がYESの場合には、続いて、その操作対象の内容を取得し(S43)、取得した内容をベクトル空間であるドキュメント空間にマッピングして、操作対象ベクトル1を取得する(S44)。
ここで、(3)の方法を用いてタスク分析を行った場合の具体例を図11(a),(b),(c) 及び図12を用いて説明する。
この場合は、まず、操作ID(0009)が最新情報操作IDとして取得され、その操作対象の内容(ファイルC1)が取得される。続いて、その内容(ファイルC1)がドキュメント空間にマッピングされ、操作対象ベクトル1(図12参照)が取得される。
この判定で、閾値以上であると判定されたときには、これまでの操作対象テーブル(図11(b) 参照)に最新情報操作ID(0009)の操作対象の内容(ファイルC1)が追加登録される(同図(c) 参照)。続いて、その操作対象テーブル(同図(c) 参照)が、タスクで扱っている操作対象の一覧として検出される。
次に、(4)の方法を用いたタスク分析について説明する。
(1)と(3)を組み合わせた方法を用いたタスク分析では、タスク検出部4が、情報操作を一定時間間隔毎に切り出した後に、その間にユーザが扱っている情報の類似性を用いてタスクを検出する。
同図に示したように、この場合、タスク検出部4は、まず、図5のS13で情報操作DB3から読み出した最新の情報操作の操作IDを取得する(S61)。
続いて、S62で取得した最新の情報操作の日時から、タスク分析での所定時間単位分差し引いた日時を、タスク開始日時として取得する(S63)。尚、所定時間単位とは、情報操作を一定時間間隔毎に切り出してタスクを検出するときの、その一定時間間隔のことであり、例えば、30分、1時間、1日、1週間など予め定めた時間間隔である。
続いて、S64で取得したタスク開始操作IDからS61で取得したタスク終了操作IDまでの操作対象の内容を取得する(S65)。
続くS67乃至S70では、図10に示したS45乃至S49と同様の処理が行われるので、ここでは説明を省略する。
ここで、(1)と(3)を組み合わせた方法を用いてタスク分析を行った場合の具体例を、図14(a),(b),(c)を用いて説明する。
この場合は、まず、最新の情報操作の操作ID(0012)がタスク終了操作IDとして取得され、その情報操作の日時(Sep/14/06 13:00 PM)が取得される。続いて、その日時から30分を差し引いた日時(Sep/14/06 12:30 PM)が、タスク開始日時として取得され、タスク開始日時以降で、最初の情報操作の操作ID(0011)が取得される。続いて、タスク開始操作ID(0011)からタスク終了操作ID(0012)までの情報操作で扱った操作対象の内容(ファイルA2、メールD1)が取得される。続いて、取得された内容がドキュメント空間にマッピングされ、そのベクトル和から操作対象ベクトル1が取得される。
この判定で、閾値以上であると判定されたときには、操作対象テーブル(同図(b) 参照)に、操作対象ベクトル1の操作対象の内容(ファイルA2、メールD1)が追加登録される(同図(c) 参照)。尚、操作対象の内容が重複する場合には(本例ではファイルA2が重複)、上書き登録される。
このような(1)と(3)を組み合わせた方法を用いたタスク分析によれば、 情報群の類似性だけを用いてユーザのタスクを検出する場合よりも、少ない負荷でユーザのタスクを検出することができる。
(2)と(3)を組み合わせた方法を用いたタスク分析では、タスク検出部4が、情報操作の流れを判別した後に、その間にユーザが扱っている情報の類似性を用いてタスクを検出する。
同図において、S81乃至S86では、図8に示したS31乃至S36と同様の処理が行われるので、ここでは説明を省略する。
ここで、(2)と(3)を組み合わせた方法を用いてタスク分析を行った場合の具体例を、図16(a),(b),(c)を用いて説明する。
この場合は、操作ID(0013)が最新情報操作IDとして取得され、その情報操作の操作(CLOSE)が取得される。続いて、その操作(CLOSE)が参照終了に関する操作であって、且つ、他に参照中の情報が無いので、その操作ID(0013)がタスク終了操作IDに設定される。
この判定で、閾値以上であると判定されたときには、操作対象テーブル(同図(b) 参照)に、操作対象ベクトル1の操作対象の内容(メールD1)が追加登録される(同図(c) 参照)。
このような(2)と(3)を組み合わせた方法を用いたタスク分析によれば、情報群の類似性だけを用いてユーザのタスクを検出する場合よりも、少ない負荷でユーザのタスクを検出することができる。また、同じ作業目的でまったく内容の異なる情報群を扱った場合でも、情報操作の流れを用いて検出しているので、情報群だけを用いて検出した時よりも精度高くタスクを検出することができる。
図17は、そのS16におけるタスクDB5への登録(又はタスクDB5の更新)のフローチャートを示す図である。
S104の判定結果がYESの場合には、タスクDB5を参照して、最後に登録されたタスクの登録日時(以下「タスク登録日時」ともいう)を取得する(S105)。続いて、S101で取得した操作対象テーブルを参照して、その操作対象を取得する(S106)。続いて、情報操作DB3を参照して、S105で取得したタスク登録日時以降に、S106で取得した操作対象に対して行われた情報操作の操作IDやユーザ名、PC名等を取得し(S107)、取得したこれらの情報(タスクに関するデータ)をタスクDB5へ登録する(S103)。
同図に示したように、タスクDB5には、登録されるタスク毎に、当該タスクに一意に定められたタスクID(「タスクID」)と、当該タスクが登録された日時(「登録日」及び「登録時間」)と、当該タスクで扱った情報群である情報操作の対象(「操作対象」)と、当該タスクを構成する情報操作の操作ID(「対象となる操作ID」)と、当該タスクを行ったユーザ名(「ユーザ」)と、当該タスクで使用された計算機名(「PC名」)等が記録される。尚、タスクIDは、タスクをタスクDB5に新規に登録する場合に割り振られる。また、既にタスクDB5に登録済みのタスクに関する情報を更新する場合は、上述のとおり、古いタスクに関する情報が上書きされる。
タスク間類似性分析部6は、タスク同士の類似性を評価(分析)して、複数のタスクをまとめた大きなタスクを検出する。ここで、タスクに対してタスク間類似性分析部6による分析回数をタスクの多重化度(以下「タスク多重化度」ともいう)と定義すると、タスク間類似性分析部6は、同じ多重化度のタスク同士の類似性を分析する。
同図に示したように、タスク間類似性分析部6は、まず、タスク多重化度N=0に設定する(S121)。
続いて、タスク多重化度Nのタスクが有るか否かを判定する(S124)。ここで、その判定結果がNOの場合には、本フローが終了する。
一方、S128の判定結果がNOの場合には、多重化度N=N+1とし(S129)、S123へ処理が戻る。
本例では、タスク間類似性分析部6の動作が行われる前におけるタスクDB5に登録されている内容を図18に示したものであるとする。また、図18では不図示であるが、タスクID(0001)、(0002)、及び、(0003)の各タスクは何れもタスク多重化度として0がタスクDB5に登録されている。
タスクインデックス作成部7は、タスクDB5を参照して、タスクインデックスが未作成のタスクが有るかどうかを調べ、タスクインデックスが未作成のタスクが有った場合にはタスクインデックスを作成し、それをタスクインデックス記録部8に記録する。このタスクインデックスの作成及び記録では、タスクで操作対象となった情報群を取得して、その情報群の内容や属性を取り出し、取り出した内容について形態素解析やn-gramなどの分かち書きを行って、分かち書きした各要素のTF(Term Frequency)やIDF(Inverted document frequency)などを算出して、これらの組み合わせをタスクインデックスとして作成し記録する。
同図に示したように、タスクインデックス作成部7は、まず、タスクDB5を参照する(S131)。
一方、S132の判定結果がYESの場合には、タスクインデックスを未作成のタスク(タスクに関するデータ)を取得する(S133)。
S134の判定結果がYESの場合には、多重化タスクに含まれているタスク多重化度0の被多重化タスク(被多重化タスクに関するデータ)を取得し(S135)、その被多重化タスクに関するデータから、全ての被多重化タスクの全ての操作対象を取得する(S136)。
続いて、取得した全ての操作対象の内容を取得し、その内容の分かち書きを行って、分かち書きした各要素のTF・IDF(TFとIDFの積)を算出する(S137)。
このような動作により、タスク毎に、当該タスクで扱っていた情報群のタスクインデックスが作成され、記録される。
本例では、同図(a),(b) に示したように、タスクインデックスを2つのテーブルに分けて記録(登録)している。同図(a) に示したテーブルは、情報群の内容を分かち書きした要素や属性を登録する要素テーブルである。より詳しくは、この要素テーブルは、要素や属性とそれに一意に割り当てられたID、さらにその要素がいくつの操作対象に含まれているかを表すDF(Document Frequency)や登録日時などを登録する。同図(b) に示したテーブルは、各タスクで扱った操作対象にどういった要素や属性が含まれているのか、その要素や属性は検索する上でどれぐらいの重要性を持つのかを登録する要素重みテーブルである。より詳しくは、この要素重みテーブルは、タスクを一意に表すタスクID、そのタスクで扱った操作対象の情報群に含まれていた要素や属性を一意に表す要素ID、その要素IDの要素がこのタスクで扱った操作対象の中に何回出現したかを表すTF、その要素IDの検索重み(TF×DFの逆数)、登録日時などを登録する。尚、要素の検索重みは、検索方法に合わせて、これ以外にも2値(0:要素が出現しなかった,1要素が出現した)や、確率(要素の出現確率)などを用いることもできる。
図23は、計算機1が、タスクインデックス記録部8に記録されているタスクインデックスを用いて、タスクで扱った情報群を検索するときのフローチャートを示す図である。
一方、S143の判定結果がYESの場合には、その適合度合いが予め定めた閾値以上のタスクインデックスを取得する(S144)。
同図に示した情報処理装置 は、CPU(中央処理装置)11、メモリ12、入力装置13、出力装置14、外部記憶装置15、媒体駆動装置16、ネットワーク接続装置17を備え、それらはバス18により互いに接続されている。
ユーザの計算機での情報操作を監視してユーザが計算機で行った情報操作を検出する情報操作監視手段と、
前記情報操作監視手段により検出された情報操作に関するデータを蓄積する情報操作データベースと、
前記情報操作データベースに蓄積された情報操作に関するデータを分析してユーザの作業を検出し、当該作業で扱っていた情報群を同定して、当該作業に関するデータをタスクデータベースに登録するタスク検出手段と、
を有することを特徴とする検索インデックス作成装置。
(付記2)
前記タスクデータベースに蓄積された作業に関するデータから、作業同士の類似性を比較し、作業同士で内容の似た作業を検出して、当該作業同士で内容の似た作業をまとめた作業に関するデータを前記タスクデータベースに登録するタスク間類似性分析手段を有する、
ことを特徴とする付記1記載の検索インデックス作成装置。
(付記3)
前記タスクデータベースに蓄積された作業に関するデータを取得し、作業毎に、作業で扱っていた情報群の検索索引を作成するタスクインデックス作成手段を有する、
ことを特徴とする付記1又は2記載の検索インデックス作成装置。
(付記4)
前記タスクインデックス作成手段により作成された検索索引を記録するタスクインデックス記録手段を有する、
ことを特徴とする付記3記載の検索インデックス作成装置。
(付記5)
前記タスク検出手段は、情報操作を一定時間間隔毎に切り分けてユーザの作業を検出する、
ことを特徴とする付記1乃至4の何れか一つに記載の検索インデックス作成装置。
(付記6)
前記タスク検出手段は、情報操作の流れを判別してユーザの作業を検出する、
ことを特徴とする付記1乃至4の何れか一つに記載の検索インデックス作成装置。
(付記7)
前記タスク検出手段は、情報操作で扱っている情報群の類似度から判別してユーザの作業を検出する、
ことを特徴とする付記1乃至4の何れか一つに記載の検索インデックス作成装置。
(付記8)
前記タスク検出手段は、情報操作を一定時間間隔毎に切り分けた後に、当該切り分けた情報操作で扱っている情報群の類似度から判別してユーザの作業を検出する、
ことを特徴とする付記1乃至4の何れか一つに記載の検索インデックス作成装置。
(付記9)
前記タスク検出手段は、情報操作の流れを判別して情報操作を切り分けた後に、当該切り分けた情報操作で扱っている情報群の類似度から判別してユーザの作業を検出する、
ことを特徴とする付記1乃至4の何れか一つに記載の検索インデックス作成装置。
(付記10)
前記タスク検出手段は、ユーザの作業を検出する際に、情報操作で扱っている情報群をベクトル空間にマッピングして、当該マッピングしたベクトル同士の内積を類似度とする、
ことを特徴とする付記7乃至9の何れか一つに記載の検索インデックス作成装置。
(付記11)
前記タスク間類似性分析手段は、作業同士の類似性を比較する際に、情報操作で扱っている情報群をベクトル空間にマッピングして、当該マッピングしたベクトル同士の内積を類似度とする、
ことを特徴とする付記2記載の検索インデックス作成装置。
(付記12)
作業の検出と検出した作業に関するデータの前記タスクデータベースへの登録、及び、検出した作業で扱っていた情報群の検索索引の作成を繰り返し行って、繰り返す度に小さな作業を大きな作業にまとめて検出し、検出した作業に関するデータを前記タスクデータベースに登録する、
ことを特徴とする付記3記載の検索インデックス作成装置。
(付記13)
前記タスクインデックス作成手段は、複数の作業がまとめられた作業に関するデータを取得したときに、前記タスクデータベースを参照して、当該まとめられた作業に含まれる作業に関するデータを取得し、まとめられた作業毎に、当該まとめられた作業で扱っていた情報群の検索索引を作成する、
ことを特徴とする付記3記載の検索インデックス作成装置。
(付記14)
前記タスクインデックス作成手段は、作業で扱っていた情報群から、当該作業を特徴付ける情報を抽出して検索索引とする、
ことを特徴とする付記3又は13記載の検索インデックス作成装置。
(付記15)
前記タスクインデックス作成手段は、前記作業を特徴付ける情報として、作業で扱っていた情報群の内容を分かち書きしたキーワードや属性を用いて検索索引とする、
ことを特徴とする付記14記載の検索インデックス作成装置。
(付記16)
ユーザの計算機での情報操作を監視してユーザが計算機で行った情報操作を検出し、
検出した情報操作に関するデータを情報操作データベースに蓄積させ、
前記情報操作データベースに蓄積された情報操作に関するデータを分析してユーザの作業を検出し、当該作業で扱っていた情報群を同定して、当該作業に関するデータをタスクデータベースに登録する、
ことを特徴とする検索インデックス作成方法。
(付記17)
前記タスクデータベースに蓄積された作業に関するデータから、作業同士の類似性を比較し、作業同士で内容の似た作業を検出して、当該作業同士で内容の似た作業をまとめた作業に関するデータを前記タスクデータベースに登録する、
ことを特徴とする付記16記載の検索インデックス作成方法。
(付記18)
前記タスクデータベースに蓄積された作業に関するデータを取得し、作業毎に、作業で扱っていた情報群の検索索引を作成する、
ことを特徴とする付記16又は17記載の検索インデックス作成方法。
(付記19)
ユーザの計算機での情報操作を監視してユーザが計算機で行った情報操作を検出する情報操作監視機能と、
前記情報操作監視機能により検出された情報操作に関するデータを情報操作データベースに蓄積させる機能と、
前記情報操作データベースに蓄積された情報操作に関するデータを分析してユーザの作業を検出し、当該作業で扱っていた情報群を同定して、当該作業に関するデータをタスクデータベースに登録するタスク検出機能と、
をコンピュータに実現させるための検索インデックス作成プログラム。
(付記20)
前記タスクデータベースに蓄積された作業に関するデータから、作業同士の類似性を比較し、作業同士で内容の似た作業を検出して、当該作業同士で内容の似た作業をまとめた作業に関するデータを前記タスクデータベースに登録するタスク間類似性分析機能、
をコンピュータに実現させるための付記19記載の検索インデックス作成プログラム。
(付記21)
前記タスクデータベースに蓄積された作業に関するデータを取得し、作業毎に、作業で扱っていた情報群の検索索引を作成するタスクインデックス作成機能、
をコンピュータに実現させるための付記19又は20記載の検索インデックス作成プログラム。
2 情報操作監視部
3 情報操作データベース
4 タスク検出部
5 タスクデータベース
6 タスク間類似性分析部
7 タスクインデックス作成部
8 タスクインデックス記録部
9 情報記録部
11 CPU
12 メモリ
13 入力装置
14 出力装置
15 外部記憶装置
16 媒体駆動装置
17 ネットワーク接続装置
18 バス
19 可搬記録媒体
21 サーバ
22 データベース
23 情報処理装置
101 計算機
102 情報群検出部
103 情報群データベース
104 インデックス作成部
105 インデックス記録部
106 情報記録部
Claims (9)
- ユーザの計算機での情報操作を監視してユーザが計算機で行った情報操作を検出する情報操作監視手段と、
前記情報操作監視手段により検出された情報操作に関するデータを蓄積する情報操作データベースと、
前記情報操作データベースに蓄積された情報操作に関するデータを分析してユーザの作業を検出し、当該作業で扱っていた情報群を同定して、当該作業に関するデータをタスクデータベースに登録するタスク検出手段と、
を有し、
前記タスク検出手段は、最新の情報操作の操作対象の内容と、記憶手段に記憶されているテーブルに登録されている操作対象の内容との間の類似性が高いか否かを判定し、
両者の間の類似性が高いと判定した場合には、前記テーブルに前記最新の情報操作の操作対象を追加登録し、両者の間の類似性が高くないと判定した場合には、前記テーブルを前記記憶手段から削除すると共に新規にテーブルを作成して前記記憶手段に記憶し、新規に作成した前記テーブルに前記最新の情報操作の操作対象を登録し、
前記記憶手段に記憶されているテーブルに登録されている操作対象を扱っているタスクを、ユーザの作業として検出する、
ことを特徴とする検索インデックス作成装置。 - 前記タスクデータベースに蓄積された作業に関するデータから、作業同士の類似性を比較し、作業同士で内容の似た作業を検出して、当該作業同士で内容の似た作業をまとめた作業に関するデータを前記タスクデータベースに登録するタスク間類似性分析手段を有する、
ことを特徴とする請求項1記載の検索インデックス作成装置。 - 前記タスクデータベースに蓄積された作業に関するデータを取得し、作業毎に、作業で扱っていた情報群の検索索引を作成するタスクインデックス作成手段を有する、
ことを特徴とする請求項1又は2記載の検索インデックス作成装置。 - 前記タスク検出手段は、情報操作を一定時間間隔毎に切り分けた後に、当該切り分けた情報操作の操作対象の内容を、前記最新の情報操作の操作対象の内容として、処理を行う、
ことを特徴とする請求項1乃至3の何れか一つに記載の検索インデックス作成装置。 - 前記タスク検出手段は、情報操作の流れを判別して情報操作を切り分けた後に、当該切り分けた情報操作の操作対象の内容を、前記最新の情報操作の操作対象の内容として、処理を行う、
ことを特徴とする請求項1乃至3の何れか一つに記載の検索インデックス作成装置。 - 作業の検出と検出した作業に関するデータの前記タスクデータベースへの登録、及び、検出した作業で扱っていた情報群の検索索引の作成を繰り返し行って、繰り返す度に小さな作業を大きな作業にまとめて検出し、検出した作業に関するデータを前記タスクデータベースに登録する、
ことを特徴とする請求項3記載の検索インデックス作成装置。 - 前記タスクインデックス作成手段は、複数の作業がまとめられた作業に関するデータを取得したときに、前記タスクデータベースを参照して、当該まとめられた作業に含まれる作業に関するデータを取得し、まとめられた作業毎に、当該まとめられた作業で扱っていた情報群の検索索引を作成する、
ことを特徴とする請求項3記載の検索インデックス作成装置。 - ユーザの計算機での情報操作を監視してユーザが計算機で行った情報操作を検出し、
検出した情報操作に関するデータを情報操作データベースに蓄積させ、
前記情報操作データベースに蓄積された情報操作に関するデータを分析してユーザの作業を検出し、当該作業で扱っていた情報群を同定して、当該作業に関するデータをタスクデータベースに登録し、
前記ユーザの作業の検出では、最新の情報操作の操作対象の内容と、記憶手段に記憶されているテーブルに登録されている操作対象の内容との間の類似性が高いか否かを判定し、
両者の間の類似性が高いと判定した場合には、前記テーブルに前記最新の情報操作の操作対象を追加登録し、両者の間の類似性が高くないと判定した場合には、前記テーブルを前記記憶手段から削除すると共に新規にテーブルを作成して前記記憶手段に記憶し、新規に作成した前記テーブルに前記最新の情報操作の操作対象を登録し、
前記記憶手段に記憶されているテーブルに登録されている操作対象を扱っているタスクを、ユーザの作業として検出する、
ことを特徴とする検索インデックス作成方法。 - ユーザの計算機での情報操作を監視してユーザが計算機で行った情報操作を検出する情報操作監視機能と、
前記情報操作監視機能により検出された情報操作に関するデータを情報操作データベースに蓄積させる機能と、
前記情報操作データベースに蓄積された情報操作に関するデータを分析してユーザの作業を検出し、当該作業で扱っていた情報群を同定して、当該作業に関するデータをタスクデータベースに登録するタスク検出機能と、
をコンピュータに実現させ、
前記タスク検出機能は、最新の情報操作の操作対象の内容と、記憶手段に記憶されているテーブルに登録されている操作対象の内容との間の類似性が高いか否かを判定し、
両者の間の類似性が高いと判定した場合には、前記テーブルに前記最新の情報操作の操作対象を追加登録し、両者の間の類似性が高くないと判定した場合には、前記テーブルを前記記憶手段から削除すると共に新規にテーブルを作成して前記記憶手段に記憶し、新規に作成した前記テーブルに前記最新の情報操作の操作対象を登録し、
前記記憶手段に記憶されているテーブルに登録されている操作対象を扱っているタスクを、ユーザの作業として検出する、
ことを特徴とする検索インデックス作成プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006247451A JP4977420B2 (ja) | 2006-09-13 | 2006-09-13 | 検索インデックス作成装置 |
EP07106582A EP1901185A3 (en) | 2006-09-13 | 2007-04-20 | Search index generation apparatus |
US11/742,077 US8533150B2 (en) | 2006-09-13 | 2007-04-30 | Search index generation apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006247451A JP4977420B2 (ja) | 2006-09-13 | 2006-09-13 | 検索インデックス作成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008070997A JP2008070997A (ja) | 2008-03-27 |
JP4977420B2 true JP4977420B2 (ja) | 2012-07-18 |
Family
ID=38927319
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006247451A Expired - Fee Related JP4977420B2 (ja) | 2006-09-13 | 2006-09-13 | 検索インデックス作成装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8533150B2 (ja) |
EP (1) | EP1901185A3 (ja) |
JP (1) | JP4977420B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101739400B (zh) * | 2008-11-11 | 2014-08-13 | 日电(中国)有限公司 | 生成索引的方法和装置以及检索方法和装置 |
JP2010244388A (ja) * | 2009-04-08 | 2010-10-28 | Pioneer Electronic Corp | 情報提供装置、情報提供方法、及び情報提供用プログラム |
CN102023865A (zh) * | 2010-12-15 | 2011-04-20 | 中兴通讯股份有限公司 | 一种产品生产过程能力分析系统及方法 |
US8621070B1 (en) * | 2010-12-17 | 2013-12-31 | Netapp Inc. | Statistical profiling of cluster tasks |
US8954366B2 (en) * | 2012-07-11 | 2015-02-10 | Sap Se | Service to recommend opening an information object based on task similarity |
JP6262502B2 (ja) * | 2013-11-25 | 2018-01-17 | シャープ株式会社 | ファイル提示システム、制御装置、端末装置、提示方法、および提示プログラム |
JP6171906B2 (ja) * | 2013-12-10 | 2017-08-02 | 富士通株式会社 | 作業集計装置、作業集計プログラム及び作業集計方法 |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10326289A (ja) * | 1997-03-28 | 1998-12-08 | Nippon Telegr & Teleph Corp <Ntt> | 情報提供方法、システムおよびそのプログラムを格納した記憶媒体 |
JP3547069B2 (ja) * | 1997-05-22 | 2004-07-28 | 日本電信電話株式会社 | 情報関連づけ装置およびその方法 |
US6012053A (en) * | 1997-06-23 | 2000-01-04 | Lycos, Inc. | Computer system with user-controlled relevance ranking of search results |
JPH1139293A (ja) * | 1997-07-15 | 1999-02-12 | Toshiba Corp | 文書管理方法、文書検索方法、及び文書検索装置 |
US6119117A (en) * | 1997-07-15 | 2000-09-12 | Kabushiki Kaisha Toshiba | Document management method, document retrieval method, and document retrieval apparatus |
JPH11143912A (ja) * | 1997-09-08 | 1999-05-28 | Fujitsu Ltd | 関連文書表示装置 |
US6865715B2 (en) * | 1997-09-08 | 2005-03-08 | Fujitsu Limited | Statistical method for extracting, and displaying keywords in forum/message board documents |
US5974412A (en) * | 1997-09-24 | 1999-10-26 | Sapient Health Network | Intelligent query system for automatically indexing information in a database and automatically categorizing users |
US6134532A (en) * | 1997-11-14 | 2000-10-17 | Aptex Software, Inc. | System and method for optimal adaptive matching of users to most relevant entity and information in real-time |
JPH11250080A (ja) * | 1998-02-27 | 1999-09-17 | Toshiba Corp | 業務支援システムおよび業務支援方法 |
JPH11265378A (ja) | 1998-03-17 | 1999-09-28 | Ntt Data Corp | 自動情報検索装置及び文書作成支援システム |
JP2000172696A (ja) | 1998-12-03 | 2000-06-23 | Toshiba Corp | ドキュメント管理システム |
AU2001290505A1 (en) * | 2000-03-28 | 2001-12-11 | Dana-Farber Cancer Institute, Inc. | Molecular database for antibody characterization |
JP2002032388A (ja) * | 2000-07-14 | 2002-01-31 | Ricoh Co Ltd | 文書体系化方法、文書選択方法、文書管理装置、文書処理管理システム及び記録媒体 |
US6990631B2 (en) * | 2000-07-14 | 2006-01-24 | Ricoh Company, Ltd. | Document management apparatus, related document extracting method, and document processing assist method |
NL1016056C2 (nl) * | 2000-08-30 | 2002-03-15 | Koninkl Kpn Nv | Methode en systeem voor personalisatie van digitale informatie. |
US7007294B1 (en) | 2000-10-30 | 2006-02-28 | Koninklijke Philips Electronics N.V. | Method and apparatus for automatic generation of query search terms for a program recommender |
US20020147754A1 (en) * | 2001-01-31 | 2002-10-10 | Dempsey Derek M. | Vector difference measures for data classifiers |
US6778979B2 (en) * | 2001-08-13 | 2004-08-17 | Xerox Corporation | System for automatically generating queries |
US6928639B2 (en) * | 2001-09-11 | 2005-08-09 | International Business Machines Corporation | Time-interval based monitor function for dynamic insertion into and removal from a running application |
US7665024B1 (en) * | 2002-07-22 | 2010-02-16 | Verizon Services Corp. | Methods and apparatus for controlling a user interface based on the emotional state of a user |
US7197366B2 (en) * | 2003-05-15 | 2007-03-27 | International Business Machines Corporation | Method and system for administering devices including an action log |
US7162473B2 (en) * | 2003-06-26 | 2007-01-09 | Microsoft Corporation | Method and system for usage analyzer that determines user accessed sources, indexes data subsets, and associated metadata, processing implicit queries based on potential interest to users |
US7225187B2 (en) * | 2003-06-26 | 2007-05-29 | Microsoft Corporation | Systems and methods for performing background queries from content and activity |
JP2005309727A (ja) | 2004-04-21 | 2005-11-04 | Hitachi Ltd | ファイルシステム |
US7496563B2 (en) * | 2004-08-04 | 2009-02-24 | International Business Machines Corporation | Method for locating documents a user has previously accessed |
US7707284B2 (en) * | 2005-08-03 | 2010-04-27 | Novell, Inc. | System and method of searching for classifying user activity performed on a computer system |
US7664746B2 (en) * | 2005-11-15 | 2010-02-16 | Microsoft Corporation | Personalized search and headlines |
US7451162B2 (en) * | 2005-12-14 | 2008-11-11 | Siemens Aktiengesellschaft | Methods and apparatus to determine a software application data file and usage |
US20070299631A1 (en) * | 2006-06-27 | 2007-12-27 | Microsoft Corporation | Logging user actions within activity context |
US8407213B2 (en) * | 2006-08-31 | 2013-03-26 | Ektimisi Semiotics Holdings, Llc | System and method for identifying a location of interest to be named by a user |
-
2006
- 2006-09-13 JP JP2006247451A patent/JP4977420B2/ja not_active Expired - Fee Related
-
2007
- 2007-04-20 EP EP07106582A patent/EP1901185A3/en not_active Withdrawn
- 2007-04-30 US US11/742,077 patent/US8533150B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008070997A (ja) | 2008-03-27 |
EP1901185A3 (en) | 2008-09-17 |
US20080065682A1 (en) | 2008-03-13 |
EP1901185A2 (en) | 2008-03-19 |
US8533150B2 (en) | 2013-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11748323B2 (en) | System and method of search indexes using key-value attributes to searchable metadata | |
US11126647B2 (en) | System and method for hierarchically organizing documents based on document portions | |
US9135252B2 (en) | System and method for near and exact de-duplication of documents | |
US8296301B2 (en) | Systems and methods for probabilistic data classification | |
JP4977420B2 (ja) | 検索インデックス作成装置 | |
US8595229B2 (en) | Search query generator apparatus | |
Kalashnikov et al. | Web people search via connection analysis | |
US9626434B2 (en) | Systems and methods for generating and using aggregated search indices and non-aggregated value storage | |
MX2008000520A (es) | Indice y busqueda de contenedor inteligente. | |
CN106095738B (zh) | 推荐表单片段 | |
KR20070057599A (ko) | 데이터 중복 처리 방지 기능을 가지는 스트림 데이터 처리시스템 및 그 방법 | |
CN105868366B (zh) | 基于概念关联的概念空间导航方法 | |
JP2008210024A (ja) | 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体 | |
US20150302036A1 (en) | Method, system and computer program for information retrieval using content algebra | |
Skluzacek et al. | Skluma: An extensible metadata extraction pipeline for disorganized data | |
Röder et al. | Detecting similar linked datasets using topic modelling | |
Albusac et al. | PMSC-UGR: A test collection for expert recommendation based on PubMed and Scopus | |
Wang et al. | A data cleaning method for citeseer dataset | |
EP1762946A1 (en) | A method and a system for performing a multidimensional categorization of a document repository | |
KR101088483B1 (ko) | 이종 분류체계들을 매핑시키는 방법 및 장치 | |
KR20150134645A (ko) | 저자명 명확화 장치 및 그 방법 및 그 방법을 컴퓨터로 판독할 수 있도록 기록한 기록매체 | |
Wang et al. | Summary generation for temporal extractions | |
JP4974436B2 (ja) | ファイル検索装置およびファイル検索方法 | |
JP4220483B2 (ja) | 情報収集システム、情報収集方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090512 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110216 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110425 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110913 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111110 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120410 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120416 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150420 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |