JP2004234516A - Document retrieval device - Google Patents
Document retrieval device Download PDFInfo
- Publication number
- JP2004234516A JP2004234516A JP2003024524A JP2003024524A JP2004234516A JP 2004234516 A JP2004234516 A JP 2004234516A JP 2003024524 A JP2003024524 A JP 2003024524A JP 2003024524 A JP2003024524 A JP 2003024524A JP 2004234516 A JP2004234516 A JP 2004234516A
- Authority
- JP
- Japan
- Prior art keywords
- document
- coefficient
- user
- similarity
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
この発明は、キーワードに合致するドキュメントを検索するドキュメント検索装置に関するものである。
【0002】
【従来の技術】
ドキュメント検索装置は、膨大なドキュメントの中から利用者が必要としているドキュメントを検索するものであるが、従来のドキュメント検索装置は、例えば、予め利用者の興味のある情報をプロファイルし、そのプロファイルを参酌してユーザの興味のあるドキュメントを検索するようにしている(以下の特許文献1を参照)。
【0003】
【特許文献1】
特開2000−99525公報(段落番号[0034]から[0057]、図2)
【0004】
【発明が解決しようとする課題】
従来のドキュメント検索装置は以上のように構成されているので、プロファイルを参酌すれば、ユーザの興味のあるドキュメントを検索することができるが、時間の経過に伴ってユーザの業務や嗜好が変化すると、ユーザが自らプロファイルを更新しなければ、興味のあるドキュメントを検索することができなくなるなどの課題があった。
【0005】
この発明は上記のような課題を解決するためになされたもので、時間の経過に伴ってユーザの嗜好等が変化しても、ユーザが特別な設定操作等を行うことなく、所望のドキュメントを検索することができるドキュメント検索装置を得ることを目的とする。
【0006】
【課題を解決するための手段】
この発明に係るドキュメント検索装置は、サーバに保存されている各種のドキュメントの作成者及び閲覧者と検索利用者を比較して、各種のドキュメントに係る加重係数を決定する一方、サーバに保存されている各種のドキュメント毎に、照合手段により一致が認定された語句の個数と当該加重係数を乗算してドキュメントの評価点を計算し、評価点が高いドキュメントから順番に提示するようにしたものである。
【0007】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態1.
図1はこの発明の実施の形態1によるドキュメント検索装置を示す構成図であり、図において、利用者端末1は例えばインターネット4などの通信回線に接続され、ドキュメントの検索を依頼する際にキーワードをドキュメント検索装置5に送信する。なお、利用者端末1としては例えばパソコン,PDA,携帯電話等が該当する。LDAP(Lightweight Directory Access Protocol)サーバ2は各利用者の個人属性情報(例えば、利用者の会社名、部門名、業種、職務、性別、氏名、就業時間(曜日、時間)、休日情報)が記録され、各利用者の個人属性情報をドキュメント検索装置5に送信する。Webサーバ3は各種のドキュメントを保存するとともに、ドキュメントの作成者に関する情報やドキュメントの閲覧者に関する情報を記憶している。
【0008】
ドキュメント検索装置5の情報収集部11はLDAPサーバ2に記録されている個人属性情報を収集するとともに、Webサーバ3に記憶されているドキュメントの作成者や閲覧者に関する情報等を収集し、また、ある利用者端末1から送信されたキーワードを受信する。個人情報記録部12は情報収集部11により収集された個人属性情報を記録し、閲覧ドキュメント記録部13は情報収集部11により収集された閲覧者に関する情報を記録し、作成ドキュメント記録部14は情報収集部11により収集された作成者に関する情報を記録する。
なお、情報収集部11はキーワード受信手段を構成し、また、情報収集部11と閲覧ドキュメント記録部13と作成ドキュメント記録部14から記録手段が構成されている。
【0009】
加重係数決定部15は作成ドキュメント記録部14に記憶されているドキュメントの作成者と検索利用者を比較して、各種のドキュメントに係る作成係数(加重係数)を決定するとともに、閲覧ドキュメント記録部13に記憶されているドキュメントの閲覧者と検索利用者を比較して、各種のドキュメントに係る閲覧係数(加重係数)を決定する。なお、加重係数決定部15は係数決定手段を構成している。
ドキュメント特徴分析部16は情報収集部11がWebサーバ3に保存されている各種のドキュメントを収集すると、各種のドキュメントの段落毎に特徴分析を実施して、各段落に存在する語句を抽出する。ドキュメント特徴記憶部17はドキュメント特徴分析部16により抽出された各段落に存在する語句を記録している。照合部18はドキュメント特徴記憶部17に記録されている語句と情報収集部11により収集されたキーワードを照合する。なお、ドキュメント特徴分析部16、ドキュメント特徴記憶部17及び照合部18から照合手段が構成されている。
【0010】
ドキュメント評価部19はWebサーバ3に保存されている各種のドキュメント毎に、照合部18により一致が認定された語句の個数と加重係数決定部15により決定された作成係数を乗算するとともに、その語句の個数と閲覧係数を乗算し、双方の乗算結果の合計値をドキュメントの評価点として求める。なお、ドキュメント評価部19は評価手段を構成している。
検索結果提示部20はドキュメント評価部19により計算された評価点が高いドキュメントから順番に利用者端末1に提示する。なお、検索結果提示部20は検索結果提示手段を構成している。
制御部21はドキュメント検索装置5を構成する各部の動作を制御する。
【0011】
次に動作について説明する。
利用者がWebサーバ3に保存されているドキュメントの閲覧等を希望する場合、予め、自己の個人属性情報(例えば、利用者の会社名、部門名、業種、職務、性別、氏名、就業時間(曜日、時間)、休日情報)をLDAPサーバ2に登録する必要がある。
よって、利用者は、Webサーバ3に保存されているドキュメントの閲覧等を希望する場合、自己の利用者端末1を操作して、自己の個人属性情報をLDAPサーバ2に登録する。なお、図2はLDAPサーバ2に登録されている各利用者の個人属性情報である。
LDAPサーバ2は、一定期間毎に、登録している各利用者の個人属性情報をドキュメント検索装置5に送信する。あるいは、新たに利用者の個人属性情報が登録されたとき、その個人属性情報をドキュメント検索装置5に送信する。
【0012】
ドキュメント検索装置5の情報収集部11は、LDAPサーバ2から個人属性情報が送信されると、その個人属性情報を収集して個人情報記録部12に記録する。
また、情報収集部11は、Webサーバ3にはドキュメントのアクセス履歴(ドキュメントの作成者や閲覧者に関する情報)が残されているので、制御部21の指示の下、一定期間毎に、そのアクセス履歴を収集する。そして、そのアクセス履歴の中からドキュメントの閲覧者に関する情報を抽出して、その閲覧者に関する情報を閲覧ドキュメント記録部13に記録する(図3を参照)。また、そのアクセス履歴の中からドキュメントの作成者に関する情報を抽出して、その作成者に関する情報を作成ドキュメント記録部14に記録する(図4を参照)。
【0013】
さらに、情報収集部11は、制御部21の指示の下、Webサーバ3に保存されている各種のドキュメントを収集し、各種のドキュメントをドキュメント特徴分析部16に出力する。
ドキュメント特徴分析部16は、情報収集部11からWebサーバ3に保存されている各種のドキュメントを受けると、各種のドキュメントの段落毎に特徴分析を実施して、各段落に存在する語句を抽出し、その語句をドキュメント特徴記憶部17に記録する。
図5はドキュメント特徴記憶部17の記録内容を示す一例であるが、図5の例では、識別番号“0001”のドキュメントは、http://aa.bb.ccのアドレスに格納され、そのドキュメントの1番目の段落には、“企業”、“効率”、“経営”、“戦略”等の語句が存在することを示している。
【0014】
例えば、利用者Aがドキュメントの検索を依頼する場合、利用端末1を操作して、検索に利用するキーワード(例えば、経営、期間、効率、生産)を入力すると、利用端末1が利用者Aの識別番号“A”と当該キーワードをドキュメント検索装置5に送信する。なお、同一の利用者でも、就業時間内のアクセス傾向と、就業時間外のアクセス傾向とが異なる場合が多いので、この例では、説明の便宜上、就業時間内のアクセス傾向に基づいてドキュメントを検索するものとする。したがって、この場合、利用端末1は付加的な検索条件(就業時間内のアクセスに限定する条件)をドキュメント検索装置5に送信する。
【0015】
ドキュメント検索装置5の照合部18は、情報収集部11が利用端末1から送信された利用者Aの識別番号“A”とキーワードと付加的な検索条件を受信すると、制御部21の指示の下、ドキュメント特徴記憶部17に記録されている語句と当該キーワードを照合する。
例えば、キーワードが“経営”、“期間”、“効率”、“生産”である場合、図6に示すように、識別番号“0001”のドキュメントには、それらのキーワードと一致する語句の個数が5個あるので(1番目の段落では、“効率”、“経営”が一致、2番目の段落では、“期間”、“効率”、“生産”が一致)、識別番号“0001”のドキュメントの照合点は“5”になる。
図6の例では、識別番号“0002”のドキュメントの照合点は“3”、識別番号“0003”のドキュメントの照合点は“2”、識別番号“0004”のドキュメントの照合点は“3”になる。
【0016】
なお、照合部18は、語句とキーワードが完全に一致していない場合でも、類似関係がある場合には一致を認定するようにしてもよい。例えば、キーワードが“生産”で、語句が“製造”である場合、両者は意味的に略同一であるので、一致を認定するようようにする。この場合、照合部18は、曖昧検索に用いる辞書等を保持するようにすればよい。
【0017】
加重係数決定部15は、制御部21の指示の下、情報収集部11により収集された利用者Aの識別番号“A”をキーにして、閲覧ドキュメント記録部13から利用者Aが就業時間内に閲覧したことがあるドキュメントを検索する。図3の例では、利用者Aが就業時間内に閲覧したことがあるドキュメントは識別番号が“0003”のドキュメントのみであり、識別番号が“0001”,“0002”,“0004”のドキュメントは利用者Aに閲覧されていないと判断される。
加重係数決定部15は、利用者Aが就業時間内に閲覧したことがあるドキュメントには、図6に示すように、閲覧係数として“3”を与え、利用者Aが就業時間内に閲覧したことがないドキュメントには、閲覧係数として“1”を与えるようにする。ただし、ここでは閲覧係数として“3”又は“1”を与えているが、これに限るものではなく、例えば、“5”又は“2”を与えようにしてもよい。
なお、利用者Aの就業時間は、個人情報記録部12に記録されている個人属性情報(図2を参照)から得ることができる。
【0018】
また、加重係数決定部15は、制御部21の指示の下、情報収集部11により収集された利用者Aの識別番号“A”をキーにして、作成ドキュメント記録部14から利用者Aが就業時間内に作成したドキュメントを検索する。図4の例では、利用者Aが就業時間内に作成したドキュメントは識別番号が“0001”のドキュメントのみであり、識別番号が“0002”,“0003”,“0004”のドキュメントは利用者Aに作成されていないと判断される。
加重係数決定部15は、利用者Aが就業時間内に作成したドキュメントには、図6に示すように、作成係数として“5”を与え、利用者Aが就業時間内に作成していないドキュメントには、作成係数として“1”を与えるようにする。ただし、ここでは作成係数として“5”又は“1”を与えているが、これに限るものではなく、例えば、“7”又は“3”を与えようにしてもよい。
【0019】
ドキュメント評価部19は、上記のようにして、照合部18が各種のドキュメントの照合点を求め、加重係数決定部15が各種のドキュメントの加重係数(閲覧係数、作成係数)を決定すると、各種のドキュメント毎に、照合部18により求められた照合点と加重係数決定部15により決定された作成係数を乗算するとともに、その照合点と閲覧係数を乗算し、双方の乗算結果の合計値をドキュメントの評価点として求める。
識別番号“0001”のドキュメントの評価点=5×5+5×1=30
識別番号“0002”のドキュメントの評価点=3×1+3×1=6
識別番号“0003”のドキュメントの評価点=2×1+2×3=8
識別番号“0004”のドキュメントの評価点=3×1+3×1=6
【0020】
検索結果提示部20は、ドキュメント評価部19が各種のドキュメントの評価点を求めると、評価点が高いドキュメントから順番に並べた一覧表(例えば、評価点が高いドキュメントほど上部に配置し、評価点が最も低いドキュメントを最下部に配置する)等を作成し、その一覧表等を利用者端末1に送信する。
これにより、利用者端末1のディスプレイには、評価点が高いドキュメントから順番に並べられた一覧表等が表示されるので、例えば、一番上に配置されたドキュメントを選択すれば、その選択情報がWebサーバ3に送信されることにより、そのドキュメントの閲覧が可能になる。
【0021】
なお、この実施の形態1では、利用者Aが検索を依頼する場合について示したが、例えば、利用者Cが同じキーワードで検索を依頼した場合、照合部18により求められる照合点は変わらないが、図7に示すように、加重係数決定部15により決定される加重係数(閲覧係数、作成係数)が変わるため、ドキュメント評価部19により計算される評価点も変わる。
【0022】
以上で明らかなように、この実施の形態1によれば、Webサーバ3に保存されている各種のドキュメントの作成者及び閲覧者と検索利用者を比較して、各種のドキュメントに係る加重係数を決定する一方、Webサーバ3に保存されている各種のドキュメント毎に、照合部18により一致が認定された語句の個数と当該加重係数を乗算してドキュメントの評価点を計算し、評価点が高いドキュメントから順番に提示するように構成したので、時間の経過に伴ってユーザの嗜好等が変化しても、ユーザが特別な設定操作等を行うことなく、所望のドキュメントを検索することができる効果を奏する。
即ち、利用者のプロファイルを参照して、所望のドキュメントを検索するのではなく、Webサーバ3に自動的に残されるドキュメントのアクセス履歴を参照して、所望のドキュメントを検索するようにしているので、利用者が嗜好の変化が起こる毎に自己のプロファイルを更新することなく、適切なドキュメントを検索することができる。
【0023】
また、この実施の形態1によれば、語句とキーワードが完全に一致していない場合でも、類似関係がある場合には照合部18が一致を認定するように構成したので、実用的な照合結果が得られる効果を奏する。
また、この実施の形態1によれば、各種のドキュメント毎に、照合部18により求められた照合点と加重係数決定部15により決定された作成係数を乗算するとともに、その照合点と閲覧係数を乗算し、双方の乗算結果の合計値をドキュメントの評価点として求めるように構成したので、検索利用者の興味に合うドキュメントを検索することができる効果を奏する。
【0024】
さらに、この実施の形態1によれば、情報収集部11がWebサーバ3に残されているドキュメントのアクセス履歴を一定期間毎に収集して、閲覧ドキュメント記録部13及び作成ドキュメント記録部14の記録内容(ドキュメントの閲覧者と作成者に関する情報)を更新するように構成したので、利用者の嗜好の変化を速やかに反映することができる効果を奏する。
なお、Webサーバ3に新規のドキュメントが登録されたとき、あるいは、Webサーバ3に保存されているドキュメントが閲覧されたとき、Webサーバ3がアクセス履歴をドキュメント検索装置5に送信するようにして、閲覧ドキュメント記録部13及び作成ドキュメント記録部14の記録内容(ドキュメントの閲覧者と作成者に関する情報)を更新するようにしてもよい。この場合、常に最新のアクセス状況を把握することができる。
【0025】
実施の形態2.
図8はこの発明の実施の形態2によるドキュメント検索装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
加重係数決定部22は図1の加重係数決定部15と同様にして、各種のドキュメントに係る作成係数と閲覧係数を決定するとともに、検索利用者の個人属性情報と他の利用者の個人属性情報とを比較して、その検索利用者と他の利用者の類似度を把握し、その類似度に所定値を乗算して作成類似係数及び閲覧類似係数を求める。なお、加重係数決定部22は係数決定手段を構成している。
ドキュメント評価部23はWebサーバ3に保存されている各種のドキュメント毎に、照合部18により求められた照合点と作成係数の乗算、その照合点と閲覧係数の乗算、その照合点と作成類似係数の乗算、その照合点と閲覧類似係数の乗算を実施し、各乗算結果の合計値をドキュメントの評価点として求める。なお、ドキュメント評価部23は評価手段を構成している。
【0026】
次に動作について説明する。
加重係数決定部22は、図1の加重係数決定部15と同様にして、各種のドキュメントに係る作成係数と閲覧係数を決定すると、検索利用者の個人属性情報と他の利用者の個人属性情報とを比較して、その検索利用者と他の利用者の類似度を把握する。
【0027】
即ち、加重係数決定部22は、利用者Aがドキュメントの検索を依頼する場合、利用者Aと利用者B,C,Dの個人属性情報を比較する(図2を参照)。
例えば、利用者Aと利用者Bの個人属性情報(会社名、部門名、業種、職務、性別)を比較すると、“会社名”、“部門名”、“業種”、“職務”、“性別”の5項目が一致しているので、図9に示すように、利用者Aと利用者Bの類似度が“5”であると判断する。
また、利用者Aと利用者Cの個人属性情報を比較すると、“性別”の1項目のみが一致しているので、図9に示すように、利用者Aと利用者Cの類似度が“1”であると判断する。
さらに、利用者Aと利用者Dの個人属性情報を比較すると、全ての項目が不一致であるので、図9に示すように、類似度が“0”であると判断する。
なお、言うまでもないが、利用者Aと利用者Aの個人属性情報を比較した場合、全部の項目が一致するので、図9に示すように、利用者Aと利用者Aの類似度が“5”であると判断する。
【0028】
加重係数決定部22は、上記のようにして、利用者Aと利用者B,C,Dの類似度を把握すると、次のようにして、作成類似係数と閲覧類似係数を求める。
まず、識別番号“0001”のドキュメントは、図4に示すように、利用者Aが作成者であるので、利用者Aと利用者Aの類似度である“5”に所定値“0.5”を乗算し、その乗算結果である“2.5”を作成類似係数とする(図10を参照)。ここで、所定値“0.5”を乗算しているのは、利用者の類似度に基づく評価は上記実施の形態1における評価を補足するものであるので、加重を低くするためである。ただし、所定値は“0.5”に限るものではない。
【0029】
また、識別番号“0002”のドキュメントは、利用者Bが作成者であるので、利用者Aと利用者Bの類似度である“5”に所定値“0.5”を乗算し、その乗算結果である“2.5”を作成類似係数とする。
また、識別番号“0003”のドキュメントは、利用者Cが作成者であるので、利用者Aと利用者Cの類似度である“1”に所定値“0.5”を乗算し、その乗算結果である“0.5”を作成類似係数とする。
さらに、識別番号“0004”のドキュメントは、利用者Dが作成者であるので、利用者Aと利用者Dの類似度である“0”に所定値“0.5”を乗算し、その乗算結果である“0”を作成類似係数とする。
【0030】
次に、加重係数決定部22は、識別番号“0001”のドキュメントは、図3に示すように、就業時間内では利用者Cが閲覧者であるので、利用者Aと利用者Cの類似度である“1”に所定値“0.3”を乗算し、その乗算結果である“0.3”を閲覧類似係数とする。ここで、所定値“0.3”を乗算しているのは、利用者の類似度に基づく評価は上記実施の形態1における評価を補足するものであるので、加重を低くするためである。ただし、所定値は“0.3”に限るものではない。
【0031】
また、識別番号“0002”のドキュメントは、就業時間内では利用者Bが閲覧者であるので、利用者Aと利用者Bの類似度である“5”に所定値“0.3”を乗算し、その乗算結果である“1.5”を閲覧類似係数とする。
また、識別番号“0003”のドキュメントは、就業時間内では利用者Aが閲覧者であるので、利用者Aと利用者Aの類似度である“5”に所定値“0.3”を乗算し、その乗算結果である“1.5”を閲覧類似係数とする。
さらに、識別番号“0004”のドキュメントは、就業時間内では利用者Dが閲覧者であるので、利用者Aと利用者Dの類似度である“0”に所定値“0.3”を乗算し、その乗算結果である“0”を閲覧類似係数とする。
【0032】
ドキュメント評価部23は、加重係数決定部22が各種のドキュメントの加重係数(閲覧係数、作成係数)と作成類似係数及び閲覧類似係数を決定すると、各種のドキュメント毎に、照合部18により求められた照合点と作成係数の乗算、その照合点と閲覧係数の乗算、その照合点と作成類似係数の乗算、その照合点と閲覧類似係数の乗算を実施し、各乗算結果の合計値をドキュメントの評価点として求める(図10を参照)。
識別番号“0001”のドキュメントの評価点
=5×5+5×1+5×2.5+5×0.3=44
識別番号“0002”のドキュメントの評価点
=3×1+3×1+3×2.5+3×1.5=18
識別番号“0003”のドキュメントの評価点
=2×1+2×3+2×0.5+2×1.5=12
識別番号“0004”のドキュメントの評価点
=3×1+3×1+3×0+3×0=6
【0033】
なお、この実施の形態2では、利用者Aが検索を依頼する場合について示したが、例えば、利用者Cが同じキーワードで検索を依頼した場合、照合部18により求められる照合点は変わらないが、図11に示すように、利用者Cと利用者A,B,Dの類似度が変わり、加重係数決定部22により決定される加重係数(閲覧係数、作成係数)と作成類似係数及び閲覧類似係数が変わるため、ドキュメント評価部22により計算される評価点も変わる。
【0034】
以上で明らかなように、この実施の形態2によれば、各種のドキュメント毎に、照合部18により求められた照合点と作成係数の乗算、その照合点と閲覧係数の乗算、その照合点と作成類似係数の乗算、その照合点と閲覧類似係数の乗算を実施し、各乗算結果の合計値をドキュメントの評価点として求めるように構成したので、検索利用者の業務等に合うドキュメントを検索することができる効果を奏する。
【0035】
実施の形態3.
上記実施の形態1,2では、就業時間内のアクセス傾向に基づいてドキュメントを検索するものについて示したが、就業時間外のアクセス傾向に基づいてドキュメントを検索するようにしてもよい。図12は就業時間外のアクセス傾向に基づいてドキュメントを検索する場合の評価点等を示している。
【0036】
【発明の効果】
以上のように、この発明によれば、サーバに保存されている各種のドキュメントの作成者及び閲覧者と検索利用者を比較して、各種のドキュメントに係る加重係数を決定する一方、サーバに保存されている各種のドキュメント毎に、照合手段により一致が認定された語句の個数と当該加重係数を乗算してドキュメントの評価点を計算し、評価点が高いドキュメントから順番に提示するように構成したので、時間の経過に伴ってユーザの嗜好等が変化しても、ユーザが特別な設定操作等を行うことなく、所望のドキュメントを検索することができる効果がある。
【図面の簡単な説明】
【図1】この発明の実施の形態1によるドキュメント検索装置を示す構成図である。
【図2】LDAPサーバに登録されている各利用者の個人属性情報を示す説明図である。
【図3】閲覧ドキュメント記録部に記録されている閲覧者に関する情報を示す説明図である。
【図4】作成ドキュメント記録部に記録されている作成者に関する情報を示す説明図である。
【図5】各段落に存在する語句を示す説明図である。
【図6】ドキュメントの照合点や評価点等を示す説明図である。
【図7】ドキュメントの照合点や評価点等を示す説明図である。
【図8】この発明の実施の形態2によるドキュメント検索装置を示す構成図である。
【図9】利用者間の類似度を示す説明図である。
【図10】ドキュメントの照合点や評価点等を示す説明図である。
【図11】利用者間の類似度を示す説明図である。
【図12】ドキュメントの照合点や評価点等を示す説明図である。
【符号の説明】
1 利用者端末、2 LDAPサーバ、3 Webサーバ、4 インターネット、5 ドキュメント検索装置、11 情報収集部(キーワード受信手段、記録手段)、12 個人情報記録部、13 閲覧ドキュメント記録部(記録手段)、14 作成ドキュメント記録部(記録手段)、15 加重係数決定部(係数決定手段)、16 ドキュメント特徴分析部(照合手段)、17 ドキュメント特徴記憶部(照合手段)、18 照合部(照合手段)、19 ドキュメント評価部(評価手段)、20 検索結果提示部(検索結果提示手段)、21 制御部、22加重係数決定部(係数決定手段)、23 ドキュメント評価部(評価手段)。[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a document search device that searches for a document that matches a keyword.
[0002]
[Prior art]
A document search device searches for a document that a user needs from an enormous number of documents.A conventional document search device, for example, profiles information of interest to a user in advance and sets the profile to Documents of interest to the user are searched for by reference (see
[0003]
[Patent Document 1]
JP 2000-99525 A (paragraph numbers [0034] to [0057], FIG. 2)
[0004]
[Problems to be solved by the invention]
Since the conventional document search device is configured as described above, if a profile is taken into consideration, it is possible to search for a document of interest to the user, but if the user's business or preference changes over time, If the user does not update the profile by himself / herself, it is impossible to search for an interesting document.
[0005]
SUMMARY OF THE INVENTION The present invention has been made to solve the above-described problem. Even if the user's preference changes over time, the user can perform a desired document without performing a special setting operation or the like. It is an object of the present invention to obtain a searchable document search device.
[0006]
[Means for Solving the Problems]
A document search device according to the present invention compares a creator and a viewer of various documents stored in a server with a search user to determine a weighting coefficient for various documents, and stores the weight coefficients in the server. For each type of document, the evaluation score of the document is calculated by multiplying the number of words and phrases that have been matched by the matching means by the weighting coefficient, and presented in order from the document with the highest evaluation score. .
[0007]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, an embodiment of the present invention will be described.
FIG. 1 is a block diagram showing a document search apparatus according to a first embodiment of the present invention. In the figure, a
[0008]
The information collection unit 11 of the document search device 5 collects personal attribute information recorded in the LDAP
The information collecting unit 11 forms a keyword receiving unit, and the information collecting unit 11, the browsed document recording unit 13, and the created
[0009]
The weighting coefficient determination unit 15 compares the creator of the document stored in the created
When the information collecting unit 11 collects various documents stored in the
[0010]
The document evaluation unit 19 multiplies, for each of various documents stored in the
The search
The
[0011]
Next, the operation will be described.
If the user wishes to view a document stored in the
Therefore, when the user desires to view a document stored in the
The LDAP
[0012]
When the personal attribute information is transmitted from the LDAP
In addition, the information collection unit 11 stores the document access history (information on the creator and the viewer of the document) in the
[0013]
Further, the information collection unit 11 collects various documents stored in the
Upon receiving various documents stored in the
FIG. 5 is an example showing the recorded contents of the document
[0014]
For example, when the user A requests a document search, the user operates the
[0015]
When the information collection unit 11 receives the identification number “A” of the user A, the keyword, and the additional search condition transmitted from the
For example, if the keywords are “management”, “period”, “efficiency”, and “production”, as shown in FIG. 6, the document with the identification number “0001” has the number of words matching those keywords. Since there are five (the first paragraph matches “efficiency” and “management”, the second paragraph matches “period”, “efficiency” and “production”), the document of identification number “0001” The collation point is “5”.
In the example of FIG. 6, the collation point of the document with the identification number “0002” is “3”, the collation point of the document with the identification number “0003” is “2”, and the collation point of the document with the identification number “0004” is “3”. become.
[0016]
In addition, even when the phrase and the keyword do not completely match, the matching
[0017]
Under the instruction of the
The weighting factor determination unit 15 assigns “3” as a viewing factor to a document that the user A has viewed during the working hours, as shown in FIG. 6, and the user A has viewed the document during the working hours. For a document that does not have such a document, "1" is given as a browsing coefficient. Here, “3” or “1” is given as the browsing coefficient, but the present invention is not limited to this. For example, “5” or “2” may be given.
The working hours of the user A can be obtained from personal attribute information (see FIG. 2) recorded in the personal
[0018]
The weighting factor determination unit 15 uses the identification number “A” of the user A collected by the information collection unit 11 as a key under the instruction of the
As shown in FIG. 6, the weighting coefficient determination unit 15 assigns “5” as a creation coefficient to a document created by the user A during working hours, and assigns a document that the user A has not created within the working hours. , "1" is given as a creation coefficient. Here, “5” or “1” is given as the creation coefficient, but the present invention is not limited to this. For example, “7” or “3” may be given.
[0019]
As described above, when the
Evaluation score of document with identification number “0001” = 5 × 5 + 5 × 1 = 30
Evaluation score of document with identification number “0002” = 3 × 1 + 3 × 1 = 6
Evaluation score of document with identification number “0003” = 2 × 1 + 2 × 3 = 8
Evaluation score of document with identification number “0004” = 3 × 1 + 3 × 1 = 6
[0020]
When the document evaluation section 19 obtains the evaluation points of various documents, the search
As a result, a list or the like is displayed on the display of the
[0021]
In the first embodiment, the case where the user A requests a search is described. For example, when the user C requests a search with the same keyword, the matching point obtained by the matching
[0022]
As is clear from the above, according to the first embodiment, the creator and viewer of various documents stored in the
That is, instead of searching for a desired document by referring to the user's profile, the desired document is searched for by referring to the access history of the document automatically left in the
[0023]
Further, according to the first embodiment, even when the word and the keyword do not completely match, if the similarity exists, the matching
Further, according to the first embodiment, for each type of document, the collation point determined by the
[0024]
Further, according to the first embodiment, the information collecting unit 11 collects the access history of the document left in the
When a new document is registered in the
[0025]
FIG. 8 is a configuration diagram showing a document search apparatus according to
The weighting coefficient determination unit 22 determines the creation coefficient and the browsing coefficient for various documents in the same manner as the weighting coefficient determination unit 15 in FIG. 1, and searches for the personal attribute information of the search user and the personal attribute information of other users. , The similarity between the search user and another user is grasped, and the similarity is multiplied by a predetermined value to obtain a created similarity coefficient and a browse similarity coefficient. Note that the weighting coefficient determination unit 22 constitutes coefficient determination means.
The document evaluation unit 23 multiplies the collation point calculated by the
[0026]
Next, the operation will be described.
When the weighting factor determination unit 22 determines the creation factor and the browsing factor for various documents in the same manner as the weighting factor determination unit 15 in FIG. 1, the personal attribute information of the search user and the personal attribute information of other users are determined. To find the similarity between the search user and other users.
[0027]
That is, when the user A requests a document search, the weighting factor determination unit 22 compares the personal attribute information of the user A with the personal attribute information of the users B, C, and D (see FIG. 2).
For example, comparing the personal attribute information (company name, department name, business type, job, and gender) of user A and user B, “company name”, “department name”, “business type”, “duty”, “sex Therefore, as shown in FIG. 9, it is determined that the similarity between the user A and the user B is "5".
Further, when comparing the personal attribute information of the user A and the user C, only one item of “sex” matches, so that the similarity between the user A and the user C is “as shown in FIG. 1 ".
Further, when the personal attribute information of the user A and the personal attribute information of the user D are compared, since all items do not match, it is determined that the similarity is “0” as shown in FIG.
Needless to say, when the personal attribute information of the user A is compared with the personal attribute information of the user A, all the items match, so that the similarity between the user A and the user A is “5” as shown in FIG. Is determined.
[0028]
When the weighting coefficient determination unit 22 grasps the similarity between the user A and the users B, C, and D as described above, the weighting coefficient determination unit 22 obtains the creation similarity coefficient and the browsing similarity coefficient as follows.
First, as shown in FIG. 4, since the user A is the creator of the document with the identification number “0001”, the predetermined value “0.5” is set to “5” which is the similarity between the user A and the user A. , And the result of the multiplication, “2.5”, is used as the creation similarity coefficient (see FIG. 10). Here, the predetermined value “0.5” is multiplied because the evaluation based on the similarity of the user complements the evaluation in the first embodiment, so that the weight is reduced. However, the predetermined value is not limited to “0.5”.
[0029]
Further, since the document with the identification number “0002” is created by the user B, the similarity between the user A and the user B is multiplied by “5” by a predetermined value “0.5”, and the multiplication is performed. The result “2.5” is used as the creation similarity coefficient.
Further, since the document with the identification number “0003” is created by the user C, the similarity between the user A and the user C is multiplied by “1” by a predetermined value “0.5”, and the multiplication is performed. The result “0.5” is used as the creation similarity coefficient.
Further, since the user D is the creator of the document with the identification number "0004", the similarity between the user A and the user D is multiplied by a predetermined value "0.5", and the multiplication is performed. The result “0” is set as a creation similarity coefficient.
[0030]
Next, as shown in FIG. 3, since the user C is a viewer during the working hours of the document with the identification number “0001”, the weighting factor determination unit 22 determines that the similarity between the user A and the user C is high. Is multiplied by a predetermined value “0.3”, and the multiplication result “0.3” is set as a browsing similarity coefficient. Here, the predetermined value “0.3” is multiplied because the evaluation based on the similarity of the user complements the evaluation in the first embodiment, so that the weight is reduced. However, the predetermined value is not limited to “0.3”.
[0031]
In the document with the identification number “0002”, since the user B is a viewer during working hours, the similarity “5” between the user A and the user B is multiplied by a predetermined value “0.3”. Then, the multiplication result “1.5” is set as the browsing similarity coefficient.
In the document with the identification number “0003”, since the user A is a viewer during working hours, the similarity “5” between the user A and the user A is multiplied by a predetermined value “0.3”. Then, the multiplication result “1.5” is set as the browsing similarity coefficient.
Further, in the document with the identification number “0004”, since the user D is the browsing person during working hours, the similarity “0” between the user A and the user D is multiplied by the predetermined value “0.3”. Then, the multiplication result “0” is set as the browsing similarity coefficient.
[0032]
When the weighting factor determination unit 22 determines the weighting factors (viewing factor, creation factor), creation similarity factor, and viewing similarity factor of various documents, the document evaluation unit 23 calculates the weighting factor for each of the various documents by the matching
Evaluation score of document with identification number "0001"
= 5 × 5 + 5 × 1 + 5 × 2.5 + 5 × 0.3 = 44
Evaluation score of document with identification number "0002"
= 3 × 1 + 3 × 1 + 3 × 2.5 + 3 × 1.5 = 18
Evaluation score of document with identification number "0003"
= 2 × 1 + 2 × 3 + 2 × 0.5 + 2 × 1.5 = 12
Evaluation score of document with identification number "0004"
= 3 × 1 + 3 × 1 + 3 × 0 + 3 × 0 = 6
[0033]
In the second embodiment, the case where the user A requests a search has been described. For example, when the user C requests a search with the same keyword, the matching point obtained by the matching
[0034]
As is clear from the above, according to the second embodiment, for each type of document, the multiplication of the collation point calculated by the
[0035]
In the first and second embodiments, the case where the document is searched based on the access tendency during the working hours has been described. However, the document may be searched based on the access tendency outside the working hours. FIG. 12 shows evaluation points and the like when a document is searched based on an access tendency outside working hours.
[0036]
【The invention's effect】
As described above, according to the present invention, the creator and viewer of various documents stored in the server are compared with the search user to determine the weighting factors for the various documents, and stored in the server. For each of the various types of documents, the evaluation score of the document is calculated by multiplying the number of words that have been identified by the matching means by the weighting factor, and the document is presented in descending order of the evaluation score. Therefore, even if the user's preference or the like changes over time, the user can search for a desired document without performing a special setting operation or the like.
[Brief description of the drawings]
FIG. 1 is a configuration diagram showing a document search device according to a first embodiment of the present invention.
FIG. 2 is an explanatory diagram showing personal attribute information of each user registered in an LDAP server.
FIG. 3 is an explanatory diagram showing information on a viewer recorded in a browsed document recording unit.
FIG. 4 is an explanatory diagram showing information about a creator recorded in a created document recording unit.
FIG. 5 is an explanatory diagram showing words and phrases present in each paragraph.
FIG. 6 is an explanatory diagram showing collation points, evaluation points, and the like of a document.
FIG. 7 is an explanatory diagram showing collation points, evaluation points, and the like of a document.
FIG. 8 is a configuration diagram showing a document search device according to a second embodiment of the present invention.
FIG. 9 is an explanatory diagram showing the similarity between users.
FIG. 10 is an explanatory diagram showing collation points, evaluation points, and the like of a document.
FIG. 11 is an explanatory diagram showing similarity between users.
FIG. 12 is an explanatory diagram showing collation points, evaluation points, and the like of a document.
[Explanation of symbols]
1 user terminal, 2 LDAP server, 3 Web server, 4 Internet, 5 document search device, 11 information collection unit (keyword receiving unit, recording unit), 12 personal information recording unit, 13 browsed document recording unit (recording unit), 14 Created document recording section (recording means), 15 weighted coefficient determination section (coefficient determination means), 16 document characteristic analysis section (collation means), 17 document characteristic storage section (collation means), 18 collation section (collation means), 19 Document evaluation section (evaluation means), 20 search result presentation section (search result presentation means), 21 control section, 22 weighted coefficient determination section (coefficient determination means), 23 document evaluation section (evaluation means).
Claims (9)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003024524A JP4309144B2 (en) | 2003-01-31 | 2003-01-31 | Document search device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003024524A JP4309144B2 (en) | 2003-01-31 | 2003-01-31 | Document search device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004234516A true JP2004234516A (en) | 2004-08-19 |
JP4309144B2 JP4309144B2 (en) | 2009-08-05 |
Family
ID=32953037
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003024524A Expired - Fee Related JP4309144B2 (en) | 2003-01-31 | 2003-01-31 | Document search device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4309144B2 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006134103A (en) * | 2004-11-05 | 2006-05-25 | Toshiba Corp | Project management support device, project management support program and project management support method |
JP2006164246A (en) * | 2004-12-07 | 2006-06-22 | Microsoft Corp | Entity-specific tunable search |
JP2011175525A (en) * | 2010-02-25 | 2011-09-08 | Nec Corp | Retrieval device |
JP2014199501A (en) * | 2013-03-29 | 2014-10-23 | キヤノン株式会社 | Recommendation device, recommendation method, and program |
-
2003
- 2003-01-31 JP JP2003024524A patent/JP4309144B2/en not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006134103A (en) * | 2004-11-05 | 2006-05-25 | Toshiba Corp | Project management support device, project management support program and project management support method |
JP2006164246A (en) * | 2004-12-07 | 2006-06-22 | Microsoft Corp | Entity-specific tunable search |
JP2011175525A (en) * | 2010-02-25 | 2011-09-08 | Nec Corp | Retrieval device |
JP2014199501A (en) * | 2013-03-29 | 2014-10-23 | キヤノン株式会社 | Recommendation device, recommendation method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP4309144B2 (en) | 2009-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7483885B2 (en) | System and method for query refinement to enable improved searching based on identifying and utilizing popular concepts related to users' queries | |
US10409865B2 (en) | Interface for a universal search | |
US8046370B2 (en) | Retrieval of structured documents | |
US8234311B2 (en) | Information processing device, importance calculation method, and program | |
US9846744B2 (en) | Media discovery and playlist generation | |
CN103106282B (en) | A kind of method of Webpage search and displaying | |
EP1661008A2 (en) | Product placement engine and method | |
JP2002519751A (en) | User profile driven information retrieval based on context | |
WO2008056651A1 (en) | Information searching device | |
US9075898B1 (en) | Generating and ranking incremental search suggestions for personal content | |
JP3501799B2 (en) | Information search support device, computer program, and program storage medium | |
JP7399508B2 (en) | Information providing device, information providing method, information providing program, and program storage medium | |
KR100695149B1 (en) | Knowledge-based music search method and apparatus, and method and apparutus for managing music files of the knowledge-based music search apparatus | |
JP4900915B2 (en) | Content delivery method and apparatus | |
JP2004515837A (en) | How to compare search profiles | |
JP4309144B2 (en) | Document search device | |
US7483877B2 (en) | Dynamic comparison of search systems in a controlled environment | |
JP2004326537A (en) | Information retrieving device for selected relevant information, information retrieval processing method, information retrieving program and its program recording medium | |
JP5397198B2 (en) | Topic recommendation device, topic recommendation device method and program | |
KR100960709B1 (en) | System and method for providing shoping key word using ontology in key word search system | |
JP2003208447A (en) | Device, method and program for retrieving document, and medium recorded with program for retrieving document | |
WO2004114155A1 (en) | Content recommending device, method, and program | |
JP2011043914A (en) | File retrieval system | |
JP2006023961A (en) | Computer program for presenting document-registering person, and device and method for presenting document-registering person | |
Selvan et al. | ASE: Automatic search engine for dynamic information retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060119 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20071025 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20071025 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071025 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080813 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081224 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090119 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090428 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090507 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120515 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120515 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130515 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140515 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |