JP2004234516A - Document retrieval device - Google Patents

Document retrieval device Download PDF

Info

Publication number
JP2004234516A
JP2004234516A JP2003024524A JP2003024524A JP2004234516A JP 2004234516 A JP2004234516 A JP 2004234516A JP 2003024524 A JP2003024524 A JP 2003024524A JP 2003024524 A JP2003024524 A JP 2003024524A JP 2004234516 A JP2004234516 A JP 2004234516A
Authority
JP
Japan
Prior art keywords
document
coefficient
user
similarity
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003024524A
Other languages
Japanese (ja)
Other versions
JP4309144B2 (en
Inventor
Takuka Tan
澤華 譚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2003024524A priority Critical patent/JP4309144B2/en
Publication of JP2004234516A publication Critical patent/JP2004234516A/en
Application granted granted Critical
Publication of JP4309144B2 publication Critical patent/JP4309144B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a document retrieval device enabling a user to retrieve a desired document without performing a special setting operation even if the user's taste or the like is changed with the lapse of time. <P>SOLUTION: Formers and browsers of various documents stored in a Web server 3 are compared with a retrieval user to determine weighting factors related to various documents. On the other hand, for each of the documents stored in the Web server 3, the number of words recognized for matching by a collation part 18 is multiplied by the weighting factor to calculate the evaluation point of each document, and the documents are presented in descending order of evaluation point. <P>COPYRIGHT: (C)2004,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
この発明は、キーワードに合致するドキュメントを検索するドキュメント検索装置に関するものである。
【0002】
【従来の技術】
ドキュメント検索装置は、膨大なドキュメントの中から利用者が必要としているドキュメントを検索するものであるが、従来のドキュメント検索装置は、例えば、予め利用者の興味のある情報をプロファイルし、そのプロファイルを参酌してユーザの興味のあるドキュメントを検索するようにしている(以下の特許文献1を参照)。
【0003】
【特許文献1】
特開2000−99525公報(段落番号[0034]から[0057]、図2)
【0004】
【発明が解決しようとする課題】
従来のドキュメント検索装置は以上のように構成されているので、プロファイルを参酌すれば、ユーザの興味のあるドキュメントを検索することができるが、時間の経過に伴ってユーザの業務や嗜好が変化すると、ユーザが自らプロファイルを更新しなければ、興味のあるドキュメントを検索することができなくなるなどの課題があった。
【0005】
この発明は上記のような課題を解決するためになされたもので、時間の経過に伴ってユーザの嗜好等が変化しても、ユーザが特別な設定操作等を行うことなく、所望のドキュメントを検索することができるドキュメント検索装置を得ることを目的とする。
【0006】
【課題を解決するための手段】
この発明に係るドキュメント検索装置は、サーバに保存されている各種のドキュメントの作成者及び閲覧者と検索利用者を比較して、各種のドキュメントに係る加重係数を決定する一方、サーバに保存されている各種のドキュメント毎に、照合手段により一致が認定された語句の個数と当該加重係数を乗算してドキュメントの評価点を計算し、評価点が高いドキュメントから順番に提示するようにしたものである。
【0007】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態1.
図1はこの発明の実施の形態1によるドキュメント検索装置を示す構成図であり、図において、利用者端末1は例えばインターネット4などの通信回線に接続され、ドキュメントの検索を依頼する際にキーワードをドキュメント検索装置5に送信する。なお、利用者端末1としては例えばパソコン,PDA,携帯電話等が該当する。LDAP(Lightweight Directory Access Protocol)サーバ2は各利用者の個人属性情報(例えば、利用者の会社名、部門名、業種、職務、性別、氏名、就業時間(曜日、時間)、休日情報)が記録され、各利用者の個人属性情報をドキュメント検索装置5に送信する。Webサーバ3は各種のドキュメントを保存するとともに、ドキュメントの作成者に関する情報やドキュメントの閲覧者に関する情報を記憶している。
【0008】
ドキュメント検索装置5の情報収集部11はLDAPサーバ2に記録されている個人属性情報を収集するとともに、Webサーバ3に記憶されているドキュメントの作成者や閲覧者に関する情報等を収集し、また、ある利用者端末1から送信されたキーワードを受信する。個人情報記録部12は情報収集部11により収集された個人属性情報を記録し、閲覧ドキュメント記録部13は情報収集部11により収集された閲覧者に関する情報を記録し、作成ドキュメント記録部14は情報収集部11により収集された作成者に関する情報を記録する。
なお、情報収集部11はキーワード受信手段を構成し、また、情報収集部11と閲覧ドキュメント記録部13と作成ドキュメント記録部14から記録手段が構成されている。
【0009】
加重係数決定部15は作成ドキュメント記録部14に記憶されているドキュメントの作成者と検索利用者を比較して、各種のドキュメントに係る作成係数(加重係数)を決定するとともに、閲覧ドキュメント記録部13に記憶されているドキュメントの閲覧者と検索利用者を比較して、各種のドキュメントに係る閲覧係数(加重係数)を決定する。なお、加重係数決定部15は係数決定手段を構成している。
ドキュメント特徴分析部16は情報収集部11がWebサーバ3に保存されている各種のドキュメントを収集すると、各種のドキュメントの段落毎に特徴分析を実施して、各段落に存在する語句を抽出する。ドキュメント特徴記憶部17はドキュメント特徴分析部16により抽出された各段落に存在する語句を記録している。照合部18はドキュメント特徴記憶部17に記録されている語句と情報収集部11により収集されたキーワードを照合する。なお、ドキュメント特徴分析部16、ドキュメント特徴記憶部17及び照合部18から照合手段が構成されている。
【0010】
ドキュメント評価部19はWebサーバ3に保存されている各種のドキュメント毎に、照合部18により一致が認定された語句の個数と加重係数決定部15により決定された作成係数を乗算するとともに、その語句の個数と閲覧係数を乗算し、双方の乗算結果の合計値をドキュメントの評価点として求める。なお、ドキュメント評価部19は評価手段を構成している。
検索結果提示部20はドキュメント評価部19により計算された評価点が高いドキュメントから順番に利用者端末1に提示する。なお、検索結果提示部20は検索結果提示手段を構成している。
制御部21はドキュメント検索装置5を構成する各部の動作を制御する。
【0011】
次に動作について説明する。
利用者がWebサーバ3に保存されているドキュメントの閲覧等を希望する場合、予め、自己の個人属性情報(例えば、利用者の会社名、部門名、業種、職務、性別、氏名、就業時間(曜日、時間)、休日情報)をLDAPサーバ2に登録する必要がある。
よって、利用者は、Webサーバ3に保存されているドキュメントの閲覧等を希望する場合、自己の利用者端末1を操作して、自己の個人属性情報をLDAPサーバ2に登録する。なお、図2はLDAPサーバ2に登録されている各利用者の個人属性情報である。
LDAPサーバ2は、一定期間毎に、登録している各利用者の個人属性情報をドキュメント検索装置5に送信する。あるいは、新たに利用者の個人属性情報が登録されたとき、その個人属性情報をドキュメント検索装置5に送信する。
【0012】
ドキュメント検索装置5の情報収集部11は、LDAPサーバ2から個人属性情報が送信されると、その個人属性情報を収集して個人情報記録部12に記録する。
また、情報収集部11は、Webサーバ3にはドキュメントのアクセス履歴(ドキュメントの作成者や閲覧者に関する情報)が残されているので、制御部21の指示の下、一定期間毎に、そのアクセス履歴を収集する。そして、そのアクセス履歴の中からドキュメントの閲覧者に関する情報を抽出して、その閲覧者に関する情報を閲覧ドキュメント記録部13に記録する(図3を参照)。また、そのアクセス履歴の中からドキュメントの作成者に関する情報を抽出して、その作成者に関する情報を作成ドキュメント記録部14に記録する(図4を参照)。
【0013】
さらに、情報収集部11は、制御部21の指示の下、Webサーバ3に保存されている各種のドキュメントを収集し、各種のドキュメントをドキュメント特徴分析部16に出力する。
ドキュメント特徴分析部16は、情報収集部11からWebサーバ3に保存されている各種のドキュメントを受けると、各種のドキュメントの段落毎に特徴分析を実施して、各段落に存在する語句を抽出し、その語句をドキュメント特徴記憶部17に記録する。
図5はドキュメント特徴記憶部17の記録内容を示す一例であるが、図5の例では、識別番号“0001”のドキュメントは、http://aa.bb.ccのアドレスに格納され、そのドキュメントの1番目の段落には、“企業”、“効率”、“経営”、“戦略”等の語句が存在することを示している。
【0014】
例えば、利用者Aがドキュメントの検索を依頼する場合、利用端末1を操作して、検索に利用するキーワード(例えば、経営、期間、効率、生産)を入力すると、利用端末1が利用者Aの識別番号“A”と当該キーワードをドキュメント検索装置5に送信する。なお、同一の利用者でも、就業時間内のアクセス傾向と、就業時間外のアクセス傾向とが異なる場合が多いので、この例では、説明の便宜上、就業時間内のアクセス傾向に基づいてドキュメントを検索するものとする。したがって、この場合、利用端末1は付加的な検索条件(就業時間内のアクセスに限定する条件)をドキュメント検索装置5に送信する。
【0015】
ドキュメント検索装置5の照合部18は、情報収集部11が利用端末1から送信された利用者Aの識別番号“A”とキーワードと付加的な検索条件を受信すると、制御部21の指示の下、ドキュメント特徴記憶部17に記録されている語句と当該キーワードを照合する。
例えば、キーワードが“経営”、“期間”、“効率”、“生産”である場合、図6に示すように、識別番号“0001”のドキュメントには、それらのキーワードと一致する語句の個数が5個あるので(1番目の段落では、“効率”、“経営”が一致、2番目の段落では、“期間”、“効率”、“生産”が一致)、識別番号“0001”のドキュメントの照合点は“5”になる。
図6の例では、識別番号“0002”のドキュメントの照合点は“3”、識別番号“0003”のドキュメントの照合点は“2”、識別番号“0004”のドキュメントの照合点は“3”になる。
【0016】
なお、照合部18は、語句とキーワードが完全に一致していない場合でも、類似関係がある場合には一致を認定するようにしてもよい。例えば、キーワードが“生産”で、語句が“製造”である場合、両者は意味的に略同一であるので、一致を認定するようようにする。この場合、照合部18は、曖昧検索に用いる辞書等を保持するようにすればよい。
【0017】
加重係数決定部15は、制御部21の指示の下、情報収集部11により収集された利用者Aの識別番号“A”をキーにして、閲覧ドキュメント記録部13から利用者Aが就業時間内に閲覧したことがあるドキュメントを検索する。図3の例では、利用者Aが就業時間内に閲覧したことがあるドキュメントは識別番号が“0003”のドキュメントのみであり、識別番号が“0001”,“0002”,“0004”のドキュメントは利用者Aに閲覧されていないと判断される。
加重係数決定部15は、利用者Aが就業時間内に閲覧したことがあるドキュメントには、図6に示すように、閲覧係数として“3”を与え、利用者Aが就業時間内に閲覧したことがないドキュメントには、閲覧係数として“1”を与えるようにする。ただし、ここでは閲覧係数として“3”又は“1”を与えているが、これに限るものではなく、例えば、“5”又は“2”を与えようにしてもよい。
なお、利用者Aの就業時間は、個人情報記録部12に記録されている個人属性情報(図2を参照)から得ることができる。
【0018】
また、加重係数決定部15は、制御部21の指示の下、情報収集部11により収集された利用者Aの識別番号“A”をキーにして、作成ドキュメント記録部14から利用者Aが就業時間内に作成したドキュメントを検索する。図4の例では、利用者Aが就業時間内に作成したドキュメントは識別番号が“0001”のドキュメントのみであり、識別番号が“0002”,“0003”,“0004”のドキュメントは利用者Aに作成されていないと判断される。
加重係数決定部15は、利用者Aが就業時間内に作成したドキュメントには、図6に示すように、作成係数として“5”を与え、利用者Aが就業時間内に作成していないドキュメントには、作成係数として“1”を与えるようにする。ただし、ここでは作成係数として“5”又は“1”を与えているが、これに限るものではなく、例えば、“7”又は“3”を与えようにしてもよい。
【0019】
ドキュメント評価部19は、上記のようにして、照合部18が各種のドキュメントの照合点を求め、加重係数決定部15が各種のドキュメントの加重係数(閲覧係数、作成係数)を決定すると、各種のドキュメント毎に、照合部18により求められた照合点と加重係数決定部15により決定された作成係数を乗算するとともに、その照合点と閲覧係数を乗算し、双方の乗算結果の合計値をドキュメントの評価点として求める。
識別番号“0001”のドキュメントの評価点=5×5+5×1=30
識別番号“0002”のドキュメントの評価点=3×1+3×1=6
識別番号“0003”のドキュメントの評価点=2×1+2×3=8
識別番号“0004”のドキュメントの評価点=3×1+3×1=6
【0020】
検索結果提示部20は、ドキュメント評価部19が各種のドキュメントの評価点を求めると、評価点が高いドキュメントから順番に並べた一覧表(例えば、評価点が高いドキュメントほど上部に配置し、評価点が最も低いドキュメントを最下部に配置する)等を作成し、その一覧表等を利用者端末1に送信する。
これにより、利用者端末1のディスプレイには、評価点が高いドキュメントから順番に並べられた一覧表等が表示されるので、例えば、一番上に配置されたドキュメントを選択すれば、その選択情報がWebサーバ3に送信されることにより、そのドキュメントの閲覧が可能になる。
【0021】
なお、この実施の形態1では、利用者Aが検索を依頼する場合について示したが、例えば、利用者Cが同じキーワードで検索を依頼した場合、照合部18により求められる照合点は変わらないが、図7に示すように、加重係数決定部15により決定される加重係数(閲覧係数、作成係数)が変わるため、ドキュメント評価部19により計算される評価点も変わる。
【0022】
以上で明らかなように、この実施の形態1によれば、Webサーバ3に保存されている各種のドキュメントの作成者及び閲覧者と検索利用者を比較して、各種のドキュメントに係る加重係数を決定する一方、Webサーバ3に保存されている各種のドキュメント毎に、照合部18により一致が認定された語句の個数と当該加重係数を乗算してドキュメントの評価点を計算し、評価点が高いドキュメントから順番に提示するように構成したので、時間の経過に伴ってユーザの嗜好等が変化しても、ユーザが特別な設定操作等を行うことなく、所望のドキュメントを検索することができる効果を奏する。
即ち、利用者のプロファイルを参照して、所望のドキュメントを検索するのではなく、Webサーバ3に自動的に残されるドキュメントのアクセス履歴を参照して、所望のドキュメントを検索するようにしているので、利用者が嗜好の変化が起こる毎に自己のプロファイルを更新することなく、適切なドキュメントを検索することができる。
【0023】
また、この実施の形態1によれば、語句とキーワードが完全に一致していない場合でも、類似関係がある場合には照合部18が一致を認定するように構成したので、実用的な照合結果が得られる効果を奏する。
また、この実施の形態1によれば、各種のドキュメント毎に、照合部18により求められた照合点と加重係数決定部15により決定された作成係数を乗算するとともに、その照合点と閲覧係数を乗算し、双方の乗算結果の合計値をドキュメントの評価点として求めるように構成したので、検索利用者の興味に合うドキュメントを検索することができる効果を奏する。
【0024】
さらに、この実施の形態1によれば、情報収集部11がWebサーバ3に残されているドキュメントのアクセス履歴を一定期間毎に収集して、閲覧ドキュメント記録部13及び作成ドキュメント記録部14の記録内容(ドキュメントの閲覧者と作成者に関する情報)を更新するように構成したので、利用者の嗜好の変化を速やかに反映することができる効果を奏する。
なお、Webサーバ3に新規のドキュメントが登録されたとき、あるいは、Webサーバ3に保存されているドキュメントが閲覧されたとき、Webサーバ3がアクセス履歴をドキュメント検索装置5に送信するようにして、閲覧ドキュメント記録部13及び作成ドキュメント記録部14の記録内容(ドキュメントの閲覧者と作成者に関する情報)を更新するようにしてもよい。この場合、常に最新のアクセス状況を把握することができる。
【0025】
実施の形態2.
図8はこの発明の実施の形態2によるドキュメント検索装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
加重係数決定部22は図1の加重係数決定部15と同様にして、各種のドキュメントに係る作成係数と閲覧係数を決定するとともに、検索利用者の個人属性情報と他の利用者の個人属性情報とを比較して、その検索利用者と他の利用者の類似度を把握し、その類似度に所定値を乗算して作成類似係数及び閲覧類似係数を求める。なお、加重係数決定部22は係数決定手段を構成している。
ドキュメント評価部23はWebサーバ3に保存されている各種のドキュメント毎に、照合部18により求められた照合点と作成係数の乗算、その照合点と閲覧係数の乗算、その照合点と作成類似係数の乗算、その照合点と閲覧類似係数の乗算を実施し、各乗算結果の合計値をドキュメントの評価点として求める。なお、ドキュメント評価部23は評価手段を構成している。
【0026】
次に動作について説明する。
加重係数決定部22は、図1の加重係数決定部15と同様にして、各種のドキュメントに係る作成係数と閲覧係数を決定すると、検索利用者の個人属性情報と他の利用者の個人属性情報とを比較して、その検索利用者と他の利用者の類似度を把握する。
【0027】
即ち、加重係数決定部22は、利用者Aがドキュメントの検索を依頼する場合、利用者Aと利用者B,C,Dの個人属性情報を比較する(図2を参照)。
例えば、利用者Aと利用者Bの個人属性情報(会社名、部門名、業種、職務、性別)を比較すると、“会社名”、“部門名”、“業種”、“職務”、“性別”の5項目が一致しているので、図9に示すように、利用者Aと利用者Bの類似度が“5”であると判断する。
また、利用者Aと利用者Cの個人属性情報を比較すると、“性別”の1項目のみが一致しているので、図9に示すように、利用者Aと利用者Cの類似度が“1”であると判断する。
さらに、利用者Aと利用者Dの個人属性情報を比較すると、全ての項目が不一致であるので、図9に示すように、類似度が“0”であると判断する。
なお、言うまでもないが、利用者Aと利用者Aの個人属性情報を比較した場合、全部の項目が一致するので、図9に示すように、利用者Aと利用者Aの類似度が“5”であると判断する。
【0028】
加重係数決定部22は、上記のようにして、利用者Aと利用者B,C,Dの類似度を把握すると、次のようにして、作成類似係数と閲覧類似係数を求める。
まず、識別番号“0001”のドキュメントは、図4に示すように、利用者Aが作成者であるので、利用者Aと利用者Aの類似度である“5”に所定値“0.5”を乗算し、その乗算結果である“2.5”を作成類似係数とする(図10を参照)。ここで、所定値“0.5”を乗算しているのは、利用者の類似度に基づく評価は上記実施の形態1における評価を補足するものであるので、加重を低くするためである。ただし、所定値は“0.5”に限るものではない。
【0029】
また、識別番号“0002”のドキュメントは、利用者Bが作成者であるので、利用者Aと利用者Bの類似度である“5”に所定値“0.5”を乗算し、その乗算結果である“2.5”を作成類似係数とする。
また、識別番号“0003”のドキュメントは、利用者Cが作成者であるので、利用者Aと利用者Cの類似度である“1”に所定値“0.5”を乗算し、その乗算結果である“0.5”を作成類似係数とする。
さらに、識別番号“0004”のドキュメントは、利用者Dが作成者であるので、利用者Aと利用者Dの類似度である“0”に所定値“0.5”を乗算し、その乗算結果である“0”を作成類似係数とする。
【0030】
次に、加重係数決定部22は、識別番号“0001”のドキュメントは、図3に示すように、就業時間内では利用者Cが閲覧者であるので、利用者Aと利用者Cの類似度である“1”に所定値“0.3”を乗算し、その乗算結果である“0.3”を閲覧類似係数とする。ここで、所定値“0.3”を乗算しているのは、利用者の類似度に基づく評価は上記実施の形態1における評価を補足するものであるので、加重を低くするためである。ただし、所定値は“0.3”に限るものではない。
【0031】
また、識別番号“0002”のドキュメントは、就業時間内では利用者Bが閲覧者であるので、利用者Aと利用者Bの類似度である“5”に所定値“0.3”を乗算し、その乗算結果である“1.5”を閲覧類似係数とする。
また、識別番号“0003”のドキュメントは、就業時間内では利用者Aが閲覧者であるので、利用者Aと利用者Aの類似度である“5”に所定値“0.3”を乗算し、その乗算結果である“1.5”を閲覧類似係数とする。
さらに、識別番号“0004”のドキュメントは、就業時間内では利用者Dが閲覧者であるので、利用者Aと利用者Dの類似度である“0”に所定値“0.3”を乗算し、その乗算結果である“0”を閲覧類似係数とする。
【0032】
ドキュメント評価部23は、加重係数決定部22が各種のドキュメントの加重係数(閲覧係数、作成係数)と作成類似係数及び閲覧類似係数を決定すると、各種のドキュメント毎に、照合部18により求められた照合点と作成係数の乗算、その照合点と閲覧係数の乗算、その照合点と作成類似係数の乗算、その照合点と閲覧類似係数の乗算を実施し、各乗算結果の合計値をドキュメントの評価点として求める(図10を参照)。
識別番号“0001”のドキュメントの評価点
=5×5+5×1+5×2.5+5×0.3=44
識別番号“0002”のドキュメントの評価点
=3×1+3×1+3×2.5+3×1.5=18
識別番号“0003”のドキュメントの評価点
=2×1+2×3+2×0.5+2×1.5=12
識別番号“0004”のドキュメントの評価点
=3×1+3×1+3×0+3×0=6
【0033】
なお、この実施の形態2では、利用者Aが検索を依頼する場合について示したが、例えば、利用者Cが同じキーワードで検索を依頼した場合、照合部18により求められる照合点は変わらないが、図11に示すように、利用者Cと利用者A,B,Dの類似度が変わり、加重係数決定部22により決定される加重係数(閲覧係数、作成係数)と作成類似係数及び閲覧類似係数が変わるため、ドキュメント評価部22により計算される評価点も変わる。
【0034】
以上で明らかなように、この実施の形態2によれば、各種のドキュメント毎に、照合部18により求められた照合点と作成係数の乗算、その照合点と閲覧係数の乗算、その照合点と作成類似係数の乗算、その照合点と閲覧類似係数の乗算を実施し、各乗算結果の合計値をドキュメントの評価点として求めるように構成したので、検索利用者の業務等に合うドキュメントを検索することができる効果を奏する。
【0035】
実施の形態3.
上記実施の形態1,2では、就業時間内のアクセス傾向に基づいてドキュメントを検索するものについて示したが、就業時間外のアクセス傾向に基づいてドキュメントを検索するようにしてもよい。図12は就業時間外のアクセス傾向に基づいてドキュメントを検索する場合の評価点等を示している。
【0036】
【発明の効果】
以上のように、この発明によれば、サーバに保存されている各種のドキュメントの作成者及び閲覧者と検索利用者を比較して、各種のドキュメントに係る加重係数を決定する一方、サーバに保存されている各種のドキュメント毎に、照合手段により一致が認定された語句の個数と当該加重係数を乗算してドキュメントの評価点を計算し、評価点が高いドキュメントから順番に提示するように構成したので、時間の経過に伴ってユーザの嗜好等が変化しても、ユーザが特別な設定操作等を行うことなく、所望のドキュメントを検索することができる効果がある。
【図面の簡単な説明】
【図1】この発明の実施の形態1によるドキュメント検索装置を示す構成図である。
【図2】LDAPサーバに登録されている各利用者の個人属性情報を示す説明図である。
【図3】閲覧ドキュメント記録部に記録されている閲覧者に関する情報を示す説明図である。
【図4】作成ドキュメント記録部に記録されている作成者に関する情報を示す説明図である。
【図5】各段落に存在する語句を示す説明図である。
【図6】ドキュメントの照合点や評価点等を示す説明図である。
【図7】ドキュメントの照合点や評価点等を示す説明図である。
【図8】この発明の実施の形態2によるドキュメント検索装置を示す構成図である。
【図9】利用者間の類似度を示す説明図である。
【図10】ドキュメントの照合点や評価点等を示す説明図である。
【図11】利用者間の類似度を示す説明図である。
【図12】ドキュメントの照合点や評価点等を示す説明図である。
【符号の説明】
1 利用者端末、2 LDAPサーバ、3 Webサーバ、4 インターネット、5 ドキュメント検索装置、11 情報収集部(キーワード受信手段、記録手段)、12 個人情報記録部、13 閲覧ドキュメント記録部(記録手段)、14 作成ドキュメント記録部(記録手段)、15 加重係数決定部(係数決定手段)、16 ドキュメント特徴分析部(照合手段)、17 ドキュメント特徴記憶部(照合手段)、18 照合部(照合手段)、19 ドキュメント評価部(評価手段)、20 検索結果提示部(検索結果提示手段)、21 制御部、22加重係数決定部(係数決定手段)、23 ドキュメント評価部(評価手段)。
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a document search device that searches for a document that matches a keyword.
[0002]
[Prior art]
A document search device searches for a document that a user needs from an enormous number of documents.A conventional document search device, for example, profiles information of interest to a user in advance and sets the profile to Documents of interest to the user are searched for by reference (see Patent Document 1 below).
[0003]
[Patent Document 1]
JP 2000-99525 A (paragraph numbers [0034] to [0057], FIG. 2)
[0004]
[Problems to be solved by the invention]
Since the conventional document search device is configured as described above, if a profile is taken into consideration, it is possible to search for a document of interest to the user, but if the user's business or preference changes over time, If the user does not update the profile by himself / herself, it is impossible to search for an interesting document.
[0005]
SUMMARY OF THE INVENTION The present invention has been made to solve the above-described problem. Even if the user's preference changes over time, the user can perform a desired document without performing a special setting operation or the like. It is an object of the present invention to obtain a searchable document search device.
[0006]
[Means for Solving the Problems]
A document search device according to the present invention compares a creator and a viewer of various documents stored in a server with a search user to determine a weighting coefficient for various documents, and stores the weight coefficients in the server. For each type of document, the evaluation score of the document is calculated by multiplying the number of words and phrases that have been matched by the matching means by the weighting coefficient, and presented in order from the document with the highest evaluation score. .
[0007]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, an embodiment of the present invention will be described.
Embodiment 1 FIG.
FIG. 1 is a block diagram showing a document search apparatus according to a first embodiment of the present invention. In the figure, a user terminal 1 is connected to a communication line such as the Internet 4 and inputs a keyword when requesting a document search. It is transmitted to the document search device 5. The user terminal 1 corresponds to, for example, a personal computer, a PDA, a mobile phone, or the like. An LDAP (Lightweight Directory Access Protocol) server 2 records personal attribute information of each user (for example, the user's company name, department name, business type, job, gender, name, working hours (day of the week, time), holiday information). Then, the personal attribute information of each user is transmitted to the document search device 5. The Web server 3 stores various documents, and also stores information on a creator of the document and information on a viewer of the document.
[0008]
The information collection unit 11 of the document search device 5 collects personal attribute information recorded in the LDAP server 2 and also collects information about a creator and a viewer of the document stored in the Web server 3 and the like. A keyword transmitted from a certain user terminal 1 is received. The personal information recording unit 12 records the personal attribute information collected by the information collecting unit 11, the browsing document recording unit 13 records the information on the viewer collected by the information collecting unit 11, and the created document recording unit 14 stores the information. The information about the creator collected by the collection unit 11 is recorded.
The information collecting unit 11 forms a keyword receiving unit, and the information collecting unit 11, the browsed document recording unit 13, and the created document recording unit 14 constitute a recording unit.
[0009]
The weighting coefficient determination unit 15 compares the creator of the document stored in the created document recording unit 14 with the search user to determine the creation coefficient (weighting coefficient) for each type of document, and also stores the browsed document recording unit 13. The browsing coefficient (weighting coefficient) related to various documents is determined by comparing the browsing user and the searching user of the document stored in. Note that the weighting coefficient determination unit 15 constitutes coefficient determination means.
When the information collecting unit 11 collects various documents stored in the Web server 3, the document characteristic analyzing unit 16 performs a characteristic analysis for each paragraph of the various documents, and extracts words and phrases present in each paragraph. The document feature storage unit 17 records the words present in each paragraph extracted by the document feature analysis unit 16. The collation unit 18 collates the words and phrases recorded in the document feature storage unit 17 with the keywords collected by the information collection unit 11. Note that the document feature analysis unit 16, the document feature storage unit 17, and the comparison unit 18 constitute a matching unit.
[0010]
The document evaluation unit 19 multiplies, for each of various documents stored in the Web server 3, the number of words and phrases determined to match by the matching unit 18 by the creation coefficient determined by the weighting coefficient determination unit 15, Is multiplied by the browsing coefficient, and the total value of both multiplication results is obtained as a document evaluation point. The document evaluation section 19 constitutes an evaluation unit.
The search result presentation unit 20 presents the documents to the user terminal 1 in order from the document having the highest evaluation score calculated by the document evaluation unit 19. Note that the search result presentation unit 20 constitutes a search result presentation unit.
The control unit 21 controls the operation of each unit constituting the document search device 5.
[0011]
Next, the operation will be described.
If the user wishes to view a document stored in the Web server 3 or the like, the user's personal attribute information (for example, the user's company name, department name, industry, job, gender, name, working hours ( It is necessary to register day of the week, time) and holiday information) in the LDAP server 2.
Therefore, when the user desires to view a document stored in the Web server 3 or the like, the user operates his / her own user terminal 1 and registers his / her personal attribute information in the LDAP server 2. FIG. 2 shows personal attribute information of each user registered in the LDAP server 2.
The LDAP server 2 transmits the personal attribute information of each registered user to the document search device 5 at regular intervals. Alternatively, when the personal attribute information of the user is newly registered, the personal attribute information is transmitted to the document search device 5.
[0012]
When the personal attribute information is transmitted from the LDAP server 2, the information collecting unit 11 of the document search device 5 collects the personal attribute information and records it in the personal information recording unit 12.
In addition, the information collection unit 11 stores the document access history (information on the creator and the viewer of the document) in the Web server 3. Collect history. Then, information about the document viewer is extracted from the access history, and the information about the document viewer is recorded in the browse document recording unit 13 (see FIG. 3). Further, information on the creator of the document is extracted from the access history, and the information on the creator is recorded in the created document recording unit 14 (see FIG. 4).
[0013]
Further, the information collection unit 11 collects various documents stored in the Web server 3 under the instruction of the control unit 21 and outputs the various documents to the document feature analysis unit 16.
Upon receiving various documents stored in the Web server 3 from the information collecting unit 11, the document characteristic analysis unit 16 performs a characteristic analysis for each paragraph of the various documents, and extracts words and phrases present in each paragraph. Is recorded in the document feature storage unit 17.
FIG. 5 is an example showing the recorded contents of the document feature storage unit 17. In the example of FIG. 5, the document with the identification number “0001” is http: // aa. bb. cc, which indicates that words such as "company", "efficiency", "management", and "strategy" exist in the first paragraph of the document.
[0014]
For example, when the user A requests a document search, the user operates the user terminal 1 and inputs a keyword (for example, management, period, efficiency, production) used for the search. The identification number “A” and the keyword are transmitted to the document search device 5. In addition, even in the same user, the access tendency during working hours and the access tendency outside working hours are often different, so in this example, for convenience of explanation, a document is searched based on the access tendency during working hours. It shall be. Therefore, in this case, the use terminal 1 transmits an additional search condition (a condition limited to access during working hours) to the document search device 5.
[0015]
When the information collection unit 11 receives the identification number “A” of the user A, the keyword, and the additional search condition transmitted from the use terminal 1 under the instruction of the control unit 21, The keyword stored in the document feature storage unit 17 is compared with the keyword.
For example, if the keywords are “management”, “period”, “efficiency”, and “production”, as shown in FIG. 6, the document with the identification number “0001” has the number of words matching those keywords. Since there are five (the first paragraph matches “efficiency” and “management”, the second paragraph matches “period”, “efficiency” and “production”), the document of identification number “0001” The collation point is “5”.
In the example of FIG. 6, the collation point of the document with the identification number “0002” is “3”, the collation point of the document with the identification number “0003” is “2”, and the collation point of the document with the identification number “0004” is “3”. become.
[0016]
In addition, even when the phrase and the keyword do not completely match, the matching unit 18 may recognize the match when there is a similarity. For example, if the keyword is "production" and the phrase is "manufacturing", the two are semantically substantially the same, so that a match is determined. In this case, the matching unit 18 may hold a dictionary or the like used for fuzzy search.
[0017]
Under the instruction of the control unit 21, the weighting factor determination unit 15 uses the identification number “A” of the user A collected by the information collection unit 11 as a key, and Find documents you've viewed in. In the example of FIG. 3, the documents that the user A has viewed during the working hours are only the documents with the identification numbers “0003”, and the documents with the identification numbers “0001”, “0002”, and “0004” It is determined that the user A has not browsed.
The weighting factor determination unit 15 assigns “3” as a viewing factor to a document that the user A has viewed during the working hours, as shown in FIG. 6, and the user A has viewed the document during the working hours. For a document that does not have such a document, "1" is given as a browsing coefficient. Here, “3” or “1” is given as the browsing coefficient, but the present invention is not limited to this. For example, “5” or “2” may be given.
The working hours of the user A can be obtained from personal attribute information (see FIG. 2) recorded in the personal information recording unit 12.
[0018]
The weighting factor determination unit 15 uses the identification number “A” of the user A collected by the information collection unit 11 as a key under the instruction of the control unit 21 so that the user A starts working from the created document recording unit 14. Search for documents created in time. In the example of FIG. 4, the documents created by the user A during working hours are only the documents with the identification numbers “0001”, and the documents with the identification numbers “0002”, “0003”, and “0004” are the users A Is not created.
As shown in FIG. 6, the weighting coefficient determination unit 15 assigns “5” as a creation coefficient to a document created by the user A during working hours, and assigns a document that the user A has not created within the working hours. , "1" is given as a creation coefficient. Here, “5” or “1” is given as the creation coefficient, but the present invention is not limited to this. For example, “7” or “3” may be given.
[0019]
As described above, when the matching unit 18 obtains the matching points of various documents and the weighting factor determination unit 15 determines the weighting factors (viewing factors, creation factors) of various documents, the document evaluation unit 19 For each document, the collation point obtained by the collation unit 18 is multiplied by the creation coefficient determined by the weighting factor determination unit 15, and the collation point is multiplied by the browsing coefficient. Obtain as an evaluation point.
Evaluation score of document with identification number “0001” = 5 × 5 + 5 × 1 = 30
Evaluation score of document with identification number “0002” = 3 × 1 + 3 × 1 = 6
Evaluation score of document with identification number “0003” = 2 × 1 + 2 × 3 = 8
Evaluation score of document with identification number “0004” = 3 × 1 + 3 × 1 = 6
[0020]
When the document evaluation section 19 obtains the evaluation points of various documents, the search result presentation section 20 arranges a list in which documents having the highest evaluation points are arranged in order (for example, the higher the evaluation points, the higher the evaluation points are arranged at the top, Is arranged at the bottom), and a list thereof is transmitted to the user terminal 1.
As a result, a list or the like is displayed on the display of the user terminal 1 in order from the document with the highest evaluation score. For example, if the document arranged at the top is selected, the selection information is displayed. Is transmitted to the Web server 3 so that the document can be browsed.
[0021]
In the first embodiment, the case where the user A requests a search is described. For example, when the user C requests a search with the same keyword, the matching point obtained by the matching unit 18 does not change. As shown in FIG. 7, since the weighting coefficients (viewing coefficients and creation coefficients) determined by the weighting coefficient determination unit 15 change, the evaluation points calculated by the document evaluation unit 19 also change.
[0022]
As is clear from the above, according to the first embodiment, the creator and viewer of various documents stored in the Web server 3 are compared with the search user, and the weighting factors for the various documents are calculated. On the other hand, the evaluation score of the document is calculated by multiplying the number of words whose matching has been recognized by the matching unit 18 by the weighting coefficient for each of the various documents stored in the Web server 3, and the evaluation score is high. Since the document is presented in order from the document, even if the user's preference changes over time, the user can search for the desired document without performing any special setting operation. To play.
That is, instead of searching for a desired document by referring to the user's profile, the desired document is searched for by referring to the access history of the document automatically left in the Web server 3. In addition, the user can search for an appropriate document without updating his or her profile every time a change in taste occurs.
[0023]
Further, according to the first embodiment, even when the word and the keyword do not completely match, if the similarity exists, the matching unit 18 is configured to recognize the match. Is obtained.
Further, according to the first embodiment, for each type of document, the collation point determined by the collation unit 18 is multiplied by the creation coefficient determined by the weighting factor determination unit 15, and the collation point and the browsing coefficient are used. Since the multiplication is performed and the total value of both multiplication results is obtained as the evaluation point of the document, an effect is provided that a document that matches the interest of the search user can be searched.
[0024]
Further, according to the first embodiment, the information collecting unit 11 collects the access history of the document left in the Web server 3 at regular intervals, and records the access history in the browsed document recording unit 13 and the created document recording unit 14. Since the content (information on the document viewer and the creator) is configured to be updated, there is an effect that the change in the user's preference can be promptly reflected.
When a new document is registered in the Web server 3 or when a document stored in the Web server 3 is browsed, the Web server 3 transmits an access history to the document search device 5, The recorded contents (information on the document viewer and the creator) of the browsed document recording unit 13 and the created document recording unit 14 may be updated. In this case, the latest access status can always be grasped.
[0025]
Embodiment 2 FIG.
FIG. 8 is a configuration diagram showing a document search apparatus according to Embodiment 2 of the present invention. In the figure, the same reference numerals as those in FIG. 1 denote the same or corresponding parts, and a description thereof will be omitted.
The weighting coefficient determination unit 22 determines the creation coefficient and the browsing coefficient for various documents in the same manner as the weighting coefficient determination unit 15 in FIG. 1, and searches for the personal attribute information of the search user and the personal attribute information of other users. , The similarity between the search user and another user is grasped, and the similarity is multiplied by a predetermined value to obtain a created similarity coefficient and a browse similarity coefficient. Note that the weighting coefficient determination unit 22 constitutes coefficient determination means.
The document evaluation unit 23 multiplies the collation point calculated by the collation unit 18 by the creation coefficient, multiplies the collation point by the browsing coefficient, and compares the collation point and the creation similarity coefficient for each of various documents stored in the Web server 3. , And the matching point is multiplied by the browsing similarity coefficient, and the total value of the multiplication results is obtained as the evaluation point of the document. The document evaluation section 23 constitutes an evaluation unit.
[0026]
Next, the operation will be described.
When the weighting factor determination unit 22 determines the creation factor and the browsing factor for various documents in the same manner as the weighting factor determination unit 15 in FIG. 1, the personal attribute information of the search user and the personal attribute information of other users are determined. To find the similarity between the search user and other users.
[0027]
That is, when the user A requests a document search, the weighting factor determination unit 22 compares the personal attribute information of the user A with the personal attribute information of the users B, C, and D (see FIG. 2).
For example, comparing the personal attribute information (company name, department name, business type, job, and gender) of user A and user B, “company name”, “department name”, “business type”, “duty”, “sex Therefore, as shown in FIG. 9, it is determined that the similarity between the user A and the user B is "5".
Further, when comparing the personal attribute information of the user A and the user C, only one item of “sex” matches, so that the similarity between the user A and the user C is “as shown in FIG. 1 ".
Further, when the personal attribute information of the user A and the personal attribute information of the user D are compared, since all items do not match, it is determined that the similarity is “0” as shown in FIG.
Needless to say, when the personal attribute information of the user A is compared with the personal attribute information of the user A, all the items match, so that the similarity between the user A and the user A is “5” as shown in FIG. Is determined.
[0028]
When the weighting coefficient determination unit 22 grasps the similarity between the user A and the users B, C, and D as described above, the weighting coefficient determination unit 22 obtains the creation similarity coefficient and the browsing similarity coefficient as follows.
First, as shown in FIG. 4, since the user A is the creator of the document with the identification number “0001”, the predetermined value “0.5” is set to “5” which is the similarity between the user A and the user A. , And the result of the multiplication, “2.5”, is used as the creation similarity coefficient (see FIG. 10). Here, the predetermined value “0.5” is multiplied because the evaluation based on the similarity of the user complements the evaluation in the first embodiment, so that the weight is reduced. However, the predetermined value is not limited to “0.5”.
[0029]
Further, since the document with the identification number “0002” is created by the user B, the similarity between the user A and the user B is multiplied by “5” by a predetermined value “0.5”, and the multiplication is performed. The result “2.5” is used as the creation similarity coefficient.
Further, since the document with the identification number “0003” is created by the user C, the similarity between the user A and the user C is multiplied by “1” by a predetermined value “0.5”, and the multiplication is performed. The result “0.5” is used as the creation similarity coefficient.
Further, since the user D is the creator of the document with the identification number "0004", the similarity between the user A and the user D is multiplied by a predetermined value "0.5", and the multiplication is performed. The result “0” is set as a creation similarity coefficient.
[0030]
Next, as shown in FIG. 3, since the user C is a viewer during the working hours of the document with the identification number “0001”, the weighting factor determination unit 22 determines that the similarity between the user A and the user C is high. Is multiplied by a predetermined value “0.3”, and the multiplication result “0.3” is set as a browsing similarity coefficient. Here, the predetermined value “0.3” is multiplied because the evaluation based on the similarity of the user complements the evaluation in the first embodiment, so that the weight is reduced. However, the predetermined value is not limited to “0.3”.
[0031]
In the document with the identification number “0002”, since the user B is a viewer during working hours, the similarity “5” between the user A and the user B is multiplied by a predetermined value “0.3”. Then, the multiplication result “1.5” is set as the browsing similarity coefficient.
In the document with the identification number “0003”, since the user A is a viewer during working hours, the similarity “5” between the user A and the user A is multiplied by a predetermined value “0.3”. Then, the multiplication result “1.5” is set as the browsing similarity coefficient.
Further, in the document with the identification number “0004”, since the user D is the browsing person during working hours, the similarity “0” between the user A and the user D is multiplied by the predetermined value “0.3”. Then, the multiplication result “0” is set as the browsing similarity coefficient.
[0032]
When the weighting factor determination unit 22 determines the weighting factors (viewing factor, creation factor), creation similarity factor, and viewing similarity factor of various documents, the document evaluation unit 23 calculates the weighting factor for each of the various documents by the matching unit 18. Multiplies the collation point and the creation coefficient, multiplies the collation point and the browsing coefficient, multiplies the collation point and the creation similarity coefficient, multiplies the collation point and the browsing similarity coefficient, and evaluates the total value of each multiplication result. It is obtained as a point (see FIG. 10).
Evaluation score of document with identification number "0001"
= 5 × 5 + 5 × 1 + 5 × 2.5 + 5 × 0.3 = 44
Evaluation score of document with identification number "0002"
= 3 × 1 + 3 × 1 + 3 × 2.5 + 3 × 1.5 = 18
Evaluation score of document with identification number "0003"
= 2 × 1 + 2 × 3 + 2 × 0.5 + 2 × 1.5 = 12
Evaluation score of document with identification number "0004"
= 3 × 1 + 3 × 1 + 3 × 0 + 3 × 0 = 6
[0033]
In the second embodiment, the case where the user A requests a search has been described. For example, when the user C requests a search with the same keyword, the matching point obtained by the matching unit 18 does not change. As shown in FIG. 11, the similarity between the user C and the users A, B, and D changes, and the weighting coefficients (viewing coefficient, creation coefficient) determined by the weighting coefficient determination unit 22, the creation similarity coefficient, and the browsing similarity are determined. Since the coefficient changes, the evaluation score calculated by the document evaluation unit 22 also changes.
[0034]
As is clear from the above, according to the second embodiment, for each type of document, the multiplication of the collation point calculated by the collation unit 18 and the creation coefficient, the multiplication of the collation point and the browsing coefficient, and the multiplication of the collation point Multiplication of the created similarity coefficient, multiplication of the matching point and the browsing similarity coefficient are performed, and the total value of each multiplication result is obtained as the evaluation point of the document. Therefore, a document that matches the work of the search user is searched. The effect that can be achieved.
[0035]
Embodiment 3 FIG.
In the first and second embodiments, the case where the document is searched based on the access tendency during the working hours has been described. However, the document may be searched based on the access tendency outside the working hours. FIG. 12 shows evaluation points and the like when a document is searched based on an access tendency outside working hours.
[0036]
【The invention's effect】
As described above, according to the present invention, the creator and viewer of various documents stored in the server are compared with the search user to determine the weighting factors for the various documents, and stored in the server. For each of the various types of documents, the evaluation score of the document is calculated by multiplying the number of words that have been identified by the matching means by the weighting factor, and the document is presented in descending order of the evaluation score. Therefore, even if the user's preference or the like changes over time, the user can search for a desired document without performing a special setting operation or the like.
[Brief description of the drawings]
FIG. 1 is a configuration diagram showing a document search device according to a first embodiment of the present invention.
FIG. 2 is an explanatory diagram showing personal attribute information of each user registered in an LDAP server.
FIG. 3 is an explanatory diagram showing information on a viewer recorded in a browsed document recording unit.
FIG. 4 is an explanatory diagram showing information about a creator recorded in a created document recording unit.
FIG. 5 is an explanatory diagram showing words and phrases present in each paragraph.
FIG. 6 is an explanatory diagram showing collation points, evaluation points, and the like of a document.
FIG. 7 is an explanatory diagram showing collation points, evaluation points, and the like of a document.
FIG. 8 is a configuration diagram showing a document search device according to a second embodiment of the present invention.
FIG. 9 is an explanatory diagram showing the similarity between users.
FIG. 10 is an explanatory diagram showing collation points, evaluation points, and the like of a document.
FIG. 11 is an explanatory diagram showing similarity between users.
FIG. 12 is an explanatory diagram showing collation points, evaluation points, and the like of a document.
[Explanation of symbols]
1 user terminal, 2 LDAP server, 3 Web server, 4 Internet, 5 document search device, 11 information collection unit (keyword receiving unit, recording unit), 12 personal information recording unit, 13 browsed document recording unit (recording unit), 14 Created document recording section (recording means), 15 weighted coefficient determination section (coefficient determination means), 16 document characteristic analysis section (collation means), 17 document characteristic storage section (collation means), 18 collation section (collation means), 19 Document evaluation section (evaluation means), 20 search result presentation section (search result presentation means), 21 control section, 22 weighted coefficient determination section (coefficient determination means), 23 document evaluation section (evaluation means).

Claims (9)

サーバに保存されている各種のドキュメントの作成者と閲覧者を記録する記録手段と、検索利用者の利用者端末から送信されたキーワードを受信するキーワード受信手段と、上記記録手段の記録内容と上記検索利用者を比較して、各種のドキュメントに係る加重係数を決定する係数決定手段と、上記サーバに保存されている各種のドキュメントから語句を抽出して、その語句と上記キーワード受信手段により受信されたキーワードを照合する照合手段と、上記サーバに保存されている各種のドキュメント毎に、上記照合手段により一致が認定された語句の個数と上記係数決定手段により決定された加重係数を乗算してドキュメントの評価点を計算する評価手段と、上記評価手段により計算された評価点が高いドキュメントから順番に提示する検索結果提示手段とを備えたドキュメント検索装置。Recording means for recording the creators and viewers of various documents stored in the server; keyword receiving means for receiving a keyword transmitted from the user terminal of the search user; recording contents of the recording means; A coefficient determining means for comparing search users to determine weighting coefficients for various documents, and extracting words and phrases from various documents stored in the server and receiving the words and the keyword by the keyword receiving means. Matching means for matching the keywords, and for each document stored in the server, multiplying the number of words and phrases determined to be matched by the matching means by the weighting factor determined by the coefficient determining means. Evaluation means for calculating the evaluation points of the documents, and presenting the documents with the evaluation points calculated by the evaluation means in descending order. Document search device and a search result presentation means. 照合手段は、語句とキーワードが完全に一致していない場合でも、類似関係がある場合には一致を認定することを特徴とする請求項1記載のドキュメント検索装置。2. The document search apparatus according to claim 1, wherein the collating unit recognizes a match when there is a similarity even when the word and the keyword do not completely match. 評価手段は、ドキュメントに係る加重係数として、係数決定手段により作成係数と閲覧係数が決定された場合、照合手段により一致が認定された語句の個数と当該作成係数を乗算するとともに、その語句の個数と当該閲覧係数を乗算し、双方の乗算結果の合計値をドキュメントの評価点とすることを特徴とする請求項1または請求項2記載のドキュメント検索装置。The evaluation means, when the creation coefficient and the browsing coefficient are determined by the coefficient determination means as the weighting coefficient relating to the document, multiplies the number of words and phrases for which the matching is recognized by the matching means with the creation coefficient, and 3. The document search apparatus according to claim 1, wherein the document retrieval apparatus multiplies the result of the multiplication by the reference coefficient, and a total value of both multiplication results is used as an evaluation point of the document. 評価手段は、係数決定手段によりドキュメントに係る加重係数の他に、検索利用者と他の利用者の類似度に基づく作成類似係数が決定された場合、照合手段により一致が認定された語句の個数と当該加重係数を乗算するとともに、その語句の個数と当該作成類似係数を乗算し、双方の乗算結果の合計値をドキュメントの評価点とすることを特徴とする請求項1から請求項3のうちのいずれか1項記載のドキュメント検索装置。When the coefficient determining means determines a similarity coefficient created based on the similarity between the search user and another user in addition to the weighting coefficient relating to the document, the number of words recognized as matching by the matching means is determined. 4. The multiplication of the number of words and the created similarity coefficient, and the sum of both multiplication results is used as the evaluation point of the document. The document search device according to any one of claims 1 to 6. 係数決定手段は、検索利用者の個人属性情報と他の利用者の個人属性情報とを比較して、その検索利用者と他の利用者の類似度を把握し、その類似度に所定値を乗算して作成類似係数を求めることを特徴とする請求項4記載のドキュメント検索装置。The coefficient determining means compares the personal attribute information of the search user with the personal attribute information of other users, grasps the similarity between the search user and other users, and assigns a predetermined value to the similarity. 5. The document search apparatus according to claim 4, wherein the generated similarity coefficient is obtained by multiplying. 評価手段は、係数決定手段によりドキュメントに係る加重係数の他に、検索利用者と他の利用者の類似度に基づく閲覧類似係数が決定された場合、照合手段により一致が認定された語句の個数と当該加重係数を乗算するとともに、その語句の個数と当該閲覧類似係数を乗算し、双方の乗算結果の合計値をドキュメントの評価点とすることを特徴とする請求項1から請求項5のうちのいずれか1項記載のドキュメント検索装置。The evaluation means determines the number of words that have been identified by the matching means when the coefficient determining means determines a browsing similarity coefficient based on the similarity between the search user and another user in addition to the weighting coefficient for the document. 6. The multiplication of the number of words and the browsing similarity coefficient, and the sum of both multiplication results is used as an evaluation point of the document. The document search device according to any one of claims 1 to 6. 係数決定手段は、検索利用者の個人属性情報と他の利用者の個人属性情報とを比較して、その検索利用者と他の利用者の類似度を把握し、その類似度に所定値を乗算して閲覧類似係数を求めることを特徴とする請求項6記載のドキュメント検索装置。The coefficient determining means compares the personal attribute information of the search user with the personal attribute information of other users, grasps the similarity between the search user and other users, and assigns a predetermined value to the similarity. 7. The document search apparatus according to claim 6, wherein the browsing similarity coefficient is obtained by multiplying. 記録手段は、一定期間毎に作成者と閲覧者の記録内容を更新することを特徴とする請求項1から請求項7のうちのいずれか1項記載のドキュメント検索装置。The document search apparatus according to any one of claims 1 to 7, wherein the recording unit updates the recorded contents of the creator and the viewer at regular intervals. 記録手段は、新規のドキュメントがサーバに登録されたとき、あるいは、上記サーバに保存されているドキュメントが閲覧されたとき、作成者と閲覧者の記録内容を更新することを特徴とする請求項1から請求項7のうちのいずれか1項記載のドキュメント検索装置。2. The recording unit according to claim 1, wherein the recording unit updates the recorded contents of the creator and the viewer when a new document is registered in the server or when a document stored in the server is browsed. The document search device according to any one of claims 1 to 7.
JP2003024524A 2003-01-31 2003-01-31 Document search device Expired - Fee Related JP4309144B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003024524A JP4309144B2 (en) 2003-01-31 2003-01-31 Document search device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003024524A JP4309144B2 (en) 2003-01-31 2003-01-31 Document search device

Publications (2)

Publication Number Publication Date
JP2004234516A true JP2004234516A (en) 2004-08-19
JP4309144B2 JP4309144B2 (en) 2009-08-05

Family

ID=32953037

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003024524A Expired - Fee Related JP4309144B2 (en) 2003-01-31 2003-01-31 Document search device

Country Status (1)

Country Link
JP (1) JP4309144B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006134103A (en) * 2004-11-05 2006-05-25 Toshiba Corp Project management support device, project management support program and project management support method
JP2006164246A (en) * 2004-12-07 2006-06-22 Microsoft Corp Entity-specific tunable search
JP2011175525A (en) * 2010-02-25 2011-09-08 Nec Corp Retrieval device
JP2014199501A (en) * 2013-03-29 2014-10-23 キヤノン株式会社 Recommendation device, recommendation method, and program

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006134103A (en) * 2004-11-05 2006-05-25 Toshiba Corp Project management support device, project management support program and project management support method
JP2006164246A (en) * 2004-12-07 2006-06-22 Microsoft Corp Entity-specific tunable search
JP2011175525A (en) * 2010-02-25 2011-09-08 Nec Corp Retrieval device
JP2014199501A (en) * 2013-03-29 2014-10-23 キヤノン株式会社 Recommendation device, recommendation method, and program

Also Published As

Publication number Publication date
JP4309144B2 (en) 2009-08-05

Similar Documents

Publication Publication Date Title
US7483885B2 (en) System and method for query refinement to enable improved searching based on identifying and utilizing popular concepts related to users&#39; queries
US10409865B2 (en) Interface for a universal search
US8046370B2 (en) Retrieval of structured documents
US8234311B2 (en) Information processing device, importance calculation method, and program
US9846744B2 (en) Media discovery and playlist generation
CN103106282B (en) A kind of method of Webpage search and displaying
EP1661008A2 (en) Product placement engine and method
JP2002519751A (en) User profile driven information retrieval based on context
WO2008056651A1 (en) Information searching device
US9075898B1 (en) Generating and ranking incremental search suggestions for personal content
JP3501799B2 (en) Information search support device, computer program, and program storage medium
JP7399508B2 (en) Information providing device, information providing method, information providing program, and program storage medium
KR100695149B1 (en) Knowledge-based music search method and apparatus, and method and apparutus for managing music files of the knowledge-based music search apparatus
JP4900915B2 (en) Content delivery method and apparatus
JP2004515837A (en) How to compare search profiles
JP4309144B2 (en) Document search device
US7483877B2 (en) Dynamic comparison of search systems in a controlled environment
JP2004326537A (en) Information retrieving device for selected relevant information, information retrieval processing method, information retrieving program and its program recording medium
JP5397198B2 (en) Topic recommendation device, topic recommendation device method and program
KR100960709B1 (en) System and method for providing shoping key word using ontology in key word search system
JP2003208447A (en) Device, method and program for retrieving document, and medium recorded with program for retrieving document
WO2004114155A1 (en) Content recommending device, method, and program
JP2011043914A (en) File retrieval system
JP2006023961A (en) Computer program for presenting document-registering person, and device and method for presenting document-registering person
Selvan et al. ASE: Automatic search engine for dynamic information retrieval

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060119

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20071025

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20071025

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071025

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080813

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081224

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090428

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090507

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120515

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120515

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130515

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140515

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees