JP4992973B2 - スコア算出プログラム、スコア算出方法およびスコア算出装置 - Google Patents

スコア算出プログラム、スコア算出方法およびスコア算出装置 Download PDF

Info

Publication number
JP4992973B2
JP4992973B2 JP2009520230A JP2009520230A JP4992973B2 JP 4992973 B2 JP4992973 B2 JP 4992973B2 JP 2009520230 A JP2009520230 A JP 2009520230A JP 2009520230 A JP2009520230 A JP 2009520230A JP 4992973 B2 JP4992973 B2 JP 4992973B2
Authority
JP
Japan
Prior art keywords
importance
keyword
document set
score
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009520230A
Other languages
English (en)
Other versions
JPWO2009001428A1 (ja
Inventor
友哉 岩倉
青史 岡本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2009001428A1 publication Critical patent/JPWO2009001428A1/ja
Application granted granted Critical
Publication of JP4992973B2 publication Critical patent/JP4992973B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、スコア算出プログラム、スコア算出方法およびスコア算出装置に関する。
従来より、検索者から受け付けた検索キーワードに基づいて文書集合から検索された文書に対してランキングを付与することが行なわれている。例えば、インターネットの検索エンジンにおいては、検索者から受け付けた検索キーワードを含む文書ごとに重要度に応じた重み付けを行ない、検索された文書を重み付けから決定されるランキングの順に並べ替えた一覧を、当該検索者に表示している。
ここで、ランキングを付与する手法としては、検索キーワードの各文書内での重み付けを行なう手法や、検索された文書自身の重み付けを行なう手法が知られている。検索キーワードの各文書内での重み付けは、例えば、TF−IDF(Term Frequency―Inverted Document Frequency)法によって行なわれる。TF−IDF法とは、ある検索キーワードを含む文書中に当該検索キーワードが何回出現したかを表す値であるTFと、検索対象となる文書集合において、当該検索キーワードが出現した文書数を表すDFの逆数であるIDFとを掛け合わせた値(TF×IDF)を算出して、検索キーワードの各文書内での重み付けを行なうものである。すなわち、「TFの値が大きいほど、当該文書における当該検索キーワードの重要性が高い」とする考えと、「IDFの値が大きいほど、検索対象となる文書集合における当該検索キーワードの重要性が高い」とする考えとに基づいて重み付けを行うものである。
また、検索された文書自身の重み付けは、例えば、Google社のPageRank(登録商標)によって行なわれる。PageRank(登録商標)とは、検索キーワードを含む文書のうち、他の多くの文書からリンクされているものほど重要な文書であるとする考えに基づいて重み付けを行うものである。
また、特許文献1では、検索対象となる文書集合を、検索者それぞれの関心ありなしに基づいて必要文書と不要文書とに分類し、必要文書および不要文書それぞれに含まれるキーワードを抽出することによって、当該検索者にとって重要性の高いキーワードを検索キーワードとして決定することによって検索効率を高める技術が開示されている。
また、特許文献2では、検索者の利用したコンテンツに関連するキーワードを利用履歴として保持し、利用履歴において保持されたキーワードのうち、検索者が入力した検索キーワードと関連があるキーワードを拡張キーワードとして選出し、入力された検索キーワードに加えて選出された拡張キーワードを用いることで検索効率を高める技術が開示されている。
特開平10−320402号公報 特開2005−310094号公報
ところで、上記した従来の検索結果の文書に対してランキングを付与する技術は、そもそも検索エンジンを利用するすべての検索者を対象としているため、特定集団の嗜好に沿った文書検索の結果を提供できないという問題があった。また、TF−IDF法においては、「検索キーワードが繰り返し出現する長い文書に対しては、適切な評価(重み付け)を行なうことができない」、また、PageRank(登録商標)においては、「文書間におけるリンク構造が豊富でない場合には、適切な評価(重み付け)を行なうことができない」といった運用上の制約があるため、必ずしも適切な文書検索の結果を提供できない場合があるという問題点があった。
また、上記した従来の検索効率を高める技術は、検索者ごとの情報(例えば、文書ごとに関心があるかないかといった情報や、検索したコンテンツの情報を検索者ごとに対応付けた情報など)を収集したうえで詳細な解析を行なうので、容易に特定集団の嗜好に沿った文書検索の結果を提供できないという問題があった。
そこで、この発明は、上述した従来技術の課題を解決するためになされたものであり、容易に特定集団の嗜好に沿った文書検索の結果を提供することが可能となるスコア算出プログラム、スコア算出方法およびスコア算出装置を提供することを目的とする。
上述した課題を解決し、目的を達成するため、発明は、検索者から受け付けた検索キーワードに基づいて所定の文書集合から検索された文書それぞれに対してランキングを付与するために、当該所定の文書集合を構成する文書ごとに当該検索者が所属する集団である特定集団における重要性を示すスコアを算出するスコア算出方法をコンピュータに実行させるスコア算出プログラムであって、前記特定集団に所属する検索者が前記所定の文書集合を検索する際に用いた検索キーワードの履歴である第一履歴情報および/または当該特定集団に所属する検索者が別の文書集合である比較文書集合を検索する際に用いた検索キーワードの履歴である第二履歴情報を記憶する履歴記憶部を参照して、前記第一履歴情報および前記第二履歴情報に少なくともいずれかに出現するすべての検索キーワードである出現キーワードそれぞれに対して、前記第一履歴情報において登場するものほど、および/または、前記第二履歴情報において登場しないものほど重要度が高くなるように、前記特定集団における重要度を算出する重要度算出手順と、前記重要度算出手順によって算出された前記出現キーワードごとの重要度を用いて、前記所定の文書集合を構成する文書ごとに前記特定集団における前記スコアを算出するスコア算出手順と、をコンピュータに実行させることを特徴とする。
また、発明は、上記の発明において、前記重要度算出手順は、前記出現キーワードそれぞれが前記第一履歴情報に出現した回数と前記第二履歴情報に出現した回数との差分情報から、前記出現キーワードそれぞれに対して前記特定集団における重要度を算出することを特徴とする。
また、発明は、上記の発明において、前記重要度算出手順は、前記所定の文書集合において前記出現キーワードを含む文書数と、前記比較文書集合において当該出現キーワードを含む文書数との差分情報から、前記出現キーワードそれぞれに対して前記特定集団における重要度を算出することを特徴とする。
また、発明は、上記の発明において、前記スコア算出手順は、前記出現キーワードごとに前記所定の文書集合を検索し、前記出現キーワードを含む文書において、当該出現キーワードの周辺に存在する前記出現キーワードである周辺存在キーワードを収集し、前記重要度算出手順によって算出された当該出現キーワードの重要度と前記周辺存在キーワードの重要度から当該文書の前記特定集団におけるスコアを算出することを特徴とする。
また、発明は、検索者から受け付けた検索キーワードに基づいて所定の文書集合から検索された文書それぞれに対してランキングを付与するために、当該所定の文書集合を構成する文書ごとに当該検索者が所属する集団である特定集団における重要性を示すスコアを算出するスコア算出方法であって、コンピュータが、前記特定集団に所属する検索者が前記所定の文書集合を検索する際に用いた検索キーワードの履歴である第一履歴情報および/または当該特定集団に所属する検索者が別の文書集合である比較文書集合を検索する際に用いた検索キーワードの履歴である第二履歴情報を記憶する履歴記憶部を参照して、前記第一履歴情報および前記第二履歴情報に少なくともいずれかに出現するすべての検索キーワードである出現キーワードそれぞれに対して、前記第一履歴情報において登場するものほど、および/または、前記第二履歴情報において登場しないものほど重要度が高くなるように、前記特定集団における重要度を算出する重要度算出工程と、前記重要度算出工程によって算出された前記出現キーワードごとの重要度を用いて、前記所定の文書集合を構成する文書ごとに前記特定集団における前記スコアを算出するスコア算出工程と、を含んだことを特徴とする。
また、発明は、検索者から受け付けた検索キーワードに基づいて所定の文書集合から検索された文書それぞれに対してランキングを付与するために、当該所定の文書集合を構成する文書ごとに当該検索者が所属する集団である特定集団における重要性を示すスコアを算出するスコア算出装置であって、前記特定集団に所属する検索者が前記所定の文書集合を検索する際に用いた検索キーワードの履歴である第一履歴情報および/または当該特定集団に所属する検索者が別の文書集合である比較文書集合を検索する際に用いた検索キーワードの履歴である第二履歴情報を用いて、前記第一履歴情報および前記第二履歴情報に少なくともいずれかに出現するすべての検索キーワードである出現キーワードそれぞれに対して、前記第一履歴情報において登場するものほど、および/または、前記第二履歴情報において登場しないものほど重要度が高くなるように、前記特定集団における重要度を算出する重要度算出手段と、前記重要度算出手段によって算出された前記出現キーワードごとの重要度を用いて、前記所定の文書集合を構成する文書ごとに前記特定集団における前記スコアを算出するスコア算出手段と、を備えたことを特徴とする。
発明によれば、特定集団に所属する検索者が所定の文書集合を検索する際に用いた検索キーワードの履歴である第一履歴情報および/または当該特定集団に所属する検索者が別の文書集合である比較文書集合を検索する際に用いた検索キーワードの履歴である第二履歴情報を用いて、第一履歴情報および第二履歴情報に少なくともいずれかに出現するすべての検索キーワードである出現キーワードそれぞれに対して、第一履歴情報において登場するものほど、および/または、第二履歴情報において登場しないものほど重要度が高くなるように、特定集団における重要度を算出し、算出された出現キーワードごとの重要度を用いて、所定の文書集合を構成する文書ごとに特定集団におけるスコアを算出するので、対象となる所定の文書集合以外の文書集合を検索した履歴を利用することで、特定集団が当該所定の文書集合に対して特に要望する重要な検索キーワードを抽出して文書のスコア付けを行なうことができ、容易に特定集団の嗜好に沿った文書検索の結果を提供することが可能となる。すなわち、特定集団の嗜好に沿ったランキングに基づく検索結果の一覧を、当該特定集団に所属する検索者に表示することが可能となる。
また、発明によれば、出現キーワードそれぞれが第一履歴情報に出現した回数と第二履歴情報に出現した回数との差分情報から、出現キーワードそれぞれに対して特定集団における重要度を算出するので、容易に特定集団の嗜好に沿った文書検索の結果を提供することが可能となる。
また、発明によれば、所定の文書集合において出現キーワードを含む文書数と、比較文書集合において当該出現キーワードを含む文書数との差分情報から、出現キーワードそれぞれに対して特定集団における重要度を算出するので、容易に特定集団の嗜好に沿った文書検索の結果を提供することが可能となる。
また、発明によれば、出現キーワードごとに所定の文書集合を検索し、出現キーワードを含む文書において、当該出現キーワードの周辺に存在する出現キーワードである周辺存在キーワードを収集し、算出された当該出現キーワードの重要度と周辺存在キーワードの重要度から当該文書の特定集団におけるスコアを算出するので、受け付けた検索キーワードの重要度だけでなく、周辺存在キーワードの重要度も含めて当該検索キーワードを含む文書を評価することができ、容易に特定集団の嗜好に沿った文書検索の結果を提供することが可能となる。
図1は、実施例1におけるスコア算出装置の概要を説明するための図である。 図2は、実施例1におけるスコア算出装置の特徴を説明するための図である。 図3は、実施例1におけるスコア算出装置の構成を示すブロック図である。 図4は、実施例1における履歴記憶部を説明するための図である。 図5は、実施例1における重要度算出部を説明するための図である。 図6は、実施例1における重要度記憶部を説明するための図である。 図7は、実施例1におけるスコア算出部を説明するための図である。 図8は、実施例1におけるスコア記憶部を説明するための図である。 図9は、実施例1におけるスコア算出装置の出現回数取得処理を説明するための図である。 図10は、実施例1におけるスコア算出装置の重要度算出処理を説明するための図である。 図11は、実施例1におけるスコア算出装置のスコア算出処理を説明するための図である。 図12は、実施例1のスコア算出プログラムを実行するコンピュータを示す図である。
符号の説明
10 スコア算出装置
11 入力部
12 出力部
13 通信制御部
14 入出力制御I/F部
15 記憶部
15a 履歴記憶部
15b 重要度記憶部
15c 文書集合記憶部
15d スコア記憶部
16 処理部
16a 重要度算出部
16b スコア算出部
20 プロキシサーバ
以下に添付図面を参照して、この発明に係るスコア算出プログラム、スコア算出方法およびスコア算出装置の実施例を詳細に説明する。なお、以下では、この発明に係るスコア算出プログラムを含んで構成されるスコア算出装置を実施例として説明する。また、以下では、実施例1におけるスコア算出装置の概要および特徴、実施例1におけるスコア算出装置の構成および処理の手順、実施例1の効果を順に説明し、最後に、他の実施例について説明する。
[実施例1におけるスコア算出装置の概要および特徴]
まず最初に、図1および図2を用いて、実施例1におけるスコア算出装置の主たる特徴を具体的に説明する。図1は、実施例1におけるスコア算出装置の概要を説明するための図であり、図2は、実施例1におけるスコア算出装置の特徴を説明するための図である。
実施例1におけるスコア算出装置は、検索者から受け付けた検索キーワードに基づいて所定の文書集合から検索された文書それぞれに対してランキングを付与するために、当該所定の文書集合を構成する文書ごとに当該検索者が所属する集団である特定集団における重要性を示すスコアを算出することを概要とする。
例えば、図1に示すように、「ABC株式会社」に所属する社員(検索者)が、所定の文書集合である「第一文書集合」を保持する社内検索サービスに対して、検索キーワード「X」を入力した場合、社内検索サービスが保持する検索対象としての「第一文書集合」を構成する文書から、検索キーワード「X」を含む文書として、『「文書1」、「文書5」、「文書20」および「文書31」』が検索されたとする。その際、実施例1におけるスコア算出装置は、検索された『「文書1」、「文書5」、「文書20」および「文書31」』それぞれに対して、特定集団としての「ABC株式会社」の社員における重要性を示すスコアを算出することを概要とする。例えば、図1に示すように、「文書1」に対しては「スコア:5」を算出し、「文書5」に対しては「スコア:50」を算出し、「文書20」に対しては「スコア:2」を算出し、「文書31」に対しては「スコア:100」を算出する。これにより、検索キーワード「X」を含む文書において、「1位:文書31」、「2位:文書5」、「3位:文書1」、「4位:文書20」とランキングを付与することができる。
ここで、本発明は、容易に特定集団の嗜好に沿った文書検索の結果を提供することが可能となることに主たる特徴がある。この主たる特徴について簡単に説明すると、実施例1におけるスコア算出装置は、特定集団に所属する検索者が所定の文書集合を検索する際に用いた検索キーワードの履歴である第一履歴情報および当該特定集団に所属する検索者が別の文書集合である比較文書集合を検索する際に用いた検索キーワードの履歴である第二履歴情報を用いて、第一履歴情報および第二履歴情報に少なくともいずれかに出現するすべての検索キーワードである出現キーワードそれぞれに対して、第一履歴情報において登場するものほど、および、第二履歴情報において登場しないものほど重要度が高くなるように、特定集団における重要度を算出する。具体的には、実施例1におけるスコア算出装置は、出現キーワードそれぞれが第一履歴情報に出現した回数と第二履歴情報に出現した回数との差分情報から、出現キーワードそれぞれに対して特定集団における重要度を算出する。
例えば、図2の(A)に示すように、実施例1におけるスコア算出装置は、「特定集団:ABC株式会社」に所属する社員が、社内検索サービスに対して行なった検索の履歴と、社外検索サービスに対して行なった検索の履歴とを、一定期間ごとに(例えば、一ヵ月ごとに)、プロキシサーバから取得し、社内検索サービスが保持する「第一文書集合」を検索対象とした検索キーワードの履歴を第一履歴情報として抽出し、社外検索サービスが保持する「比較文書集合」としての「第二文書集合」を検索対象とした検索キーワードの履歴を第二履歴情報として抽出する。この過程において、第一履歴情報および第二履歴情報に少なくともいずれかに出現するすべての検索キーワードである出現キーワードにおいて、出現キーワードそれぞれが第一履歴情報に出現した回数と第二履歴情報に出現した回数との差分情報から、出現キーワードそれぞれに対して特定集団における重要度を算出する。
例えば、実施例1におけるスコア算出装置は、図2の(A)に示すように、第一履歴情報において「出現キーワード:Wi」が「第一文書集合」を検索するために入力された回数が「CA(Wi)」であり、第二履歴情報において「出現キーワード:Wi」が「第二文書集合」を検索するために入力された回数が「CB(Wi)」であった場合、「CA(Wi)」から「CB(Wi)」を差し引いた値である「CA(Wi)―CB(Wi)」を「出現キーワード:Wi」の重要度として算出する。これを、出現キーワード「W1〜Wn」すべてに対して行なう。
そして、実施例1におけるスコア算出装置は、算出された出現キーワードごとの重要度を用いて、所定の文書集合(本実施例では、「第一文書集合」)を構成する文書ごとに「特定集団:ABC株式会社」におけるスコアを算出する。具体的には、実施例1におけるスコア算出装置は、出現キーワードごとに「第一文書集合」を構成する文書それぞれを検索し、当該出現キーワードを含む文書において、当該出現キーワードの周辺に存在する出現キーワードである周辺存在キーワードを収集し、当該出現キーワードの重要度と周辺存在キーワードの重要度から当該文書の前記特定集団におけるスコアを算出する。
例えば、実施例1におけるスコア算出装置は、図2の(B)に示すように、「第一文書集合」を構成する「文書5」が「出現キーワード:W1」を含む場合、「W1」が出現した周辺(例えば、前後100文字以内)に存在する出現キーワードを周辺存在キーワードとして収集する。ここで、周辺出現キーワードとして、「W1」の前後100文字以内に、「W5」と「W2」とが収集されたとすると、実施例1におけるスコア算出装置は、図2の(B)に示すように、「出現キーワード:W1」と収集された「周辺存在キーワード:W5およびW2」との重要度を加算した値(CA(W1)−CB(W1))+(CA(W5)−CB(W5))+(CA(W2)−CB(W2))を、「出現キーワード:W1」における「文書5」のスコアとして算出する。このように、「第一文書集合」を構成する文書すべてに対して、出現キーワード「W1〜Wn」それぞれにおけるスコアを算出する。あるいは、「CA(W1)−CB(W1)」と「CA(W5)−CB(W5)」と「CA(W2)−CB(W2)」との平均値を、「出現キーワード:W1」における「文書5」のスコアとして算出する。
なお、本実施例では、第一履歴情報と第二履歴情報との差分情報から出現キーワードの重要度を算出する場合について説明したが、本発明はこれに限定されるものではなく、例えば、第一履歴情報において「出現キーワード:Wi」が「第一文書集合」を検索するために入力された回数を「出現キーワード:Wi」の重要度として採用したり、第二履歴情報において「出現キーワード:Wi」が「第二文書集合」を検索するために入力された回数の逆数を「出現キーワード:Wi」の重要度として採用したりする場合であってもよい。
さらに、第一履歴情報において「第一文書集合」を検索するために入力された回数の多いものから「出現キーワード:Wi」の順位を決定し、決定された順位の逆数を「出現キーワード:Wi」の重要度として採用したり、第二履歴情報において「第二文書集合」を検索するために入力された回数の多いものから「出現キーワード:Wi」の順位を決定し、決定された順位を「出現キーワード:Wi」の重要度として採用したりする場合であってもよい。
さらに、第一履歴情報において「出現キーワード:Wi」が「第一文書集合」を検索するために入力された回数と、第一履歴情報において「第一文書集合」が検索された総回数とから、「出現キーワード:Wi」の第一履歴情報における出現頻度を算出して重要度として採用したり、第二履歴情報において「出現キーワード:Wi」が「第二文書集合」を検索するために入力された回数と、第二履歴情報において「第二文書集合」が検索された総回数とから、「出現キーワード:Wi」の第二履歴情報における出現頻度を算出し、当該出現頻度の逆数を重要度として採用したりする場合であってもよい。すなわち、どちらか一方のみの履歴情報を用いて出現キーワードの重要度を算出する場合であってもよい。
また、本実施例では、出現回数を単純に差し引いた値を出現キーワードの重要度とする場合について説明したが、本発明はこれに限定されるものではなく、単純に頻度の差をとる以外の計算方法および、「教師あり機械学習手法」を用いて差分情報を解析することで出現キーワードの重要度を算出する場合であってもよい。なお、これらについては、後に詳述する。
このようなことから、実施例1におけるスコア算出装置は、対象となる所定の文書集合(第一文書集合)以外の文書集合(比較文書集合:第二文書集合)を検索した履歴を利用することで、特定集団(ABC株式会社)が第一文書集合に対して特に要望する重要な検索キーワードを抽出して文書のスコア付けを行なうことができ、容易に特定集団の嗜好に沿った文書検索の結果を提供することが可能となる。
[実施例1におけるスコア算出装置の構成]
次に、図3〜8を用いて、実施例1におけるスコア算出装置を説明する。図3は、実施例1におけるスコア算出装置の構成を示すブロック図であり、図4は、実施例1における履歴記憶部を説明するための図であり、図5は、実施例1における重要度算出部を説明するための図であり、図6は、実施例1における重要度記憶部を説明するための図であり、図7は、実施例1におけるスコア算出部を説明するための図であり、図8は、実施例1におけるスコア記憶部を説明するための図である。
図3に示すように、実施例1におけるスコア算出装置10は、入力部11と、出力部12と、通信制御部13と、入出力制御I/F部14と、記憶部15と、処理部16とから構成され、さらに、プロキシサーバ20と接続される。
プロキシサーバ20は、例えば、「ABC株式会社」のネットワークシステムに設置され、「ABC株式会社」の社員が所有する端末装置から社内検索サービスや社外検索サービスといった外部への要求や、社内検索サービスや社外検索サービスといった外部からの応答を仲介するとともに、端末装置から外部へアクセスした日時や、アクセスを行なった検索サービスのURLや、検索サービスに対して送信した検索キーワードなどをプロキシログ(履歴)として保持する。
入力部11は、各種の情報を入力し、キーボードやマウスなどを備えて構成され、特に本発明に密接に関連するものとしては、スコア算出装置10の管理者から、プロキシサーバ20から履歴を取得するタイミング(例えば、一ヶ月ごとなど)や、後述する重要度算出部16aが実行する重要度算出方法の設定や、後述するスコア算出部16bが収集する周辺存在キーワードの探索範囲などを、キーボードから受け付けて入力する。
出力部12は、各種の情報を出力し、モニタやスピーカを備えて構成され、特に本発明に密接に関連するものとしては、後述するスコア算出部16bが算出して後述するスコア記憶部15dに格納した文書の出現キーワードごとのスコアを、スコア算出装置10の管理者に対して、モニタの画面に表示したりする。
通信制御部13は、他の装置との通信を制御し、特に本発明に密接に関連するものとしては、プロキシサーバ20が記憶するプロキシログ(履歴)を後述する履歴記憶部15aに転送したり、後述するスコア算出部16bによって算出されたスコアを、例えば、社内検索サービスを運用するサーバに転送したりする。
入出力制御I/F部14は、入力部11、出力部12および通信制御部13と、記憶部15および処理部16との間におけるデータ転送を制御する。
記憶部15は、処理部16による各種処理に用いるデータと、処理部16による各種処理結果を記憶し、特に本発明に密接に関連するものとしては、図3に示すように、履歴記憶部15aと、重要度記憶部15bと、文書集合記憶部15cと、スコア記憶部15dとを備える。
履歴記憶部15aは、通信制御部13を介して転送されたプロキシログ(履歴)を記憶する。具体的には、一定期間ごとにプロキシサーバ20に格納された新たな履歴を、通信制御部13を介して受信し、当該新たな履歴を追加して記憶する。例えば、図4に示すように、「検索キーワード」と、「検索対象」となった文書集合(社内検索サービスならば、第一文書集合であり、社外検索サービスならば、第二文書集合)と、検索要求が実行された「時間」とを対応付けて記憶する。例えば、「ABC株式会社」に所属する社員(検索者)が、「時間:t1」に「検索対象:第一文書集合」に対して「検索キーワード:W1」を含む文書を検索する要求を行なったとする履歴を記憶し、「時間:t5」に「検索対象:第二文書集合」に対して「検索キーワード:W1」を含む文書を検索する要求を行なったとする履歴を記憶する。なお、図4においては、社内検索サービスと社外検索サービスとに対して実行された履歴のみを示しているが、実際には、他のWebサーバに対して実行された要求履歴も記憶されている。また、図4においては、検索対象となった文書集合の名称がそれぞれ記憶されているが、社内検索サービスのURLと社外検索サービスのURLとがそれぞれ記憶されていてもよい。
文書集合記憶部15cは、スコアの算出対象となるすべての文書を記憶する。例えば、本実施例では、社内検索サービスにおいて保持されている「第一文書集合」を構成する文書すべてを記憶する。
重要度記憶部15bは、後述する重要度算出部16aが算出した出現キーワードごとの重要度を記憶し、スコア記憶部15dは、後述するスコア算出部16bが算出した出現キーワードごとの文書のスコアを記憶する。なお、これらについては後に詳述する。
処理部16は、OS(Operating System)などの制御プログラム、各種の処理手順などを規定したプログラムおよび所要データを格納するための内部メモリを有し、これらによって種々の処理を実行し、特に本発明に密接に関連するものとしては、図3に示すように、重要度算出部16aと、スコア算出部16bとを備える。ここで、重要度算出部16aは、請求の範囲に記載の「重要度算出手順」に対応し、スコア算出部16bは、同じく「スコア算出手順」に対応する。
重要度算出部16aは、履歴記憶部15aが記憶するプロキシログを参照して、「特定集団:ABC株式会社」に所属する社員が、検索対象として社内検索サービスが保持する「第一文書集合」に対して行なった検索キーワードの履歴(第一履歴情報)と、「特定集団:ABC株式会社」に所属する社員が、検索対象として社外検索サービスが保持する「第二文書集合:比較文書集合」に対して行なった検索キーワードの履歴(第二履歴情報)を抽出する。そして、重要度算出部16aは、第一履歴情報および第二履歴情報に少なくともいずれかに出現するすべての検索キーワードである出現キーワードそれぞれが、第一履歴情報に出現した回数と第二履歴情報に出現した回数を算出する。
例えば、重要度算出部16aは、図5の(A)に示すように、履歴記憶部15aが記憶するプロキシログを解析することで、「第一文書集合」に対して行なった検索キーワードおよび「第二文書集合」に対して行なった検索キーワードに少なくともいずれかに出現する出現キーワードが「W1〜Wn」の「n種類」あり、「出現キーワード:Wi」が「第一文書集合」を検索するために入力された回数が「CA(Wi)」であり、第二履歴情報において「出現キーワード:Wi」が「第二文書集合」を検索するために入力された回数が「CB(Wi)」であると算出する。
そして、重要度算出部16aは、出現回数の差分情報から、出現キーワードそれぞれに対して特定集団における重要度を算出し、その結果を、重要度記憶部15bに格納する。例えば、図5の(B)に示すように、「CA(Wi)」から「CB(Wi)」を差し引いた値である「CA(Wi)―CB(Wi)」を「出現キーワード:Wi」の重要度として算出し、その結果を、重要度記憶部15bに格納する(図6参照)。
あるいは、重要度算出部16aは、図5の(C)〜(E)に示すように、単純に差を取る以外の差分計算方法、「教師あり機械学習手法」を用いて出現回数の差分情報を解析することで出現キーワードの重要度を算出する。以下、これらについて詳述する。
例えば、重要度算出部16aは、図5の(C)に示すように、「出現キーワード:Wi」が「第一文書集合」において検索された回数「CA(Wi)」と「第二文書集合」において検索された回数「CB(Wi)」との和(合計回数)「CA(Wi)+CB(Wi)」を算出し、さらに、『「出現キーワード:Wi」が「第一文書集合」において検索された回数「CA(Wi)」が合計回数に占める割合』である「PA(wi)」と、『「出現キーワード:Wi」が「第二文書集合」において検索された回数「CB(Wi)」が合計回数に占める割合』である「PB(wi)」とを算出する。この、「PA(wi)」と「PB(wi)」とを、図5の(C)に代入することにより、「出現キーワード:Wi」の重要度を算出する。ただし、図5の(C)の計算結果は、「0から1」に収まるものであり、「PA(wi)=PB(wi)」のときに値が「1」、「PA(wi)=1」あるいは「PB(wi)=1」のときに値が「0」を取るものである。そこで、重要度においては、「CA(Wi)>CB(Wi)」の場合は、図5の(C)における計算結果を、そのまま「出現キーワード:Wi」の重要度とし、「CB(Wi)>CA(Wi)」の場合は、図5の(C)における計算結果に「−1」をかけた値を、「出現キーワード:Wi」の重要度とするという補正を行って用いる。
また、重要度算出部16aは、図5の(D)に示すように、出現キーワードである「W1〜Wn」それぞれが「第一文書集合」において検索された検索総数(第一検索総数)と、出現キーワードである「W1〜Wn」それぞれが「第二文書集合」において検索された検索総数(第二検索総数)を算出し、「第一文書集合」において検索された回数である「CA(Wi)」から、「第二文書集合」において検索された回数「CB(Wi)」を第一検索総数と第二検索総数によって正規化した値を差し引くことによって、「出現キーワード:Wi」の重要度を算出する。
また、重要度算出部16aは、図5の(E)に示すように、「CA(Wi)」を第一検索総数によって正規化した値から、「CB(Wi)」を第二検索総数によって正規化した値を差し引くことにより、「出現キーワード:Wi」の重要度を算出する。
あるいは、重要度算出部16aが、図5の(B)〜(E)に示した方法により算出した値に、対応する出現キーワードの「第一文書集合」におけるIDF(Inverted Document Frequency)を掛け合わせた値を当該出現キーワードの重要度として算出する場合であってもよい。
出現回数の差をとる以外の方法として、教師あり学習手法を用いることも考えられる。教師あり学習手法を適用する場合には、第一履歴情報に出現する検索キーワードを正例、第二履歴情報に出現する検索キーワードを負例として与えることで、各検索キーワードの重要度を求める。
スコア算出部16bは、算出された出現キーワードごとの重要度を用いて、文書集合記憶部15cが記憶する第一文書集合を構成する文書ごとに「特定集団:ABC株式会社」におけるスコアを算出し、その結果をスコア記憶部15dに格納する。具体的には、スコア算出部16bは、出現キーワードごとに「第一文書集合」を構成する文書それぞれを検索し、当該出現キーワードを含む文書において、当該出現キーワードの周辺に存在する出現キーワードである周辺存在キーワードを収集し、当該出現キーワードの重要度と周辺存在キーワードの重要度から当該文書の前記特定集団におけるスコアを算出する。
例えば、スコア算出部16bは、図7の(A)に示すように、「第一文書集合」を構成する「文書5」が「出現キーワード:W1」を含む場合、「W1」が出現した周辺(例えば、前後100文字以内)に存在する出現キーワードを周辺存在キーワードとして収集する。ここで、周辺出現キーワードとして、「W1」の前後100文字以内に、「W5」と「W2」とが収集されたとすると、スコア算出部16bは、図7の(A)に示すように、「出現キーワード:W1」と収集された「周辺存在キーワード:W5およびW2」との重要度(例えば、図5の(B)に示す数式によって、重要度算出部16aが算出した重要度)を加算した値(CA(W1)−CB(W1))+(CA(W5)−CB(W5))+(CA(W2)−CB(W2))を、「出現キーワード:W1」における「文書5」のスコアとして算出する。
また、スコア算出部16bは、図7の(B)に示すように、「第一文書集合」を構成する「文書5」が「出現キーワード:W2」を含み、かつ、「W2」が出現した周辺に存在する周辺存在キーワードとして「W1」と「W9」とが収集された場合、「出現キーワード:W2」と収集された「周辺存在キーワード:W1およびW9」との重要度を加算した値(CA(W2)−CB(W2))+(CA(W1)−CB(W1))+(CA(W9)−CB(W9))を、「出現キーワード:W2」における「文書5」のスコアとして算出する。そして、スコア算出部16bは、「第一文書集合」を構成する文書すべてに対して、出現キーワード「W1〜Wn」それぞれにおけるスコアを算出する。
スコア記憶部15dは、スコア算出部16bが算出した「第一文書集合」を構成する文書ごとの、出現キーワード「W1〜Wn」それぞれにおけるスコアを記憶する。例えば、図8に示すように、「文書1、出現キーワード:W1」の「スコア」は「2」であると記憶し、「文書2、出現キーワード:W3」の「スコア」は「50」とである記憶する。ここで、スコア記憶部15dに記憶された内容は、通信制御部13を介して、例えば、社内検索サービスを運営するサーバに転送され、社内検索サービスにおいては、「特定集団:ABC株式会社」に所属する社員から受け付けた「検索キーワード」が「出現キーワード」に含まれる場合は、当該「検索キーワード」に対応するスコアを参照して「第一文書集合」を構成する文書にランキングを付与し、ランキング順に並べた一覧を当該社員に対して表示する。
なお、本実施例では、履歴記憶部15aが、プロキシサーバ20に格納された履歴を追加更新して記憶するように設定する場合について説明したが、本発明はこれに限定されるものではなく、上記した一定期間ごとのタイミングにおいて、過去の所定の期間における履歴のみを記憶するように設定する場合であってもよい。例えば、「一ヶ月ごとのタイミングで新規履歴を記憶し、さらに、常に過去6ヶ月間の履歴のみを記憶する」とする設定を行なうことにより、「2007年の4月1日」において、「2007年の3月1日から3月31日」の新規履歴を記憶する際に、すでに記憶されていた「2006年の9月1日から2007年の2月28日」の履歴のうち「2006年の9月1日から9月30日」の履歴は削除して、「2006年の10月1日から2007年の3月31日」の過去半年間の履歴のみを更新して記憶する場合であってもよい。
また、本実施例では、スコア算出装置10が独立して設置される場合について説明したが、本発明はこれに限定されるものではなく、例えば、「ABC株式会社」におけるネットワークシステムを構成するサーバに含まれて設置される場合であってもよい。
[実施例1におけるスコア算出装置による処理の手順]
次に、図9〜11を用いて、実施例1におけるスコア算出装置10による処理を説明する。図9は、実施例1におけるスコア算出装置の出現回数取得処理を説明するための図であり、図10は、実施例1におけるスコア算出装置の重要度算出処理を説明するための図であり、図11は、実施例1におけるスコア算出装置のスコア算出処理を説明するための図である。
[実施例1におけるスコア算出装置の出現回数取得処理の手順]
図9に示すように、まず、実施例1におけるスコア算出装置10は、設定された所定の期間(例えば、一ヶ月)が経過すると(ステップS901肯定)、通信制御部13を介して、プロキシサーバ20から新規履歴(Pj)を取得する(ステップS902)。例えば、スコア算出装置10は、「2007年の4月1日」において、「2007年の3月1日から3月31日」の間にプロキシサーバ20に格納された新規履歴(m個の履歴)を取得して、履歴記憶部15aに追加更新して格納する。
そして、重要度算出部16aは、「P1〜Pm」の新規履歴(m個の履歴)の解析を、P1から順に行なって、「第一文書集合」における出現回数と、「第二文書集合」における出現回数とを出現キーワードごとに取得する。すなわち、重要度算出部16aは、「j=1」と初期設定を行い(ステップS903)、履歴「P1」が「第一文書集合」または「第二文書集合」に対する検索履歴であるか否かを判定する(ステップS904)。
履歴「P1」が「第一文書集合」または「第二文書集合」に対する検索履歴である場合は(ステップS904肯定)、重要度算出部16aは、検索履歴に含まれる検索キーワードの抽出を行い(ステップS905)、抽出された検索キーワードが重要度記憶部15bに格納されている出現キーワードであるか否かを判定する(ステップS906)。
ここで、抽出された検索キーワードが重要度記憶部15bに格納されている出現キーワードである場合は(ステップS906肯定)、重要度算出部16aは、抽出された検索キーワードの出現回数をインクリメントする(ステップS907)。すなわち、重要度算出部16aは、重要度記憶部15bにおいて、既に格納されている当該検索キーワードの『「第一文書集合」もしくは「第二文書集合」の出現回数』をインクリメントする。
これに反して、抽出された検索キーワードが重要度記憶部15bに格納されている出現キーワードでない場合は(ステップS906否定)、重要度算出部16aは、抽出された検索キーワードを新たな出現キーワードとし、さらに、当該検索キーワードの検索対象である文書集合における出現回数を「1」としたうえで、重要度記憶部15bに新たに格納する(ステップS908)。
ここで、重要度算出部16aは、履歴「P1」が「第一文書集合」または「第二文書集合」に対する検索履歴でない場合は(ステップS904否定)、もしくは、ステップS907やステップS908が終了した後は、「j=j+1」と新たに設定し(ステップS909)、さらに、新たに設定された「j」が「m+1」と一致するか否かを判定する(ステップS910)。ここで、「j」が「m+1」と一致する場合(ステップS910肯定)、重要度算出部16aは、新規履歴(m個の新規履歴)の解析がすべて終了したと判断して、処理を終了する。
これに反して、「j」が「m」以下の場合(ステップS910否定)、重要度算出部16aは、すべての新規履歴を解析していないと判断して、ステップS904に戻って、次の新規履歴(P2)の解析を開始する。このようにして、「m個」の新規履歴を解析して、「出現キーワードの抽出」、「出現キーワードごとの「第一文書集合」における出現回数の取得」および「出現キーワードごとの「第二文書集合」における出現回数の取得」を行なう。
[実施例1におけるスコア算出装置の重要度算出処理の手順]
図10に示すように、まず、実施例1におけるスコア算出装置10は、履歴情報から出現回数が取得されると(ステップS1001肯定)、重要度算出部16aは、引き続き、出現キーワードごとに重要度を算出し(ステップS1002)、処理を終了する。例えば、重要度算出部16aは、図5の(B)に示す数式に従って、出現キーワードごとの重要度を算出する。
[実施例1におけるスコア算出装置のスコア算出処理の手順]
図11に示すように、まず、実施例1におけるスコア算出装置10は、重要度算出部16aによって出現キーワードすべてに対して重要度が算出されると(ステップS1101肯定)、スコア算出部16bは、文書集合記憶部15cから「第一文書集合」に含まれる文書「DL、(L=1〜k、k個)」と、重要度記憶部15bから出現キーワード「Wi、(i=1〜n、n個)」を読み込む(ステップS1102)。
そして、スコア算出部16bは、初期値として「L=1、i=1」を設定し(ステップS1103)、「出現キーワード:W1」における「文書:D1」のスコア算出を開始する。具体的には、まず、「文書:D1」に「出現キーワード:W1」が含まれるか否かを判定する(ステップS1104)。
「文書:D1」に「出現キーワード:W1」が含まれる場合は(ステップS1104肯定)、スコア算出部16bは、「W1」の周辺に存在する周辺存在キーワードを収集し(ステップS1105)、重要度記憶部15bが記憶する「W1」の重要度と周辺存在キーワードの重要度とから「出現キーワード:W1」における「文書:D1」のスコアを算出する(ステップS1106)。
これに反して、「文書:D1」に「出現キーワード:W1」が含まれない場合は(ステップS1104否定)、スコア算出部16bは、「i=i+1」と新たに設定し(ステップS1107)、さらに、新たに設定された「i」が「n+1」と一致するか否かを判定する(S1108)。
ここで、「i」が「n」以下の場合(ステップS1108否定)、スコア算出部16bは、すべての出現キーワードそれぞれに対して「文書:D1」のスコアを算出していないと判断し、ステップS1104に戻って、「出現キーワード:W2」における「文書:D1」のスコア算出を開始する。すなわち、この操作を、「出現キーワード:Wn」における「文書:D1」のスコア算出が終了するまで続ける。
これに反して、「i」が「n+1」と一致する場合(ステップS1108肯定)、スコア算出部16bは、出現キーワードそれぞれに対して「文書:D1」のスコアを算出したと判断し、「L=L+1」と新たに設定し(ステップS1109)、さらに、新たに設定された「L」が「k+1」と一致するか否かを判定する(ステップS1110)。
ここで、「L」が「k」以下の場合(ステップS1110否定)、スコア算出部16bは、「i=1」に再設定し(ステップS1111)、引き続き、「出現キーワード:W1」における「文書:D2」のスコア算出を開始する。
これに反して、「L」が「k」より大きい場合(ステップS1110肯定)、すべての出現キーワードのすべての文書におけるスコアを算出したと判断して、処理を終了する。
[実施例1の効果]
上記したように、実施例1によれば、「特定集団:ABC株式会社」に所属する社員(検索者)が社内検索サービスの保持する「第一文書集合」を検索する際に用いた検索キーワードの履歴である第一履歴情報、および、「特定集団:ABC株式会社」に所属する社員(検索者)が社外検索サービスの保持する「第二文書集合;比較文書集合」を検索する際に用いた検索キーワードの履歴である第二履歴情報を用いて、第一履歴情報および第二履歴情報に少なくともいずれかに出現するすべての検索キーワードである出現キーワードそれぞれに対して、第一履歴情報において登場するものほど、および、第二履歴情報において登場しないものほど重要度が高くなるように、「特定集団:ABC株式会社」における重要度を算出し、算出された出現キーワードごとの重要度を用いて、「第一文書集合」を構成する文書ごとに「特定集団:ABC株式会社」におけるスコアを算出するので、対象となる「第一文書集合」以外の文書集合(「第二文書集合;比較文書集合」)を検索した履歴を利用することで、「特定集団:ABC株式会社」が「第一文書集合」に対して特に要望する重要な検索キーワードを抽出して文書のスコア付けを行なうことができ、容易に「特定集団:ABC株式会社」の嗜好に沿った文書検索の結果を提供することが可能となる。すなわち、「特定集団:ABC株式会社」の嗜好に沿ったランキングに基づく検索結果の一覧を、当該特定集団に所属する検索者に表示することが可能となる。
また、実施例1によれば、出現キーワードそれぞれが第一履歴情報に出現した回数と第二履歴情報に出現した回数との差分情報から、出現キーワードそれぞれに対して「特定集団:ABC株式会社」における重要度を算出したり、「教師あり機械学習手法」を用いて出現回数の差分情報を解析することで出現キーワードの重要度を算出することができ、容易に「特定集団:ABC株式会社」の嗜好に沿った文書検索の結果を提供することが可能となる。
また、実施例1によれば、出現キーワードごとに「第一文書集合」を検索し、出現キーワードを含む文書において、当該出現キーワードの周辺に存在する周辺存在キーワードを収集し、算出された当該出現キーワードの重要度と周辺存在キーワードの重要度から当該文書の「特定集団:ABC株式会社」におけるスコアを算出するので、受け付けた検索キーワードの重要度だけでなく、周辺存在キーワードの重要度も含めて当該検索キーワードを含む文書を評価することができ、容易に特定集団の嗜好に沿った文書検索の結果を提供することが可能となる。すなわち、「ある検索キーワードが出現した周辺に存在するキーワードが重要なキーワードである文書」に対して、より正確にスコアを算出してランキングを付与することができる。
さて、これまで実施例1におけるスコア算出装置について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてもよいものである。そこで、以下では、実施例2におけるスコア算出装置として、種々の異なる実施例を(1)〜(3)に区分けして説明する。
(1)重要度算出部
上記の実施例1においては、出現回数の差分情報に基づいて、重要度算出部16aが出現キーワードごとの重要度を算出する場合について説明したが、本発明はこれに限定されるものではなく、「第一文書集合」において出現キーワードを含む文書数と、「第二文書集合:比較文書集合」において当該出現キーワードを含む文書数との差分情報に基づいて、重要度算出部16aが、出現キーワードそれぞれに対して「特定集団:ABC株式会社」における重要度を算出する場合であってもよい。例えば、図3に示す文書集合記憶部15cが、「第一文書集合」を構成する文書に加えて、「第二文書集合」を構成する文書も記憶しており、重要度算出部16aは、「第一文書集合」を構成する文書において「出現キーワード:Wi」を含む文書の数を「CA(Wi)」として算出し、「第二文書集合」を構成する文書において「出現キーワード:Wi」を含む文書の数を「CB(Wi)」として算出し、この「CA(Wi)」と「CB(Wi)」とを、例えば、図5の(B)に示す数式に対して用いることで、「出現キーワード:Wi」の重要度を算出する場合であってもよい。
また、検索履歴から抽出した出現キーワードを用いるのではなく、例えば、「第一文書集合」を構成する文書および「第二文書集合」を構成する文書すべてに対して、自然言語処理の手法である形態素解析を用いて「出現キーワード」を抽出し、抽出された「出現キーワード」ごとに、「第一文書集合」において「出現キーワード」を含む文書数と、「第一文書集合」において「出現キーワード」を含む文書数とを算出し、これを用いて重要度を算出する場合であってもよい。
このようなことから、「第一文書集合」内と「第二文書集合」内とのキーワードの差分情報を解析することで出現キーワードの重要度を算出することができ、容易に特定集団の嗜好に沿った文書検索の結果を提供することが可能となる。
(2)システム構成等
上記の実施例1において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動でおこなうこともでき(例えば、一定期間ごとにスコアを算出するのではなく、スコア算出装置10の管理者がスコア算出要求を手動で入力して指示するなど)、あるいは、手動的におこなうものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文章中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に更新することができる。例えば、図11に示すスコア算出処理において、文書単位で、すべての出現キーワードにおけるスコアを算出するのではなく、出現キーワード単位で、すべての文書におけるスコアを算出してもよい。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各処理部および各記憶部の分散・統合の具体的形態(例えば、図3の形態など)は図示のものに限られず、例えば、重要度算出部16aとスコア算出部16bとを統合するなど、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
(3)スコア算出プログラム
ところで上記の実施例1では、ハードウェアロジックによって各種の処理を実現する場合を説明したが、本発明はこれに限定されるものではなく、あらかじめ用意されたプログラムをコンピュータで実行するようにしてもよい。そこで以下では、図12を用いて、上記の実施例1に示したスコア算出装置10と同様の機能を有するスコア算出プログラムを実行するコンピュータの一例を説明する。図12は、実施例1のスコア算出プログラムを実行するコンピュータを示す図である。
図12に示すように、情報処理装置としてのコンピュータ120は、キーボード121、ディスプレイ122、CPU123、ROM124、HDD125、RAM126および通信制御部13をバス127などで接続して構成され、さらにプロキシサーバ20に接続される。
ROM124には、上記の実施例1に示したスコア算出装置10と同様の機能を発揮するスコア算出プログラム、つまり、図12に示すように、重要度算出プログラム124a、スコア算出プログラム124bが予め記憶されている。なお、これらのプログラム124aおよび124bについては、図3に示したスコア算出装置10の各構成要素と同様、適宜統合または分散してもよい。
そして、CPU123が、これらのプログラム124aおよび124bをROM124から読みだして実行することで、図12に示すように、各プログラム124aおよび124bは、重要度算出プロセス123a、スコア算出プロセス123bとして機能するようになる。なお、各プロセス123aおよび123bは、図3に示した、重要度算出部16aおよびスコア算出部16bにそれぞれ対応する。
また、HDD125には、図12に示すように、履歴データ125aと、重要度データ125bと、文書集合データ125cと、スコアデータ125dとが設けられる。この履歴データ125aは、図3に用いた履歴記憶部15aに対応し、重要度データ125bは重要度記憶部15bに対応し、文書集合データ125cは文書集合記憶部15cに対応し、スコアデータ125dはスコア記憶部15dに対応する。そしてCPU123は、履歴データ126aを履歴データ125aに対して登録し、重要度データ126bを重要度データ125bに対して登録し、文書集合データ126cを文書集合データ125cに対して登録し、スコアデータ126dをスコアデータ125dに対して登録し、この履歴データ126aと、重要度データ126bと、文書集合データ126cと、スコアデータ126dとを読み出してRAM126に格納し、RAM126に格納された履歴データ126aと、重要度データ126bと、文書集合データ126cと、スコアデータ126dとに基づいてスコア算出処理を実行する。
なお、上記した各プログラム124aおよび124bについては、必ずしも最初からROM124に記憶させておく必要はなく、例えばコンピュータ120に挿入されるフレキシブルディスク(FD)、CD−ROM、MOディスク、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」、または、コンピュータ120の内外に備えられるHDDなどの「固定用物理媒体」、さらには、公衆回線、インターネット、LAN、WANなどを介してコンピュータ120に接続される「他のコンピュータ(またはサーバ)」などに各プログラムを記憶させておき、コンピュータ120がこれらから各プログラムを読み出して実行するようにしてもよい。
以上のように、本発明に係るスコア算出プログラム、スコア算出方法およびスコア算出装置は、検索者から受け付けた検索キーワードに基づいて所定の文書集合から検索された文書それぞれに対してランキングを付与するために、当該所定の文書集合を構成する文書ごとに当該検索者が所属する集団である特定集団における重要性を示すスコアを算出する場合に有用であり、特に、容易に特定集団の嗜好に沿った文書検索の結果を提供することが可能となることに適する。

Claims (6)

  1. 検索者から受け付けた検索キーワードに基づいて所定の文書集合から検索された文書それぞれに対してランキングを付与するために、当該所定の文書集合を構成する文書ごとに当該検索者が所属する集団である特定集団における重要性を示すスコアを算出するスコア算出方法をコンピュータに実行させるスコア算出プログラムであって、
    前記特定集団に所属する検索者が前記所定の文書集合を検索する際に用いた検索キーワードの履歴である第一履歴情報および/または当該特定集団に所属する検索者が別の文書集合である比較文書集合を検索する際に用いた検索キーワードの履歴である第二履歴情報を記憶する履歴記憶部を参照して、前記第一履歴情報および前記第二履歴情報に少なくともいずれかに出現するすべての検索キーワードである出現キーワードそれぞれに対して、前記第一履歴情報において登場するものほど、および/または、前記第二履歴情報において登場しないものほど重要度が高くなるように、前記特定集団における重要度を算出する重要度算出手順と、
    前記重要度算出手順によって算出された前記出現キーワードごとの重要度を用いて、前記所定の文書集合を構成する文書ごとに前記特定集団における前記スコアを算出するスコア算出手順と、
    をコンピュータに実行させることを特徴とするスコア算出プログラム。
  2. 前記重要度算出手順は、前記出現キーワードそれぞれが前記第一履歴情報に出現した回数と前記第二履歴情報に出現した回数との差分情報から、前記出現キーワードそれぞれに対して前記特定集団における重要度を算出することを特徴とする請求項1に記載のスコア算出プログラム。
  3. 前記重要度算出手順は、前記所定の文書集合において前記出現キーワードを含む文書数と、前記比較文書集合において当該出現キーワードを含む文書数との差分情報から、前記出現キーワードそれぞれに対して前記特定集団における重要度を算出することを特徴とする請求項1に記載のスコア算出プログラム。
  4. 前記スコア算出手順は、前記出現キーワードごとに前記所定の文書集合を検索し、前記出現キーワードを含む文書において、当該出現キーワードの周辺に存在する前記出現キーワードである周辺存在キーワードを収集し、前記重要度算出手順によって算出された当該出現キーワードの重要度と前記周辺存在キーワードの重要度から当該文書の前記特定集団におけるスコアを算出することを特徴とする請求項1〜3のいずれか一つに記載のスコア算出プログラム。
  5. 検索者から受け付けた検索キーワードに基づいて所定の文書集合から検索された文書それぞれに対してランキングを付与するために、当該所定の文書集合を構成する文書ごとに当該検索者が所属する集団である特定集団における重要性を示すスコアを算出するスコア算出方法であって、
    コンピュータが、
    前記特定集団に所属する検索者が前記所定の文書集合を検索する際に用いた検索キーワードの履歴である第一履歴情報および/または当該特定集団に所属する検索者が別の文書集合である比較文書集合を検索する際に用いた検索キーワードの履歴である第二履歴情報を記憶する履歴記憶部を参照して、前記第一履歴情報および前記第二履歴情報に少なくともいずれかに出現するすべての検索キーワードである出現キーワードそれぞれに対して、前記第一履歴情報において登場するものほど、および/または、前記第二履歴情報において登場しないものほど重要度が高くなるように、前記特定集団における重要度を算出する重要度算出工程と、
    前記重要度算出工程によって算出された前記出現キーワードごとの重要度を用いて、前記所定の文書集合を構成する文書ごとに前記特定集団における前記スコアを算出するスコア算出工程と、
    を含んだことを特徴とするスコア算出方法。
  6. 検索者から受け付けた検索キーワードに基づいて所定の文書集合から検索された文書それぞれに対してランキングを付与するために、当該所定の文書集合を構成する文書ごとに当該検索者が所属する集団である特定集団における重要性を示すスコアを算出するスコア算出装置であって、
    前記特定集団に所属する検索者が前記所定の文書集合を検索する際に用いた検索キーワードの履歴である第一履歴情報および/または当該特定集団に所属する検索者が別の文書集合である比較文書集合を検索する際に用いた検索キーワードの履歴である第二履歴情報を用いて、前記第一履歴情報および前記第二履歴情報に少なくともいずれかに出現するすべての検索キーワードである出現キーワードそれぞれに対して、前記第一履歴情報において登場するものほど、および/または、前記第二履歴情報において登場しないものほど重要度が高くなるように、前記特定集団における重要度を算出する重要度算出手段と、
    前記重要度算出手段によって算出された前記出現キーワードごとの重要度を用いて、前記所定の文書集合を構成する文書ごとに前記特定集団における前記スコアを算出するスコア算出手段と、
    を備えたことを特徴とするスコア算出装置。
JP2009520230A 2007-06-25 2007-06-25 スコア算出プログラム、スコア算出方法およびスコア算出装置 Expired - Fee Related JP4992973B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2007/062693 WO2009001428A1 (ja) 2007-06-25 2007-06-25 スコア算出プログラム、スコア算出方法およびスコア算出装置

Publications (2)

Publication Number Publication Date
JPWO2009001428A1 JPWO2009001428A1 (ja) 2010-08-26
JP4992973B2 true JP4992973B2 (ja) 2012-08-08

Family

ID=40185262

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009520230A Expired - Fee Related JP4992973B2 (ja) 2007-06-25 2007-06-25 スコア算出プログラム、スコア算出方法およびスコア算出装置

Country Status (2)

Country Link
JP (1) JP4992973B2 (ja)
WO (1) WO2009001428A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001306612A (ja) * 2000-04-26 2001-11-02 Sharp Corp 情報提供装置、情報提供方法およびその方法を実現するプログラムを記録した機械読取可能な記録媒体
JP2005293149A (ja) * 2004-03-31 2005-10-20 Kddi Corp プロファイル更新装置及びコンピュータプログラム
JP2005536814A (ja) * 2002-08-30 2005-12-02 ソニー インターナショナル (ヨーロッパ) ゲゼルシャフト ミット ベシュレンクテル ハフツング ユーザプロファイルの作成方法、及び、ユーザの次の選択に対する提案を特定する方法
WO2009048130A1 (ja) * 2007-10-12 2009-04-16 Nec Corporation 文書重要度算出システム、文書重要度算出方法およびプログラム
JP2009122940A (ja) * 2007-11-14 2009-06-04 Nec Corp 文書関連度算出システム、文書関連度算出方法および文書関連度算出プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001306612A (ja) * 2000-04-26 2001-11-02 Sharp Corp 情報提供装置、情報提供方法およびその方法を実現するプログラムを記録した機械読取可能な記録媒体
JP2005536814A (ja) * 2002-08-30 2005-12-02 ソニー インターナショナル (ヨーロッパ) ゲゼルシャフト ミット ベシュレンクテル ハフツング ユーザプロファイルの作成方法、及び、ユーザの次の選択に対する提案を特定する方法
JP2005293149A (ja) * 2004-03-31 2005-10-20 Kddi Corp プロファイル更新装置及びコンピュータプログラム
WO2009048130A1 (ja) * 2007-10-12 2009-04-16 Nec Corporation 文書重要度算出システム、文書重要度算出方法およびプログラム
JP2009122940A (ja) * 2007-11-14 2009-06-04 Nec Corp 文書関連度算出システム、文書関連度算出方法および文書関連度算出プログラム

Also Published As

Publication number Publication date
WO2009001428A1 (ja) 2008-12-31
JPWO2009001428A1 (ja) 2010-08-26

Similar Documents

Publication Publication Date Title
JP4638439B2 (ja) ウェブ検索の個人化
US7636714B1 (en) Determining query term synonyms within query context
KR100645608B1 (ko) 사용자 방문 유알엘 로그를 이용한 정보 검색 서비스 제공 서버 및 그 방법
CN102722498B (zh) 搜索引擎及其实现方法
US20100241647A1 (en) Context-Aware Query Recommendations
CN102722501B (zh) 搜索引擎及其实现方法
JP5084858B2 (ja) サマリ作成装置、サマリ作成方法及びプログラム
WO2007078768A1 (en) Providing predicted search queries and predictive search results
CN103488681A (zh) 斜线标签
CN102722499B (zh) 搜索引擎及其实现方法
JP2010129061A (ja) インデックス生成システム、情報検索システム、及びインデックス生成方法
JP5504595B2 (ja) 情報処理装置、情報検索システム、情報処理方法およびプログラム
CN105550206B (zh) 结构化查询语句的版本控制方法及装置
JP2007256992A (ja) コンテンツ特定方法及び装置
JP2009122807A (ja) 連想検索システム
JP2010055155A (ja) サーバ装置、情報処理方法およびプログラム
JP2008299842A (ja) 広告執行による反応情報提供方法、コンピュータ読み取り可能な記録媒体、広告執行による反応情報提供システム
JP2007128367A (ja) 情報検索ノウハウ管理システム
JP5639549B2 (ja) 情報検索装置及び方法及びプログラム
JP5321258B2 (ja) 情報収集システムおよび情報収集方法ならびにそのプログラム
KR100975510B1 (ko) 웹 페이지 색인 업데이트 방법 및 시스템
JP4992973B2 (ja) スコア算出プログラム、スコア算出方法およびスコア算出装置
JP5613536B2 (ja) 利用者の要求に応じて動的にもっとも適したイメージを抽出して提供するための方法、システム及びコンピューター判読可能な記録媒体
JP5777663B2 (ja) 検索支援装置及び検索支援プログラム
JP2010072909A (ja) 文書検索装置、文書検索方法、および文書検索プログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120131

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120314

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120410

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120423

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150518

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees