JP4992973B2

JP4992973B2 - スコア算出プログラム、スコア算出方法およびスコア算出装置

Info

Publication number: JP4992973B2
Application number: JP2009520230A
Authority: JP
Inventors: 友哉岩倉; 青史岡本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2007-06-25
Filing date: 2007-06-25
Publication date: 2012-08-08
Anticipated expiration: 2027-06-25
Also published as: WO2009001428A1; JPWO2009001428A1

Description

この発明は、スコア算出プログラム、スコア算出方法およびスコア算出装置に関する。

従来より、検索者から受け付けた検索キーワードに基づいて文書集合から検索された文書に対してランキングを付与することが行なわれている。例えば、インターネットの検索エンジンにおいては、検索者から受け付けた検索キーワードを含む文書ごとに重要度に応じた重み付けを行ない、検索された文書を重み付けから決定されるランキングの順に並べ替えた一覧を、当該検索者に表示している。

ここで、ランキングを付与する手法としては、検索キーワードの各文書内での重み付けを行なう手法や、検索された文書自身の重み付けを行なう手法が知られている。検索キーワードの各文書内での重み付けは、例えば、ＴＦ−ＩＤＦ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ―ＩｎｖｅｒｔｅｄＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）法によって行なわれる。ＴＦ−ＩＤＦ法とは、ある検索キーワードを含む文書中に当該検索キーワードが何回出現したかを表す値であるＴＦと、検索対象となる文書集合において、当該検索キーワードが出現した文書数を表すＤＦの逆数であるＩＤＦとを掛け合わせた値（ＴＦ×ＩＤＦ）を算出して、検索キーワードの各文書内での重み付けを行なうものである。すなわち、「ＴＦの値が大きいほど、当該文書における当該検索キーワードの重要性が高い」とする考えと、「ＩＤＦの値が大きいほど、検索対象となる文書集合における当該検索キーワードの重要性が高い」とする考えとに基づいて重み付けを行うものである。

また、検索された文書自身の重み付けは、例えば、Ｇｏｏｇｌｅ社のＰａｇｅＲａｎｋ（登録商標）によって行なわれる。ＰａｇｅＲａｎｋ（登録商標）とは、検索キーワードを含む文書のうち、他の多くの文書からリンクされているものほど重要な文書であるとする考えに基づいて重み付けを行うものである。

また、特許文献１では、検索対象となる文書集合を、検索者それぞれの関心ありなしに基づいて必要文書と不要文書とに分類し、必要文書および不要文書それぞれに含まれるキーワードを抽出することによって、当該検索者にとって重要性の高いキーワードを検索キーワードとして決定することによって検索効率を高める技術が開示されている。

また、特許文献２では、検索者の利用したコンテンツに関連するキーワードを利用履歴として保持し、利用履歴において保持されたキーワードのうち、検索者が入力した検索キーワードと関連があるキーワードを拡張キーワードとして選出し、入力された検索キーワードに加えて選出された拡張キーワードを用いることで検索効率を高める技術が開示されている。

特開平１０−３２０４０２号公報特開２００５−３１００９４号公報

ところで、上記した従来の検索結果の文書に対してランキングを付与する技術は、そもそも検索エンジンを利用するすべての検索者を対象としているため、特定集団の嗜好に沿った文書検索の結果を提供できないという問題があった。また、ＴＦ−ＩＤＦ法においては、「検索キーワードが繰り返し出現する長い文書に対しては、適切な評価（重み付け）を行なうことができない」、また、ＰａｇｅＲａｎｋ（登録商標）においては、「文書間におけるリンク構造が豊富でない場合には、適切な評価（重み付け）を行なうことができない」といった運用上の制約があるため、必ずしも適切な文書検索の結果を提供できない場合があるという問題点があった。

また、上記した従来の検索効率を高める技術は、検索者ごとの情報（例えば、文書ごとに関心があるかないかといった情報や、検索したコンテンツの情報を検索者ごとに対応付けた情報など）を収集したうえで詳細な解析を行なうので、容易に特定集団の嗜好に沿った文書検索の結果を提供できないという問題があった。

そこで、この発明は、上述した従来技術の課題を解決するためになされたものであり、容易に特定集団の嗜好に沿った文書検索の結果を提供することが可能となるスコア算出プログラム、スコア算出方法およびスコア算出装置を提供することを目的とする。

上述した課題を解決し、目的を達成するため、本発明は、検索者から受け付けた検索キーワードに基づいて所定の文書集合から検索された文書それぞれに対してランキングを付与するために、当該所定の文書集合を構成する文書ごとに当該検索者が所属する集団である特定集団における重要性を示すスコアを算出するスコア算出方法をコンピュータに実行させるスコア算出プログラムであって、前記特定集団に所属する検索者が前記所定の文書集合を検索する際に用いた検索キーワードの履歴である第一履歴情報および／または当該特定集団に所属する検索者が別の文書集合である比較文書集合を検索する際に用いた検索キーワードの履歴である第二履歴情報を記憶する履歴記憶部を参照して、前記第一履歴情報および前記第二履歴情報に少なくともいずれかに出現するすべての検索キーワードである出現キーワードそれぞれに対して、前記第一履歴情報において登場するものほど、および／または、前記第二履歴情報において登場しないものほど重要度が高くなるように、前記特定集団における重要度を算出する重要度算出手順と、前記重要度算出手順によって算出された前記出現キーワードごとの重要度を用いて、前記所定の文書集合を構成する文書ごとに前記特定集団における前記スコアを算出するスコア算出手順と、をコンピュータに実行させることを特徴とする。

また、本発明は、上記の発明において、前記重要度算出手順は、前記出現キーワードそれぞれが前記第一履歴情報に出現した回数と前記第二履歴情報に出現した回数との差分情報から、前記出現キーワードそれぞれに対して前記特定集団における重要度を算出することを特徴とする。

また、本発明は、上記の発明において、前記重要度算出手順は、前記所定の文書集合において前記出現キーワードを含む文書数と、前記比較文書集合において当該出現キーワードを含む文書数との差分情報から、前記出現キーワードそれぞれに対して前記特定集団における重要度を算出することを特徴とする。

また、本発明は、上記の発明において、前記スコア算出手順は、前記出現キーワードごとに前記所定の文書集合を検索し、前記出現キーワードを含む文書において、当該出現キーワードの周辺に存在する前記出現キーワードである周辺存在キーワードを収集し、前記重要度算出手順によって算出された当該出現キーワードの重要度と前記周辺存在キーワードの重要度から当該文書の前記特定集団におけるスコアを算出することを特徴とする。

また、本発明は、検索者から受け付けた検索キーワードに基づいて所定の文書集合から検索された文書それぞれに対してランキングを付与するために、当該所定の文書集合を構成する文書ごとに当該検索者が所属する集団である特定集団における重要性を示すスコアを算出するスコア算出方法であって、コンピュータが、前記特定集団に所属する検索者が前記所定の文書集合を検索する際に用いた検索キーワードの履歴である第一履歴情報および／または当該特定集団に所属する検索者が別の文書集合である比較文書集合を検索する際に用いた検索キーワードの履歴である第二履歴情報を記憶する履歴記憶部を参照して、前記第一履歴情報および前記第二履歴情報に少なくともいずれかに出現するすべての検索キーワードである出現キーワードそれぞれに対して、前記第一履歴情報において登場するものほど、および／または、前記第二履歴情報において登場しないものほど重要度が高くなるように、前記特定集団における重要度を算出する重要度算出工程と、前記重要度算出工程によって算出された前記出現キーワードごとの重要度を用いて、前記所定の文書集合を構成する文書ごとに前記特定集団における前記スコアを算出するスコア算出工程と、を含んだことを特徴とする。

また、本発明は、検索者から受け付けた検索キーワードに基づいて所定の文書集合から検索された文書それぞれに対してランキングを付与するために、当該所定の文書集合を構成する文書ごとに当該検索者が所属する集団である特定集団における重要性を示すスコアを算出するスコア算出装置であって、前記特定集団に所属する検索者が前記所定の文書集合を検索する際に用いた検索キーワードの履歴である第一履歴情報および／または当該特定集団に所属する検索者が別の文書集合である比較文書集合を検索する際に用いた検索キーワードの履歴である第二履歴情報を用いて、前記第一履歴情報および前記第二履歴情報に少なくともいずれかに出現するすべての検索キーワードである出現キーワードそれぞれに対して、前記第一履歴情報において登場するものほど、および／または、前記第二履歴情報において登場しないものほど重要度が高くなるように、前記特定集団における重要度を算出する重要度算出手段と、前記重要度算出手段によって算出された前記出現キーワードごとの重要度を用いて、前記所定の文書集合を構成する文書ごとに前記特定集団における前記スコアを算出するスコア算出手段と、を備えたことを特徴とする。

本発明によれば、特定集団に所属する検索者が所定の文書集合を検索する際に用いた検索キーワードの履歴である第一履歴情報および／または当該特定集団に所属する検索者が別の文書集合である比較文書集合を検索する際に用いた検索キーワードの履歴である第二履歴情報を用いて、第一履歴情報および第二履歴情報に少なくともいずれかに出現するすべての検索キーワードである出現キーワードそれぞれに対して、第一履歴情報において登場するものほど、および／または、第二履歴情報において登場しないものほど重要度が高くなるように、特定集団における重要度を算出し、算出された出現キーワードごとの重要度を用いて、所定の文書集合を構成する文書ごとに特定集団におけるスコアを算出するので、対象となる所定の文書集合以外の文書集合を検索した履歴を利用することで、特定集団が当該所定の文書集合に対して特に要望する重要な検索キーワードを抽出して文書のスコア付けを行なうことができ、容易に特定集団の嗜好に沿った文書検索の結果を提供することが可能となる。すなわち、特定集団の嗜好に沿ったランキングに基づく検索結果の一覧を、当該特定集団に所属する検索者に表示することが可能となる。

また、本発明によれば、出現キーワードそれぞれが第一履歴情報に出現した回数と第二履歴情報に出現した回数との差分情報から、出現キーワードそれぞれに対して特定集団における重要度を算出するので、容易に特定集団の嗜好に沿った文書検索の結果を提供することが可能となる。

また、本発明によれば、所定の文書集合において出現キーワードを含む文書数と、比較文書集合において当該出現キーワードを含む文書数との差分情報から、出現キーワードそれぞれに対して特定集団における重要度を算出するので、容易に特定集団の嗜好に沿った文書検索の結果を提供することが可能となる。

また、本発明によれば、出現キーワードごとに所定の文書集合を検索し、出現キーワードを含む文書において、当該出現キーワードの周辺に存在する出現キーワードである周辺存在キーワードを収集し、算出された当該出現キーワードの重要度と周辺存在キーワードの重要度から当該文書の特定集団におけるスコアを算出するので、受け付けた検索キーワードの重要度だけでなく、周辺存在キーワードの重要度も含めて当該検索キーワードを含む文書を評価することができ、容易に特定集団の嗜好に沿った文書検索の結果を提供することが可能となる。

図１は、実施例１におけるスコア算出装置の概要を説明するための図である。図２は、実施例１におけるスコア算出装置の特徴を説明するための図である。図３は、実施例１におけるスコア算出装置の構成を示すブロック図である。図４は、実施例１における履歴記憶部を説明するための図である。図５は、実施例１における重要度算出部を説明するための図である。図６は、実施例１における重要度記憶部を説明するための図である。図７は、実施例１におけるスコア算出部を説明するための図である。図８は、実施例１におけるスコア記憶部を説明するための図である。図９は、実施例１におけるスコア算出装置の出現回数取得処理を説明するための図である。図１０は、実施例１におけるスコア算出装置の重要度算出処理を説明するための図である。図１１は、実施例１におけるスコア算出装置のスコア算出処理を説明するための図である。図１２は、実施例１のスコア算出プログラムを実行するコンピュータを示す図である。

符号の説明

１０スコア算出装置
１１入力部
１２出力部
１３通信制御部
１４入出力制御Ｉ／Ｆ部
１５記憶部
１５ａ履歴記憶部
１５ｂ重要度記憶部
１５ｃ文書集合記憶部
１５ｄスコア記憶部
１６処理部
１６ａ重要度算出部
１６ｂスコア算出部
２０プロキシサーバ

以下に添付図面を参照して、この発明に係るスコア算出プログラム、スコア算出方法およびスコア算出装置の実施例を詳細に説明する。なお、以下では、この発明に係るスコア算出プログラムを含んで構成されるスコア算出装置を実施例として説明する。また、以下では、実施例１におけるスコア算出装置の概要および特徴、実施例１におけるスコア算出装置の構成および処理の手順、実施例１の効果を順に説明し、最後に、他の実施例について説明する。

［実施例１におけるスコア算出装置の概要および特徴］
まず最初に、図１および図２を用いて、実施例１におけるスコア算出装置の主たる特徴を具体的に説明する。図１は、実施例１におけるスコア算出装置の概要を説明するための図であり、図２は、実施例１におけるスコア算出装置の特徴を説明するための図である。

実施例１におけるスコア算出装置は、検索者から受け付けた検索キーワードに基づいて所定の文書集合から検索された文書それぞれに対してランキングを付与するために、当該所定の文書集合を構成する文書ごとに当該検索者が所属する集団である特定集団における重要性を示すスコアを算出することを概要とする。

例えば、図１に示すように、「ＡＢＣ株式会社」に所属する社員（検索者）が、所定の文書集合である「第一文書集合」を保持する社内検索サービスに対して、検索キーワード「Ｘ」を入力した場合、社内検索サービスが保持する検索対象としての「第一文書集合」を構成する文書から、検索キーワード「Ｘ」を含む文書として、『「文書１」、「文書５」、「文書２０」および「文書３１」』が検索されたとする。その際、実施例１におけるスコア算出装置は、検索された『「文書１」、「文書５」、「文書２０」および「文書３１」』それぞれに対して、特定集団としての「ＡＢＣ株式会社」の社員における重要性を示すスコアを算出することを概要とする。例えば、図１に示すように、「文書１」に対しては「スコア：５」を算出し、「文書５」に対しては「スコア：５０」を算出し、「文書２０」に対しては「スコア：２」を算出し、「文書３１」に対しては「スコア：１００」を算出する。これにより、検索キーワード「Ｘ」を含む文書において、「１位：文書３１」、「２位：文書５」、「３位：文書１」、「４位：文書２０」とランキングを付与することができる。

ここで、本発明は、容易に特定集団の嗜好に沿った文書検索の結果を提供することが可能となることに主たる特徴がある。この主たる特徴について簡単に説明すると、実施例１におけるスコア算出装置は、特定集団に所属する検索者が所定の文書集合を検索する際に用いた検索キーワードの履歴である第一履歴情報および当該特定集団に所属する検索者が別の文書集合である比較文書集合を検索する際に用いた検索キーワードの履歴である第二履歴情報を用いて、第一履歴情報および第二履歴情報に少なくともいずれかに出現するすべての検索キーワードである出現キーワードそれぞれに対して、第一履歴情報において登場するものほど、および、第二履歴情報において登場しないものほど重要度が高くなるように、特定集団における重要度を算出する。具体的には、実施例１におけるスコア算出装置は、出現キーワードそれぞれが第一履歴情報に出現した回数と第二履歴情報に出現した回数との差分情報から、出現キーワードそれぞれに対して特定集団における重要度を算出する。

例えば、図２の（Ａ）に示すように、実施例１におけるスコア算出装置は、「特定集団：ＡＢＣ株式会社」に所属する社員が、社内検索サービスに対して行なった検索の履歴と、社外検索サービスに対して行なった検索の履歴とを、一定期間ごとに（例えば、一ヵ月ごとに）、プロキシサーバから取得し、社内検索サービスが保持する「第一文書集合」を検索対象とした検索キーワードの履歴を第一履歴情報として抽出し、社外検索サービスが保持する「比較文書集合」としての「第二文書集合」を検索対象とした検索キーワードの履歴を第二履歴情報として抽出する。この過程において、第一履歴情報および第二履歴情報に少なくともいずれかに出現するすべての検索キーワードである出現キーワードにおいて、出現キーワードそれぞれが第一履歴情報に出現した回数と第二履歴情報に出現した回数との差分情報から、出現キーワードそれぞれに対して特定集団における重要度を算出する。

例えば、実施例１におけるスコア算出装置は、図２の（Ａ）に示すように、第一履歴情報において「出現キーワード：Ｗｉ」が「第一文書集合」を検索するために入力された回数が「ＣＡ（Ｗｉ）」であり、第二履歴情報において「出現キーワード：Ｗｉ」が「第二文書集合」を検索するために入力された回数が「ＣＢ（Ｗｉ）」であった場合、「ＣＡ（Ｗｉ）」から「ＣＢ（Ｗｉ）」を差し引いた値である「ＣＡ（Ｗｉ）―ＣＢ（Ｗｉ）」を「出現キーワード：Ｗｉ」の重要度として算出する。これを、出現キーワード「Ｗ１〜Ｗｎ」すべてに対して行なう。

そして、実施例１におけるスコア算出装置は、算出された出現キーワードごとの重要度を用いて、所定の文書集合（本実施例では、「第一文書集合」）を構成する文書ごとに「特定集団：ＡＢＣ株式会社」におけるスコアを算出する。具体的には、実施例１におけるスコア算出装置は、出現キーワードごとに「第一文書集合」を構成する文書それぞれを検索し、当該出現キーワードを含む文書において、当該出現キーワードの周辺に存在する出現キーワードである周辺存在キーワードを収集し、当該出現キーワードの重要度と周辺存在キーワードの重要度から当該文書の前記特定集団におけるスコアを算出する。

例えば、実施例１におけるスコア算出装置は、図２の（Ｂ）に示すように、「第一文書集合」を構成する「文書５」が「出現キーワード：Ｗ１」を含む場合、「Ｗ１」が出現した周辺（例えば、前後１００文字以内）に存在する出現キーワードを周辺存在キーワードとして収集する。ここで、周辺出現キーワードとして、「Ｗ１」の前後１００文字以内に、「Ｗ５」と「Ｗ２」とが収集されたとすると、実施例１におけるスコア算出装置は、図２の（Ｂ）に示すように、「出現キーワード：Ｗ１」と収集された「周辺存在キーワード：Ｗ５およびＷ２」との重要度を加算した値（ＣＡ（Ｗ１）−ＣＢ（Ｗ１））＋（ＣＡ（Ｗ５）−ＣＢ（Ｗ５））＋（ＣＡ（Ｗ２）−ＣＢ（Ｗ２））を、「出現キーワード：Ｗ１」における「文書５」のスコアとして算出する。このように、「第一文書集合」を構成する文書すべてに対して、出現キーワード「Ｗ１〜Ｗｎ」それぞれにおけるスコアを算出する。あるいは、「ＣＡ（Ｗ１）−ＣＢ（Ｗ１）」と「ＣＡ（Ｗ５）−ＣＢ（Ｗ５）」と「ＣＡ（Ｗ２）−ＣＢ（Ｗ２）」との平均値を、「出現キーワード：Ｗ１」における「文書５」のスコアとして算出する。

なお、本実施例では、第一履歴情報と第二履歴情報との差分情報から出現キーワードの重要度を算出する場合について説明したが、本発明はこれに限定されるものではなく、例えば、第一履歴情報において「出現キーワード：Ｗｉ」が「第一文書集合」を検索するために入力された回数を「出現キーワード：Ｗｉ」の重要度として採用したり、第二履歴情報において「出現キーワード：Ｗｉ」が「第二文書集合」を検索するために入力された回数の逆数を「出現キーワード：Ｗｉ」の重要度として採用したりする場合であってもよい。

さらに、第一履歴情報において「第一文書集合」を検索するために入力された回数の多いものから「出現キーワード：Ｗｉ」の順位を決定し、決定された順位の逆数を「出現キーワード：Ｗｉ」の重要度として採用したり、第二履歴情報において「第二文書集合」を検索するために入力された回数の多いものから「出現キーワード：Ｗｉ」の順位を決定し、決定された順位を「出現キーワード：Ｗｉ」の重要度として採用したりする場合であってもよい。

さらに、第一履歴情報において「出現キーワード：Ｗｉ」が「第一文書集合」を検索するために入力された回数と、第一履歴情報において「第一文書集合」が検索された総回数とから、「出現キーワード：Ｗｉ」の第一履歴情報における出現頻度を算出して重要度として採用したり、第二履歴情報において「出現キーワード：Ｗｉ」が「第二文書集合」を検索するために入力された回数と、第二履歴情報において「第二文書集合」が検索された総回数とから、「出現キーワード：Ｗｉ」の第二履歴情報における出現頻度を算出し、当該出現頻度の逆数を重要度として採用したりする場合であってもよい。すなわち、どちらか一方のみの履歴情報を用いて出現キーワードの重要度を算出する場合であってもよい。

また、本実施例では、出現回数を単純に差し引いた値を出現キーワードの重要度とする場合について説明したが、本発明はこれに限定されるものではなく、単純に頻度の差をとる以外の計算方法および、「教師あり機械学習手法」を用いて差分情報を解析することで出現キーワードの重要度を算出する場合であってもよい。なお、これらについては、後に詳述する。

このようなことから、実施例１におけるスコア算出装置は、対象となる所定の文書集合（第一文書集合）以外の文書集合（比較文書集合：第二文書集合）を検索した履歴を利用することで、特定集団（ＡＢＣ株式会社）が第一文書集合に対して特に要望する重要な検索キーワードを抽出して文書のスコア付けを行なうことができ、容易に特定集団の嗜好に沿った文書検索の結果を提供することが可能となる。

［実施例１におけるスコア算出装置の構成］
次に、図３〜８を用いて、実施例１におけるスコア算出装置を説明する。図３は、実施例１におけるスコア算出装置の構成を示すブロック図であり、図４は、実施例１における履歴記憶部を説明するための図であり、図５は、実施例１における重要度算出部を説明するための図であり、図６は、実施例１における重要度記憶部を説明するための図であり、図７は、実施例１におけるスコア算出部を説明するための図であり、図８は、実施例１におけるスコア記憶部を説明するための図である。

図３に示すように、実施例１におけるスコア算出装置１０は、入力部１１と、出力部１２と、通信制御部１３と、入出力制御Ｉ／Ｆ部１４と、記憶部１５と、処理部１６とから構成され、さらに、プロキシサーバ２０と接続される。

プロキシサーバ２０は、例えば、「ＡＢＣ株式会社」のネットワークシステムに設置され、「ＡＢＣ株式会社」の社員が所有する端末装置から社内検索サービスや社外検索サービスといった外部への要求や、社内検索サービスや社外検索サービスといった外部からの応答を仲介するとともに、端末装置から外部へアクセスした日時や、アクセスを行なった検索サービスのＵＲＬや、検索サービスに対して送信した検索キーワードなどをプロキシログ（履歴）として保持する。

入力部１１は、各種の情報を入力し、キーボードやマウスなどを備えて構成され、特に本発明に密接に関連するものとしては、スコア算出装置１０の管理者から、プロキシサーバ２０から履歴を取得するタイミング（例えば、一ヶ月ごとなど）や、後述する重要度算出部１６ａが実行する重要度算出方法の設定や、後述するスコア算出部１６ｂが収集する周辺存在キーワードの探索範囲などを、キーボードから受け付けて入力する。

出力部１２は、各種の情報を出力し、モニタやスピーカを備えて構成され、特に本発明に密接に関連するものとしては、後述するスコア算出部１６ｂが算出して後述するスコア記憶部１５ｄに格納した文書の出現キーワードごとのスコアを、スコア算出装置１０の管理者に対して、モニタの画面に表示したりする。

通信制御部１３は、他の装置との通信を制御し、特に本発明に密接に関連するものとしては、プロキシサーバ２０が記憶するプロキシログ（履歴）を後述する履歴記憶部１５ａに転送したり、後述するスコア算出部１６ｂによって算出されたスコアを、例えば、社内検索サービスを運用するサーバに転送したりする。

入出力制御Ｉ／Ｆ部１４は、入力部１１、出力部１２および通信制御部１３と、記憶部１５および処理部１６との間におけるデータ転送を制御する。

記憶部１５は、処理部１６による各種処理に用いるデータと、処理部１６による各種処理結果を記憶し、特に本発明に密接に関連するものとしては、図３に示すように、履歴記憶部１５ａと、重要度記憶部１５ｂと、文書集合記憶部１５ｃと、スコア記憶部１５ｄとを備える。

履歴記憶部１５ａは、通信制御部１３を介して転送されたプロキシログ（履歴）を記憶する。具体的には、一定期間ごとにプロキシサーバ２０に格納された新たな履歴を、通信制御部１３を介して受信し、当該新たな履歴を追加して記憶する。例えば、図４に示すように、「検索キーワード」と、「検索対象」となった文書集合（社内検索サービスならば、第一文書集合であり、社外検索サービスならば、第二文書集合）と、検索要求が実行された「時間」とを対応付けて記憶する。例えば、「ＡＢＣ株式会社」に所属する社員（検索者）が、「時間：ｔ１」に「検索対象：第一文書集合」に対して「検索キーワード：Ｗ１」を含む文書を検索する要求を行なったとする履歴を記憶し、「時間：ｔ５」に「検索対象：第二文書集合」に対して「検索キーワード：Ｗ１」を含む文書を検索する要求を行なったとする履歴を記憶する。なお、図４においては、社内検索サービスと社外検索サービスとに対して実行された履歴のみを示しているが、実際には、他のＷｅｂサーバに対して実行された要求履歴も記憶されている。また、図４においては、検索対象となった文書集合の名称がそれぞれ記憶されているが、社内検索サービスのＵＲＬと社外検索サービスのＵＲＬとがそれぞれ記憶されていてもよい。

文書集合記憶部１５ｃは、スコアの算出対象となるすべての文書を記憶する。例えば、本実施例では、社内検索サービスにおいて保持されている「第一文書集合」を構成する文書すべてを記憶する。

重要度記憶部１５ｂは、後述する重要度算出部１６ａが算出した出現キーワードごとの重要度を記憶し、スコア記憶部１５ｄは、後述するスコア算出部１６ｂが算出した出現キーワードごとの文書のスコアを記憶する。なお、これらについては後に詳述する。

処理部１６は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）などの制御プログラム、各種の処理手順などを規定したプログラムおよび所要データを格納するための内部メモリを有し、これらによって種々の処理を実行し、特に本発明に密接に関連するものとしては、図３に示すように、重要度算出部１６ａと、スコア算出部１６ｂとを備える。ここで、重要度算出部１６ａは、請求の範囲に記載の「重要度算出手順」に対応し、スコア算出部１６ｂは、同じく「スコア算出手順」に対応する。

重要度算出部１６ａは、履歴記憶部１５ａが記憶するプロキシログを参照して、「特定集団：ＡＢＣ株式会社」に所属する社員が、検索対象として社内検索サービスが保持する「第一文書集合」に対して行なった検索キーワードの履歴（第一履歴情報）と、「特定集団：ＡＢＣ株式会社」に所属する社員が、検索対象として社外検索サービスが保持する「第二文書集合：比較文書集合」に対して行なった検索キーワードの履歴（第二履歴情報）を抽出する。そして、重要度算出部１６ａは、第一履歴情報および第二履歴情報に少なくともいずれかに出現するすべての検索キーワードである出現キーワードそれぞれが、第一履歴情報に出現した回数と第二履歴情報に出現した回数を算出する。

例えば、重要度算出部１６ａは、図５の（Ａ）に示すように、履歴記憶部１５ａが記憶するプロキシログを解析することで、「第一文書集合」に対して行なった検索キーワードおよび「第二文書集合」に対して行なった検索キーワードに少なくともいずれかに出現する出現キーワードが「Ｗ１〜Ｗｎ」の「ｎ種類」あり、「出現キーワード：Ｗｉ」が「第一文書集合」を検索するために入力された回数が「ＣＡ（Ｗｉ）」であり、第二履歴情報において「出現キーワード：Ｗｉ」が「第二文書集合」を検索するために入力された回数が「ＣＢ（Ｗｉ）」であると算出する。

そして、重要度算出部１６ａは、出現回数の差分情報から、出現キーワードそれぞれに対して特定集団における重要度を算出し、その結果を、重要度記憶部１５ｂに格納する。例えば、図５の（Ｂ）に示すように、「ＣＡ（Ｗｉ）」から「ＣＢ（Ｗｉ）」を差し引いた値である「ＣＡ（Ｗｉ）―ＣＢ（Ｗｉ）」を「出現キーワード：Ｗｉ」の重要度として算出し、その結果を、重要度記憶部１５ｂに格納する（図６参照）。

あるいは、重要度算出部１６ａは、図５の（Ｃ）〜（Ｅ）に示すように、単純に差を取る以外の差分計算方法、「教師あり機械学習手法」を用いて出現回数の差分情報を解析することで出現キーワードの重要度を算出する。以下、これらについて詳述する。

例えば、重要度算出部１６ａは、図５の（Ｃ）に示すように、「出現キーワード：Ｗｉ」が「第一文書集合」において検索された回数「ＣＡ（Ｗｉ）」と「第二文書集合」において検索された回数「ＣＢ（Ｗｉ）」との和（合計回数）「ＣＡ（Ｗｉ）＋ＣＢ（Ｗｉ）」を算出し、さらに、『「出現キーワード：Ｗｉ」が「第一文書集合」において検索された回数「ＣＡ（Ｗｉ）」が合計回数に占める割合』である「ＰＡ（ｗｉ）」と、『「出現キーワード：Ｗｉ」が「第二文書集合」において検索された回数「ＣＢ（Ｗｉ）」が合計回数に占める割合』である「ＰＢ（ｗｉ）」とを算出する。この、「ＰＡ（ｗｉ）」と「ＰＢ（ｗｉ）」とを、図５の（Ｃ）に代入することにより、「出現キーワード：Ｗｉ」の重要度を算出する。ただし、図５の（Ｃ）の計算結果は、「０から１」に収まるものであり、「ＰＡ（ｗｉ）＝ＰＢ（ｗｉ）」のときに値が「１」、「ＰＡ（ｗｉ）＝１」あるいは「ＰＢ（ｗｉ）＝１」のときに値が「０」を取るものである。そこで、重要度においては、「ＣＡ（Ｗｉ）＞ＣＢ（Ｗｉ）」の場合は、図５の（Ｃ）における計算結果を、そのまま「出現キーワード：Ｗｉ」の重要度とし、「ＣＢ（Ｗｉ）＞ＣＡ（Ｗｉ）」の場合は、図５の（Ｃ）における計算結果に「−１」をかけた値を、「出現キーワード：Ｗｉ」の重要度とするという補正を行って用いる。

また、重要度算出部１６ａは、図５の（Ｄ）に示すように、出現キーワードである「Ｗ１〜Ｗｎ」それぞれが「第一文書集合」において検索された検索総数（第一検索総数）と、出現キーワードである「Ｗ１〜Ｗｎ」それぞれが「第二文書集合」において検索された検索総数（第二検索総数）を算出し、「第一文書集合」において検索された回数である「ＣＡ（Ｗｉ）」から、「第二文書集合」において検索された回数「ＣＢ（Ｗｉ）」を第一検索総数と第二検索総数によって正規化した値を差し引くことによって、「出現キーワード：Ｗｉ」の重要度を算出する。

また、重要度算出部１６ａは、図５の（Ｅ）に示すように、「ＣＡ（Ｗｉ）」を第一検索総数によって正規化した値から、「ＣＢ（Ｗｉ）」を第二検索総数によって正規化した値を差し引くことにより、「出現キーワード：Ｗｉ」の重要度を算出する。

あるいは、重要度算出部１６ａが、図５の（Ｂ）〜（Ｅ）に示した方法により算出した値に、対応する出現キーワードの「第一文書集合」におけるＩＤＦ（ＩｎｖｅｒｔｅｄＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）を掛け合わせた値を当該出現キーワードの重要度として算出する場合であってもよい。

出現回数の差をとる以外の方法として、教師あり学習手法を用いることも考えられる。教師あり学習手法を適用する場合には、第一履歴情報に出現する検索キーワードを正例、第二履歴情報に出現する検索キーワードを負例として与えることで、各検索キーワードの重要度を求める。

スコア算出部１６ｂは、算出された出現キーワードごとの重要度を用いて、文書集合記憶部１５ｃが記憶する第一文書集合を構成する文書ごとに「特定集団：ＡＢＣ株式会社」におけるスコアを算出し、その結果をスコア記憶部１５ｄに格納する。具体的には、スコア算出部１６ｂは、出現キーワードごとに「第一文書集合」を構成する文書それぞれを検索し、当該出現キーワードを含む文書において、当該出現キーワードの周辺に存在する出現キーワードである周辺存在キーワードを収集し、当該出現キーワードの重要度と周辺存在キーワードの重要度から当該文書の前記特定集団におけるスコアを算出する。

例えば、スコア算出部１６ｂは、図７の（Ａ）に示すように、「第一文書集合」を構成する「文書５」が「出現キーワード：Ｗ１」を含む場合、「Ｗ１」が出現した周辺（例えば、前後１００文字以内）に存在する出現キーワードを周辺存在キーワードとして収集する。ここで、周辺出現キーワードとして、「Ｗ１」の前後１００文字以内に、「Ｗ５」と「Ｗ２」とが収集されたとすると、スコア算出部１６ｂは、図７の（Ａ）に示すように、「出現キーワード：Ｗ１」と収集された「周辺存在キーワード：Ｗ５およびＷ２」との重要度（例えば、図５の（Ｂ）に示す数式によって、重要度算出部１６ａが算出した重要度）を加算した値（ＣＡ（Ｗ１）−ＣＢ（Ｗ１））＋（ＣＡ（Ｗ５）−ＣＢ（Ｗ５））＋（ＣＡ（Ｗ２）−ＣＢ（Ｗ２））を、「出現キーワード：Ｗ１」における「文書５」のスコアとして算出する。

また、スコア算出部１６ｂは、図７の（Ｂ）に示すように、「第一文書集合」を構成する「文書５」が「出現キーワード：Ｗ２」を含み、かつ、「Ｗ２」が出現した周辺に存在する周辺存在キーワードとして「Ｗ１」と「Ｗ９」とが収集された場合、「出現キーワード：Ｗ２」と収集された「周辺存在キーワード：Ｗ１およびＷ９」との重要度を加算した値（ＣＡ（Ｗ２）−ＣＢ（Ｗ２））＋（ＣＡ（Ｗ１）−ＣＢ（Ｗ１））＋（ＣＡ（Ｗ９）−ＣＢ（Ｗ９））を、「出現キーワード：Ｗ２」における「文書５」のスコアとして算出する。そして、スコア算出部１６ｂは、「第一文書集合」を構成する文書すべてに対して、出現キーワード「Ｗ１〜Ｗｎ」それぞれにおけるスコアを算出する。

スコア記憶部１５ｄは、スコア算出部１６ｂが算出した「第一文書集合」を構成する文書ごとの、出現キーワード「Ｗ１〜Ｗｎ」それぞれにおけるスコアを記憶する。例えば、図８に示すように、「文書１、出現キーワード：Ｗ１」の「スコア」は「２」であると記憶し、「文書２、出現キーワード：Ｗ３」の「スコア」は「５０」とである記憶する。ここで、スコア記憶部１５ｄに記憶された内容は、通信制御部１３を介して、例えば、社内検索サービスを運営するサーバに転送され、社内検索サービスにおいては、「特定集団：ＡＢＣ株式会社」に所属する社員から受け付けた「検索キーワード」が「出現キーワード」に含まれる場合は、当該「検索キーワード」に対応するスコアを参照して「第一文書集合」を構成する文書にランキングを付与し、ランキング順に並べた一覧を当該社員に対して表示する。

なお、本実施例では、履歴記憶部１５ａが、プロキシサーバ２０に格納された履歴を追加更新して記憶するように設定する場合について説明したが、本発明はこれに限定されるものではなく、上記した一定期間ごとのタイミングにおいて、過去の所定の期間における履歴のみを記憶するように設定する場合であってもよい。例えば、「一ヶ月ごとのタイミングで新規履歴を記憶し、さらに、常に過去６ヶ月間の履歴のみを記憶する」とする設定を行なうことにより、「２００７年の４月１日」において、「２００７年の３月１日から３月３１日」の新規履歴を記憶する際に、すでに記憶されていた「２００６年の９月１日から２００７年の２月２８日」の履歴のうち「２００６年の９月１日から９月３０日」の履歴は削除して、「２００６年の１０月１日から２００７年の３月３１日」の過去半年間の履歴のみを更新して記憶する場合であってもよい。

また、本実施例では、スコア算出装置１０が独立して設置される場合について説明したが、本発明はこれに限定されるものではなく、例えば、「ＡＢＣ株式会社」におけるネットワークシステムを構成するサーバに含まれて設置される場合であってもよい。

［実施例１におけるスコア算出装置による処理の手順］
次に、図９〜１１を用いて、実施例１におけるスコア算出装置１０による処理を説明する。図９は、実施例１におけるスコア算出装置の出現回数取得処理を説明するための図であり、図１０は、実施例１におけるスコア算出装置の重要度算出処理を説明するための図であり、図１１は、実施例１におけるスコア算出装置のスコア算出処理を説明するための図である。

［実施例１におけるスコア算出装置の出現回数取得処理の手順］
図９に示すように、まず、実施例１におけるスコア算出装置１０は、設定された所定の期間（例えば、一ヶ月）が経過すると（ステップＳ９０１肯定）、通信制御部１３を介して、プロキシサーバ２０から新規履歴（Ｐｊ）を取得する（ステップＳ９０２）。例えば、スコア算出装置１０は、「２００７年の４月１日」において、「２００７年の３月１日から３月３１日」の間にプロキシサーバ２０に格納された新規履歴（ｍ個の履歴）を取得して、履歴記憶部１５ａに追加更新して格納する。

そして、重要度算出部１６ａは、「Ｐ１〜Ｐｍ」の新規履歴（ｍ個の履歴）の解析を、Ｐ１から順に行なって、「第一文書集合」における出現回数と、「第二文書集合」における出現回数とを出現キーワードごとに取得する。すなわち、重要度算出部１６ａは、「ｊ＝１」と初期設定を行い（ステップＳ９０３）、履歴「Ｐ１」が「第一文書集合」または「第二文書集合」に対する検索履歴であるか否かを判定する（ステップＳ９０４）。

履歴「Ｐ１」が「第一文書集合」または「第二文書集合」に対する検索履歴である場合は（ステップＳ９０４肯定）、重要度算出部１６ａは、検索履歴に含まれる検索キーワードの抽出を行い（ステップＳ９０５）、抽出された検索キーワードが重要度記憶部１５ｂに格納されている出現キーワードであるか否かを判定する（ステップＳ９０６）。

ここで、抽出された検索キーワードが重要度記憶部１５ｂに格納されている出現キーワードである場合は（ステップＳ９０６肯定）、重要度算出部１６ａは、抽出された検索キーワードの出現回数をインクリメントする（ステップＳ９０７）。すなわち、重要度算出部１６ａは、重要度記憶部１５ｂにおいて、既に格納されている当該検索キーワードの『「第一文書集合」もしくは「第二文書集合」の出現回数』をインクリメントする。

これに反して、抽出された検索キーワードが重要度記憶部１５ｂに格納されている出現キーワードでない場合は（ステップＳ９０６否定）、重要度算出部１６ａは、抽出された検索キーワードを新たな出現キーワードとし、さらに、当該検索キーワードの検索対象である文書集合における出現回数を「１」としたうえで、重要度記憶部１５ｂに新たに格納する（ステップＳ９０８）。

ここで、重要度算出部１６ａは、履歴「Ｐ１」が「第一文書集合」または「第二文書集合」に対する検索履歴でない場合は（ステップＳ９０４否定）、もしくは、ステップＳ９０７やステップＳ９０８が終了した後は、「ｊ＝ｊ＋１」と新たに設定し（ステップＳ９０９）、さらに、新たに設定された「ｊ」が「ｍ＋１」と一致するか否かを判定する（ステップＳ９１０）。ここで、「ｊ」が「ｍ＋１」と一致する場合（ステップＳ９１０肯定）、重要度算出部１６ａは、新規履歴（ｍ個の新規履歴）の解析がすべて終了したと判断して、処理を終了する。

これに反して、「ｊ」が「ｍ」以下の場合（ステップＳ９１０否定）、重要度算出部１６ａは、すべての新規履歴を解析していないと判断して、ステップＳ９０４に戻って、次の新規履歴（Ｐ２）の解析を開始する。このようにして、「ｍ個」の新規履歴を解析して、「出現キーワードの抽出」、「出現キーワードごとの「第一文書集合」における出現回数の取得」および「出現キーワードごとの「第二文書集合」における出現回数の取得」を行なう。

［実施例１におけるスコア算出装置の重要度算出処理の手順］
図１０に示すように、まず、実施例１におけるスコア算出装置１０は、履歴情報から出現回数が取得されると（ステップＳ１００１肯定）、重要度算出部１６ａは、引き続き、出現キーワードごとに重要度を算出し（ステップＳ１００２）、処理を終了する。例えば、重要度算出部１６ａは、図５の（Ｂ）に示す数式に従って、出現キーワードごとの重要度を算出する。

［実施例１におけるスコア算出装置のスコア算出処理の手順］
図１１に示すように、まず、実施例１におけるスコア算出装置１０は、重要度算出部１６ａによって出現キーワードすべてに対して重要度が算出されると（ステップＳ１１０１肯定）、スコア算出部１６ｂは、文書集合記憶部１５ｃから「第一文書集合」に含まれる文書「ＤＬ、（Ｌ＝１〜ｋ、ｋ個）」と、重要度記憶部１５ｂから出現キーワード「Ｗｉ、（ｉ＝１〜ｎ、ｎ個）」を読み込む（ステップＳ１１０２）。

そして、スコア算出部１６ｂは、初期値として「Ｌ＝１、ｉ＝１」を設定し（ステップＳ１１０３）、「出現キーワード：Ｗ１」における「文書：Ｄ１」のスコア算出を開始する。具体的には、まず、「文書：Ｄ１」に「出現キーワード：Ｗ１」が含まれるか否かを判定する（ステップＳ１１０４）。

「文書：Ｄ１」に「出現キーワード：Ｗ１」が含まれる場合は（ステップＳ１１０４肯定）、スコア算出部１６ｂは、「Ｗ１」の周辺に存在する周辺存在キーワードを収集し（ステップＳ１１０５）、重要度記憶部１５ｂが記憶する「Ｗ１」の重要度と周辺存在キーワードの重要度とから「出現キーワード：Ｗ１」における「文書：Ｄ１」のスコアを算出する（ステップＳ１１０６）。

これに反して、「文書：Ｄ１」に「出現キーワード：Ｗ１」が含まれない場合は（ステップＳ１１０４否定）、スコア算出部１６ｂは、「ｉ＝ｉ＋１」と新たに設定し（ステップＳ１１０７）、さらに、新たに設定された「ｉ」が「ｎ＋１」と一致するか否かを判定する（Ｓ１１０８）。

ここで、「ｉ」が「ｎ」以下の場合（ステップＳ１１０８否定）、スコア算出部１６ｂは、すべての出現キーワードそれぞれに対して「文書：Ｄ１」のスコアを算出していないと判断し、ステップＳ１１０４に戻って、「出現キーワード：Ｗ２」における「文書：Ｄ１」のスコア算出を開始する。すなわち、この操作を、「出現キーワード：Ｗｎ」における「文書：Ｄ１」のスコア算出が終了するまで続ける。

これに反して、「ｉ」が「ｎ＋１」と一致する場合（ステップＳ１１０８肯定）、スコア算出部１６ｂは、出現キーワードそれぞれに対して「文書：Ｄ１」のスコアを算出したと判断し、「Ｌ＝Ｌ＋１」と新たに設定し（ステップＳ１１０９）、さらに、新たに設定された「Ｌ」が「ｋ＋１」と一致するか否かを判定する（ステップＳ１１１０）。

ここで、「Ｌ」が「ｋ」以下の場合（ステップＳ１１１０否定）、スコア算出部１６ｂは、「ｉ＝１」に再設定し（ステップＳ１１１１）、引き続き、「出現キーワード：Ｗ１」における「文書：Ｄ２」のスコア算出を開始する。

これに反して、「Ｌ」が「ｋ」より大きい場合（ステップＳ１１１０肯定）、すべての出現キーワードのすべての文書におけるスコアを算出したと判断して、処理を終了する。

［実施例１の効果］
上記したように、実施例１によれば、「特定集団：ＡＢＣ株式会社」に所属する社員（検索者）が社内検索サービスの保持する「第一文書集合」を検索する際に用いた検索キーワードの履歴である第一履歴情報、および、「特定集団：ＡＢＣ株式会社」に所属する社員（検索者）が社外検索サービスの保持する「第二文書集合；比較文書集合」を検索する際に用いた検索キーワードの履歴である第二履歴情報を用いて、第一履歴情報および第二履歴情報に少なくともいずれかに出現するすべての検索キーワードである出現キーワードそれぞれに対して、第一履歴情報において登場するものほど、および、第二履歴情報において登場しないものほど重要度が高くなるように、「特定集団：ＡＢＣ株式会社」における重要度を算出し、算出された出現キーワードごとの重要度を用いて、「第一文書集合」を構成する文書ごとに「特定集団：ＡＢＣ株式会社」におけるスコアを算出するので、対象となる「第一文書集合」以外の文書集合（「第二文書集合；比較文書集合」）を検索した履歴を利用することで、「特定集団：ＡＢＣ株式会社」が「第一文書集合」に対して特に要望する重要な検索キーワードを抽出して文書のスコア付けを行なうことができ、容易に「特定集団：ＡＢＣ株式会社」の嗜好に沿った文書検索の結果を提供することが可能となる。すなわち、「特定集団：ＡＢＣ株式会社」の嗜好に沿ったランキングに基づく検索結果の一覧を、当該特定集団に所属する検索者に表示することが可能となる。

また、実施例１によれば、出現キーワードそれぞれが第一履歴情報に出現した回数と第二履歴情報に出現した回数との差分情報から、出現キーワードそれぞれに対して「特定集団：ＡＢＣ株式会社」における重要度を算出したり、「教師あり機械学習手法」を用いて出現回数の差分情報を解析することで出現キーワードの重要度を算出することができ、容易に「特定集団：ＡＢＣ株式会社」の嗜好に沿った文書検索の結果を提供することが可能となる。

また、実施例１によれば、出現キーワードごとに「第一文書集合」を検索し、出現キーワードを含む文書において、当該出現キーワードの周辺に存在する周辺存在キーワードを収集し、算出された当該出現キーワードの重要度と周辺存在キーワードの重要度から当該文書の「特定集団：ＡＢＣ株式会社」におけるスコアを算出するので、受け付けた検索キーワードの重要度だけでなく、周辺存在キーワードの重要度も含めて当該検索キーワードを含む文書を評価することができ、容易に特定集団の嗜好に沿った文書検索の結果を提供することが可能となる。すなわち、「ある検索キーワードが出現した周辺に存在するキーワードが重要なキーワードである文書」に対して、より正確にスコアを算出してランキングを付与することができる。

さて、これまで実施例１におけるスコア算出装置について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてもよいものである。そこで、以下では、実施例２におけるスコア算出装置として、種々の異なる実施例を（１）〜（３）に区分けして説明する。

（１）重要度算出部
上記の実施例１においては、出現回数の差分情報に基づいて、重要度算出部１６ａが出現キーワードごとの重要度を算出する場合について説明したが、本発明はこれに限定されるものではなく、「第一文書集合」において出現キーワードを含む文書数と、「第二文書集合：比較文書集合」において当該出現キーワードを含む文書数との差分情報に基づいて、重要度算出部１６ａが、出現キーワードそれぞれに対して「特定集団：ＡＢＣ株式会社」における重要度を算出する場合であってもよい。例えば、図３に示す文書集合記憶部１５ｃが、「第一文書集合」を構成する文書に加えて、「第二文書集合」を構成する文書も記憶しており、重要度算出部１６ａは、「第一文書集合」を構成する文書において「出現キーワード：Ｗｉ」を含む文書の数を「ＣＡ（Ｗｉ）」として算出し、「第二文書集合」を構成する文書において「出現キーワード：Ｗｉ」を含む文書の数を「ＣＢ（Ｗｉ）」として算出し、この「ＣＡ（Ｗｉ）」と「ＣＢ（Ｗｉ）」とを、例えば、図５の（Ｂ）に示す数式に対して用いることで、「出現キーワード：Ｗｉ」の重要度を算出する場合であってもよい。

また、検索履歴から抽出した出現キーワードを用いるのではなく、例えば、「第一文書集合」を構成する文書および「第二文書集合」を構成する文書すべてに対して、自然言語処理の手法である形態素解析を用いて「出現キーワード」を抽出し、抽出された「出現キーワード」ごとに、「第一文書集合」において「出現キーワード」を含む文書数と、「第一文書集合」において「出現キーワード」を含む文書数とを算出し、これを用いて重要度を算出する場合であってもよい。

このようなことから、「第一文書集合」内と「第二文書集合」内とのキーワードの差分情報を解析することで出現キーワードの重要度を算出することができ、容易に特定集団の嗜好に沿った文書検索の結果を提供することが可能となる。

（２）システム構成等
上記の実施例１において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動でおこなうこともでき（例えば、一定期間ごとにスコアを算出するのではなく、スコア算出装置１０の管理者がスコア算出要求を手動で入力して指示するなど）、あるいは、手動的におこなうものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文章中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に更新することができる。例えば、図１１に示すスコア算出処理において、文書単位で、すべての出現キーワードにおけるスコアを算出するのではなく、出現キーワード単位で、すべての文書におけるスコアを算出してもよい。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各処理部および各記憶部の分散・統合の具体的形態（例えば、図３の形態など）は図示のものに限られず、例えば、重要度算出部１６ａとスコア算出部１６ｂとを統合するなど、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

（３）スコア算出プログラム
ところで上記の実施例１では、ハードウェアロジックによって各種の処理を実現する場合を説明したが、本発明はこれに限定されるものではなく、あらかじめ用意されたプログラムをコンピュータで実行するようにしてもよい。そこで以下では、図１２を用いて、上記の実施例１に示したスコア算出装置１０と同様の機能を有するスコア算出プログラムを実行するコンピュータの一例を説明する。図１２は、実施例１のスコア算出プログラムを実行するコンピュータを示す図である。

図１２に示すように、情報処理装置としてのコンピュータ１２０は、キーボード１２１、ディスプレイ１２２、ＣＰＵ１２３、ＲＯＭ１２４、ＨＤＤ１２５、ＲＡＭ１２６および通信制御部１３をバス１２７などで接続して構成され、さらにプロキシサーバ２０に接続される。

ＲＯＭ１２４には、上記の実施例１に示したスコア算出装置１０と同様の機能を発揮するスコア算出プログラム、つまり、図１２に示すように、重要度算出プログラム１２４ａ、スコア算出プログラム１２４ｂが予め記憶されている。なお、これらのプログラム１２４ａおよび１２４ｂについては、図３に示したスコア算出装置１０の各構成要素と同様、適宜統合または分散してもよい。

そして、ＣＰＵ１２３が、これらのプログラム１２４ａおよび１２４ｂをＲＯＭ１２４から読みだして実行することで、図１２に示すように、各プログラム１２４ａおよび１２４ｂは、重要度算出プロセス１２３ａ、スコア算出プロセス１２３ｂとして機能するようになる。なお、各プロセス１２３ａおよび１２３ｂは、図３に示した、重要度算出部１６ａおよびスコア算出部１６ｂにそれぞれ対応する。

また、ＨＤＤ１２５には、図１２に示すように、履歴データ１２５ａと、重要度データ１２５ｂと、文書集合データ１２５ｃと、スコアデータ１２５ｄとが設けられる。この履歴データ１２５ａは、図３に用いた履歴記憶部１５ａに対応し、重要度データ１２５ｂは重要度記憶部１５ｂに対応し、文書集合データ１２５ｃは文書集合記憶部１５ｃに対応し、スコアデータ１２５ｄはスコア記憶部１５ｄに対応する。そしてＣＰＵ１２３は、履歴データ１２６ａを履歴データ１２５ａに対して登録し、重要度データ１２６ｂを重要度データ１２５ｂに対して登録し、文書集合データ１２６ｃを文書集合データ１２５ｃに対して登録し、スコアデータ１２６ｄをスコアデータ１２５ｄに対して登録し、この履歴データ１２６ａと、重要度データ１２６ｂと、文書集合データ１２６ｃと、スコアデータ１２６ｄとを読み出してＲＡＭ１２６に格納し、ＲＡＭ１２６に格納された履歴データ１２６ａと、重要度データ１２６ｂと、文書集合データ１２６ｃと、スコアデータ１２６ｄとに基づいてスコア算出処理を実行する。

なお、上記した各プログラム１２４ａおよび１２４ｂについては、必ずしも最初からＲＯＭ１２４に記憶させておく必要はなく、例えばコンピュータ１２０に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＭＯディスク、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」、または、コンピュータ１２０の内外に備えられるＨＤＤなどの「固定用物理媒体」、さらには、公衆回線、インターネット、ＬＡＮ、ＷＡＮなどを介してコンピュータ１２０に接続される「他のコンピュータ（またはサーバ）」などに各プログラムを記憶させておき、コンピュータ１２０がこれらから各プログラムを読み出して実行するようにしてもよい。

以上のように、本発明に係るスコア算出プログラム、スコア算出方法およびスコア算出装置は、検索者から受け付けた検索キーワードに基づいて所定の文書集合から検索された文書それぞれに対してランキングを付与するために、当該所定の文書集合を構成する文書ごとに当該検索者が所属する集団である特定集団における重要性を示すスコアを算出する場合に有用であり、特に、容易に特定集団の嗜好に沿った文書検索の結果を提供することが可能となることに適する。

Claims

検索者から受け付けた検索キーワードに基づいて所定の文書集合から検索された文書それぞれに対してランキングを付与するために、当該所定の文書集合を構成する文書ごとに当該検索者が所属する集団である特定集団における重要性を示すスコアを算出するスコア算出方法をコンピュータに実行させるスコア算出プログラムであって、
前記特定集団に所属する検索者が前記所定の文書集合を検索する際に用いた検索キーワードの履歴である第一履歴情報および／または当該特定集団に所属する検索者が別の文書集合である比較文書集合を検索する際に用いた検索キーワードの履歴である第二履歴情報を記憶する履歴記憶部を参照して、前記第一履歴情報および前記第二履歴情報に少なくともいずれかに出現するすべての検索キーワードである出現キーワードそれぞれに対して、前記第一履歴情報において登場するものほど、および／または、前記第二履歴情報において登場しないものほど重要度が高くなるように、前記特定集団における重要度を算出する重要度算出手順と、
前記重要度算出手順によって算出された前記出現キーワードごとの重要度を用いて、前記所定の文書集合を構成する文書ごとに前記特定集団における前記スコアを算出するスコア算出手順と、
をコンピュータに実行させることを特徴とするスコア算出プログラム。
前記重要度算出手順は、前記出現キーワードそれぞれが前記第一履歴情報に出現した回数と前記第二履歴情報に出現した回数との差分情報から、前記出現キーワードそれぞれに対して前記特定集団における重要度を算出することを特徴とする請求項１に記載のスコア算出プログラム。
前記重要度算出手順は、前記所定の文書集合において前記出現キーワードを含む文書数と、前記比較文書集合において当該出現キーワードを含む文書数との差分情報から、前記出現キーワードそれぞれに対して前記特定集団における重要度を算出することを特徴とする請求項１に記載のスコア算出プログラム。
前記スコア算出手順は、前記出現キーワードごとに前記所定の文書集合を検索し、前記出現キーワードを含む文書において、当該出現キーワードの周辺に存在する前記出現キーワードである周辺存在キーワードを収集し、前記重要度算出手順によって算出された当該出現キーワードの重要度と前記周辺存在キーワードの重要度から当該文書の前記特定集団におけるスコアを算出することを特徴とする請求項１〜３のいずれか一つに記載のスコア算出プログラム。
検索者から受け付けた検索キーワードに基づいて所定の文書集合から検索された文書それぞれに対してランキングを付与するために、当該所定の文書集合を構成する文書ごとに当該検索者が所属する集団である特定集団における重要性を示すスコアを算出するスコア算出方法であって、
コンピュータが、
前記特定集団に所属する検索者が前記所定の文書集合を検索する際に用いた検索キーワードの履歴である第一履歴情報および／または当該特定集団に所属する検索者が別の文書集合である比較文書集合を検索する際に用いた検索キーワードの履歴である第二履歴情報を記憶する履歴記憶部を参照して、前記第一履歴情報および前記第二履歴情報に少なくともいずれかに出現するすべての検索キーワードである出現キーワードそれぞれに対して、前記第一履歴情報において登場するものほど、および／または、前記第二履歴情報において登場しないものほど重要度が高くなるように、前記特定集団における重要度を算出する重要度算出工程と、
前記重要度算出工程によって算出された前記出現キーワードごとの重要度を用いて、前記所定の文書集合を構成する文書ごとに前記特定集団における前記スコアを算出するスコア算出工程と、
を含んだことを特徴とするスコア算出方法。
検索者から受け付けた検索キーワードに基づいて所定の文書集合から検索された文書それぞれに対してランキングを付与するために、当該所定の文書集合を構成する文書ごとに当該検索者が所属する集団である特定集団における重要性を示すスコアを算出するスコア算出装置であって、
前記特定集団に所属する検索者が前記所定の文書集合を検索する際に用いた検索キーワードの履歴である第一履歴情報および／または当該特定集団に所属する検索者が別の文書集合である比較文書集合を検索する際に用いた検索キーワードの履歴である第二履歴情報を用いて、前記第一履歴情報および前記第二履歴情報に少なくともいずれかに出現するすべての検索キーワードである出現キーワードそれぞれに対して、前記第一履歴情報において登場するものほど、および／または、前記第二履歴情報において登場しないものほど重要度が高くなるように、前記特定集団における重要度を算出する重要度算出手段と、
前記重要度算出手段によって算出された前記出現キーワードごとの重要度を用いて、前記所定の文書集合を構成する文書ごとに前記特定集団における前記スコアを算出するスコア算出手段と、
を備えたことを特徴とするスコア算出装置。