JP2009187384A - 検索装置、検索方法、検索プログラム、および、記録媒体 - Google Patents

検索装置、検索方法、検索プログラム、および、記録媒体 Download PDF

Info

Publication number
JP2009187384A
JP2009187384A JP2008027885A JP2008027885A JP2009187384A JP 2009187384 A JP2009187384 A JP 2009187384A JP 2008027885 A JP2008027885 A JP 2008027885A JP 2008027885 A JP2008027885 A JP 2008027885A JP 2009187384 A JP2009187384 A JP 2009187384A
Authority
JP
Japan
Prior art keywords
user
identification information
vector
network identification
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008027885A
Other languages
English (en)
Inventor
Takayoshi Mochizuki
崇由 望月
Hiroshi Shinkai
浩 新海
Ryoji Kataoka
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
NTT Resonant Inc
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Resonant Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Resonant Inc filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008027885A priority Critical patent/JP2009187384A/ja
Publication of JP2009187384A publication Critical patent/JP2009187384A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ユーザプロファイルが検索結果に反映されるまでの時間を短縮化するとともに、各ユーザの興味・嗜好を高精度に反映させた検索結果を配信する検索装置を提供する。
【解決手段】検索装置が、ユーザ識別情報とともに検索文が入力され、入力された検索文を検索文意味ベクトルに変換し、入力されたユーザ識別情報に該当するユーザ履歴意味ベクトルをユーザ履歴記憶部から読み出し、読み出したユーザ履歴意味ベクトルとキーワード解析手順で変換した検索文意味ベクトルとに基づいて、ネットワーク識別情報とネットワーク識別情報意味ベクトルとが関連付けて予め記憶されているネットワーク識別情報意味ベクトル記憶部から、ネットワーク識別情報とネットワーク識別情報意味ベクトルとを抽出し、抽出したネットワーク識別情報意味ベクトルと、ユーザ履歴意味ベクトルと検索文意味ベクトルとに基づいて、抽出したネットワーク識別情報を並び替えて出力する。
【選択図】図1

Description

本発明は、ユーザが入力した検索文に該当するURL(Uniform Resource Locator)などのネットワーク識別情報を検索する検索エンジンの技術に関し、特に、ユーザの嗜好を反映してネットワーク識別情報を検索する検索エンジンの技術に関する。
ユーザの検索エンジンを利用した過去の実績に基づいてユーザプロファイルを作成し、当該ユーザプロファイルを用いて検索エンジンから返された検索結果を順序付けるシステムおよび方法が知られている(特許文献1参照)。
この特許文献1による検索エンジンは、ユーザプロファイルを利用して検索結果をカスタマイズする。このユーザプロファイルは、ユーザの検索嗜好を特徴付ける複数の用語を含んでいる。また、これらの用語は、ユーザから暗黙的または明示的に提供された個人情報と同様に、ユーザが送信した以前の検索クエリ、以前のクエリにより識別される文書との相互リンク、識別された文書からサンプリングされた内容を含む各種の情報源から抽出される。
特表2007−507801号公報
しかしながら、上記特許文献1では、ユーザプロファイルを、過去の検索結果としてのURLリストや、ユーザがクリックした検索結果としてのURLに含まれる文書集合など、多くのテキスト情報から導出する構成となっている。そのため、当該ユーザプロファイルが検索結果に反映されるまでに時間を要し、刻一刻と変わるユーザの興味・嗜好を、ただちに検索結果に反映させることが困難であるという問題があった。
本発明は、このような事情に鑑みてなされたもので、その目的は、ユーザプロファイルが検索結果に反映されるまでの時間を短縮化するとともに、各ユーザの興味・嗜好を高精度に反映させた検索結果を配信する検索装置、検索方法、検索プログラム及び記録媒体を提供することにある。
この発明は上述した課題を解決するためになされたもので、請求項1に記載の発明は、ネットワーク上の情報資源を識別するネットワーク識別情報と、該ネットワーク識別情報により識別される情報資源に対応する意味ベクトル空間における意味ベクトルであるネットワーク識別情報意味ベクトルとが関連付けて予め記憶されているネットワーク識別情報意味ベクトル記憶部と、ユーザを識別するユーザ識別情報と、該ユーザが入力したキーワードに対応するキーワード意味ベクトルの履歴であるユーザ履歴意味ベクトルとが関連付けて記憶されているユーザ履歴記憶部と、ユーザ識別情報とともに検索文が入力される検索条件入力部と、前記検索条件入力部に入力された検索文を、前記意味ベクトル空間における意味ベクトルとしての検索文意味ベクトルに変換するキーワード解析部と、前記検索条件入力部に入力されたユーザ識別情報に該当するユーザ履歴意味ベクトルを前記ユーザ履歴記憶部から読み出し、該読み出したユーザ履歴意味ベクトルと前記キーワード解析部が変換した検索文意味ベクトルとに基づいて、ネットワーク識別情報とネットワーク識別情報意味ベクトルとを前記ネットワーク識別情報意味ベクトル記憶部から抽出するマッチング処理部と、前記マッチング処理部が抽出したネットワーク識別情報意味ベクトルと、前記ユーザ履歴意味ベクトルと検索文意味ベクトルとに基づいて、前記マッチング処理部が抽出したネットワーク識別情報を並び替えるソーティング処理部と、前記ソーティング処理部が並び替えたネットワーク識別情報を出力する検索結果出力部と、を有することを特徴とする検索装置である。
請求項2に記載の発明は、前記ユーザ履歴記憶部に記憶されているユーザ履歴意味ベクトルであって、前記検索条件入力部に入力されたユーザ識別情報に該当するユーザ履歴意味ベクトルを、前記キーワード解析部が変換した検索文意味ベクトルに基づいて更新する学習部、を有することを特徴とする請求項1に記載の検索装置である。
請求項3に記載の発明は、前記学習部が、前記検索条件入力部に入力されたユーザ識別情報に該当するユーザ履歴意味ベクトルを前記ユーザ履歴記憶部から読み出すユーザベクトル取得部と、前記キーワード解析部が変換した検索文意味ベクトルと、前記ユーザベクトル取得部が読み出したユーザ履歴意味ベクトルとを加算して更新用意味ベクトルを算出するユーザベクトル算出部と、前記ユーザ履歴記憶部に記憶されているユーザ履歴意味ベクトルであって、検索条件入力部に入力されたユーザ識別情報に該当するユーザ履歴意味ベクトルを、前記ユーザベクトル算出部が算出した更新用意味ベクトルに更新するユーザベクトル更新部と、を有することを特徴とする請求項2に記載の検索装置である。
請求項4に記載の発明は、前記ユーザベクトル算出部が、前記キーワード解析部が変換した検索文意味ベクトルと、前記ユーザベクトル取得部が読み出したユーザ履歴意味ベクトルとを加算する場合に、それぞれのベクトルに予め定められた重みを乗じて加算して前記更新用意味ベクトルを算出する、ことを特徴とする請求項3に記載の検索装置である。
請求項5に記載の発明は、前記マッチング処理部が、前記検索条件入力部に入力されたユーザ識別情報に該当するユーザ履歴意味ベクトルを前記ユーザ履歴記憶部から読み出すユーザベクトル取得部と、前記キーワード解析部が変換した検索文意味ベクトルと前記ユーザベクトル取得部が読み出したユーザ履歴意味ベクトルとに基づいてクエリベクトルを算出するクエリベクトル算出部と、前記クエリベクトル算出部が算出したクエリベクトルに基づいて、ネットワーク識別情報とネットワーク識別情報意味ベクトルとを組みとした複数の候補を前記ネットワーク識別情報意味ベクトル記憶部から抽出する候補抽出部と、を有することを特徴とする請求項1から請求項4に記載の検索装置である。
請求項6に記載の発明は、前記ネットワーク識別情報意味ベクトル記憶部には、前記ネットワーク識別情報と、前記ネットワーク識別情報意味ベクトルと、前記ネットワーク識別情報意味ベクトルに対するハッシュ値とが関連付けて記憶されており、前記マッチング処理部が、前記クエリベクトル算出部が算出したクエリベクトルに対するハッシュ値を算出するハッシュ算出部を有し、前記候補抽出部が、前記ハッシュ算出部が算出したハッシュ値に基づいて、ネットワーク識別情報とネットワーク識別情報意味ベクトルとを組みとした複数の候補を前記ネットワーク識別情報意味ベクトル記憶部から抽出する、ことを特徴とする請求項5に記載の検索装置である。
請求項7に記載の発明は、前記検索装置が、キーワードと該キーワードに対応する意味ベクトル空間におけるベクトルであるキーワード意味ベクトルとが関連付けて予め記憶されているキーワード意味ベクトル記憶部を有し、前記キーワード解析部が、前記検索条件入力部に入力された検索文に基づいて、キーワード意味ベクトルを前記キーワード意味ベクトル記憶部から読み出すことにより、当該検索文を意味ベクトル空間における意味ベクトルとしての検索文意味ベクトルに変換する、ことを特徴とする請求項1から請求項6に記載の検索装置である。
請求項8に記載の発明は、前記キーワード解析部が、前記検索条件入力部から入力された検索文を自然言語処理してキーワードを抽出し、該抽出したキーワードに該当するキーワード意味ベクトルを前記キーワード意味ベクトル記憶部から読み出すことにより、当該検索文を意味ベクトル空間における意味ベクトルとしての検索文意味ベクトルに変換する、ことを特徴とする請求項7に記載の検索装置である。
請求項9に記載の発明は、前記ソーティング処理部が、前記マッチング処理部が抽出したネットワーク識別情報意味ベクトルと、前記クエリベクトル算出部が算出したクエリベクトルとの近似度を算出する近似度算出部と、前記近似度算出部が算出した近似度に基づいて、ネットワーク識別情報を並び替えるURLリストソーティング処理部と、を有することを特徴とする請求項5から請求項8に記載の検索装置である。
請求項10に記載の発明は、前記近似度算出部が、前記ネットワーク識別情報意味ベクトルとクエリベクトルとの内積を前記近似度として算出し、前記URLリストソーティング処理部が、前記近似度算出部が算出した近似度としての内積の値が大きい順に、前記ネットワーク識別情報を並び替える、ことを特徴とする請求項9に記載の検索装置である。
請求項11に記載の発明は、前記近似度算出部が、前記ネットワーク識別情報意味ベクトルとクエリベクトルとの間の角度を前記近似度として算出し、前記URLリストソーティング処理部が、前記近似度算出部が算出した近似度としての角度の値が小さい順に、前記ネットワーク識別情報を並び替える、ことを特徴とする請求項9に記載の検索装置である。
請求項12に記載の発明は、前記ソーティング処理部が、前記URLリストソーティング処理部の並び替えたネットワーク識別情報に対応するURLタイトルおよび要約文を取得するURLタイトル要約文取得部、を有し、前記検索結果出力部が、前記URLタイトル要約文取得部が取得したURLタイトルおよび要約文を出力する、ことを特徴とする請求項1から請求項11に記載の検索装置である。
請求項13に記載の発明は、前記検索装置が、キーワードと該キーワードに対応する関連キーワードとが関連付けて予め記憶されている関連キーワード記憶部と、前記検索条件入力部に入力された検索文に基づいて、関連キーワードを前記関連キーワード記憶部から読み出す関連キーワード検出部と、を有し、前記検索結果出力部が、前記関連キーワード検出部が読み出した関連キーワードを出力する、ことを特徴とする請求項1から請求項12に記載の検索装置である。
請求項14に記載の発明は、前記関連キーワード検出部が、自然言語処理により検索文から抽出したキーワードに該当する関連キーワードを前記関連キーワード記憶部から読み出す、ことを特徴とする請求項13に記載の検索装置である。
請求項15に記載の発明は、前記検索結果出力部が、HTML形式に変換して出力する、ことを特徴とする請求項1から請求項14に記載の検索装置である。
請求項16に記載の発明は、前記検索装置が、前記検索結果出力部が出力したネットワーク識別情報の中から選択されたネットワーク識別情報であるユーザ選択ネットワーク識別情報と前記ユーザ識別情報とが関連付けて入力され、前記ユーザ履歴記憶部に記憶されているユーザ履歴意味ベクトルであって、前記入力されたユーザ識別情報に該当するユーザ履歴意味ベクトルを、前記ユーザ選択ネットワーク識別情報に対応するネットワーク識別情報意味ベクトルに基づいて更新するユーザ選択学習部、を有することを特徴とする請求項1から請求項15に記載の検索装置である。
請求項17に記載の発明は、前記ユーザ選択学習部が、前記入力されたユーザ選択ネットワーク識別情報に該当するネットワーク識別情報意味ベクトルを前記ネットワーク識別情報意味ベクトル記憶部から読み出すユーザ選択ネットワーク識別情報意味ベクトル取得部と、前記入力されたユーザ識別情報に該当するユーザ履歴意味ベクトルを前記ユーザ履歴記憶部から読み出すユーザ選択ユーザベクトル取得部と、前記ユーザ選択ネットワーク識別情報意味ベクトル取得部が読み出したネットワーク識別情報意味ベクトルと、前記ユーザ選択ユーザベクトル取得部が読み出したユーザ履歴意味ベクトルとを加算してユーザ選択更新用意味ベクトルを算出するユーザ選択ユーザベクトル算出部と、前記ユーザ履歴記憶部に記憶されているユーザ履歴意味ベクトルであって、前記入力されたユーザ識別情報に該当するユーザ履歴意味ベクトルを、前記ユーザ選択ユーザベクトル算出部が算出したユーザ選択更新用意味ベクトルに更新するユーザ選択ユーザベクトル更新部と、を有することを特徴とする請求項16に記載の検索装置である。
請求項18に記載の発明は、前記ユーザ選択ユーザベクトル算出部が、前記ユーザ選択ネットワーク識別情報意味ベクトル取得部が読み出したネットワーク識別情報意味ベクトルと、前記ユーザ選択ユーザベクトル取得部が読み出したユーザ履歴意味ベクトルとを加算する場合に、それぞれのベクトルに予め定められた重みを乗じて加算して前記ユーザ選択更新用意味ベクトルを算出する、ことを特徴とする請求項17に記載の検索装置である。
請求項19に記載の発明は、前記検索装置が、前記ユーザ選択ネットワーク識別情報と前記ユーザ識別情報とが関連付けて記憶されているユーザ選択ネットワーク識別情報記憶部、を有し、前記ユーザ選択学習部が、前記ユーザ選択ネットワーク識別情報と前記ユーザ識別情報とを前記ユーザ選択ネットワーク識別情報記憶部から読み出すことにより、前記ユーザ選択ネットワーク識別情報と前記ユーザ識別情報とが関連付けて入力される、ことを特徴とする請求項16から請求項18に記載の検索装置である。
請求項20に記載の発明は、前記ユーザ選択ネットワーク識別情報記憶部には、前記ユーザ選択ネットワーク識別情報の履歴と前記ユーザ識別情報とが関連付けて記憶されており、前記ユーザ選択学習部は、前記ユーザ選択ネットワーク識別情報記憶部からユーザ選択ネットワーク識別情報の履歴とユーザ識別情報とを読み出し、前記ユーザ選択ネットワーク識別情報意味ベクトル取得部は、前記読み出したユーザ選択ネットワーク識別情報の履歴に該当するそれぞれのネットワーク識別情報意味ベクトルを前記ネットワーク識別情報意味ベクトル記憶部から読み出し、前記ユーザ選択ユーザベクトル算出部は、前記ユーザ選択ネットワーク識別情報意味ベクトル取得部が読み出したそれぞれのネットワーク識別情報意味ベクトルと、前記ユーザ選択ユーザベクトル取得部が読み出したユーザ履歴意味ベクトルとを加算してユーザ選択更新用意味ベクトルを算出する、ことを特徴とする請求項19に記載の検索装置である。
請求項21に記載の発明は、前記ユーザ選択ユーザベクトル算出部は、前記ユーザ選択ネットワーク識別情報意味ベクトル取得部が読み出したそれぞれのネットワーク識別情報意味ベクトルと、前記ユーザ選択ユーザベクトル取得部が読み出したユーザ履歴意味ベクトルとを加算してユーザ選択更新用意味ベクトルを算出する場合に、前記ユーザ選択ネットワーク識別情報意味ベクトル取得部が読み出したそれぞれのネットワーク識別情報意味ベクトルと、前記ユーザ選択ユーザベクトル取得部が読み出したユーザ履歴意味ベクトルとについて、それぞれのベクトルに予め定められた重みを乗じて加算して前記ユーザ選択更新用意味ベクトルを算出する、ことを特徴とする請求項20に記載の検索装置である。
請求項22に記載の発明は、前記検索装置が、前記ユーザ選択ネットワーク識別情報と前記ユーザ識別情報とが入力され、該入力されたユーザ選択ネットワーク識別情報とユーザ識別情報とを関連付けて前記ユーザ選択ネットワーク識別情報記憶部に記憶させるログ集計部、を有することを特徴とする請求項20または請求項21に記載の検索装置である。
請求項23に記載の発明は、ユーザ識別情報とともに検索文が入力される検索条件入力手順と、前記検索条件入力手順で入力された検索文を、前記意味ベクトル空間における意味ベクトルとしての検索文意味ベクトルに変換するキーワード解析手順と、前記検索条件入力手順で入力されたユーザ識別情報に該当するユーザ履歴意味ベクトルを、ユーザを識別するユーザ識別情報と該ユーザが入力したキーワードに対応するキーワード意味ベクトルの履歴であるユーザ履歴意味ベクトルとが関連付けて記憶されているユーザ履歴記憶部から読み出し、該読み出したユーザ履歴意味ベクトルと前記キーワード解析手順で変換した検索文意味ベクトルとに基づいて、ネットワーク上の情報資源を識別するネットワーク識別情報と該ネットワーク識別情報により識別される情報資源に対応する意味ベクトル空間における意味ベクトルであるネットワーク識別情報意味ベクトルとが関連付けて予め記憶されているネットワーク識別情報意味ベクトル記憶部から、ネットワーク識別情報とネットワーク識別情報意味ベクトルとを抽出するマッチング処理手順と、前記マッチング処理手順で抽出したネットワーク識別情報意味ベクトルと、前記ユーザ履歴意味ベクトルと検索文意味ベクトルとに基づいて、前記マッチング処理手順で抽出したネットワーク識別情報を並び替えるソーティング処理手順と、前記ソーティング処理手順で並び替えたネットワーク識別情報を出力する検索結果出力手順と、を有することを特徴とする検索方法である。
請求項24に記載の発明は、検索装置としてのコンピュータに、ユーザ識別情報とともに検索文が入力される検索条件入力手順と、前記検索条件入力手順で入力された検索文を、前記意味ベクトル空間における意味ベクトルとしての検索文意味ベクトルに変換するキーワード解析手順と、前記検索条件入力手順で入力されたユーザ識別情報に該当するユーザ履歴意味ベクトルを、ユーザを識別するユーザ識別情報と該ユーザが入力したキーワードに対応するキーワード意味ベクトルの履歴であるユーザ履歴意味ベクトルとが関連付けて記憶されているユーザ履歴記憶部から読み出し、該読み出したユーザ履歴意味ベクトルと前記キーワード解析手順で変換した検索文意味ベクトルとに基づいて、ネットワーク上の情報資源を識別するネットワーク識別情報と該ネットワーク識別情報により識別される情報資源に対応する意味ベクトル空間における意味ベクトルであるネットワーク識別情報意味ベクトルとが関連付けて予め記憶されているネットワーク識別情報意味ベクトル記憶部から、ネットワーク識別情報とネットワーク識別情報意味ベクトルとを抽出するマッチング処理手順と、前記マッチング処理手順で抽出したネットワーク識別情報意味ベクトルと、前記ユーザ履歴意味ベクトルと検索文意味ベクトルとに基づいて、前記マッチング処理手順で抽出したネットワーク識別情報を並び替えるソーティング処理手順と、前記ソーティング処理手順で並び替えたネットワーク識別情報を出力する検索結果出力手順と、を実行させるための検索プログラムである。
請求項25に記載の発明は、検索装置としてのコンピュータに、ユーザ識別情報とともに検索文が入力される検索条件入力手順と、前記検索条件入力手順で入力された検索文を、前記意味ベクトル空間における意味ベクトルとしての検索文意味ベクトルに変換するキーワード解析手順と、前記検索条件入力手順で入力されたユーザ識別情報に該当するユーザ履歴意味ベクトルを、ユーザを識別するユーザ識別情報と該ユーザが入力したキーワードに対応するキーワード意味ベクトルの履歴であるユーザ履歴意味ベクトルとが関連付けて記憶されているユーザ履歴記憶部から読み出し、該読み出したユーザ履歴意味ベクトルと前記キーワード解析手順で変換した検索文意味ベクトルとに基づいて、ネットワーク上の情報資源を識別するネットワーク識別情報と該ネットワーク識別情報により識別される情報資源に対応する意味ベクトル空間における意味ベクトルであるネットワーク識別情報意味ベクトルとが関連付けて予め記憶されているネットワーク識別情報意味ベクトル記憶部から、ネットワーク識別情報とネットワーク識別情報意味ベクトルとを抽出するマッチング処理手順と、前記マッチング処理手順で抽出したネットワーク識別情報意味ベクトルと、前記ユーザ履歴意味ベクトルと検索文意味ベクトルとに基づいて、前記マッチング処理手順で抽出したネットワーク識別情報を並び替えるソーティング処理手順と、前記ソーティング処理手順で並び替えたネットワーク識別情報を出力する検索結果出力手順と、を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体である。
この発明によれば、検索対象となるURLなどのネットワーク上の情報資源を意味ベクトルとして予め記憶しておくとともに、ユーザプロファイルに相当するユーザの検索履歴を意味ベクトルとして記憶しておき、ユーザが入力した検索文を意味ベクトルに変換し、ユーザが入力した検索文とユーザの検索履歴とに基づいて情報資源を抽出することにより、ユーザプロファイルが検索結果に反映されるまでの時間を短縮化するとともに、各ユーザの興味・嗜好を高精度に反映させた検索結果を配信することが可能となる効果を奏する。
以下、図面を参照して、本発明の実施の形態について説明する。図1は、この発明の一実施形態による検索装置1の構成を示す概略ブロック図である。検索装置1は、外部DB(データベース)7、外部コンテンツDB8、および、端末9のそれぞれに、ネットワークを介して接続される。この端末9とは、ユーザが用いる端末であり、たとえば、パーソナルコンピュータである。また、ネットワークとは、たとえば、インターネット網である。なお、以降の図において、対応する部分には同一の符号を付けて説明する。
外部ログDB7は、アクセスログ記憶部71、検索ログ記憶部72を有する。アクセスログ記憶部71には、たとえば、ユーザが端末9を用いてアクセスしたURL(ネットワーク識別情報)のログが記憶されている。検索ログ記憶部72には、たとえば、ユーザが端末9を用いて情報を検索する場合に入力した検索キーワードなどのログが記憶されている。なお、ここでいうユーザおよび端末9とは、複数のユーザおよびそのユーザの端末である。
外部コンテンツDB8は、クロールデータ記憶部81、ブログ記憶部82、百科事典記憶部83を有する。クロールデータ記憶部81には、たとえば、ロボットによるWeb(World Wide Web)の情報収集行動(クロール)により収集されたクロール情報が記憶されている。ブログ記憶部82には、たとえば、ブログのURL、タイトル、文章情報などが記憶されている。百科事典記憶部83には、たとえば、Wikipediaが適用でき、Wikipediaを適用した場合には、WikipediaのURL、タイトル、文章情報が記憶されている。
<検索装置1の概略構成>
次に、検索装置1の概略構成について説明する。検索装置1は、ログ解析部2、パーソナライズド検索部3、および、ブラウザ部4を有する。
検索装置1のログ解析部2は、外部ログDB7および外部コンテンツDB8から、ログを集計するとともに特徴量を抽出し、特徴量抽出結果DB23に記録させる。
検索装置1のパーソナライズド検索部3は、特徴量抽出結果DB23に記録されている情報に基づいて、ユーザが用いる端末9からの検索文に対する検索結果を、ユーザが用いる端末9にHTML(Hyper Text Markup Language)形式で返信する。
また、検索装置1のパーソナライズド検索部3は、ブラウザ部4を介して、ユーザが用いる端末9に検索入力画面および検索結果画面をHTML形式で出力する。
ログ解析部2は、ログ集計部21、特徴量抽出部22、特徴量抽出結果DB23を有する。この特徴量抽出結果DB23は、テキストマイニングベース記憶部231、アルゴリズムベース記憶部232、ルールベース記憶部233を有する。
なお、このテキストマイニングベース記憶部231は、後述する第1のテキストマイニングベース記憶部222、第2のテキストマイニングベース記憶部223に相当する。
検索装置1のログ解析部2とパーソナライズド検索部3との詳細については、図2から図5を用いて後述する。
<ログ解析部2の概略構成>
次に、図2を用いて、ログ解析部2の構成について説明する。ログ解析部2は、ログ集計部21、特徴量抽出部22、生ログDB24、特徴量抽出結果DB23、および、各種閲覧・設定用GUI部25を有する。
ログ集計部21は、外部ログDB7からログ(logs)を読み出して収集し、収集したログを、ログパーサー部211によりログを解析し、更に、マージ・集計処理部212によりマージおよび集計処理し、マージおよび集計処理したログを、生ログDB24のログDB241に、記録する。
特徴量抽出部22は、第1のテキストマイニングベース部222、第2のテキストマイニングベース部223、アルゴリズムベース部224、および、テキスト取得部221を有する。
第1のテキストマイニングベース部222は、テキスト取得部221を介して外部コンテンツDB8からURL情報およびテキスト情報(Text情報)を取得し、たとえば、テキストセグメント技術により、URLとネットワーク識別情報意味ベクトル(URL_vec)との組みを生成し、生成したURLとネットワーク識別情報意味ベクトルとの組みをネットワーク識別情報意味ベクトル記憶部11に記憶させる。
なお、第1のテキストマイニングベース部222は、テキストセグメント技術により、後述するセグメント位置(pos)を生成し、URLとセグメント位置とネットワーク識別情報意味ベクトルとを関連付けて、ネットワーク識別情報意味ベクトル記憶部11に記憶させてもよい。
なお、上記のテキストセグメント技術は、たとえば、次に示す文献により知られている。
・文献1:特許第003925418号公報「トピック境界決定装置及びプログラム」
・文献2:特開2005-122510号公報「話題構造抽出方法及び装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体」
第2のテキストマイニングベース部223は、テキスト取得部221を介して外部コンテンツDB8からタイトル情報(Title情報)およびテキスト情報を取得し、たとえば、概念検索技術により、キーワード(keyword)とキーワード意味ベクトル(key_vec)との組みを生成し、生成したキーワードとキーワード意味ベクトルとの組みをキーワード意味ベクトル記憶部12に記憶させる。
なお、上記の概念検索技術は、たとえば、次に示す文献により知られている。
・文献3:特開2007-072610号公報「情報処理方法及び装置及びプログラム」
・文献4:特開2007-317132号公報「概念ベクトル推定方法及び装置及びプログラム」
・文献5:「単語・意味属性間共起に基づく概念ベースの拡張方式」、別所克人,内山俊郎,片岡良治、情処研報, vol.2006-ICS-144, pp.29-34, Jul. 2006.
アルゴリズムベース部224は、生ログDB24からマージ・集計処理したログを読み出し、読み出したマージ・集計処理したログに基づいて、たとえば、関連情報抽出技術により、キーワードと関連キーワード(keylist)との組みを生成し、生成したキーワードと関連キーワードとの組みを関連キーワード記憶部13に記憶させる。なお、この関連キーワードとは、複数のキーワード(単語など)であり、関連語である。
各種閲覧・設定用GUI部25は、たとえば、ログ解析部2を管理するユーザが用いる端末に対して、ログ集計部21、特徴量抽出部22、生ログDB24、および、特徴量抽出結果DB23の各種の情報を閲覧させるとともに、設定用のGUIを表示し、該設定用のGUIに入力された設定情報に基づいて、ログ集計部21、特徴量抽出部22、生ログDB24、および、特徴量抽出結果DB23の設定をする。
<ベクトルの次元>
上記に説明したネットワーク識別情報意味ベクトル記憶部11に記憶されているネットワーク識別情報意味ベクトル、キーワード意味ベクトル記憶部12に記憶されているキーワード意味ベクトル、後述するユーザDB(ユーザ履歴記憶部)14に記憶されているユーザ履歴意味ベクトル(user_vec)、後述するQuery_vector算出部332が算出するクエリベクトル(query_vec)、および、後述する学習部34のUser_vector算出部342が算出する更新用意味ベクトル(user_vec_new)は、全て同じ意味ベクトル空間におけるベクトルであり、同じ次元のベクトルである。そのため、ベクトル同士の内積などの演算、加算などの処理が可能となる。また、ベクトルをハッシュ演算した値による比較も可能となる。なお、これらのベクトルの次元の値は、たとえば、数百次元である。
上述したログ解析部2は、数時間毎、一日毎などの一定の期間毎に、上記に説明したログ集計部21、および、特徴量抽出部22にその処理を実行させる。これにより、検索装置1により検索が実行される場合には、ログ解析部2の特徴量抽出結果DB23の各記憶部には、次の情報が予め記憶されている。
ネットワーク識別情報意味ベクトル記憶部11には、ネットワーク上の情報資源を識別するネットワーク識別情報と、該ネットワーク識別情報により識別される情報資源に対応する意味ベクトル空間における意味ベクトルであるネットワーク識別情報意味ベクトルとが関連付けて予め記憶されている。
また、ネットワーク識別情報意味ベクトル記憶部11には、ネットワーク識別情報と、ネットワーク識別情報意味ベクトルと、ネットワーク識別情報意味ベクトルに対するハッシュ値とが関連付けて記憶されている。このハッシュ値については、後述する。
キーワード意味ベクトル記憶部12には、キーワードと該キーワードに対応する意味ベクトル空間におけるベクトルであるキーワード意味ベクトルとが関連付けて予め記憶されている。
関連キーワード記憶部13には、キーワードと該キーワードに対応する関連キーワードとが関連付けて予め記憶されている。
<パーソナライズド検索部3の構成>
次に、図3を用いて、パーソナライズド検索部3の構成について説明する。パーソナライズド検索部3は、検索条件入力部31、キーワード解析部32、マッチング処理部33、学習部34、ソーティング処理部35、関連キーワード検出部36、検索結果出力部37、および、ユーザDB14を有する。
ユーザDB14には、ユーザを識別するユーザ識別情報(UserID)と、該ユーザが入力したキーワードに対応するキーワード意味ベクトルの履歴であるユーザ履歴意味ベクトルとが関連付けて記憶されている。
検索条件入力部31には、ユーザ識別情報とともに検索文が、ユーザの端末9からネットワークを介して入力される。
キーワード解析部32は、検索条件入力部31に入力された検索文を、意味ベクトル空間における意味ベクトルとしての検索文意味ベクトルに変換する。このキーワード解析部32は、検索条件入力部31に入力された検索文に基づいて、キーワード意味ベクトルをキーワード意味ベクトル記憶部12から読み出すことにより、当該検索文を意味ベクトル空間における意味ベクトルとしての検索文意味ベクトルに変換する。
また、このキーワード解析部32は、検索条件入力部31から入力された検索文を自然言語処理してキーワードを抽出し、該抽出したキーワードに該当するキーワード意味ベクトルをキーワード意味ベクトル記憶部12から読み出すことにより、当該検索文を意味ベクトル空間における意味ベクトルとしての検索文意味ベクトルに変換する。
マッチング処理部33は、検索条件入力部31に入力されたユーザ識別情報に該当するユーザ履歴意味ベクトルをユーザDB14から読み出し、該読み出したユーザ履歴意味ベクトルとキーワード解析部32が変換した検索文意味ベクトルとに基づいて、ネットワーク識別情報とネットワーク識別情報意味ベクトルとをネットワーク識別情報意味ベクトル記憶部11から抽出する。
このマッチング処理部33は、ユーザベクトル取得部(User_vector取得部)331と、クエリベクトル算出部(Query_vector算出部)332と、候補抽出部333とを有する。ユーザベクトル取得部331は、検索条件入力部31に入力されたユーザ識別情報に該当するユーザ履歴意味ベクトルをユーザDB14から読み出す。クエリベクトル算出部332は、キーワード解析部32が変換した検索文意味ベクトルとユーザベクトル取得部331が読み出したユーザ履歴意味ベクトルとに基づいてクエリベクトルを算出する。
候補抽出部333は、クエリベクトル算出部332が算出したクエリベクトルに基づいて、ネットワーク識別情報とネットワーク識別情報意味ベクトルとを組みとした複数の候補をネットワーク識別情報意味ベクトル記憶部11から抽出する。
この候補抽出部333は、LSH部(ハッシュ算出部)334と、LSH問合わせおよびURL群取得部(抽出部)335と、を有する。このLSH部334は、Locality-Sensitive Hashing(LSH)技術を用いており、詳細については、後述する。LSH部334は、クエリベクトル算出部332が算出したクエリベクトルに対するハッシュ値を算出する。LSH問合わせおよびURL群取得部335は、LSH部334が算出したハッシュ値に基づいて、ネットワーク識別情報とネットワーク識別情報意味ベクトルとを組みとした複数の候補をネットワーク識別情報意味ベクトル記憶部11から抽出する。
なお、ここでは、マッチング処理部33の候補抽出部333は、Locality-Sensitive Hashing技術を用いて、ハッシュ値(hash値)に該当するURLとネットワーク識別情報意味ベクトルとの複数の組みを、ネットワーク識別情報意味ベクトル記憶部11から読み出している。このLocality-Sensitive Hashing技術については、たとえば、次の文献に示されている。
・文献6:「Locality-Sensitive Hashingを用いた階層的クラスタ解析手法の高速化」、石橋 徹夫、古賀 久志、渡辺 俊典、菅原 研、電気通信大学 大学院 情報システム学研究科
このように、マッチング処理部33のLSH問合せおよびURL群取得部335が、マッチング処理部33のLSH部334が算出したハッシュ値に該当するURLとネットワーク識別情報意味ベクトルとの複数の組みを検索結果候補URLとして、ネットワーク識別情報意味ベクトル記憶部11から読み出して取得する。
ここで、マッチング処理部33のLSH問合せおよびURL群取得部335が、ハッシュ値によりネットワーク識別情報意味ベクトル記憶部11から読み出すため、URLとネットワーク識別情報意味ベクトルとを高速に検索することが可能となる。特に、クエリベクトルおよびネットワーク識別情報意味ベクトルのベクトルの次元が、高次元となる場合に、クエリベクトルに該当するネットワーク識別情報意味ベクトルを検索すると非常に遅くなるが、本実施形態のように、このハッシュ値による読み出しをすることにより、高次元となる場合においても、検索が高速となる効果を奏する。
一般に、ベクトルの次元数が20次元程度以上になると、検索に要する時間が非常に長くなる。特に、本実施形態のように、数百次元となる場合には、検索に要する時間が非常に長くなる。この場合においても、上記に説明したようにハッシュ値を用いた検索をすることにより、検索に要する時間を短くすることが可能である。
なお、ハッシュ値を用いる検索以外の検索方法として、SR-Treeを用いて検索とすることも可能である。なお、このSR-Treeについては、たとえば、次に示す文献により知られている。
・文献7:「SR-Tree: 高次元点データに対する最近接検索のためのインデックス構造の提案」、片山紀生、佐藤真一、電子情報通信学会論文誌 D-I, vol. J80-D-I, no. 8 (Aug. 1997) pp. 703-717.
学習部34は、ユーザDB14に記憶されているユーザ履歴意味ベクトルであって、検索条件入力部31に入力されたユーザ識別情報に該当するユーザ履歴意味ベクトルを、キーワード解析部32が変換した検索文意味ベクトルに基づいて更新する。
この学習部34は、ユーザベクトル取得部(User_vector取得部)331と、ユーザベクトル算出部(User_vector算出部)342と、ユーザベクトル更新部(ユーザvec更新部)343とを有する。ユーザベクトル取得部331は、検索条件入力部31に入力されたユーザ識別情報に該当するユーザ履歴意味ベクトルをユーザDB14から読み出す。
ユーザベクトル算出部342は、キーワード解析部32が変換した検索文意味ベクトルと、ユーザベクトル取得部331が読み出したユーザ履歴意味ベクトルとを加算して更新用意味ベクトルを算出する。なお、このユーザベクトル算出部342は、キーワード解析部32が変換した検索文意味ベクトルと、ユーザベクトル取得部331が読み出したユーザ履歴意味ベクトルとを加算する場合に、それぞれのベクトルに予め定められた重みを乗じて加算して更新用意味ベクトルを算出する。ユーザベクトル算出部342は、たとえば、次の式により、更新用意味ベクトルを算出する。
user_vec_new=γ×user_vec+α×key_vec(ここで、γとαは任意の実数)
ユーザベクトル更新部343は、ユーザDB14に記憶されているユーザ履歴意味ベクトルであって、検索条件入力部31に入力されたユーザ識別情報に該当するユーザ履歴意味ベクトルを、ユーザベクトル算出部342が算出した更新用意味ベクトルに更新する。
ソーティング処理部35は、マッチング処理部33が抽出したネットワーク識別情報意味ベクトルと、ユーザ履歴意味ベクトルと検索文意味ベクトルとに基づいて、マッチング処理部33が抽出したネットワーク識別情報を並び替える。
このソーティング処理部35は、内積算出部(近似度算出部)351と、URLリストソーティング処理部352と、URLタイトル/要約文取得部353と、を有する。内積算出部351は、マッチング処理部33が抽出したネットワーク識別情報意味ベクトルと、クエリベクトル算出部332が算出したクエリベクトルとの近似度を算出する。URLリストソーティング処理部352は、近似度算出部351が算出した近似度に基づいて、ネットワーク識別情報を並び替える。
たとえば、内積算出部351が、ネットワーク識別情報意味ベクトルとクエリベクトルとの内積を近似度として算出し、URLリストソーティング処理部352が、内積算出部351が算出した近似度としての内積の値が大きい順に、ネットワーク識別情報を並び替える。
また、たとえば、内積算出部351が、ネットワーク識別情報意味ベクトルとクエリベクトルとの間の角度を近似度として算出し、URLリストソーティング処理部352が、内積算出部351が算出した近似度としての角度の値が小さい順に、ネットワーク識別情報を並び替える。
URLタイトル/要約文取得部353は、URLリストソーティング処理部352の並び替えたネットワーク識別情報に対応するURLタイトルおよび要約文を取得する。たとえば、URLタイトル/要約文取得部353は、URLリストソーティング処理部352の並び替えたネットワーク識別情報に対応するURLタイトルおよび要約文を、外部コンテンツDB8から読み出し、並び替えた順にネットワーク識別情報とともに、対応するURLタイトルおよび要約文を検索結果出力部37に出力する。
関連キーワード検出部36は、検索条件入力部31に入力された検索文に基づいて、関連キーワードを関連キーワード記憶部13から読み出し、該読み出した関連キーワードを検索結果出力部37へ出力する。
たとえば、この関連キーワード検出部36は、キーワード解析部32での自然言語処理により、検索条件入力部31に入力された検索文から抽出したキーワードに該当する関連キーワードを、関連キーワード記憶部13から読み出し、該読み出した関連キーワードを検索結果出力部37へ出力する。
検索結果出力部37は、ソーティング処理部35が並び替えたネットワーク識別情報を、ユーザの端末9へネットワークを介して出力する。また、検索結果出力部37は、URLタイトル/要約文取得部353が取得したURLタイトルおよび要約文を、ユーザの端末9へネットワークを介して出力する。また、検索結果出力部37は、関連キーワード検出部36が読み出した関連キーワードを出力する。なお、検索結果出力部37は、ネットワーク識別情報、URLタイトルおよび要約文、および、関連キーワードを、予め定められた書式で、HTML形式に変換して、検索結果として端末9にネットワークを介して出力する。
なお、上記に説明した検索条件入力部31および検索結果出力部37は、図1のブラウザ部4に含まれる構成としてもよい。
<パーソナライズド検索部3の動作>
次に、図4と図5とを用いて、ユーザが端末9に入力した検索キーワードがネットワークを介して検索装置1に入力された場合に、この検索装置1のパーソナライズド検索部3が、入力された検索キーワードについてURLなどのネットワーク識別情報を検索する場合の動作について説明する。
<前提>
なお、このパーソナライズド検索部3のユーザDB14には、ユーザの検索キーワードの履歴が記録されているものとして説明する。
また、ユーザの端末9には、少なくともユーザ識別情報(UserID)を含む情報が、たとえばCookieとして予め記憶されており、ユーザの端末9は、入力された検索キーワードとCookieに含まれるユーザ識別情報とを、ネットワークを介して検索装置1に送信するものとして説明する。
また、ここで端末9に入力される検索キーワードとは、自然言語で記述された文章としての検索キーワードでもよいし、1つまたは複数の単語が記述された検索キーワードであってもよい。
また、ネットワーク識別情報意味ベクトル記憶部11に記憶されている情報については、たとえば、後述するLSH部334により、バッチ処理として実行されてハッシュ化されており、ネットワーク識別情報意味ベクトル記憶部11には、URLとネットワーク識別情報意味ベクトルとセグメント位置とハッシュ値とが関連付けて記憶されているものとする。
<検索条件入力部31の動作>
まず、検索条件入力部31が、端末9から検索文とユーザ識別情報とをネットワークを介して受信し、受信した検索キーワードとユーザ識別情報とをキーワード解析部32に出力する(ステップS311)。この検索文は、自然言語で記述された文章であってもよいし、複数の単語であってもよい。
<キーワード解析部32の動作>
次に、キーワード解析部32が、検索条件入力部31から入力された検索文について、形態素解析などの自然言語処理により品詞を判別し(ステップS321)、1つまたは複数のキーワード(keywords)として算出する(ステップS322)。
次に、キーワード解析部32が、算出したキーワードを関連キーワード検出部36に出力する(ステップS323)とともに、算出したキーワードに該当するキーワード意味ベクトルを、キーワード意味ベクトル記憶部12から読み出す(ステップS324)。
次に、キーワード解析部32が、入力されたユーザ識別情報と読み出したキーワード意味ベクトルとを、マッチング処理部33と学習部34とに出力する。
<マッチング処理部33の動作>
次に、マッチング処理部33のUser_vector取得部331が、キーワード解析部32からユーザ識別情報とキーワード意味ベクトルとを入力された(ステップS331)ことに応じて、入力されたユーザ識別情報に該当するユーザ履歴意味ベクトルをユーザDB14から読み出し(ステップS332)、読み出したユーザ履歴意味ベクトルをマッチング処理部33のQuery_vector算出部332に出力する(ステップS333)。
次に、マッチング処理部33のQuery_vector算出部332が、キーワード解析部32から入力されたキーワード意味ベクトルと、マッチング処理部33のUser_vector取得部331が読み出したユーザ履歴意味ベクトルとを加算してクエリベクトルを算出し(ステップS334)、算出したクエリベクトルをマッチング処理部33のLSH部334に出力する(ステップS335)。
次に、マッチング処理部33のLSH部334が、入力されたクエリベクトルに対してハッシュ演算し、クエリベクトルのハッシュ値を算出し(ステップS336)、クエリベクトルハッシュ値(query_vecハッシュ値)として、マッチング処理部33のLSH問合せおよびURL群取得部335に出力する(ステップS337)。
次に、マッチング処理部33のLSH問合せおよびURL群取得部335が、マッチング処理部33のLSH部334が算出したクエリベクトルハッシュ値に該当するURLとネットワーク識別情報意味ベクトルとの複数の組みを検索結果候補URLとして、ネットワーク識別情報意味ベクトル記憶部11から読み出して取得し(ステップS338)、取得した検索結果候補URL、および、マッチング処理部33のQuery_vector算出部332が算出したクエリベクトルを、ソーティング処理部に出力する(ステップS339、ステップS3310)。
<学習部34の動作>
次に、学習部34のUser_vector取得部341が、キーワード解析部32からユーザ識別情報とキーワード意味ベクトルとを入力された(ステップS341)ことに応じて、入力されたユーザ識別情報に該当するユーザ履歴意味ベクトルをユーザDB14から読み出し(ステップS342)、読み出したユーザ履歴意味ベクトルを学習部34のUser_vector算出部342に出力する(ステップS343)。
次に、学習部34のUser_vector算出部342が、キーワード解析部32から入力されたキーワード意味ベクトルと、学習部34のUser_vector取得部341が読み出したユーザ履歴意味ベクトルとを加算して、更新用意味ベクトルを算出し、算出した更新用意味ベクトルを学習部34のユーザvec更新部に出力する(ステップS344)。
次に、学習部34のユーザvec更新部343が、キーワード解析部32から入力されたユーザ識別情報にユーザDB14に記憶されているユーザ識別情報が該当するユーザ履歴意味ベクトルを、学習部34のUser_vector算出部342から入力された更新用意味ベクトルに更新する(ステップS345)。
<ソーティング処理部35の動作>
次に、ソーティング処理部35の内積算出部351が、検索結果候補URLであるURLとネットワーク識別情報意味ベクトルとの複数の組み、および、クエリベクトルをマッチング処理部33から入力されたことに応じて、入力された複数のネットワーク識別情報意味ベクトルのそれぞれに対して、入力されたクエリベクトルとの内積を算出し(ステップS351)、算出した内積とURLとの組みを、ソーティング処理部35のURLリストソーティング処理部352に出力する(ステップS352)。
次に、ソーティング処理部35のURLリストソーティング処理部352が、ソーティング処理部35の内積算出部351から入力された内積の値に基づいて、たとえば、内積の値が大きい順に、URLをソートし、ソーティング処理部35のURLタイトル/要約文取得部353に出力する(ステップS353)。
次に、ソーティング処理部35のURLタイトル/要約文取得部353が、入力されたURLに該当するURLタイトルや要約文を、外部コンテンツDB8から読み出して取得し、ソートされたURLの順に、URL、および、取得したURLタイトルや要約文を検索結果出力部37に出力する。
<関連キーワード検出部36の動作>
次に、関連キーワード検出部36が、キーワード解析部32からキーワードが入力されたことに応じて、入力されたキーワードに該当する関連キーワードを関連キーワード記憶部から読み出し(ステップS361)、読み出した関連キーワードを検索結果出力部37に出力する(ステップS362)。
<検索結果出力部37の動作>
次に、検索結果出力部37は、ソートされたURLの順に、URL、および、URLタイトルや要約文がソーティング処理部35から入力され、関連キーワードが関連キーワード検出部36から入力されたことに応じて、入力されたURLタイトルや要約文をURLの順に表示するとともに、入力された関連キーワードを表示するHTMLを生成し、生成したHTMLをユーザの端末9に検索結果として出力する(ステップS371)。
<バリエーション>
次に、上記に説明した実施形態におけるバリエーションについて説明する。
<Query_vector算出部332での重み付け>
マッチング処理部33のQuery_vector算出部332が、キーワード解析部32から入力されたキーワード意味ベクトルと、マッチング処理部33のUser_vector取得部331が読み出したユーザ履歴意味ベクトルとを加算してクエリベクトルを算出する場合に、キーワード意味ベクトルとユーザ履歴意味ベクトルとにそれぞれ重み付けをして加算してもよい。たとえば、次の式により、クエリベクトルを算出する。
query_vec=p×key_vec+q×user_vec(ここで、pとqは任意の実数)
このpの値(キーワード意味ベクトルの重み)をqの値(ユーザ履歴意味ベクトルの重み)に対して大きくした場合には、今回入力された検索文(キーワード意味ベクトル)に重点を置いて、検索することが可能となる。
逆に、このpの値をqの値に対して小さくした場合には、ユーザの過去の検索履歴(ユーザ履歴意味ベクトル)、つまり、ユーザの嗜好を強く反映させて、検索することが可能となる。
以上のように、pの値とqの値とを調整することにより、ユーザの嗜好の反映具合を調整することが可能である。
<ソーティング処理部35の別動作(角度によるソーティング)>
ソーティング処理部35は、次のように動作してもよい。
ソーティング処理部35の内積算出部351が、検索結果候補URLであるURLとネットワーク識別情報意味ベクトルとの複数の組み、および、クエリベクトルをマッチング処理部33から入力されたことに応じて、入力された複数のネットワーク識別情報意味ベクトルのそれぞれと入力されたクエリベクトルとの間の角度をそれぞれを算出し、算出した角度とURLとの組みを、ソーティング処理部35のURLリストソーティング処理部352に出力する。
次に、ソーティング処理部35のURLリストソーティング処理部352が、ソーティング処理部35の内積算出部351から入力された角度の値に基づいて、たとえば、角度の値が小さい順に、URLをソートし、ソーティング処理部35のURLタイトル/要約文取得部353に出力する。
以上のように内積ではなく、角度に基づいてソーティングする場合においても、内積の場合と同様に、クエリベクトルに似ている順(意味ベクトル空間においてベクトルが近い順)にネットワーク識別情報意味ベクトルをソーティングすることが可能である。
<セグメント化したURLの検索>
URLをテキストセグメント化する技術を用いてセグメント化しておき、セグメント化したURLを検索するようにしてもよい。このセグメント化したURLとは、たとえば、ブログを例にすると、1つのURLで示されるホームページにおいて、日付毎またはタイトル毎に複数のブログが記述してある。この場合、たとえば、このブログを、日付毎またはタイトル毎に1つ1つに分割することがセグメント化である。
このように、1つのURLを複数のブロック(上記においては、ブログ単位)で分割し、その分割されたURLにおける位置を示す情報がセグメント位置である。
<セグメント化したURLの検索する場合の変更点>
セグメント化したURLの検索する場合、検索装置1を次のように構成する。なお、他の構成については同様であるため、ここでは、変更する構成のみついて説明する。
<ログ解析部2の第1のテキストマイニングベース部221>
ログ解析部2の第1のテキストマイニングベース部221が、テキスト取得部221を介して外部コンテンツDB8からURLおよびText情報を取得し、たとえば、テキストセグメント技術により、URLとネットワーク識別情報意味ベクトルとセグメント位置との組みを生成し、生成したURLとネットワーク識別情報意味ベクトルとセグメント位置との組みをネットワーク識別情報意味ベクトル記憶部11に記憶させる。
<マッチング処理部33のLSH問合せおよびURL群取得部335>
マッチング処理部33のLSH問合せおよびURL群取得部335が、マッチング処理部33のLSH部334が算出したハッシュ値に該当するURLとネットワーク識別情報意味ベクトルとセグメント位置との複数の組みを検索結果候補URLとして、ネットワーク識別情報意味ベクトル記憶部11から読み出して取得し、取得した検索結果候補URL、および、マッチング処理部33のQuery_vector算出部332が算出したクエリベクトルを、ソーティング処理部35に出力する。
以降、URLとセグメント位置とを組みとされているため、URLに対するタイトルなどを取得する場合に、更にセグメント位置に対応するようにしてタイトルなどを取得することにより、セグメント化されたURLについて、本実施形態を適応することが可能である。
上記に説明したように、本実施形態による検索装置1においては、ユーザが入力した検索キーワード、ユーザが入力した検索キーワードの履歴(ユーザの嗜好)、および、URLに含まれている情報を、意味ベクトル空間におけるベクトルとし、この意味ベクトル空間におけるベクトルにおいて、ユーザが入力した検索キーワードおよび検索キーワードの履歴に基づいてURLを検索することにより、ユーザの嗜好を迅速に反映させることが可能となり、また、検索に要する時間を短くする効果を奏する。
また、上述した本実施形態により、次のような効果を奏する。
・ユーザのPC(パーソナルコンピュータ)等によるネット利用の状況から、ユーザの嗜好等、各種属性を抽出することにより、ユーザ個別の検索結果表示やターゲティング広告、コンテンツ/商品のレコメンデーションなど、各ユーザに最適な情報を選択・配信することで、ユーザの目的情報へのアクセスを短縮化することが可能となる。
<ユーザ選択学習部>
検索装置1は、更に、ユーザ選択学習部を有する。このユーザ選択学習部は、検索結果出力部37が出力したネットワーク識別情報の中から選択されたネットワーク識別情報であるユーザ選択ネットワーク識別情報とユーザ識別情報とが関連付けて入力され、ユーザDB14に記憶されているユーザ履歴意味ベクトルであって、入力されたユーザ識別情報に該当するユーザ履歴意味ベクトルを、ユーザ選択ネットワーク識別情報に対応するネットワーク識別情報意味ベクトルに基づいて更新する。
また、検索装置1は、ユーザ選択ネットワーク識別情報とユーザ識別情報とが関連付けて記憶されているユーザ選択ネットワーク識別情報記憶部を有する。
ユーザ選択学習部は、ユーザ選択ネットワーク識別情報とユーザ識別情報とをユーザ選択ネットワーク識別情報記憶部から読み出すことにより、ユーザ選択ネットワーク識別情報とユーザ識別情報とが関連付けて入力される。
また、ユーザ選択学習部は、ユーザ選択ネットワーク識別情報とユーザ識別情報とをユーザ選択ネットワーク識別情報記憶部から、予め定められた所定の時間毎に、読み出すことにより、ユーザ選択ネットワーク識別情報とユーザ識別情報とが関連付けて入力される。この予め定められた所定の時間毎とは、たとえば、1時間毎、1日毎などである。
<ユーザ選択学習部の構成>
次に、ユーザ選択学習部の構成について説明する。このユーザ選択学習部は、ユーザ選択ネットワーク識別情報意味ベクトル取得部と、ユーザ選択ユーザベクトル取得部と、ユーザ選択ユーザベクトル算出部と、ユーザ選択ユーザベクトル更新部と、を有する。
ユーザ選択ネットワーク識別情報意味ベクトル取得部は、入力されたユーザ選択ネットワーク識別情報に該当するネットワーク識別情報意味ベクトルをネットワーク識別情報意味ベクトル記憶部1111から読み出す。ユーザ選択ユーザベクトル取得部は、入力されたユーザ識別情報に該当するユーザ履歴意味ベクトルをユーザDB14から読み出す。
ユーザ選択ユーザベクトル算出部は、ユーザ選択ネットワーク識別情報意味ベクトル取得部が読み出したネットワーク識別情報意味ベクトルと、ユーザ選択ユーザベクトル取得部が読み出したユーザ履歴意味ベクトルとを加算してユーザ選択更新用意味ベクトルを算出する。
また、ユーザ選択ユーザベクトル算出部は、ユーザ選択ネットワーク識別情報意味ベクトル取得部が読み出したネットワーク識別情報意味ベクトルと、ユーザ選択ユーザベクトル取得部が読み出したユーザ履歴意味ベクトルとを加算する場合に、それぞれのベクトルに予め定められた重みを乗じて加算してユーザ選択更新用意味ベクトルを算出する。
また、ユーザ選択ユーザベクトル更新部は、ユーザDB14に記憶されているユーザ履歴意味ベクトルであって、入力されたユーザ識別情報に該当するユーザ履歴意味ベクトルを、ユーザ選択ユーザベクトル算出部が算出したユーザ選択更新用意味ベクトルに更新する。
<ユーザ選択ネットワーク識別情報の履歴に基づいた学習>
また、ユーザ選択ネットワーク識別情報記憶部には、ユーザ選択ネットワーク識別情報の履歴とユーザ識別情報とが関連付けて記憶されている。
この場合、ユーザ選択学習部は、ユーザ選択ネットワーク識別情報記憶部からユーザ選択ネットワーク識別情報の履歴とユーザ識別情報とを読み出し、ユーザ選択ネットワーク識別情報意味ベクトル取得部は、読み出したユーザ選択ネットワーク識別情報の履歴に該当するそれぞれのネットワーク識別情報意味ベクトルをネットワーク識別情報意味ベクトル記憶部11から読み出す。
なお、ユーザ選択学習部は、ユーザ選択ネットワーク識別情報記憶部からユーザ選択ネットワーク識別情報の履歴とユーザ識別情報とを読み出す場合に、最近のユーザ選択ネットワーク識別情報の履歴とユーザ識別情報とを読み出すようにし、この読み出した最近のユーザ選択ネットワーク識別情報の履歴とユーザ識別情報とに基づいて学習するようにしてもよい。
たとえば、ユーザ選択ネットワーク識別情報記憶部には、ユーザ選択ネットワーク識別情報の履歴とユーザ識別情報とが関連付けて記憶されているが、このユーザ選択ネットワーク識別情報の履歴には、更に、年月日時間などの時刻情報が関連付けられており、ユーザ選択学習部は、現在時刻から所定の時間以内のユーザ選択ネットワーク識別情報の履歴とユーザ識別情報とを読み出すようにしてもよい。また、ユーザ選択学習部は、ユーザ選択ネットワーク識別情報の履歴とユーザ識別情報とを、新しい順に所定の数だけ読み出すようにしてもよい。
次に、ユーザ選択ユーザベクトル算出部は、ユーザ選択ネットワーク識別情報意味ベクトル取得部が読み出したそれぞれのネットワーク識別情報意味ベクトルと、ユーザ選択ユーザベクトル取得部が読み出したユーザ履歴意味ベクトルとを加算してユーザ選択更新用意味ベクトルを算出する。
また、ユーザ選択ユーザベクトル算出部は、ユーザ選択ネットワーク識別情報意味ベクトル取得部が読み出したそれぞれのネットワーク識別情報意味ベクトルと、ユーザ選択ユーザベクトル取得部が読み出したユーザ履歴意味ベクトルとを加算してユーザ選択更新用意味ベクトルを算出する場合に、ユーザ選択ネットワーク識別情報意味ベクトル取得部が読み出したそれぞれのネットワーク識別情報意味ベクトルと、ユーザ選択ユーザベクトル取得部が読み出したユーザ履歴意味ベクトルとについて、それぞれのベクトルに予め定められた重みを乗じて加算してユーザ選択更新用意味ベクトルを算出する。
たとえば、ユーザ選択ユーザベクトル算出部は、次の式により、ユーザ選択更新用意味ベクトル(user_sel_vec_new)を算出する。
user_sel_vec_new = κ×user_vec + β1×select_vec_1 + β2 × select_vec_2 +
… + βn × select_vec_n
ここで、user_vec、select_vec_1、select_vec_2、・・・select_vec_nは、ユーザ履歴意味ベクトルと、ユーザ選択ネットワーク識別情報の履歴に該当するそれぞれのネットワーク識別情報意味ベクトルであり、κ、β1、β2、・・・βnは、任意の実数であり、重みである。なお、上記のselect_vec_nおよびβnのnは、任意の自然数である。
また、検索装置1は、ユーザ選択ネットワーク識別情報とユーザ識別情報とが入力され、該入力されたユーザ選択ネットワーク識別情報とユーザ識別情報とを関連付けてユーザ選択ネットワーク識別情報記憶部に記憶させるログ集計部を有する。このログ集計部は、たとえば、図1または図2のログ集計部21である。
検索装置1は、上記に説明したユーザ選択学習部を有することにより、検索装置1が検索して端末9に出力したネットワーク識別情報の中から、ユーザが端末9を用いて選択したネットワーク識別情報に基づいて、学習することが可能となり、更に、ユーザの嗜好を反映させることが可能となる効果を奏する。
また、このユーザ選択学習部も、ベクトルに基づいて学習することにより、ユーザの嗜好を迅速に反映させることが可能となる効果を奏する。
なお、検索装置1のネットワーク識別情報意味ベクトル記憶部11、キーワード意味ベクトル記憶部12、関連キーワード記憶部13、ユーザDB14などの記憶部は、ハードディスク装置や光磁気ディスク装置、フラッシュメモリ等の不揮発性のメモリや、CD−ROM等の読み出しのみが可能な記憶媒体、RAM(Random Access Memory)のような揮発性のメモリ、あるいはこれらの組み合わせにより構成されるものとする。
なお、この検索装置1は専用のハードウェアにより実現されるものであってもよく、また、この検索装置1はメモリおよびCPU(中央演算装置)により構成され、検索装置1の機能を実現するためのプログラムをメモリにロードして実行することによりその機能を実現させるものであってもよい。
また、図1における検索装置1の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより検索装置1の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、この発明の実施形態を図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
この発明の一実施形態による検索装置1の構成を示すブロック図である。 図1のログ解析部2の構成を示すブロック図である。 図1のパーソナライズド検索部3の構成を示すブロック図である。 図3のパーソナライズド検索部3の動作を示すフローチャートその1である 図3のパーソナライズド検索部3の動作を示すフローチャートその2である
符号の説明
1 検索装置
2 ログ解析部
3 パーソナライズド検索部
4 ブラウザ部
7 外部ログDB
8 外部コンテンツDB
9 端末
11 ネットワーク識別情報意味ベクトル記憶部
12 キーワード意味ベクトル記憶部
13 関連キーワード記憶部
14 ユーザDB
21 ログ集計部
22 特徴量抽出部
23 特徴量抽出結果DB
24 生ログDB
25 各種閲覧・設定用GUI部
31 検索条件入力部
32 キーワード解析部
33 マッチング処理部
34 学習部
35 ソーティング処理部
36 関連キーワード検出部
37 検索結果出力部

Claims (25)

  1. ネットワーク上の情報資源を識別するネットワーク識別情報と、該ネットワーク識別情報により識別される情報資源に対応する意味ベクトル空間における意味ベクトルであるネットワーク識別情報意味ベクトルとが関連付けて予め記憶されているネットワーク識別情報意味ベクトル記憶部と、
    ユーザを識別するユーザ識別情報と、該ユーザが入力したキーワードに対応するキーワード意味ベクトルの履歴であるユーザ履歴意味ベクトルとが関連付けて記憶されているユーザ履歴記憶部と、
    ユーザ識別情報とともに検索文が入力される検索条件入力部と、
    前記検索条件入力部に入力された検索文を、前記意味ベクトル空間における意味ベクトルとしての検索文意味ベクトルに変換するキーワード解析部と、
    前記検索条件入力部に入力されたユーザ識別情報に該当するユーザ履歴意味ベクトルを前記ユーザ履歴記憶部から読み出し、該読み出したユーザ履歴意味ベクトルと前記キーワード解析部が変換した検索文意味ベクトルとに基づいて、ネットワーク識別情報とネットワーク識別情報意味ベクトルとを前記ネットワーク識別情報意味ベクトル記憶部から抽出するマッチング処理部と、
    前記マッチング処理部が抽出したネットワーク識別情報意味ベクトルと、前記ユーザ履歴意味ベクトルと検索文意味ベクトルとに基づいて、前記マッチング処理部が抽出したネットワーク識別情報を並び替えるソーティング処理部と、
    前記ソーティング処理部が並び替えたネットワーク識別情報を出力する検索結果出力部と、
    を有することを特徴とする検索装置。
  2. 前記ユーザ履歴記憶部に記憶されているユーザ履歴意味ベクトルであって、前記検索条件入力部に入力されたユーザ識別情報に該当するユーザ履歴意味ベクトルを、前記キーワード解析部が変換した検索文意味ベクトルに基づいて更新する学習部、
    を有することを特徴とする請求項1に記載の検索装置。
  3. 前記学習部が、
    前記検索条件入力部に入力されたユーザ識別情報に該当するユーザ履歴意味ベクトルを前記ユーザ履歴記憶部から読み出すユーザベクトル取得部と、
    前記キーワード解析部が変換した検索文意味ベクトルと、前記ユーザベクトル取得部が読み出したユーザ履歴意味ベクトルとを加算して更新用意味ベクトルを算出するユーザベクトル算出部と、
    前記ユーザ履歴記憶部に記憶されているユーザ履歴意味ベクトルであって、検索条件入力部に入力されたユーザ識別情報に該当するユーザ履歴意味ベクトルを、前記ユーザベクトル算出部が算出した更新用意味ベクトルに更新するユーザベクトル更新部と、
    を有することを特徴とする請求項2に記載の検索装置。
  4. 前記ユーザベクトル算出部が、
    前記キーワード解析部が変換した検索文意味ベクトルと、前記ユーザベクトル取得部が読み出したユーザ履歴意味ベクトルとを加算する場合に、それぞれのベクトルに予め定められた重みを乗じて加算して前記更新用意味ベクトルを算出する、
    ことを特徴とする請求項3に記載の検索装置。
  5. 前記マッチング処理部が、
    前記検索条件入力部に入力されたユーザ識別情報に該当するユーザ履歴意味ベクトルを前記ユーザ履歴記憶部から読み出すユーザベクトル取得部と、
    前記キーワード解析部が変換した検索文意味ベクトルと前記ユーザベクトル取得部が読み出したユーザ履歴意味ベクトルとに基づいてクエリベクトルを算出するクエリベクトル算出部と、
    前記クエリベクトル算出部が算出したクエリベクトルに基づいて、ネットワーク識別情報とネットワーク識別情報意味ベクトルとを組みとした複数の候補を前記ネットワーク識別情報意味ベクトル記憶部から抽出する候補抽出部と、
    を有することを特徴とする請求項1から請求項4に記載の検索装置。
  6. 前記ネットワーク識別情報意味ベクトル記憶部には、
    前記ネットワーク識別情報と、前記ネットワーク識別情報意味ベクトルと、前記ネットワーク識別情報意味ベクトルに対するハッシュ値とが関連付けて記憶されており、
    前記マッチング処理部が、
    前記クエリベクトル算出部が算出したクエリベクトルに対するハッシュ値を算出するハッシュ算出部を有し、
    前記候補抽出部が、
    前記ハッシュ算出部が算出したハッシュ値に基づいて、ネットワーク識別情報とネットワーク識別情報意味ベクトルとを組みとした複数の候補を前記ネットワーク識別情報意味ベクトル記憶部から抽出する、
    ことを特徴とする請求項5に記載の検索装置。
  7. 前記検索装置が、
    キーワードと該キーワードに対応する意味ベクトル空間におけるベクトルであるキーワード意味ベクトルとが関連付けて予め記憶されているキーワード意味ベクトル記憶部を有し、
    前記キーワード解析部が、
    前記検索条件入力部に入力された検索文に基づいて、キーワード意味ベクトルを前記キーワード意味ベクトル記憶部から読み出すことにより、当該検索文を意味ベクトル空間における意味ベクトルとしての検索文意味ベクトルに変換する、
    ことを特徴とする請求項1から請求項6に記載の検索装置。
  8. 前記キーワード解析部が、
    前記検索条件入力部から入力された検索文を自然言語処理してキーワードを抽出し、該抽出したキーワードに該当するキーワード意味ベクトルを前記キーワード意味ベクトル記憶部から読み出すことにより、当該検索文を意味ベクトル空間における意味ベクトルとしての検索文意味ベクトルに変換する、
    ことを特徴とする請求項7に記載の検索装置。
  9. 前記ソーティング処理部が、
    前記マッチング処理部が抽出したネットワーク識別情報意味ベクトルと、前記クエリベクトル算出部が算出したクエリベクトルとの近似度を算出する近似度算出部と、
    前記近似度算出部が算出した近似度に基づいて、ネットワーク識別情報を並び替えるURLリストソーティング処理部と、
    を有することを特徴とする請求項5から請求項8に記載の検索装置。
  10. 前記近似度算出部が、
    前記ネットワーク識別情報意味ベクトルとクエリベクトルとの内積を前記近似度として算出し、
    前記URLリストソーティング処理部が、
    前記近似度算出部が算出した近似度としての内積の値が大きい順に、前記ネットワーク識別情報を並び替える、
    ことを特徴とする請求項9に記載の検索装置。
  11. 前記近似度算出部が、
    前記ネットワーク識別情報意味ベクトルとクエリベクトルとの間の角度を前記近似度として算出し、
    前記URLリストソーティング処理部が、
    前記近似度算出部が算出した近似度としての角度の値が小さい順に、前記ネットワーク識別情報を並び替える、
    ことを特徴とする請求項9に記載の検索装置。
  12. 前記ソーティング処理部が、
    前記URLリストソーティング処理部の並び替えたネットワーク識別情報に対応するURLタイトルおよび要約文を取得するURLタイトル要約文取得部、
    を有し、
    前記検索結果出力部が、
    前記URLタイトル要約文取得部が取得したURLタイトルおよび要約文を出力する、
    ことを特徴とする請求項1から請求項11に記載の検索装置。
  13. 前記検索装置が、
    キーワードと該キーワードに対応する関連キーワードとが関連付けて予め記憶されている関連キーワード記憶部と、
    前記検索条件入力部に入力された検索文に基づいて、関連キーワードを前記関連キーワード記憶部から読み出す関連キーワード検出部と、
    を有し、
    前記検索結果出力部が、
    前記関連キーワード検出部が読み出した関連キーワードを出力する、
    ことを特徴とする請求項1から請求項12に記載の検索装置。
  14. 前記関連キーワード検出部が、
    自然言語処理により検索文から抽出したキーワードに該当する関連キーワードを前記関連キーワード記憶部から読み出す、
    ことを特徴とする請求項13に記載の検索装置。
  15. 前記検索結果出力部が、
    HTML形式に変換して出力する、
    ことを特徴とする請求項1から請求項14に記載の検索装置。
  16. 前記検索装置が、
    前記検索結果出力部が出力したネットワーク識別情報の中から選択されたネットワーク識別情報であるユーザ選択ネットワーク識別情報と前記ユーザ識別情報とが関連付けて入力され、前記ユーザ履歴記憶部に記憶されているユーザ履歴意味ベクトルであって、前記入力されたユーザ識別情報に該当するユーザ履歴意味ベクトルを、前記ユーザ選択ネットワーク識別情報に対応するネットワーク識別情報意味ベクトルに基づいて更新するユーザ選択学習部、
    を有することを特徴とする請求項1から請求項15に記載の検索装置。
  17. 前記ユーザ選択学習部が、
    前記入力されたユーザ選択ネットワーク識別情報に該当するネットワーク識別情報意味ベクトルを前記ネットワーク識別情報意味ベクトル記憶部から読み出すユーザ選択ネットワーク識別情報意味ベクトル取得部と、
    前記入力されたユーザ識別情報に該当するユーザ履歴意味ベクトルを前記ユーザ履歴記憶部から読み出すユーザ選択ユーザベクトル取得部と、
    前記ユーザ選択ネットワーク識別情報意味ベクトル取得部が読み出したネットワーク識別情報意味ベクトルと、前記ユーザ選択ユーザベクトル取得部が読み出したユーザ履歴意味ベクトルとを加算してユーザ選択更新用意味ベクトルを算出するユーザ選択ユーザベクトル算出部と、
    前記ユーザ履歴記憶部に記憶されているユーザ履歴意味ベクトルであって、前記入力されたユーザ識別情報に該当するユーザ履歴意味ベクトルを、前記ユーザ選択ユーザベクトル算出部が算出したユーザ選択更新用意味ベクトルに更新するユーザ選択ユーザベクトル更新部と、
    を有することを特徴とする請求項16に記載の検索装置。
  18. 前記ユーザ選択ユーザベクトル算出部が、
    前記ユーザ選択ネットワーク識別情報意味ベクトル取得部が読み出したネットワーク識別情報意味ベクトルと、前記ユーザ選択ユーザベクトル取得部が読み出したユーザ履歴意味ベクトルとを加算する場合に、それぞれのベクトルに予め定められた重みを乗じて加算して前記ユーザ選択更新用意味ベクトルを算出する、
    ことを特徴とする請求項17に記載の検索装置。
  19. 前記検索装置が、
    前記ユーザ選択ネットワーク識別情報と前記ユーザ識別情報とが関連付けて記憶されているユーザ選択ネットワーク識別情報記憶部、
    を有し、
    前記ユーザ選択学習部が、
    前記ユーザ選択ネットワーク識別情報と前記ユーザ識別情報とを前記ユーザ選択ネットワーク識別情報記憶部から読み出すことにより、前記ユーザ選択ネットワーク識別情報と前記ユーザ識別情報とが関連付けて入力される、
    ことを特徴とする請求項16から請求項18に記載の検索装置。
  20. 前記ユーザ選択ネットワーク識別情報記憶部には、
    前記ユーザ選択ネットワーク識別情報の履歴と前記ユーザ識別情報とが関連付けて記憶されており、
    前記ユーザ選択学習部は、
    前記ユーザ選択ネットワーク識別情報記憶部からユーザ選択ネットワーク識別情報の履歴とユーザ識別情報とを読み出し、
    前記ユーザ選択ネットワーク識別情報意味ベクトル取得部は、
    前記読み出したユーザ選択ネットワーク識別情報の履歴に該当するそれぞれのネットワーク識別情報意味ベクトルを前記ネットワーク識別情報意味ベクトル記憶部から読み出し、
    前記ユーザ選択ユーザベクトル算出部は、
    前記ユーザ選択ネットワーク識別情報意味ベクトル取得部が読み出したそれぞれのネットワーク識別情報意味ベクトルと、前記ユーザ選択ユーザベクトル取得部が読み出したユーザ履歴意味ベクトルとを加算してユーザ選択更新用意味ベクトルを算出する、
    ことを特徴とする請求項19に記載の検索装置。
  21. 前記ユーザ選択ユーザベクトル算出部は、
    前記ユーザ選択ネットワーク識別情報意味ベクトル取得部が読み出したそれぞれのネットワーク識別情報意味ベクトルと、前記ユーザ選択ユーザベクトル取得部が読み出したユーザ履歴意味ベクトルとを加算してユーザ選択更新用意味ベクトルを算出する場合に、前記ユーザ選択ネットワーク識別情報意味ベクトル取得部が読み出したそれぞれのネットワーク識別情報意味ベクトルと、前記ユーザ選択ユーザベクトル取得部が読み出したユーザ履歴意味ベクトルとについて、それぞれのベクトルに予め定められた重みを乗じて加算して前記ユーザ選択更新用意味ベクトルを算出する、
    ことを特徴とする請求項20に記載の検索装置。
  22. 前記検索装置が、
    前記ユーザ選択ネットワーク識別情報と前記ユーザ識別情報とが入力され、該入力されたユーザ選択ネットワーク識別情報とユーザ識別情報とを関連付けて前記ユーザ選択ネットワーク識別情報記憶部に記憶させるログ集計部、
    を有することを特徴とする請求項20または請求項21に記載の検索装置。
  23. ユーザ識別情報とともに検索文が入力される検索条件入力手順と、
    前記検索条件入力手順で入力された検索文を、前記意味ベクトル空間における意味ベクトルとしての検索文意味ベクトルに変換するキーワード解析手順と、
    前記検索条件入力手順で入力されたユーザ識別情報に該当するユーザ履歴意味ベクトルを、ユーザを識別するユーザ識別情報と該ユーザが入力したキーワードに対応するキーワード意味ベクトルの履歴であるユーザ履歴意味ベクトルとが関連付けて記憶されているユーザ履歴記憶部から読み出し、該読み出したユーザ履歴意味ベクトルと前記キーワード解析手順で変換した検索文意味ベクトルとに基づいて、ネットワーク上の情報資源を識別するネットワーク識別情報と該ネットワーク識別情報により識別される情報資源に対応する意味ベクトル空間における意味ベクトルであるネットワーク識別情報意味ベクトルとが関連付けて予め記憶されているネットワーク識別情報意味ベクトル記憶部から、ネットワーク識別情報とネットワーク識別情報意味ベクトルとを抽出するマッチング処理手順と、
    前記マッチング処理手順で抽出したネットワーク識別情報意味ベクトルと、前記ユーザ履歴意味ベクトルと検索文意味ベクトルとに基づいて、前記マッチング処理手順で抽出したネットワーク識別情報を並び替えるソーティング処理手順と、
    前記ソーティング処理手順で並び替えたネットワーク識別情報を出力する検索結果出力手順と、
    を有することを特徴とする検索方法。
  24. 検索装置としてのコンピュータに、
    ユーザ識別情報とともに検索文が入力される検索条件入力手順と、
    前記検索条件入力手順で入力された検索文を、前記意味ベクトル空間における意味ベクトルとしての検索文意味ベクトルに変換するキーワード解析手順と、
    前記検索条件入力手順で入力されたユーザ識別情報に該当するユーザ履歴意味ベクトルを、ユーザを識別するユーザ識別情報と該ユーザが入力したキーワードに対応するキーワード意味ベクトルの履歴であるユーザ履歴意味ベクトルとが関連付けて記憶されているユーザ履歴記憶部から読み出し、該読み出したユーザ履歴意味ベクトルと前記キーワード解析手順で変換した検索文意味ベクトルとに基づいて、ネットワーク上の情報資源を識別するネットワーク識別情報と該ネットワーク識別情報により識別される情報資源に対応する意味ベクトル空間における意味ベクトルであるネットワーク識別情報意味ベクトルとが関連付けて予め記憶されているネットワーク識別情報意味ベクトル記憶部から、ネットワーク識別情報とネットワーク識別情報意味ベクトルとを抽出するマッチング処理手順と、
    前記マッチング処理手順で抽出したネットワーク識別情報意味ベクトルと、前記ユーザ履歴意味ベクトルと検索文意味ベクトルとに基づいて、前記マッチング処理手順で抽出したネットワーク識別情報を並び替えるソーティング処理手順と、
    前記ソーティング処理手順で並び替えたネットワーク識別情報を出力する検索結果出力手順と、
    を実行させるための検索プログラム。
  25. 検索装置としてのコンピュータに、
    ユーザ識別情報とともに検索文が入力される検索条件入力手順と、
    前記検索条件入力手順で入力された検索文を、前記意味ベクトル空間における意味ベクトルとしての検索文意味ベクトルに変換するキーワード解析手順と、
    前記検索条件入力手順で入力されたユーザ識別情報に該当するユーザ履歴意味ベクトルを、ユーザを識別するユーザ識別情報と該ユーザが入力したキーワードに対応するキーワード意味ベクトルの履歴であるユーザ履歴意味ベクトルとが関連付けて記憶されているユーザ履歴記憶部から読み出し、該読み出したユーザ履歴意味ベクトルと前記キーワード解析手順で変換した検索文意味ベクトルとに基づいて、ネットワーク上の情報資源を識別するネットワーク識別情報と該ネットワーク識別情報により識別される情報資源に対応する意味ベクトル空間における意味ベクトルであるネットワーク識別情報意味ベクトルとが関連付けて予め記憶されているネットワーク識別情報意味ベクトル記憶部から、ネットワーク識別情報とネットワーク識別情報意味ベクトルとを抽出するマッチング処理手順と、
    前記マッチング処理手順で抽出したネットワーク識別情報意味ベクトルと、前記ユーザ履歴意味ベクトルと検索文意味ベクトルとに基づいて、前記マッチング処理手順で抽出したネットワーク識別情報を並び替えるソーティング処理手順と、
    前記ソーティング処理手順で並び替えたネットワーク識別情報を出力する検索結果出力手順と、
    を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2008027885A 2008-02-07 2008-02-07 検索装置、検索方法、検索プログラム、および、記録媒体 Pending JP2009187384A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008027885A JP2009187384A (ja) 2008-02-07 2008-02-07 検索装置、検索方法、検索プログラム、および、記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008027885A JP2009187384A (ja) 2008-02-07 2008-02-07 検索装置、検索方法、検索プログラム、および、記録媒体

Publications (1)

Publication Number Publication Date
JP2009187384A true JP2009187384A (ja) 2009-08-20

Family

ID=41070542

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008027885A Pending JP2009187384A (ja) 2008-02-07 2008-02-07 検索装置、検索方法、検索プログラム、および、記録媒体

Country Status (1)

Country Link
JP (1) JP2009187384A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015201042A (ja) * 2014-04-08 2015-11-12 日本電信電話株式会社 ハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラム
CN109697282A (zh) * 2017-10-20 2019-04-30 阿里巴巴集团控股有限公司 一种语句的用户意图识别方法和装置
CN111460302A (zh) * 2020-03-31 2020-07-28 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、电子设备及计算机可读存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015201042A (ja) * 2014-04-08 2015-11-12 日本電信電話株式会社 ハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラム
CN109697282A (zh) * 2017-10-20 2019-04-30 阿里巴巴集团控股有限公司 一种语句的用户意图识别方法和装置
CN111460302A (zh) * 2020-03-31 2020-07-28 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN111460302B (zh) * 2020-03-31 2023-08-08 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、电子设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
KR101721338B1 (ko) 검색 엔진 및 그의 구현 방법
CN110674429B (zh) 用于信息检索的方法、装置、设备和计算机可读存储介质
JP5662961B2 (ja) レビュー処理方法およびシステム
JP5638031B2 (ja) 格付け方法、検索結果分類方法、格付けシステム及び検索結果分類システム
JP6266080B2 (ja) 類似性スコアに基づきコンテンツアイテムと画像とのマッチングを評価する方法、およびシステム
KR101171405B1 (ko) 검색 결과에서 배치 내용 정렬의 맞춤화
KR101700352B1 (ko) 이력적 검색 결과들을 사용한 향상된 문서 분류 데이터 생성
JP5727512B2 (ja) 検索提案のクラスタ化及び提示
US8612435B2 (en) Activity based users' interests modeling for determining content relevance
JP5340751B2 (ja) 文書処理装置および文書処理方法
Bennett et al. Inferring and using location metadata to personalize web search
US9171078B2 (en) Automatic recommendation of vertical search engines
JP4638439B2 (ja) ウェブ検索の個人化
JP5341253B2 (ja) 線形および非線形のランキングモデルを用いるランク付けされた検索結果の生成
US10108699B2 (en) Adaptive query suggestion
US20070143300A1 (en) System and method for monitoring evolution over time of temporal content
JP2009508267A (ja) ブログ文書のランク付け
US20100185623A1 (en) Topical ranking in information retrieval
JP5084858B2 (ja) サマリ作成装置、サマリ作成方法及びプログラム
JP2020024674A (ja) 情報をプッシュするための方法及び装置
Jiang et al. Towards intelligent geospatial data discovery: a machine learning framework for search ranking
CN110188291B (zh) 基于代理日志的文档处理
JP2007256992A (ja) コンテンツ特定方法及び装置
Sajeev et al. Effective web personalization system based on time and semantic relatedness
CN108280081B (zh) 生成网页的方法和装置