JP4962973B2 - 検索サーバ、方法及びプログラム - Google Patents

検索サーバ、方法及びプログラム Download PDF

Info

Publication number
JP4962973B2
JP4962973B2 JP2008256770A JP2008256770A JP4962973B2 JP 4962973 B2 JP4962973 B2 JP 4962973B2 JP 2008256770 A JP2008256770 A JP 2008256770A JP 2008256770 A JP2008256770 A JP 2008256770A JP 4962973 B2 JP4962973 B2 JP 4962973B2
Authority
JP
Japan
Prior art keywords
search
web page
score
word
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008256770A
Other languages
English (en)
Other versions
JP2010086422A (ja
Inventor
祐 宮崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2008256770A priority Critical patent/JP4962973B2/ja
Publication of JP2010086422A publication Critical patent/JP2010086422A/ja
Application granted granted Critical
Publication of JP4962973B2 publication Critical patent/JP4962973B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、Webページを検索する検索サーバ、検索方法及び検索プログラムに関する。
従来、Webページの検索方法として、通信ネットワークを介して接続されたコンテンツサーバを巡回してWebページを取得して、予めデータベース(以下、DBともいう。)に記憶しておき、検索時に、取得したWebページが格納されたデータベースを用いる方法が行われている。例えば、ロボットやクローラ等のインターネット内を自動的に調べるソフトウェアにより、Webページをカテゴリ毎及び属性毎にまとめて記憶するページデータDBを備えた検索装置が開示されている(例えば、特許文献1)。
特開2007−122290号公報
しかし、特許文献1の検索装置は、予めコンテンツサーバを巡回して取得したWebページを記憶するデータベースが必要であり、大容量のデータを格納可能なハードディスク等の記憶装置を必要とするものであった。
そこで、本発明は、大容量のデータを格納する記憶装置を用いずにWebページを検索する検索サーバ、検索方法及び検索プログラムを提供することを目的とする。
本発明者は、検索時に都度Webページを取得する方法を工夫することで、大容量のデータを格納する記憶装置を必要とせずにWebページを検索する仕組みを見出し、本発明を完成するに至った。本発明は、具体的には次のようなものを提供する。
(1) 端末から受信した検索対象データに基づきWebページを検索する検索サーバであって、
類似語を記憶した類似語データベースを記憶する記憶手段と、
検索開始時に、前記端末で過去に表示したWebページの閲覧履歴情報に基づき、前記Webページを取得するWebページ取得手段と、
前記Webページ取得手段により取得した前記Webページに含む特徴語であって前記検索対象データに類似する前記特徴語を、前記類似語データベースを用いて抽出する特徴語抽出手段と、
前記特徴語抽出手段により抽出された前記特徴語から、前記特徴語のスコアの偏差値を算出するスコア算出手段と、
前記特徴語抽出手段により抽出した前記Webページに関する検索データを前記端末に送信する検索データ送信手段と、
前記スコア算出手段により算出された前記スコアの偏差値が所定の条件を満たす間、前記Webページからリンクされたリンク先のWebページを取得し、前記リンク先のWebページに対して前記特徴語抽出手段から前記検索データ送信手段までを繰り返して実行する繰り返し手段と、
を備えることを特徴とする検索サーバ。
本発明のこのような構成によれば、検索時に、Webページの閲覧履歴からWebページを取得して検索するので、Webページを取得するタイミングを検索時にして、いわゆる、リアルタイムクロールを行うことで、大容量のデータを格納する記憶装置を必要とせずにWebページを検索することができる。また、ユーザが過去に閲覧したWebページであって、ユーザの興味のあるWebページに基づき、検索対象データに類似する特徴語を抽出して検索を行うので、閲覧履歴というユーザの嗜好を含む資源を利用して、ユーザの嗜好を考慮した効率よい検索をすることができる。さらに、リンク先のWebページを対象にして繰り返して検索して、検索データを出力するので、例えば、検索過程を端末に表示させることができ、ほぼ同時のタイミングで作業状況を確認できる。また、検索対象を広げることで、幅広く検索をすることができる。
(2) 前記繰り返し手段は、前記スコア算出手段により算出された前記スコアの偏差値が、リンク元の前記Webページの前記特徴語に対応する前記スコアの偏差値より高い値であることに応じて、前記リンク先のWebページに対して前記特徴語抽出手段から前記検索データ送信手段までを繰り返して実行すること、
を特徴とする(1)に記載の検索サーバ。
本発明のこのような構成によれば、特徴語のスコアの偏差値を用いて繰り返し処理を行うことができる。そして、スコアの偏差値が高い値であるとは、特徴語が検索対象データにより類似していることを表すので、より類似したWebページを検索対象にすることができる。
(3) 前記繰り返し手段は、前記スコア算出手段により算出された前記スコアの偏差値が、リンク元の前記Webページの前記特徴語に対応する前記スコアの偏差値より低い値であることに応じて、前記リンク先のWebページに対してのみ前記特徴語抽出手段から前記検索データ送信手段までを実行すること、
を特徴とする(1)又は(2)に記載の検索サーバ。
本発明のこのような構成によれば、スコアの偏差値が低い値である場合には、リンク先のWebページに対してのみ検索対象にするので、1つ先のWebページまでを検索の対象にすることで、無駄に多くのWebページを検索対象とせずに、しかも、1つ先のWebページまでを検索対象にすることで、検索対象に広がりを持たせることができる。
(4) 前記検索データ送信手段は、前記端末に表示する前記Webページのリンクデータ及び要約文のデータを検索データとして前記端末に送信すること、
を特徴とする(1)から(3)までのいずれか1項に記載の検索サーバ。
本発明のこのような構成によれば、検索データとして、Webページのリンクデータ及び要約文のデータを送信するので、Webページのリンクデータと共に、そのWebページの要約文を端末に表示させることができる。よって、ユーザにとって有益な情報を表示させることができる。
(5) 前記検索データ送信手段は、前記特徴語抽出手段が前記特徴語を抽出したことに応じて、前記検索データを順次前記端末に送信すること、
を特徴とする(1)から(4)までのいずれか1項に記載の検索サーバ。
本発明のこのような構成によれば、繰り返して検索して、検索データを順次端末に出力するので、検索処理にほぼ並行して、検索過程を端末に表示させることができる。よって、ユーザは、検索の実行されている様子を知ることができる。そして、検索結果が表示されるまでの待ち時間にユーザが苛立つことを防ぐ仕組みを提供できる。
(6) 前記スコア算出手段は、TFIDF値を用いて前記特徴語に対応する前記スコアの偏差値を算出すること、
を特徴とする(1)から(5)までのいずれか1項に記載の検索サーバ。
本発明のこのような構成によれば、TFIDF値を用いて特徴語に対応するスコアの偏差値を算出するので、一般的な手法で容易に算出できるスコアの偏差値を用いることができる。
(7) 前記Webページの閲覧履歴情報のうち、直近に前記端末に表示したものから順番に複数の前記閲覧履歴情報を、前記端末から取得する閲覧履歴情報取得手段を備えること、
を特徴とする(1)から(6)までのいずれか1項に記載の検索サーバ。
本発明のこのような構成によれば、端末で閲覧したWebページのうち直近のものから順番に複数の閲覧履歴を端末から取得するので、端末から取得した複数の閲覧履歴を用いることができる。また、ユーザの直近の嗜好を含む閲覧履歴を用いることができる。
(8) 前記Webページ取得手段は、通信ネットワークを介して接続されたコンテンツサーバから前記Webページを取得すること、
を特徴とする(1)から(7)までのいずれか1項に記載の検索サーバ。
本発明のこのような構成によれば、検索時に、コンテンツサーバから対象になるWebページを取得するので、常に最新のWebページを検索対象にすることができる。
(9) 検索対象データに基づきWebページを検索する検索方法であって、
コンピュータは、類似語を記憶した類似語データベースを記憶する記憶手段を備え、
前記コンピュータが、
検索開始時に、過去に取得したWebページの閲覧履歴情報に基づき、前記Webページを取得するWebページ取得ステップと、
前記Webページ取得ステップにより取得した前記Webページに含む特徴語であって前記検索対象データに類似する前記特徴語を、前記類似語データベースを用いて抽出する特徴語抽出ステップと、
前記特徴語抽出ステップにより抽出された前記特徴語から、前記特徴語のスコアの偏差値を算出するスコア算出ステップと、
前記特徴語抽出ステップにより抽出した前記Webページに関する検索データを出力する検索データ出力ステップと、
前記スコア算出ステップにより算出された前記スコアの偏差値が所定の条件を満たす間、前記Webページにリンクされたリンク先のWebページに遷移して、前記リンク先のWebページに対して前記特徴語抽出ステップから前記検索データ出力ステップまでを繰り返して実行する繰り返しステップと、
を含むことを特徴とする検索方法。
(10) (9)に記載の方法のステップをコンピュータに実行させるための検索プログラム。
本発明によれば、検索時に、Webページの閲覧履歴からWebページを取得して検索するので、Webページを取得するタイミングを検索時にして、大容量のデータを格納する記憶装置を必要とせずにWebページを検索することができる。
以下、本発明を実施するための最良の形態について図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
(実施形態)
[検索システムの全体構成及び検索サーバの機能構成]
図1は、本実施形態に係る検索システム100の全体構成及び検索サーバ1の機能構成を示す図である。
検索システム100は、検索サーバ1と、複数のコンテンツサーバ2と、通信ネットワーク3と、端末4とにより構成される。図1に示すように、インターネット等の通信回線に代表される通信ネットワーク3を介して、検索サーバ1と、コンテンツサーバ2と、端末4とが互いに通信可能に接続されている。
検索サーバ1は、制御部10と記憶部20とを備える。制御部10は、検索対象データ受信手段11と、履歴情報取得手段12と、Webページ取得手段13と、特徴語抽出手段14と、スコア算出手段15と、検索データ送信手段16と、繰り返し手段17とを備える。また、記憶部20は、類似語DB22を備える。
検索サーバ1は、ハードウェアの数に制限はなく、必要に応じて1又は複数のハードウェアで構成してよい。また、複数のハードウェアで構成する場合には、通信ネットワーク3を介して各ハードウェアを接続してもよい。例えば、後述する各機能毎に別サーバとし、各サーバ間での信号の送受信により、各サーバを連携させることで、本実施形態の機能を実現してもよい。
検索対象データ受信手段11は、端末4から検索キーワードを含む検索依頼の指示データである検索対象データを受信する。履歴情報取得手段12は、端末4からWebページの閲覧履歴を取得する。Webページ取得手段13は、コンテンツサーバ2からWebページを取得する。
特徴語抽出手段14は、Webページ取得手段13で取得したWebページの特徴語を抽出する。スコア算出手段15は、Webページの特徴語のスコアの偏差値を算出する。検索データ送信手段16は、検索したWebページに関する検索データを端末4に送信する。繰り返し手段17は、リンク先のWebページを取得し、特徴語を抽出し、スコアの偏差値を算出し、検索データを送信するという一連の処理を繰り返す。
類似語DB22は、ある単語に類似する単語を関連付けて記憶するDBである。同一物の複数の呼び名や、同一カテゴリの物を関連付けて記憶する。例えば、「そば」と「麺類」とを関連付けて記憶している。類似語DB22は、他の装置(図示せず)により作成されたものを用いてよい。
コンテンツサーバ2は、複数のWebページを記憶したコンテンツのDBサーバである。コンテンツサーバ2は、通信ネットワーク3に接続されていれば、世界中のあらゆるWebページを記憶したコンテンツのDBサーバが該当する。
端末4は、ユーザが、コンテンツを再生するための操作入力をするためのキーボード、マウス等の入力部や、コンテンツを表示する表示画面を備えた装置である。端末4は、例えば、PC(パーソナルコンピュータ)の他、PDA(Personal Data Assistant)等の情報通信端末や、携帯電話機等の様々な機種の端末を含む。端末4を用いて、ユーザは、検索キーワードを入力したり、コンテンツを視聴したりすることができる。
[検索サーバ1のハードウェア構成図]
図2は、本実施形態に係る検索サーバ1のハードウェア構成を示す図である。本発明が実施されるサーバは標準的なものでよく、以下に構成の一例を示す。
検索サーバ1は、制御部10を構成するCPU(Central Processing Unit)1010(マルチプロセッサ構成ではCPU1012等複数のCPUが追加されてもよい)、バスライン1005、通信I/F(I/F:インターフェイス)1040、メインメモリ1050、BIOS(Basic Input Output System)1060、表示装置1022、I/Oコントローラ1070、キーボード及びマウス等の入力装置1100、ハードディスク1074、光ディスクドライブ1076、並びに半導体メモリ1078を備える。なお、ハードディスク1074、光ディスクドライブ1076、及び半導体メモリ1078はまとめて記憶部20と呼ぶ。
制御部10は、検索サーバ1を統括的に制御する部分であり、ハードディスク1074に記憶された各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
通信I/F1040は、検索サーバ1が、通信ネットワーク3(図1)を介して端末4(図1)と情報を送受信する場合のネットワーク・アダプタである。通信I/F1040は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。
BIOS1060は、検索サーバ1の起動時にCPU1010が実行するブートプログラムや、検索サーバ1のハードウェアに依存するプログラム等を記録する。
表示装置1022は、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。
I/Oコントローラ1070には、ハードディスク1074、光ディスクドライブ1076、及び半導体メモリ1078等の記憶装置である記憶部20を接続することができる。
入力装置1100は、検索サーバ1の管理者による入力の受け付けを行うものである。
ハードディスク1074は、本ハードウェアを検索サーバ1として機能させるための各種プログラム、本発明の機能を実行するプログラム及び上述するDBを記憶する。なお、検索サーバ1は、外部に別途設けたハードディスク(図示せず)を外部記憶装置として利用することもできる。
光ディスクドライブ1076としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク1077を使用する。光ディスク1077から光ディスクドライブ1076によりプログラム又はデータを読み取り、I/Oコントローラ1070を介してメインメモリ1050又はハードディスク1074に提供することもできる。
なお、本発明でいうコンピュータとは、記憶装置、制御部等を備えた情報処理装置をいい、検索サーバ1は、記憶部20、制御部10等を備えた情報処理装置により構成され、この情報処理装置は、本発明のコンピュータの概念に含まれる。
[コンテンツサーバ2のハードウェア構成]
コンテンツサーバ2も、上述の検索サーバ1と同様な構成を持つ。なお、コンテンツサーバ2のみならず、検索サーバ1にも、コンテンツサーバ2と同様にWebページを記憶するコンテンツのDBを一部有してもよい。
[端末4のハードウェア構成]
端末4も、上述の検索サーバ1と同様な構成を持つ。例えば、記憶部20は、光ディスクドライブ1076に代えて外部メモリを挿入可能なドライブであってもよい。
[検索処理のフローチャート]
図3は、本実施形態に係る検索サーバ1の検索処理のフローチャートである。図4は、本実施形態に係る検索サーバ1の検索データ処理のフローチャートである。
S1:制御部10(検索対象データ受信手段11)は、端末4から送信された検索キーワードを含む検索対象データを取得する。
S2:制御部10(履歴情報取得手段12)は、端末4からWebページの閲覧履歴情報を取得する。具体的には、履歴情報取得手段12は、ブラウザの機能等により端末4に記憶されたWebページの閲覧履歴情報であって、直近に閲覧したWebページの閲覧履歴から複数個の閲覧履歴情報を取得する。閲覧履歴情報とは、例えば、閲覧日時、URL(Uniform Resource Locator)等のリンクデータを含むものをいう。
このように、検索サーバ1は、端末4で閲覧したWebページのうち直近のものから順番に複数の閲覧履歴を、端末4から取得する。よって、検索サーバ1は、端末4から取得した複数の閲覧履歴を用いることができる。また、検索サーバ1は、ユーザの直近の嗜好を含んだ閲覧履歴を用いることができる。
S3:制御部10(Webページ取得手段13)は、取得した閲覧履歴情報から対応するWebページを取得する。具体的には、Webページ取得手段13は、閲覧履歴情報に含むリンクデータに基づいてコンテンツサーバ2からWebページを取得する。
このように、検索サーバ1は、検索開始時に、コンテンツサーバ2から対象になるWebページを取得するので、常に最新のWebページを検索対象にすることができる。
S4:制御部10は、次に、図4に基づいて説明する検索データ処理を行う。なお、Webページの取得から、これから説明する図4は、まとめて制御部10の繰り返し手段17が実行する。
S21:制御部10(特徴語抽出手段14)は、類似語DB22を用いて検索キーワードに類似する特徴語をWebページから抽出する。検索キーワードに一致する単語の他、検索キーワードに一致はしないが、検索キーワードに類似した単語を類似語DB22から選択して、その選択した単語に一致する単語を、Webページから抽出する。
S22:制御部10(スコア算出手段15)は、抽出した特徴語から特徴語のスコアの偏差値を算出する。スコアの偏差値は、一例として、Webページ内でキーワードがどれだけ多く使用されているのかを示す指標であるTF(term frequency)と、そのキーワードがどれだけの数のWebページで使用されているかを示す指標であるIDF(inverse document frequency)とを用いて算出できる。TFIDFを用いたスコアの偏差値の算出は、単にキーワードの文中における出現頻度が高いだけではなく、キーワードの重要さを考慮する。すなわち、どの文書にも多く含まれる語はスコアの偏差値を低く押さえ、珍しい語のスコアの偏差値を高くする。そして、スコアWは、
Figure 0004962973
により算出できる。但し、Kは定数、nは語を含む文書数、Nは全文書数である。ここで、全文書数とは、検索対象にした全Webページ数をいう。なお、偏差値は、ある数値が母集団の中でどれくらいの位置にいるかを表した無次元数で、一般的な式を用いて算出できる。
このように、検索サーバ1は、TFIDF値を用いて特徴語に対応するスコアの偏差値を算出することで、一般的な手法で容易に算出できるスコアの偏差値を用いることができる。
S23:制御部10は、Webページの情報が付加された検索結果ページを作成する。ここで、Webページの情報とは、検索対象であるWebページのリンクデータや、Webページの要約文の情報をいう。また、検索結果ページとは、検索過程での検索状況を表すページや検索終了時の検索結果を表すページをいい、検索データに対応するものである。なお、要約文は、スニペットと呼ばれ、検索キーワードや類似語を含む前後の文字列を抽出したものである。
S24:制御部10(検索データ送信手段16)は、作成した検索結果ページを端末4に送信する。
このように、検索サーバ1は、検索データとして、Webページのリンクデータ及び要約文のデータを端末4に送信する。よって、端末4では、ユーザにとって有益なWebページのリンクデータと共に、そのWebページの要約文を表示することができる。
図3に戻って、S5:制御部10は、検索データ処理をしたWebページにリンクデータが存在するか否かを判断する。リンクデータが存在するとは、別のWebページに遷移するためのURLが存在することをいう。リンクデータが存在する場合(S5:YES)には、制御部10は、処理をS6に移す。他方、リンクデータが存在しない場合(S5:NO)には、制御部10は、処理をS12に移す。
S6:制御部10(Webページ取得手段13)は、Webページのリンクデータからリンク先のWebページを、コンテンツサーバ2から取得する。つまり、Webページにリンクされたリンク先のWebページを取得する。
S7:制御部10は、上述の図4で説明した検索データ処理を行う。
S8:制御部10は、算出したリンク先のWebページのスコアの偏差値が、それより前の検索で算出したリンク元のWebページのスコアの偏差値より上か否かを判断する。スコアの偏差値が上であった場合(S8:YES)には、制御部10は、処理をS5に移す。他方、スコアの偏差値が下であった場合(S8:NO)は、処理をS9に移す。
S9:制御部10は、検索データ処理をしたWebページにリンクデータが存在するか否かを判断する。リンクデータが存在する場合(S9:YES)には、制御部10は、処理をS10に移す。他方、リンクデータが存在しない場合(S9:NO)には、制御部10は、処理をS12に移す。
S10:制御部10(Webページ取得手段13)は、Webページのリンクデータからリンク先のWebページをコンテンツサーバ2から取得する。
S11:制御部10は、上述の図4で説明した検索データ処理を行う。
このように、検索サーバ1は、算出したリンク先のWebページのスコアの偏差値が、それより前の検索で算出したリンク元のWebページのスコアの偏差値より上である場合には、特徴語が検索対象データにより類似したリンク先のWebページについて繰り返し処理を行うことができる。また、検索サーバ1は、算出したリンク先のWebページのスコアの偏差値が、それより前の検索で算出したリンク元のWebページのスコアの偏差値より下である場合には、算出したリンク先のWebページのさらに1つ先のWebページについてのみ検索データ処理を行うことで、無駄に多くのWebページを検索対象とせずに、しかも、1つ先のWebページまでを検索対象にすることで、検索対象に広がりを持たせることができる。
S12:制御部10は、全ての閲覧履歴情報について処理をしたか否かを判断する。全ての閲覧履歴情報について処理をした場合(S12:YES)には、制御部10は、本処理を終了する。全ての閲覧履歴情報について処理をしていない場合(S12:NO)には、制御部10は、処理をS3に移し、処理をしていない閲覧履歴情報について処理を行う。
このように、検索サーバ1は、検索時に、Webページの閲覧履歴からWebページを取得して検索するので、Webページを取得するタイミングを検索時にして、いわゆる、リアルタイムクロールを行うことで、大容量のデータを格納する記憶装置を必要とせずにWebページを検索することができる。
また、検索サーバ1は、ユーザが過去に閲覧したWebページであって、ユーザの興味のあるWebページに基づき、検索対象データに類似する特徴語を抽出して検索を行うので、閲覧履歴というユーザの嗜好を含む資源を利用して、ユーザの嗜好を考慮した効率よい検索をすることができる。
さらに、検索サーバ1は、リンク先のWebページを対象にして繰り返して検索して、検索データを出力するので、例えば、検索過程を端末に表示させることができ、ほぼ同時のタイミングで作業状況を確認できる。よって、ユーザは、検索の実行されている様子を知ることができる。そして、検索サーバ1は、リアルタイムでWebページを取得して検索するため、処理に時間を要するが、その代わりとして、検索結果が表示されるまでの待ち時間にユーザが苛立つことを防ぐ仕組みを提供できる。
[検索例]
次に、Webページを検索する方法について説明する。図5は、本実施形態に係る検索サーバ1でのWebページの検索方法の例を示す図である。
先ず、図5の左上に示されたURL0であるWebページ30は、閲覧履歴情報から取得したWebページである(図3のS3参照)。Webページ30は、検索キーワードに類似する特徴語w0を含む。特徴語w0のスコアの偏差値は10である。なお、特徴語w0は、検索キーワードに一致する単語、又は類似する単語を類似語DB22から選択したものである。また、スコアの偏差値は、特徴語w0の重み付けである。
Webページ30は、URL1のリンクデータ40を含むので(図3のS5でYESが選択された場合を参照)、次に、制御部10は、URL1であるWebページ31を取得する(図3のS6参照)。Webページ31は、検索キーワードに類似する特徴語w1を含み、特徴語w1のスコアの偏差値は12である。Webページ31のスコアの偏差値(=12)は、リンク元のWebページ30のスコアの偏差値(=10)よりも上である(図3のS8でYESが選択された場合を参照)。また、Webページ31は、URL2のリンクデータ41とURL4のリンクデータ42とを含む(図3のS5でYESが選択された場合を参照)。よって、次に、制御部10は、URL2であるWebページ32と、URL4であるWebページ34とを取得する(図3のS6参照)。
Webページ32は、検索キーワードに類似する特徴語w2を含み、特徴語w2のスコアの偏差値は8である。Webページ32のスコアの偏差値(=8)は、リンク元のWebページ31のスコアの偏差値(=12)よりも下である(図3のS8でNOが選択された場合を参照)。また、Webページ32は、URL3のリンクデータ43を含む(図3のS9でYESが選択された場合を参照)。よって、次に、制御部10は、URL3であるWebページ33を取得する(図3のS10参照)。
Webページ33は、検索キーワードに類似する特徴語w3を含み、特徴語w3のスコアの偏差値は15である。Webページ33は、URL7のリンクデータ44を含むが、リンク元のWebページ32のスコアの偏差値が低かったことにより、Webページ33からさらにリンクされたリンク先のWebページに関しては、検索を行わない。
他方、Webページ34は、検索キーワードに類似する特徴語w4を含み、特徴語w4のスコアの偏差値は18である。Webページ34のスコアの偏差値(=18)は、リンク元のWebページ31のスコアの偏差値(=12)よりも上である(図3のS8でYESが選択された場合を参照)。また、Webページ34は、URL5のリンクデータ45を含む(図3のS5でYESが選択された場合を参照)。よって、次に、制御部10は、URL5であるWebページ35を取得する(図3のS6参照)。
Webページ35は、検索キーワードに類似する特徴語w5を含み、特徴語w5のスコアの偏差値は5である。Webページ35のスコアの偏差値(=5)は、リンク元のWebページ34のスコアの偏差値(=18)よりも下である(図3のS8でNOが選択された場合を参照)。また、Webページ35は、URL6のリンクデータ46を含む(図3のS9でYESが選択された場合を参照)。よって、次に、制御部10は、URL6であるWebページ36を取得する(図3のS10参照)。
Webページ36は、検索キーワードに類似する特徴語w6を含み、特徴語w6のスコアの偏差値は7である。Webページ36は、URL8のリンクデータ47を含むが、リンク元のWebページ35のスコアの偏差値が低かったことにより、Webページ36からさらにリンクされたリンク先のWebページに関しては、検索を行わない。
なお、図5では、1つの閲覧履歴情報についてのWebページ30に基づく検索を説明したが、他の閲覧履歴情報についての処理も同様に行う。
[画面例]
次に、端末4に表示される画面例について説明する。図6は、本実施形態に係る端末4の画面例を示す図である。
図6に示すように、検索画面50は、キーワード入力部51と、ボタン52と、検索結果表示部53とから構成され、矢印54を含んで表示される。
キーワード入力部51は、検索キーワードを入力するための領域である。ボタン52は、キーワード入力部51に入力した検索したいキーワードを検索サーバ1に送信するためのものである。ユーザが、マウス等の入力装置を用いて矢印54をボタン52に合わせて、ボタン52を選択する操作を行うことで、端末4の制御部は、キーワード入力部51に入力した検索キーワードを検索サーバ1に送信する。検索結果表示部53は、検索サーバ1から送信された検索データを表示する領域である。検索結果表示部53は、検索サーバ1が実際に検索をしたWebページのURLと、要約文とを表示する。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
(変形形態)
本実施形態では、検索対象のWebページのスコアの偏差値が、リンク元のWebページのスコアの偏差値を下回った場合には、検索対象のWebページからリンクされたWebページのみを検索対象にしたが、これに限らない。例えば、スコアの偏差値が下回った時点で、検索対象のWebページからリンクされたWebページを検索対象にしなくてもよい。また、その探索の範囲を、スコアの偏差値が2回下回った時点等にしてもよい。
本実施形態では、特徴語のスコアの偏差値をTFIDF値を用いて算出したが、これ以外の算出法により求められたスコアの偏差値を用いてもよい。
本実施形態では、端末から閲覧履歴情報を取得して、検索サーバにより検索処理を行ったが、全ての処理を端末が行ってもよい。また、Webページの取得処理までを端末で行い、特徴語の抽出やスコアの偏差値の算出処理を検索サーバで行う等、一部の処理を端末が行うようにしてもよい。
本実施形態に係る検索システムの全体構成及び検索サーバの機能構成を示す図である。 本実施形態に係る検索サーバのハードウェア構成を示す図である。 本実施形態に係る検索サーバの検索処理のフローチャートである。 本実施形態に係る検索サーバの検索データ処理のフローチャートである。 本実施形態に係る検索サーバでのWebページの検索方法の例を示す図である。 本実施形態に係る端末の画面例を示す図である。
符号の説明
1 検索サーバ
2 コンテンツサーバ
3 通信ネットワーク
4 端末
10 制御部
11 検索対象データ受信手段
12 履歴情報取得手段
13 Webページ取得手段
14 特徴語抽出手段
15 スコア算出手段
16 検索データ送信手段
17 繰り返し手段
20 記憶部
22 類似語DB
30〜36 Webページ
40〜47 リンクデータ
50 検索画面
53 検索結果表示部
100 検索システム

Claims (10)

  1. 端末から受信した検索キーワードを含む検索依頼の指示データである検索対象データに基づきWebページを検索する検索サーバであって、
    ある単語に類似する単語を該ある単語に関連付けて記憶する類似語データベースを備える記憶手段と
    記端末で過去に表示されたWebページの閲覧履歴情報に基づき、前記Webページを取得するWebページ取得手段と、
    前記Webページ取得手段により取得した前記Webページに含まれる特徴語であって前記検索対象データに含まれる検索キーワードに類似する特徴語を、前記類似語データベースを用いて抽出する特徴語抽出手段と、
    前記特徴語抽出手段により抽出された前記特徴語から、前記特徴語のスコアの偏差値を算出するスコア算出手段と
    記Webページに関する検索データを前記端末に送信する検索データ送信手段と、
    前記スコア算出手段により算出された前記スコアの偏差値が所定の条件を満たす間、前記Webページからリンクされたリンク先のWebページを取得し、前記リンク先のWebページに対して前記特徴語抽出手段による特徴語の抽出と、前記スコア算出手段によるスコアの偏差値の算出と、前記検索データ送信手段による検索データの送信という一連の処理を繰り返し実行させる繰り返し手段と、
    を備える検索サーバ。
  2. 前記繰り返し手段は、前記スコア算出手段により算出された前記スコアの偏差値が、リンク元のWebページの前記特徴語に対応する前記スコアの偏差値より高い値であることに応じて、リンク先のWebページに対して前記特徴語抽出手段による特徴語の抽出と、前記スコア算出手段によるスコアの偏差値の算出と、前記検索データ送信手段による検索データの送信という一連の処理を繰り返し実行させると共に、少なくとも前記リンク先のWebページをリンク元とするWebページに対して前記特徴語抽出手段による特徴語の抽出と、前記スコア算出手段によるスコアの偏差値の算出と、前記検索データ送信手段による検索データの送信という一連の処理を繰り返し実行させる
    求項1に記載の検索サーバ。
  3. 前記繰り返し手段は、前記スコア算出手段により算出された前記スコアの偏差値が、リンク元のWebページの前記特徴語に対応する前記スコアの偏差値より低い値であることに応じて、リンク先のWebページに対してのみ前記特徴語抽出手段による特徴語の抽出と、前記スコア算出手段によるスコアの偏差値の算出と、前記検索データ送信手段による検索データの送信という一連の処理を実行させる
    求項1又は請求項2に記載の検索サーバ。
  4. 前記検索データ送信手段は、前記端末に表示する前記Webページのリンクデータ及び要約文のデータを検索データとして前記端末に送信す
    求項1から請求項3までのいずれか1項に記載の検索サーバ。
  5. 前記検索データ送信手段は、前記特徴語抽出手段が前記特徴語を抽出したことに応じて、前記検索データを順次前記端末に送信す
    求項1から請求項4までのいずれか1項に記載の検索サーバ。
  6. 前記スコア算出手段は、TFIDF値を用いて前記特徴語に対応する前記スコアの偏差値を算出す
    求項1から請求項5までのいずれか1項に記載の検索サーバ。
  7. 前記Webページの閲覧履歴情報のうち、直近に前記端末に表示したものから順番に複数の前記閲覧履歴情報を、前記端末から取得する閲覧履歴情報取得手段を備え
    求項1から請求項6までのいずれか1項に記載の検索サーバ。
  8. 前記Webページ取得手段は、通信ネットワークを介して接続されたコンテンツサーバから前記Webページを取得す
    求項1から請求項7までのいずれか1項に記載の検索サーバ。
  9. ある単語に類似する単語を該ある単語に関連付けて記憶する類似語データベースを備えるサーバが、端末から受信した検索キーワードを含む検索依頼の指示データである検索対象データに基づきWebページを検索する検索方法であって
    前記サーバが、過去に取得したWebページの閲覧履歴情報に基づき、前記Webページを取得するWebページ取得ステップと、
    前記サーバが、前記Webページ取得ステップにより取得した前記Webページに含まれる特徴語であって前記検索対象データに含まれる検索キーワードに類似する特徴語を、前記類似語データベースを用いて抽出する特徴語抽出ステップと、
    前記サーバが、前記特徴語抽出ステップにより抽出された前記特徴語から、前記特徴語のスコアの偏差値を算出するスコア算出ステップと、
    前記サーバが、前記特徴語抽出ステップにより抽出した前記Webページに関する検索データを前記端末に出力する検索データ出力ステップと、
    前記サーバが、前記スコア算出ステップにより算出された前記スコアの偏差値が所定の条件を満たす間、前記Webページにリンクされたリンク先のWebページに遷移して、前記リンク先のWebページに対して特徴語抽出し、スコアの偏差値を算出し、検索データを送信するという一連の処理を繰り返繰り返しステップと、
    を含む検索方法。
  10. 請求項9に記載の方法のステップをコンピュータに実行させるための検索プログラム。
JP2008256770A 2008-10-01 2008-10-01 検索サーバ、方法及びプログラム Expired - Fee Related JP4962973B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008256770A JP4962973B2 (ja) 2008-10-01 2008-10-01 検索サーバ、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008256770A JP4962973B2 (ja) 2008-10-01 2008-10-01 検索サーバ、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2010086422A JP2010086422A (ja) 2010-04-15
JP4962973B2 true JP4962973B2 (ja) 2012-06-27

Family

ID=42250285

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008256770A Expired - Fee Related JP4962973B2 (ja) 2008-10-01 2008-10-01 検索サーバ、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP4962973B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2420493A4 (en) 2009-04-14 2012-09-05 Nissan Chemical Ind Ltd HALOALKYLSULFONANILIDE DERIVATIVES
KR101690528B1 (ko) * 2015-06-05 2016-12-28 오드컨셉 주식회사 검색 정보를 표시하는 방법, 장치 및 컴퓨터 프로그램

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10260979A (ja) * 1997-03-18 1998-09-29 Nippon Telegr & Teleph Corp <Ntt> 情報収集方法及び装置
JPH10260978A (ja) * 1997-03-18 1998-09-29 Nippon Telegr & Teleph Corp <Ntt> 情報収集方法及び装置
US6704722B2 (en) * 1999-11-17 2004-03-09 Xerox Corporation Systems and methods for performing crawl searches and index searches
JP4070382B2 (ja) * 2000-02-08 2008-04-02 富士通株式会社 情報検索装置および情報検索プログラムを記録したコンピュータ読み取り可能な記録媒体

Also Published As

Publication number Publication date
JP2010086422A (ja) 2010-04-15

Similar Documents

Publication Publication Date Title
US7475074B2 (en) Web search system and method thereof
JP4731479B2 (ja) 検索システム及び検索方法
US9111008B2 (en) Document information management system
US9405857B2 (en) Speculative search result on a not-yet-submitted search query
US7668887B2 (en) Method, system and software product for locating documents of interest
JP5084858B2 (ja) サマリ作成装置、サマリ作成方法及びプログラム
JP2007517308A (ja) 記事情報を用いて検索ランク付けを改良するための方法およびシステム
US7757158B2 (en) Converting hypertext character strings to links by attaching anchors extracted from existing link destination
JP2010097461A (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP4824070B2 (ja) クリックログを利用して専門検索用クローラのシード選択を行う検索処理装置、検索処理方法及びプログラム
JP4962973B2 (ja) 検索サーバ、方法及びプログラム
JP2009080806A (ja) Webページにリンクを挿入する方法
JP4621680B2 (ja) 定義付けシステムおよび方法
JP4445849B2 (ja) ファイル検索方法、ファイル検索装置、および、ファイル検索プログラム
JP2001265774A (ja) 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム
JP5072792B2 (ja) 情報量に応じたページを優先的に表示する検索方法、プログラム及びサーバ
JP2008112310A (ja) 検索装置、情報検索システム、検索方法、検索プログラム、及び記録媒体
JP5108707B2 (ja) 検索サーバ装置、検索方法及びプログラム
JP4920661B2 (ja) インデックス生成方法、プログラム及びサーバ
JP5063568B2 (ja) 携帯端末向けのウェブページの検索に用いられるインデックスを作成する検索制御装置及びインデックス作成方法
JP2008262442A (ja) 検索キーデータを表示させる方法及びサーバ
JP4859891B2 (ja) コンテンツに関連する情報を提供するサーバ、システム及び方法
JP2011508305A (ja) アプリケーションプログラム実行時に検索ウィンドウを提供するネットワーク検索法
JP4152669B2 (ja) 文書検索装置、文書検索方法、記録媒体及びプログラム
JP2010079863A (ja) 絞り込み検索サービス提供方法及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120221

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120319

R150 Certificate of patent or registration of utility model

Ref document number: 4962973

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150406

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees
S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371