JP5072792B2 - 情報量に応じたページを優先的に表示する検索方法、プログラム及びサーバ - Google Patents

情報量に応じたページを優先的に表示する検索方法、プログラム及びサーバ Download PDF

Info

Publication number
JP5072792B2
JP5072792B2 JP2008253465A JP2008253465A JP5072792B2 JP 5072792 B2 JP5072792 B2 JP 5072792B2 JP 2008253465 A JP2008253465 A JP 2008253465A JP 2008253465 A JP2008253465 A JP 2008253465A JP 5072792 B2 JP5072792 B2 JP 5072792B2
Authority
JP
Japan
Prior art keywords
web page
search
weight
word
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008253465A
Other languages
English (en)
Other versions
JP2010086210A (ja
Inventor
有紀子 森
勝 市川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2008253465A priority Critical patent/JP5072792B2/ja
Publication of JP2010086210A publication Critical patent/JP2010086210A/ja
Application granted granted Critical
Publication of JP5072792B2 publication Critical patent/JP5072792B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、Webページの検索において検索キーワードに関する情報量の少ないページではなく、情報量の多いページを優先的に表示する検索方法、プログラム及びそのサーバに関する。
近年、Web上のホームページやブログその他のインターネットを介してアクセス可能なコンテンツは、様々な検索サービスを利用することによって検索が可能となっており、学術上のみならず、一般市民の生活においても、或いは企業活動においても、なくてはならないものとなっている。
このような検索サービスの多くは、検索キーワードを入力することによってインターネット上のコンテンツを検索する方式を採っている。そこで、検索キーワードから類推される、ユーザの検索目的に合致するコンテンツを効率よく探し出すために、各検索サービスは様々な工夫を行っている。例えば、いわゆるページランクの高いコンテンツを、検索結果としてより上位に表示することが多い。
このページランクは、検索キーワードをより多く含むことのみならず、他のページからより多くのリンクが張られたもの、即ち被リンク数の多いものや、ユーザにより閲覧された回数(クリック回数)が多いものがより上位になるように決定されている。
例えば、特許文献1によれば、インターネット上に多々存在するWebページを検索して順位をつけて表示する際に、被リンクドメイン数を参照して当該ページのスコア(ウェイト)を算出することでページランクを決定することとしている。
特開2007−114903号公報
このように、Webページの特徴を示す様々なデータを用いて検索結果を出力することで、従来の検索サービスは、ユーザのニーズに合わせた順序で検索結果を表示することを試みていた。
ところで、近年ではブログサイトが増大しているところ、このブログサイトは、Webページの更新を頻繁に行うが、更新する毎にテーマが異なるものに変わるため情報が散漫となり一つのテーマについての情報量が少ないものが多い。また、近年では、このようなブログサイトを著名人が開設することで、非常に人気の高いブログサイトが存在する。
このような状況において、被リンク数やクリック回数等を反映して検索結果の順位を決定することとした場合、検索キーワードに関する情報量が少ない人気のブログサイトであっても検索結果として上位に表示されてしまうという問題があった。
図9及び図10を参照して、このような問題点について具体的に説明する。図9(1)では、「オリンピック」に関する文章200のみが表示され、また、その内容も充実したものとなっている。他方、図9(2)は、「オリンピック」に関する文章201の他に、他のテーマに関する文章202及び文章203が表示され、また、文章201の内容も情報の薄いものとなっている。なお、Webページ2は、人気のブログサイトの一例である。
図10(1)は、これらWebページ1及び2内における特徴語の重要度(出現頻度)である特徴語ウェイトと、クリック履歴と、リンクデータ数とを示すWebページウェイトの例を示す図である。なお、特徴語とはWebページ内のテキストデータを形態素解析し抽出される語句のうち特徴的なもの(例えば、形態素解析の結果抽出されるものから助詞や助動詞等を除いたもの)をいい、特徴語ウェイトとは、語句の出現頻度に基づく指標であるTF(Term Frequency)・IDF(Inverse Document Frequency)を用いて算出されるWebページ内における特徴語の重み付けを示す指標をいう。そして、図10(2)は、このような場合に、ユーザが検索キーワードとして「オリンピック」を入力したときのWebページのウェイト(スコア)を示す図である。
図10(1)によると、「オリンピック」について充実した内容のWebページ1では、特徴語「オリンピック」についてTF・IDFによるウェイトが「30」となっているが、「オリンピック」についての内容の薄いWebページ2では「20」となっている。しかしながら、Webページ2はブログサイトとして人気があるため、そのクリック履歴やリンクデータ数等がWebページ1に比べて多くなっている。そのため、図10(2)に示すように、「オリンピック」についての内容の薄いWebページ2の方が、内容の充実しているWebページ1よりも高いウェイトとなってしまう場合があった。このような場合、ユーザが検索キーワードとして「オリンピック」を入力したときには、検索結果として、内容の充実したWebページ1ではなく、テーマが散漫し内容の薄いWebページ2の方が優先して表示されることとなる。
ユーザにとってみれば、ブログを担当する著名人の名称ではなくあえて検索キーワードを「オリンピック」としたのであり、上述のような結果は、ユーザのニーズに合わないものとなってしまう。
そこで、本発明は、Webページの検索においてこのような情報量の少ないページではなく、情報量の多いページを優先的に出力する検索方法、プログラム及びそのサーバを提供することを目的とする。
本発明者は、検索キーワードに関連する特徴語の特徴語ウェイトを用いることで、検索結果に情報量の多いページを優先的に表示する仕組みを見出し、本発明を完成するに至った。本発明は、具体的には次のようなものを提供する。
(1) 端末に対して通信ネットワークを介して接続されたコンピュータが、
検索の対象となるWebページを解析して前記Webページ内における特徴を示す特徴語を複数抽出するWebページ解析ステップと、
抽出した前記特徴語の前記Webページ内における出現頻度を示す特徴語ウェイトを複数の前記特徴語の夫々について算出する特徴語ウェイト算出ステップと、
を含む検索方法であって、
複数の特徴語の関連性を記憶する関連語DBを備え、
前記Webページ解析ステップにより抽出した複数の前記特徴語の夫々が関連するか否かを、前記関連語DBを用いて判定する関連語判定ステップと、
関連すると判定した特徴語の特徴語ウェイトの総和を関連語ウェイトとして算出するWebページウェイト算出ステップと、
算出した前記関連語ウェイトを、当該Webページのリンクデータに対応付けてインデキシングDBに記憶するインデキシング記憶ステップと、
を含む検索方法。
本発明のこのような構成によれば、インデキシングDBには、関連すると判定された特徴語の総和である関連語ウェイトがWebページのリンクデータに対応付けられて記憶される。これにより、Webページ内における特定のテーマに関する情報量を適切に判別することができる。そのため、検索結果を出力する処理等のコンピュータ処理において、情報量の少ないページではなく、情報量の多いページを優先的に出力するように検索結果を調整することができる。
(2) 前記コンピュータが、
検索キーワードを含む要求データを前記端末から受信する受信ステップと、
前記受信ステップにより受信した前記検索キーワードに基づき、前記検索キーワードを含むWebページを検索する検索ステップと、
前記検索ステップにより検索したWebページのうち前記検索キーワードに関連する関連語ウェイトを用いて検索結果を調整するWebページ調整ステップと、
前記Webページ調整ステップによる調整結果に基づき、検索された前記Webページのリンクデータを含むコンテンツを、前記端末に送信する送信ステップと、
を含むことを特徴とする(1)に記載の検索方法。
本発明のこのような構成によれば、検索キーワードによるWebページの検索において、ユーザの端末に検索キーワードについて情報量の多いWebページを優先的に出力させることができるため、ユーザのニーズに適した検索方法を提供できる。
(3) 前記コンピュータが、
Webページ内における全ての特徴語の特徴語ウェイトの平均値を算出する平均ウェイト算出ステップと、
前記Webページウェイト算出ステップにより算出した前記関連語ウェイトが、前記平均値から乖離する割合を算出する対比ウェイト算出ステップと、を更に含み、
前記Webページ調整ステップは、前記対比ウェイト算出ステップにより算出した割合を用いて検索結果を調整することを特徴とする(2)に記載の検索方法。
本発明のこのような構成によれば、情報量の多いWebページを判定するに当たり、関連語ウェイトがWebページ内における平均値から乖離する割合を用いるため、検索キーワードに対応する特徴語のWebページ内における重要度を2以上のWebページにおいて適切に判定することができる。
(4) 前記コンピュータが、通信ネットワークを介して接続されたWebサーバを定期的に巡回して、検索の対象になる前記Webページを取得する取得ステップを含むこと、を特徴とする(1)から(3)のいずれか1項に記載の検索方法。
本発明のこのような構成によれば、対象とするWebページを定期的に取得するので、常に新しいWebページのデータを用いて検索をすることができる。
(5) (1)から(4)のいずれか1項に記載の方法のステップをコンピュータに実行させるための検索プログラム。
(6) 端末に対して通信ネットワークを介して接続された検索サーバであって、
検索の対象となるWebページを解析して前記Webページ内における特徴を示す特徴語を複数抽出するWebページ解析手段と、
抽出した前記特徴語の前記Webページ内における出現頻度を示す特徴語ウェイトを複数の前記特徴語の夫々について算出する特徴語ウェイト算出手段と、
複数の特徴語の関連性を記憶する関連語DBと、
前記Webページ解析手段により抽出した複数の前記特徴語の夫々が関連するか否かを、前記関連語DBを用いて判定する関連語判定手段と、
関連すると判別した特徴語の特徴語ウェイトの総和を関連語ウェイトとして算出するWebページウェイト算出手段と、
算出した前記関連語ウェイトを、当該Webページのリンクデータに対応付けてインデキシングDBに記憶するインデキシング記憶手段と、
を備える検索サーバ。
本発明によれば、Webページの検索において情報量の少ないページではなく、情報量の多いページを優先的に出力することができる。
以下、本発明を実施するための最良の形態について図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
(実施形態)
[検索システムの全体構成及び検索サーバの機能構成]
図1は、本実施形態に係る検索システム100の全体構成及び検索サーバ1の機能構成を示す図である。
検索システム100は、検索サーバ1と、コンテンツサーバ2と、通信ネットワーク3と、端末4とにより構成される。図1に示すように、インターネット等の通信回線に代表される通信ネットワーク3を介して、検索サーバ1と、コンテンツサーバ2と、端末4とが互いに通信可能に接続されている。
検索サーバ1は、制御部10と記憶部20とを備える。制御部10は、Webページ取得手段11と、Webページ解析手段12と、特徴語ウェイト算出手段13と、関連語判定手段14と、Webページウェイト算出手段15と、受信手段16と、検索手段17と、コンテンツ送信手段19とを備える。また、記憶部20は、回収Webページデータベース(以下、データベースをDBともいう)22と、関連語DB24と、インデキシングDB26とを備える。なお、各DBの内容については後述する。
検索サーバ1は、ハードウェアの数に制限はなく、必要に応じて1又は複数のハードウェアで構成してよい。また、複数のハードウェアで構成する場合には、通信ネットワーク3を介して各ハードウェアを接続してもよい。例えば、後述する各機能毎に別サーバとし、各サーバ間での信号の送受信により、各サーバを連携させることで、本実施形態の機能を実現してもよい。
Webページ取得手段11は、Webページ(コンテンツ)を記憶したコンテンツサーバ2を定期的に巡回して、新しく作成されたWebページや更新されたWebページを回収(取得)するクローラの役割を果たす。回収したWebページは、随時回収WebページDB22に記憶される。
Webページ解析手段12は、回収WebページDB22に記憶されたWebページのテキストデータを形態素解析して抽出された語句から、特徴語を抽出する。
特徴語ウェイト算出手段13は、抽出した特徴語のWebページ内における重要度(出現頻度)を示す特徴語ウェイトを算出する。ここで、特徴語ウェイトの算出には、語句の出現頻度に基づく指標であるTF(Term Frequency)・IDF(Inverse Document Frequency)が用いられる。
関連語判定手段14は、関連語DB24を用いて、算出した特徴語に関する関連語の有無をWebページ毎に判定する。なお、関連語とは、ある特徴語に関連する他の特徴語をいう。ここで、各特徴語が関連するか否かについてはサーバーの管理者が任意に設定可能であり、また、適宜変更可能である。
Webページウェイト算出手段15は、関連語判定手段14により判定された関連語の関連語ウェイト(例えば、関連する複数の特徴語のウェイトの総和)を算出し、この関連語ウェイトと、特徴語ウェイトと、クリック履歴と、リンクデータ数とを含むWebページウェイトを算出する。そして、Webページウェイト算出手段15は、算出したWebページウェイトをインデキシングDB26(後述の図4(2)参照)に記憶する。
受信手段16は、端末4から検索キーワードを含む要求データを受信する。検索手段17は、検索キーワードを含むWebページを検索する。Webページ調整手段18は、Webページウェイト算出手段により算出したWebページウェイトと検索キーワードとを用いて検索結果を調整する。コンテンツ送信手段19は、Webページ調整手段18の調整結果に基づき、Webページのリンクデータを含むコンテンツを端末4に送信する。
コンテンツサーバ2は、複数のWebページを記憶したコンテンツのDBサーバである。コンテンツサーバ2は、通信ネットワーク3に接続されていれば、世界中のあらゆるWebページを記憶したコンテンツのDBサーバが該当する。
端末4は、ユーザが、コンテンツを再生するための操作入力をするためのキーボード、マウス等の入力部や、コンテンツを表示する表示画面を備えた装置である。端末4を用いて、ユーザは、検索キーワードを入力したり、コンテンツを視聴したりすることができる。
[検索サーバ1のハードウェア構成図]
図2は、本実施形態に係る検索サーバ1のハードウェア構成を示す図である。本発明が実施されるサーバは標準的なものでよく、以下に構成の一例を示す。
検索サーバ1は、制御部10を構成するCPU(Central Processing Unit)1010(マルチプロセッサ構成ではCPU1012等複数のCPUが追加されてもよい)、バスライン1005、通信I/F(I/F:インターフェイス)1040、メインメモリ1050、BIOS(Basic Input Output System)1060、表示装置1022、I/Oコントローラ1070、キーボード及びマウス等の入力装置1100、ハードディスク1074、光ディスクドライブ1076、並びに半導体メモリ1078を備える。なお、ハードディスク1074、光ディスクドライブ1076、及び半導体メモリ1078はまとめて記憶部20と呼ぶ。
制御部10は、検索サーバ1を統括的に制御する部分であり、ハードディスク1074に記憶された各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
通信I/F1040は、検索サーバ1が、通信ネットワーク3(図1)を介して端末4(図1)と情報を送受信する場合のネットワーク・アダプタである。通信I/F1040は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。
BIOS1060は、検索サーバ1の起動時にCPU1010が実行するブートプログラムや、検索サーバ1のハードウェアに依存するプログラム等を記録する。
表示装置1022は、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。
I/Oコントローラ1070には、ハードディスク1074、光ディスクドライブ1076、及び半導体メモリ1078等の記憶装置である記憶部20を接続することができる。
入力装置1100は、検索サーバ1の管理者による入力の受け付けを行うものである。
ハードディスク1074は、本ハードウェアを検索サーバ1として機能させるための各種プログラム、本発明の機能を実行するプログラム及び後述するDBのテーブル及びレコードを記憶する。なお、検索サーバ1は、外部に別途設けたハードディスク(図示せず)を外部記憶装置として利用することもできる。
光ディスクドライブ1076としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク1077を使用する。光ディスク1077から光ディスクドライブ1076によりプログラム又はデータを読み取り、I/Oコントローラ1070を介してメインメモリ1050又はハードディスク1074に提供することもできる。
なお、本発明でいうコンピュータとは、記憶装置、制御部等を備えた情報処理装置をいい、検索サーバ1は、記憶部20、制御部10等を備えた情報処理装置により構成され、この情報処理装置は、本発明のコンピュータの概念に含まれる。
[コンテンツサーバ2のハードウェア構成]
コンテンツサーバ2も、上述の検索サーバ1と同様な構成を持つ。なお、コンテンツサーバ2のみならず、検索サーバ1にも、コンテンツサーバ2と同様にWebページを記憶するコンテンツのDBを有してもよい。
[端末4のハードウェア構成]
端末4も、上述の検索サーバ1と同様な構成を持つ。例えば、記憶部20は、光ディスクドライブ1076に代えて外部メモリを挿入可能なドライブであってもよい。また、表示装置1022が、タッチパネルとして入力装置1100の機能を備えていてもよい。更に、端末4が、加速度センサ等のセンサを備えて、そのセンサが、入力装置1100の機能を有してもよい。
[メイン処理のフローチャート]
図3は、本実施形態に係る検索サーバ1のインデキシング処理のフローチャートである。インデキシング処理は、例えば、検索サーバ1の管理者により決められた所定のタイミングで定期的に行う。
S1:制御部10(Webページ取得手段11)は、コンテンツサーバ2をクロールすることにより、Webページを取得する。そして、制御部10は、取得したWebページを、回収WebページDB22に記憶する。
S2:制御部10(Webページ解析手段12)は、Webページ解析処理を行う。具体的には、Webページ解析手段12は、回収WebページDB22に記憶されたWebページを形態素解析して、Webページのテキストデータから語句を抽出する。そして、この語句のうちWebページ内における特徴的なもの、即ち特徴語を抽出する。
S3:制御部10(特徴語ウェイト算出手段13)は、特徴語のWebページ内における重み付けである特徴語ウェイトとを算出する。
S4:制御部10(関連語判定手段14)は、算出された複数の特徴語に関する関連語の有無を判定する。なお、関連語の有無の判定には、関連語DB24(図4(1)参照)が用いられる。
S5:制御部10(Webページウェイト算出手段15)は、Webページの特徴を示すWebページウェイトを算出し、算出したWebページウェイトを記憶部20(インデキシングDB26)に記憶する。ここで、Webページウェイトは、関連語ウェイトと、特徴語ウェイトと、クリック履歴と、リンクデータ数とを含む。なお、特徴語ウェイトは、算出した特徴語毎に、Webページ内のウェイトをTF・IDFを用いて求めることで算出される。また、関連語ウェイトは、関連すると判定された複数の特徴語のウェイトの総和である。また、クリック履歴は、所定の期間に当該Webページが端末4で表示された回数であり、リンクデータ数は、当該WebページがリンクされているWebページの数である。
[関連語DB24及びインデキシングDB26]
図4は、本実施形態に係る記憶部20に格納される関連語DB24及びインデキシングDB26を示す図である。関連語DB24は、上述の図3のS4において、制御部10がWebページ内の特徴語に関連性があるか否かを判定する際に用いられるDBである。なお、関連性が有無は検索サーバ1の管理者が予め任意に設定しておくことができる。また、インデキシングDB26は、上述の図3のS5において制御部10が関連語ウェイトを含むWebページウェイトを記憶するデータベースである。
図4(a)に一例を示す関連語DB24は、関連語ID毎に管理者が任意に設定した関連語を対応付けて記憶する。例えば、「関連語ID010」を参照して、「オリンピック」には、「五輪」、「北京」、「ロンドン」、「東京」等が関連する特徴語であると記憶される。
図4(b)に一例を示すインデキシングDB26は、WebページIDをキー情報として、Webページの位置情報を示すURL(Uniform Resource Locator)と、それに対応して特徴語ウェイト、関連語ウェイト、クリック履歴、及びリンク数データを含むWebページウェイトとを記憶する。なお、図4(b)では、Webページ1(図8(1))とWebページ2(図8(2))とについての情報を一例として示している。
関連語ウェイトには、関連語ID毎に関連すると判定された複数の特徴語のウェイトの総和が格納される。例えば、「WebページID001」では、特徴語として「オリンピック(ウェイト:30)」、「北京(ウェイト:25)」、「五輪(ウェイト:15)」等が算出されるところ、これらの特徴語は「関連語ID010」において全て関連すると設定されている。そのため、「関連語ID010」の関連語ウェイトは、これらの特徴語のウェイトの総和となり、「70」(=30+25+15)となる。同様に、「WebページID002」では、特徴語として「オリンピック(ウェイト:20)」、「ミッドタウン(ウェイト:15)」、「海(ウェイト:10)」等が算出されるところ、「関連語ID010」においては「オリンピック」のみが関連すると判定される。そのため、「関連語ID010」の関連語ウェイトは「20」となる。
なお、本実施形態では、Webページウェイトとしてクリック履歴や、リンクデータ数を格納しているが、Webページに関する特徴を示す他の指標で代替してもよい。
[検索処理のフローチャート]
次に、上述した関連語ウェイトを用いた検索処理について説明する。図5は、本実施形態に係る検索サーバ1での検索処理のフローチャートである。
S21:制御部10(受信手段16)は、端末4から検索キーワードを含む要求データを受信する。
S22:制御部10(検索手段17)は、受信した検索キーワードに基づき、キーワードを含むWebページを検索する。このWebページの検索には、回収WebページDB22に記憶されたWebページを用いることができる。
S23:制御部10(Webページ調整手段18)は、検索結果からリンクデータを並べる順番をインデキシングDB26を用いて調整する。この調整は、まず、検索結果として対象になったWebページのうち、検索キーワードに対応する関連語IDの関連語ウェイトを抽出する。次に、抽出した関連語ウェイトを、クリック履歴やリンクデータ数等のWebページに関する特徴を示す指標により補正し、トータルウェイトを算出する。そして、検索結果として対象になったWebページのうち、算出したトータルウェイトが大きいものから順番に出力する。
例えば、検索キーワードが「オリンピック」である場合の「WebページID001」及び「WebページID002」を例にとって説明する。検索キーワード「オリンピック」に対応する関連語IDは「010」であるところ、「WebページID001」の関連語ウェイトは図4(2)に示すように「70」となる。この場合において、クリック履歴やリンク数データ等により補正すると、「WebページID001」のトータルウェイトは、図6に示すように「90」となる。同様に「WebページID002」の関連語ウェイトは図4(2)に示すように「20」となり、これを補正すると「WebページID002」のトータルウェイトは、図6に示すように「55」となる。
S24:制御部10は、調整結果に基づき、Webページのリンクデータを配置したコンテンツを作成する。この場合、図4(2)のURLの値を配置できる。
S25:制御部10(コンテンツ送信手段19)は、作成したコンテンツを、端末4に送信する。
このように、本実施形態では、一つのテーマについて情報量が多いページのトータルウェイトを情報量が少ないページよりも高くすることができ、結果として検索結果の上位に情報量の多いページを表示させることができる。即ち、従来では一つのテーマについての情報量が少ないページであってもクリック履歴やリンクデータ数等が多いときには検索結果の上位に表示されていたものを(図9、図10参照)、Webページ内において関連する特徴語をまとめ関連語ウェイトとして算出することで、情報量が多いページを優先的に表示させることができる。
他方で、検索結果に、クリック履歴やリンクデータ数等のWebページに関する特徴を示す指標をも反映させることができるため、同じ情報量であればより人気の高いWebページを優先的に表示させることとなり、ユーザのニーズに合わせた順序で検索結果を表示できる。
[各Webページの対比についての好適例]
ここで、TF・IDFを用いて算出される特徴語ウェイトは、各Webページ内における相対値となるため、Webページの対比に適しない場合がある。例えば、図7(1)のWebページ3(ID:003)は、ブログ形式のWebページであるところ、8月1日付の記事には、Webページ1と全く同じ内容である文章200が記載され、8月2日以降には更に別の文章205が記載されている。
この場合において、Webページ3の特徴語ウェイトをTF・IDFを用いて算出すると、図7(2)に示すとおり、「オリンピック(ウェイト:20)」、「北京(ウェイト:15)」、「五輪(ウェイト:5)」となり、「関連語ID010」の関連語ウェイトは「40」となる。他方、図4(2)に示したとおり、全く同じ内容の文章200が記載されたWebページ1では、「オリンピック(ウェイト:30)」、「北京(ウェイト:25)」、「五輪(ウェイト:15)」となり、「関連語ID010」の関連語ウェイトは「70」となる。
即ち、Webページ内に全く同じ文章が記載されている場合であっても、Webページ内のその他の文章によっては、TF・IDFを用いて算出される特徴語ウェイトが異なることとなり、結果、関連語ウェイトが大きく異なることとなる。この場合において、検索キーワードとして「オリンピック」が入力された場合に、Webページ1及びWebページ3のいずれを検索結果の上位に表示するか問題となる。
この点について、本実施形態では、Webページ内における全ての特徴語の特徴語ウェイトの平均値(平均ウェイト)から関連語ウェイトが乖離する割合(対比用ウェイト)を算出し、この割合を対比することで、各Webページを対比することとしてもよい。なお、この割合の算出は、「(関連語ウェイト−平均ウェイト)/関連語ウェイト」により算出することができる。
具体的には、Webページ1においては、Webページ内における全ての特徴語の特徴語ウェイトの平均値が「18」であるところ、「関連語ID010」の関連語ウェイトについての対比用ウェイトは、「0.74」(=(70−18)/70)となる。同様に、Webページ3においては、Webページ内における平均値が「10」であるところ、退避用ウェイトは、「0.75」(=(40−10)/40)となる。
このように対比用ウェイトを算出して対比することで、Webページ1及びWebページ3をほぼ同じ検索結果の順位とすることができる。即ち、一つのテーマについての情報量が同じWebページであれば、当該Webページ内の残りの部分の情報に関わらず同じ検索結果の順位とすることができる。その結果、本実施形態では、全てのWebページにおける絶対的な指標(平均値から乖離する割合、即ち、当該Webページ内における重要度)で検索結果の調整を行うことができ、より適切な検索結果をユーザに対して提供することができる。
なお、具体的には、図3のS3において、制御部10(特徴語ウェイト算出手段13)が、Webページ内における特徴語ウェイトを算出すると共に、当該Webページ内における特徴語ウェイトの平均値を算出し、図3のS5において、制御部10(Webページウェイト算出手段15)が、関連語ウェイトを算出すると共に、対比用ウェイトを算出することで実現できる。
(変形形態)
[関連語DBの変形例]
上記実施形態では、関連すると判定された特徴語を単に加算することとしているが、図8に示すように関連する度合いに応じて加算する割合を異ならせることとしてもよい。例えば、「関連語ID010」の「オリンピック」に関連するものとして「北京」と「東京」とが考えられるところ、開催された年月が近い「北京」を開催された年月が遠い「東京」よりも関連性が高いとすることとしてもよい。なお、これらの関連する度合いは、検索サーバ1の管理者が任意に設定可能であり、また適宜変更可能である。
[特徴語ウェイトの算出]
また、上記実施形態では、関連語ウェイトを所定のタイミングで定期的に行われるインデキシング処理において算出する(S5)こととしているが、これに限られるものではない。例えば、検索処理においてユーザが入力した検索キーワードを受信後に、関連語ウェイトを算出することとしてもよい。このような構成にすることにより、当該検索キーワードに対応する関連語IDについてのみ関連語ウェイトを算出すれば足りることになる。
検索システムの全体構成及び検索サーバの機能構成を示す図である。 検索サーバのハードウェア構成を示す図である。 検索サーバのインデキシング処理のフローチャートである。 記憶部に格納される関連語DB及びインデキシングDBを示す図である。 検索サーバでの検索処理のフローチャートである。 検索サーバでの検索結果の一例を示す図である。 各Webページの対比についての好適例を示す図である。 関連語DBの別実施形態を示す図である。 Webページ1及びWebページ2の一例を示す図である。 Webページのトータルウェイトの算出例を示す図である。
符号の説明
1 検索サーバ
2 コンテンツサーバ
4 端末
10 制御部
11 Webページ取得手段
12 Webページ解析手段
13 特徴語ウェイト算出手段
14 関連語判定手段
15 Webページウェイト算出手段
16 受信手段
17 検索手段
18 Webページ調整手段
19 コンテンツ送信手段
20 記憶部
22 回収WebページDB
24 関連語DB
26 インデキシングDB
100 検索システム

Claims (4)

  1. 端末に対して通信ネットワークを介して接続されたコンピュータが、
    検索の対象となるWebページを解析して前記Webページ内における特徴を示す特徴語を複数抽出するWebページ解析ステップと、
    抽出した前記特徴語の前記Webページ内における出現頻度を示す特徴語ウェイトを複数の前記特徴語の夫々について算出する特徴語ウェイト算出ステップと、
    を含む検索方法であって、
    複数の特徴語の関連性を記憶する関連語DBを備え、
    前記Webページ解析ステップにより抽出した複数の前記特徴語の夫々が関連するか否かを、前記関連語DBを用いて判定する関連語判定ステップと、
    関連すると判定した特徴語の特徴語ウェイトの総和を関連語ウェイトとして算出するWebページウェイト算出ステップと、
    算出した前記関連語ウェイトを、当該Webページのリンクデータに対応付けてインデキシングDBに記憶するインデキシング記憶ステップと、
    検索キーワードを含む要求データを前記端末から受信する受信ステップと、
    前記受信ステップにより受信した前記検索キーワードに基づき、前記検索キーワードを含むWebページを検索する検索ステップと、
    前記検索ステップにより検索したWebページのうち前記検索キーワードに関連する関連語ウェイトを用いて検索結果を調整するWebページ調整ステップと、
    前記Webページ調整ステップによる調整結果に基づき、検索された前記Webページのリンクデータを含むコンテンツを、前記端末に送信する送信ステップと、
    Webページ内における全ての特徴語の特徴語ウェイトの平均値を算出する平均ウェイト算出ステップと、
    前記Webページウェイト算出ステップにより算出した前記関連語ウェイトが、前記平均値から乖離する割合を算出する対比ウェイト算出ステップと、
    を含み、
    前記Webページ調整ステップは、前記対比ウェイト算出ステップにより算出した割合を用いて検索結果を調整することを特徴とする検索方法。
  2. 前記コンピュータが、通信ネットワークを介して接続されたWebサーバを定期的に巡回して、検索の対象になる前記Webページを取得する取得ステップを含むこと、
    を特徴とする請求項1に記載の検索方法。
  3. 請求項1又は請求項2のいずれか1項に記載の方法のステップをコンピュータに実行させるための検索プログラム。
  4. 端末に対して通信ネットワークを介して接続された検索サーバであって、
    検索の対象となるWebページを解析して前記Webページ内における特徴を示す特徴語を複数抽出するWebページ解析手段と、
    抽出した前記特徴語の前記Webページ内における出現頻度を示す特徴語ウェイトを複数の前記特徴語の夫々について算出する特徴語ウェイト算出手段と、
    複数の特徴語の関連性を記憶する関連語DBと、
    前記Webページ解析手段により抽出した複数の前記特徴語の夫々が関連するか否かを、前記関連語DBを用いて判定する関連語判定手段と、
    関連すると判別した特徴語の特徴語ウェイトの総和を関連語ウェイトとして算出するWebページウェイト算出手段と、
    算出した前記関連語ウェイトを、当該Webページのリンクデータに対応付けてインデキシングDBに記憶するインデキシング記憶手段と、
    検索キーワードを含む要求データを前記端末から受信する受信手段と、
    前記受信手段により受信した前記検索キーワードに基づき、前記検索キーワードを含むWebページを検索する検索手段と、
    前記検索手段により検索したWebページのうち前記検索キーワードに関連する関連語ウェイトを用いて検索結果を調整するWebページ調整手段と、
    前記Webページ調整手段による調整結果に基づき、検索された前記Webページのリンクデータを含むコンテンツを、前記端末に送信する送信手段と、
    Webページ内における全ての特徴語の特徴語ウェイトの平均値を算出する平均ウェイト算出手段と、
    前記Webページウェイト算出手段により算出した前記関連語ウェイトが、前記平均値から乖離する割合を算出する対比ウェイト算出手段と、
    を備え、
    前記Webページ調整手段は、前記対比ウェイト算出手段により算出した割合を用いて検索結果を調整することを特徴とする検索サーバ。
JP2008253465A 2008-09-30 2008-09-30 情報量に応じたページを優先的に表示する検索方法、プログラム及びサーバ Active JP5072792B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008253465A JP5072792B2 (ja) 2008-09-30 2008-09-30 情報量に応じたページを優先的に表示する検索方法、プログラム及びサーバ

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008253465A JP5072792B2 (ja) 2008-09-30 2008-09-30 情報量に応じたページを優先的に表示する検索方法、プログラム及びサーバ

Publications (2)

Publication Number Publication Date
JP2010086210A JP2010086210A (ja) 2010-04-15
JP5072792B2 true JP5072792B2 (ja) 2012-11-14

Family

ID=42250123

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008253465A Active JP5072792B2 (ja) 2008-09-30 2008-09-30 情報量に応じたページを優先的に表示する検索方法、プログラム及びサーバ

Country Status (1)

Country Link
JP (1) JP5072792B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8704905B2 (en) 2007-08-29 2014-04-22 Panasonic Corporation Camera body and camera system

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103377185B (zh) * 2012-04-24 2017-09-22 深圳市世纪光速信息技术有限公司 一种为短文本自动添加标签的方法及装置
JP6072449B2 (ja) 2012-07-09 2017-02-01 ルネサスエレクトロニクス株式会社 半導体記憶回路及びその動作方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000090111A (ja) * 1998-09-14 2000-03-31 Matsushita Electric Ind Co Ltd 情報検索エージェント装置及び情報検索エージェント装置の機能を発揮するプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001134588A (ja) * 1999-11-04 2001-05-18 Ricoh Co Ltd 文書検索装置
JP2004287696A (ja) * 2003-03-20 2004-10-14 Seiko Epson Corp 検索システム及び検索プログラム
JP4510483B2 (ja) * 2004-02-23 2010-07-21 株式会社エヌ・ティ・ティ・データ 情報検索装置
JP2006343925A (ja) * 2005-06-08 2006-12-21 Fuji Xerox Co Ltd 関連語辞書作成装置、および関連語辞書作成方法、並びにコンピュータ・プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8704905B2 (en) 2007-08-29 2014-04-22 Panasonic Corporation Camera body and camera system

Also Published As

Publication number Publication date
JP2010086210A (ja) 2010-04-15

Similar Documents

Publication Publication Date Title
JP5174931B2 (ja) ドキュメント利用統計を用いたランキング関数
CN107092615B (zh) 来自文档的查询建议
JP4638439B2 (ja) ウェブ検索の個人化
KR101171405B1 (ko) 검색 결과에서 배치 내용 정렬의 맞춤화
US20040002945A1 (en) Program for changing search results rank, recording medium for recording such a program, and content search processing method
US20090299978A1 (en) Systems and methods for keyword and dynamic url search engine optimization
JP2006092557A (ja) 検索エンジンから返されるページのランキングを制御するシステムおよび方法
US10282358B2 (en) Methods of furnishing search results to a plurality of client devices via a search engine system
JP2007188352A (ja) ページリランキング装置、ページリランキングプログラム
JP2010055159A (ja) 情報検索装置、情報検索方法、およびプログラム
JP2007140973A (ja) ページリランキング装置、ページリランキングプログラム
EP2050020A1 (en) A method for personalized search indexing
US20150169576A1 (en) Dynamic Search Results
JP6506489B1 (ja) 特許評価判定方法、特許評価判定装置、および特許評価判定プログラム
US20150339387A1 (en) Method of and system for furnishing a user of a client device with a network resource
US20150169643A1 (en) Providing supplemental search results in repsonse to user interest signal
JP2003091552A (ja) 検索要求情報抽出方法及びその実施システム並びにその処理プログラム
JP5072792B2 (ja) 情報量に応じたページを優先的に表示する検索方法、プログラム及びサーバ
JP5296745B2 (ja) クエリサジェスチョン提供装置及び方法
JP5220659B2 (ja) 検索装置及び方法
JP2010055155A (ja) サーバ装置、情報処理方法およびプログラム
JP2009145953A (ja) データ検索装置、データ検索方法、コンピュータプログラム、及び記録媒体
JP5014252B2 (ja) コンテンツを検索する索引データを管理する方法、サーバ、およびプログラム
JP5777663B2 (ja) 検索支援装置及び検索支援プログラム
JP2012168844A (ja) 検索サジェスト装置及び方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120221

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120312

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120423

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120724

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120821

R150 Certificate of patent or registration of utility model

Ref document number: 5072792

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150831

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350