JP2008262520A

JP2008262520A - インターネット情報検索システム及びその方法

Info

Publication number: JP2008262520A
Application number: JP2007126105A
Authority: JP
Inventors: Hiroyuki Kanzaki; 裕之神崎
Original assignee: DYNASOFT CORP
Current assignee: DYNASOFT CORP
Priority date: 2007-04-11
Filing date: 2007-04-11
Publication date: 2008-10-30

Abstract

【課題】利用者の要求する必要な情報を速やかに取得することが可能な検索エンジンシステムを提供する。
【解決手段】ウェブサイトもしくはブログサイト１０からコンテンツ情報更新通知を行うＰｉｎｇサーバ２０と、更新通知によりウェブサイトもしくはブログサイト１０のＲＳＳファイル１１を取得し、ＲＳＳファイル１１を記事毎に分解整理する、ＲＳＳクローラサーバ３０と、取得したＲＳＳ情報を記事毎に独自アルゴリズムによりキーワード抽出と重み付けを行いキーワード分類の解析と評価を行うインデックスサーバ４０と、ユーザが検索条件を入力し、検索要求を行う端末６０と、その検索要求を受付け、検索結果を返信する検索サーバ５０と、を備える。
【選択図】図１

Description

本発明は、インターネット上に多々存在するウェブサイト、ブログサイトの、ＲＳＳファイルを取得し記事毎に解析評価し、評価した記事ならびにウェブサイト、ブログサイトの表示順位を、利用者の検索要求に対して表示する技術に関する。

インターネットを使って情報収集を行うことが一般的になっており、特に、検索エンジンによるウェブサイトの検索は、情報収集を行う際に非常に有効な方法の一つである。現在サービス中の検索エンジンの多くは、クローラと呼ばれるプログラムがインターネット網を巡回し、ネット上に存在するウェブサイトのデータを自動的に取得し収集したデータを元に独自アルゴリズムでウェブページとウェブサイトの表示順位を評価決定した結果をデータベースに保存している。ユーザは端末から検索キーワードを入力し検索要求を検索エンジンに送り、検索結果をユーザ端末に返信する。例えば代表的なアルゴリズムとしてページランクがあり、非特許文献１に記載されている。

また近年、ブログでの情報発信は、ＰｉｎｇサーバもしくはＰｉｎｇサーバ機能を備えたＲＳＳポータルサイトへ自身のサイトを要約記録したＲＳＳ（ＲＤＦＳｉｔｅＳｕｍｍａｒｙ、ＲｉｃｈＳｉｔｅＳｕｍｍａｒｙ、ＲｅａｌｌｙＳｉｍｐｌｅＳｙｎｄｉｃａｔｉｏｎの略）もしくはＡｔｏｍ（ＡｔｏｍＳｙｎｄｉｃａｔｉｏｎＦｏｒｍａｔ）フォーマットを利用した通知により、情報発信者は情報伝達のリアルタイム性と自分の情報をより多くの人に見てもらうことが可能となった。このＲＳＳ、Ａｔｏｍの各記事には各ウェブページ、ブログページの要約情報を含めることが一般的であるが、必ずしもそのような制限があるわけではなく、静止画、音声、動画、ＵＲＩ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＩｄｅｎｔｉｆｉｅｒ）等の情報を含めることが可能である。

一方、閲覧者側は端末上で、このＲＳＳ、Ａｔｏｍファイルを読み込むためのＲＳＳリーダと呼ばれるソフトウェアを利用して新着情報の確認と、必要な情報と不必要な情報の選択と、詳細な記事情報を閲覧することが可能になっている。

このＲＳＳ、Ａｔｏｍにより、情報発信者のニーズである、より多くの人に見てもらいたいことと、閲覧者側のニーズである情報の選択と情報の可読性の向上により、ＲＳＳ、Ａｔｏｍの採用は、ブログサイト以外に、ニュース配信サイトならびに企業ウェブサイト、その他一般ウェブサイトでも、ＲＳＳ、Ａｔｏｍフォーマットを利用し情報発信することが一般的になっており、ＲＳＳ、Ａｔｏｍファイルの各記事のタイトルと本文の内容は、インターネットマーケティングにおいて重要度を増している。

従来例の一つに、検索エンジンは近年のブログサイトの増加により、一般ウェブサイトに比べページ間のリンク数の多いブログサイトが高く評価される傾向にあった。また、故意的に検索順位を上げる目的のため、ブログ記事投稿画面から無差別にトラックバックを行うことにより他ブログサイトページからのリンク数を増やし上位に表示する問題と、有名人のブログサイトへのリンクをブログサイトのページに貼り付けることによる有名人ブログサイトが上位に表示される問題と、本、音楽ＣＤ、映画ＤＶＤ等のクリック報酬型のアフィリエイト広告をブログサイトのページへ張り付けることにより、商品販売サイトのページが上位に表示される問題と、プログラムによる自動更新ブログサイトの登場により、他ブログサイトの記事本文をコピーし更新頻度を上げ上位に表示する問題と、他ブログサイトへ悪戯目的のコメントの投稿による記事とは関係の無い検索キーワードによる表示問題等が発生している。これらの問題は検索エンジンとして対策が施されてはいるが効果的な結果には至っておらず、ユーザの要求する検索結果がユーザの満足する結果ではなく、必要な情報を探すために複数の検索結果ページを確認しなければならず、ユーザに強いる労力が大きくなり、検索エンジン本来の目的である必要な情報を速やかに取得することが困難であった。

更に、他の例には、ブログサイト用のブログ検索エンジンも開発されサービスをしている。このブログ検索エンジンは従来の検索エンジンと同様な方法にてデータを収集し、独自アルゴリズムにより記事やサイトの順位付けを行っているが、主に更新順に順位付けし表示しているために、ブログで引用されているブログサイト、ニュース記事、動画、文章中で多く出現するキーワード等の直近の傾向や概要を知るには便利であるが、ユーザの要求する過去の情報を含めた必要な情報を速やかに取得する目的には不向きであり、従来の検索エンジンと同様の問題があった。

Ｐａｇｅｅｔａｌ．，"ＴｈｅＰａｇｅＲａｎｋｃｉｔａｔｉｏｎｒａｎｋｉｎｇ：ＢｒｉｎｇｉｎｇｏｒｄｅｒｔｏｔｈｅＷｅｂ，"ＳｔａｎｆｏｒｄＤｉｇｉｔａｌＬｉｂｒａｒｉｅｓＷｏｒｋｉｎｇＰａｇｅｒ，Ｊａｎｕａｒｙ１９９８

上記の従来例では、ページ内には情報発信者が情報発信として意図している情報記事のタイトル、記事本文のテキストや添付している静止画、音声、動画等以外に、サイト内のページ遷移のための過多なリンク情報、その他サイトへの情報価値の無いリンク情報、トラックバック、コメント、クリック報酬型のアフィリエイト広告等が混在しているがために、情報ノイズが発生し、必要な情報を探すために複数の検索結果ページを確認しなければならず、ユーザに強いる労力が大きくなり、検索エンジン本来の目的であるユーザの要求する必要な情報を速やかに取得することに支障を来たしていた。

また、このような問題が発生する要因として、従来の検索エンジンが評価対象にしているものがページ単位であることに起因しており、ＲＳＳ、Ａｔｏｍ準拠もしくは準じるフォーマットのＲＳＳファイルの記事単位を、評価対象元にしている検索エンジンは存在してなかった。

本発明は、このような課題を解決するために、検索エンジン本来の目的であるユーザの要求する必要な情報を速やかに取得することを目的とした、検索エンジンシステムを提供することを目的とするものである。

このような目的を達成するために、本発明にかかる検索エンジンシステムは、ウェブサイトもしくはブログサイトからコンテンツ情報の更新通知を行うＰｉｎｇサーバと、更新通知によりウェブサイトもしくはブログサイトのＲＳＳファイルを取得し、ＲＳＳファイルを記事毎に分解整理するＲＳＳクローラサーバと、取得したＲＳＳ情報を記事毎に独自アルゴリズムによりキーワード抽出と重み付けを行いキーワード分類の解析と評価を行い、記事毎の評価から総合的にウェブサイトならびにブログサイトの評価を決定し表示順位結果をデータベースに保存するインデックスサーバと、ユーザが検索条件を入力し、検索要求を行う端末と、その検索要求を受付け、検索結果を返信する検索サーバと、を備える。

本発明によれば、インターネットマーケティングの上で情報価値が増大しているＲＳＳ、Ａｔｏｍ準拠もしくは準じるフォーマットのＲＳＳファイルの記事を評価対象とすることにより、従来のページ評価によるその他サイトへのリンク情報、トラックバック、コメント、クリック報酬型のアフィリエイト広告等が含まれないことから情報ノイズが大幅に削減し、情報発信者が情報発信として意図している記事のタイトル、記事カテゴリ、記事本文のテキストや添付している静止画、音声、動画、ＵＲＩの評価を行うことにより、情報価値の精査が可能であり、記事単位の検索精度を大幅に上げることができる。

本発明によれば、検索対象のＲＳＳ、Ａｔｏｍ準拠もしくは準じるフォーマットのＲＳＳファイルはＸＭＬ（ＥｘｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）フォーマットから派生していることから、情報発信者が各情報の意味づけを行うことが可能であり、その意味付けを解釈することにより、情報発信者の意図とユーザが検索するキーワードのマッチングが行え、検索精度を大幅に上げることができる。例えば、記事カテゴリとユーザが検索するキーワードのマッチングである。

本発明によれば、記事毎の評価からウェブページとブログページならびに、ウェブサイトとブログサイトを総合評価することにより、有益な情報を発信しているウェブサイトならびにブログサイトの表示順を決定し、検索エンジン本来の目的であるユーザの要求する必要な情報を速やかに取得することができる。

次に、本発明の実施形態について図面を参照して説明する。まず、図１を参照して、本発明の実施の形態にかかる検索エンジンシステムについて説明する。図１は、本発明の実施の形態にかかる検索エンジンシステムの構成を示すブロック図である。この検索エンジンシステムは、ネットワーク１に設けられたウェブサイトもしくはブログサイト１０からコンテンツ情報更新通知を行うＰｉｎｇサーバ２０と、更新通知によりウェブサイトもしくはブログサイト１０のＲＳＳファイル１１を取得し、ＲＳＳファイル１１を記事毎に分解整理する、ＲＳＳクローラサーバ３０と、取得したＲＳＳ情報を記事毎に独自アルゴリズムによりキーワード抽出と重み付けを行いキーワード分類の解析と評価を行うインデックスサーバ４０と、ユーザが検索条件を入力し、検索要求を行う端末６０と、その検索要求を受付け、検索結果を返信する検索サーバ５０と、を含む。

ウェブサイトもしくはブログサイト１０は、情報コンテンツであるページを更新した場合、ＲＳＳファイル１１を記載する所定の書式であるＲＳＳ、Ａｔｏｍ準拠もしくは準じる書式で、自動もしくは手動にてＲＳＳファイル１１を生成配置し、Ｐｉｎｇサーバ２０へウェブサイトもしくはブログサイト１０のＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）等の情報を送信する。

Ｐｉｎｇサーバ２０は、更新通知のサイト情報ＵＲＬ等を更新サイト情報データベース２１に格納する。

図２を参照して説明すると、図２は、ＲＳＳクローラサーバ３０の処理概要を図に表したものである。ＲＳＳクローラサーバ３０の更新サイト情報取得プログラム（Ｐ３５）は、Ｐｉｎｇサーバ２０の更新サイト情報データベース２１から更新サイト情報ＵＲＬを取得し、更新サイト情報を引数に更新チェックプログラム（Ｐ３６）を起動する（Ｐ３５）。

更新サイト情報のＵＲＬを元に、該当ウェブサイトもしくはブログサイト１０にＲＳＳファイル１１が存在するかチェックを行う。ＲＳＳファイル１１が存在する場合、ウェブサイトもしくはブログサイト１０のＲＳＳファイル１１のＵＲＬ情報を取得し、ＲＳＳファイル１１のＵＲＬならびに最終更新日時とクローラ管理データベース３１のＵＲＬならびに最終更新日時を比較し、未登録もしくは更新されている場合は、ＲＳＳファイル１１のＵＲＬを引数にＲＳＳ取得更新プログラム（Ｐ３７）を起動する（Ｐ３６）。

ＲＳＳファイル１１を取得し、ＲＳＳファイル１１を記事単位に分解し、分解した記事本文中にＵＲＩが存在した場合は次巡回先として、次巡回先ＵＲＩを引数に更新チェックプログラム（Ｐ３６）を起動し、分解した記事情報をインデックスサーバ４０のインデックスデータベース４１のワークテーブルへ追加更新し情報を引継ぎ、クローラ管理データベース３１へ巡回済み情報として、ＲＳＳファイル１１のＵＲＬと最終更新日時の追加更新を行う（Ｐ３７）。

また、ＲＳＳクローラサーバ３０は、クローラ管理データベース３１に登録されている定期巡回先サイトのＵＲＬを取得し、このＵＲＬを引数に更新チェックプログラム（Ｐ３６）を起動し、ＲＳＳファイル１１が更新されているかどうかも定期的にチェックを行うものとする。

また、ＲＳＳクローラサーバ３０は、クローラ管理データベース３１に登録されている外部公開ＰｉｎｇサーバのＵＲＬを取得し、このＵＲＬを引数に更新サイト情報取得プログラム（Ｐ３５）を起動し、外部公開Ｐｉｎｇサーバから更新サイト情報の取得を行うものとする。

インデックスサーバ４０は、インデックスデータベース４１のワークテーブルへ格納された分解済みの記事情報を元に、インデックスデータベース４１へ未登録記事と過去に登録した記事があるかどうかチェックを行う。分解済みの記事情報が未登録記事もしくは更新記事である場合、記事単位に分解したＲＳＳ情報を独自アルゴリズムにより解析し、キーワード抽出と重み付けを行いキーワード分類の解析と評価を行いインデックスデータベース４１に追加更新する。また、記事本文中にＵＲＩが存在した場合、そのＵＲＩ先への評価を行う。

インデックスサーバ４０は、記事毎の評価からウェブページとブログページならびにウェブサイトとブログサイトを総合評価することにより、有益な情報を発信しているウェブサイトならびにブログサイトの表示順位を決定し、インデックスデータベース４１に格納する。

図３はＲＳＳファイル１１を記事毎に分解し、インデックスデータベース４１のワークテーブルへ格納する際のマッピングを表した図である。

図１を参照すると、定期的に独自アルゴリズムにより評価した結果が格納されたインデックスデータベース４１から検索サーバ５０の検索データベース５１へ更新を行う。

図１を参照すると、端末６０からユーザが検索条件を入力し、検索要求を検索サーバ５０に送信する。検索サーバ５０はその検索要求を受信し、検索要求の検索条件を元に検索データベース５１を検索し、検索結果を端末６０へ返信する。また、検索ＡＰＩ（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍＩｎｔｅｒｆａｃｅ）を公開することにより、他のウェブサイトからも検索要求を行うことが可能である。

本発明の実施形態にかかる検索エンジンシステムの検索結果は、有名なニュース配信サイト、ポータルサイト、ウェブサイト、ブログサイトが上位に表示され、その他サイトが埋没し閲覧されない問題があるので、有名サイト以外と範囲指定をして検索要求を行うことと、新着情報順で検索要求を行うこと等も可能である。

本発明に係わる検索エンジンシステムの構成図である。ＲＳＳクローラサーバ３０の処理概要図である。ＲＳＳファイル１１とインデックスデータベース４１のマッピング図である。

符号の説明

１ネットワーク
１０ウェブサイトもしくはブログサイト
１１ＲＳＳファイル
２０Ｐｉｎｇサーバ
２１更新サイト情報データベース
３０ＲＳＳクローラサーバ
３１クローラ管理データベース
４０インデックスサーバ
４１インデックスデータベース
５０検索サーバ
５１検索データベース
６０端末

Claims

端末からネットワークを通じて検索エンジンに検索条件を送り、前記検索エンジンが前記検索条件に基づいて検索し、検索結果の情報一覧を前記端末に出力表示する検索エンジンシステムにおいて、
ウェブサイトもしくはブログサイトからネットワークを通じてコンテンツ情報更新通知を送るＰｉｎｇサーバと、
前記Ｐｉｎｇサーバから前記コンテンツ情報更新通知を取得し、前記ウェブサイトもしくはブログサイトのＲＳＳ情報を取得し、ＲＳＳ情報を記事毎に分解整理するクローラサーバと、
前記ＲＳＳ情報を記事毎に独自アルゴリズムによりキーワード抽出と重み付けを行い、キーワード分類の解析と評価を行い、記事毎の評価から該当のウェブページとブログページならびにウェブサイトとブログサイトの総合評価を行うインデックスサーバと、
端末から検索条件を受け取り、前記インデックスサーバから取得した評価結果を元に、検索処理をした検索結果の情報一覧を前記端末に出力表示する検索サーバと、
を備えることを特徴とする検索エンジンシステム。
請求項１記載の検索エンジンシステムであって、
前記ＲＳＳ情報を記載する所定の書式はＲＳＳ（ＲＤＦＳｉｔｅＳｕｍｍａｒｙ、ＲｉｃｈＳｉｔｅＳｕｍｍａｒｙ、ＲｅａｌｌｙＳｉｍｐｌｅＳｙｎｄｉｃａｔｉｏｎの略）もしくはＡｔｏｍ（ＡｔｏｍＳｙｎｄｉｃａｔｉｏｎＦｏｒｍａｔ）フォーマットに準拠もしくは準じるフォーマットを特徴とする検索エンジンシステム。
請求項１から２のいずれかに記載の検索エンジンシステムであって、
前記クローラサーバはデータベースに登録済みの巡回先サイトのＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）を取得し、該当のウェブサイトもしくはブログサイトのＲＳＳ情報が更新されている場合、ＲＳＳ情報を取得し、前記ＲＳＳ情報を記事毎に分解整理することを特徴とする検索エンジンシステム。