JP2008262520A - インターネット情報検索システム及びその方法 - Google Patents

インターネット情報検索システム及びその方法 Download PDF

Info

Publication number
JP2008262520A
JP2008262520A JP2007126105A JP2007126105A JP2008262520A JP 2008262520 A JP2008262520 A JP 2008262520A JP 2007126105 A JP2007126105 A JP 2007126105A JP 2007126105 A JP2007126105 A JP 2007126105A JP 2008262520 A JP2008262520 A JP 2008262520A
Authority
JP
Japan
Prior art keywords
search
information
server
rss
site
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007126105A
Other languages
English (en)
Inventor
Hiroyuki Kanzaki
裕之 神崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DYNASOFT CORP
Original Assignee
DYNASOFT CORP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DYNASOFT CORP filed Critical DYNASOFT CORP
Priority to JP2007126105A priority Critical patent/JP2008262520A/ja
Publication of JP2008262520A publication Critical patent/JP2008262520A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】利用者の要求する必要な情報を速やかに取得することが可能な検索エンジンシステムを提供する。
【解決手段】ウェブサイトもしくはブログサイト10からコンテンツ情報更新通知を行うPingサーバ20と、更新通知によりウェブサイトもしくはブログサイト10のRSSファイル11を取得し、RSSファイル11を記事毎に分解整理する、RSSクローラサーバ30と、取得したRSS情報を記事毎に独自アルゴリズムによりキーワード抽出と重み付けを行いキーワード分類の解析と評価を行うインデックスサーバ40と、ユーザが検索条件を入力し、検索要求を行う端末60と、その検索要求を受付け、検索結果を返信する検索サーバ50と、を備える。
【選択図】図1

Description

本発明は、インターネット上に多々存在するウェブサイト、ブログサイトの、RSSファイルを取得し記事毎に解析評価し、評価した記事ならびにウェブサイト、ブログサイトの表示順位を、利用者の検索要求に対して表示する技術に関する。
インターネットを使って情報収集を行うことが一般的になっており、特に、検索エンジンによるウェブサイトの検索は、情報収集を行う際に非常に有効な方法の一つである。現在サービス中の検索エンジンの多くは、クローラと呼ばれるプログラムがインターネット網を巡回し、ネット上に存在するウェブサイトのデータを自動的に取得し収集したデータを元に独自アルゴリズムでウェブページとウェブサイトの表示順位を評価決定した結果をデータベースに保存している。ユーザは端末から検索キーワードを入力し検索要求を検索エンジンに送り、検索結果をユーザ端末に返信する。例えば代表的なアルゴリズムとしてページランクがあり、非特許文献1に記載されている。
また近年、ブログでの情報発信は、PingサーバもしくはPingサーバ機能を備えたRSSポータルサイトへ自身のサイトを要約記録したRSS(RDF Site Summary、Rich Site Summary、Really Simple Syndicationの略)もしくはAtom(Atom Syndication Format)フォーマットを利用した通知により、情報発信者は情報伝達のリアルタイム性と自分の情報をより多くの人に見てもらうことが可能となった。このRSS、Atomの各記事には各ウェブページ、ブログページの要約情報を含めることが一般的であるが、必ずしもそのような制限があるわけではなく、静止画、音声、動画、URI(Uniform Resource Identifier)等の情報を含めることが可能である。
一方、閲覧者側は端末上で、このRSS、Atomファイルを読み込むためのRSSリーダと呼ばれるソフトウェアを利用して新着情報の確認と、必要な情報と不必要な情報の選択と、詳細な記事情報を閲覧することが可能になっている。
このRSS、Atomにより、情報発信者のニーズである、より多くの人に見てもらいたいことと、閲覧者側のニーズである情報の選択と情報の可読性の向上により、RSS、Atomの採用は、ブログサイト以外に、ニュース配信サイトならびに企業ウェブサイト、その他一般ウェブサイトでも、RSS、Atomフォーマットを利用し情報発信することが一般的になっており、RSS、Atomファイルの各記事のタイトルと本文の内容は、インターネットマーケティングにおいて重要度を増している。
従来例の一つに、検索エンジンは近年のブログサイトの増加により、一般ウェブサイトに比べページ間のリンク数の多いブログサイトが高く評価される傾向にあった。また、故意的に検索順位を上げる目的のため、ブログ記事投稿画面から無差別にトラックバックを行うことにより他ブログサイトページからのリンク数を増やし上位に表示する問題と、有名人のブログサイトへのリンクをブログサイトのページに貼り付けることによる有名人ブログサイトが上位に表示される問題と、本、音楽CD、映画DVD等のクリック報酬型のアフィリエイト広告をブログサイトのページへ張り付けることにより、商品販売サイトのページが上位に表示される問題と、プログラムによる自動更新ブログサイトの登場により、他ブログサイトの記事本文をコピーし更新頻度を上げ上位に表示する問題と、他ブログサイトへ悪戯目的のコメントの投稿による記事とは関係の無い検索キーワードによる表示問題等が発生している。これらの問題は検索エンジンとして対策が施されてはいるが効果的な結果には至っておらず、ユーザの要求する検索結果がユーザの満足する結果ではなく、必要な情報を探すために複数の検索結果ページを確認しなければならず、ユーザに強いる労力が大きくなり、検索エンジン本来の目的である必要な情報を速やかに取得することが困難であった。
更に、他の例には、ブログサイト用のブログ検索エンジンも開発されサービスをしている。このブログ検索エンジンは従来の検索エンジンと同様な方法にてデータを収集し、独自アルゴリズムにより記事やサイトの順位付けを行っているが、主に更新順に順位付けし表示しているために、ブログで引用されているブログサイト、ニュース記事、動画、文章中で多く出現するキーワード等の直近の傾向や概要を知るには便利であるが、ユーザの要求する過去の情報を含めた必要な情報を速やかに取得する目的には不向きであり、従来の検索エンジンと同様の問題があった。
Page et al.,"The PageRank citation ranking: Bringing order to the Web,"Stanford Digital Libraries Working Pager,January 1998
上記の従来例では、ページ内には情報発信者が情報発信として意図している情報記事のタイトル、記事本文のテキストや添付している静止画、音声、動画等以外に、サイト内のページ遷移のための過多なリンク情報、その他サイトへの情報価値の無いリンク情報、トラックバック、コメント、クリック報酬型のアフィリエイト広告等が混在しているがために、情報ノイズが発生し、必要な情報を探すために複数の検索結果ページを確認しなければならず、ユーザに強いる労力が大きくなり、検索エンジン本来の目的であるユーザの要求する必要な情報を速やかに取得することに支障を来たしていた。
また、このような問題が発生する要因として、従来の検索エンジンが評価対象にしているものがページ単位であることに起因しており、RSS、Atom準拠もしくは準じるフォーマットのRSSファイルの記事単位を、評価対象元にしている検索エンジンは存在してなかった。
本発明は、このような課題を解決するために、検索エンジン本来の目的であるユーザの要求する必要な情報を速やかに取得することを目的とした、検索エンジンシステムを提供することを目的とするものである。
このような目的を達成するために、本発明にかかる検索エンジンシステムは、ウェブサイトもしくはブログサイトからコンテンツ情報の更新通知を行うPingサーバと、更新通知によりウェブサイトもしくはブログサイトのRSSファイルを取得し、RSSファイルを記事毎に分解整理するRSSクローラサーバと、取得したRSS情報を記事毎に独自アルゴリズムによりキーワード抽出と重み付けを行いキーワード分類の解析と評価を行い、記事毎の評価から総合的にウェブサイトならびにブログサイトの評価を決定し表示順位結果をデータベースに保存するインデックスサーバと、ユーザが検索条件を入力し、検索要求を行う端末と、その検索要求を受付け、検索結果を返信する検索サーバと、を備える。
本発明によれば、インターネットマーケティングの上で情報価値が増大しているRSS、Atom準拠もしくは準じるフォーマットのRSSファイルの記事を評価対象とすることにより、従来のページ評価によるその他サイトへのリンク情報、トラックバック、コメント、クリック報酬型のアフィリエイト広告等が含まれないことから情報ノイズが大幅に削減し、情報発信者が情報発信として意図している記事のタイトル、記事カテゴリ、記事本文のテキストや添付している静止画、音声、動画、URIの評価を行うことにより、情報価値の精査が可能であり、記事単位の検索精度を大幅に上げることができる。
本発明によれば、検索対象のRSS、Atom準拠もしくは準じるフォーマットのRSSファイルはXML(Extensible Markup Language)フォーマットから派生していることから、情報発信者が各情報の意味づけを行うことが可能であり、その意味付けを解釈することにより、情報発信者の意図とユーザが検索するキーワードのマッチングが行え、検索精度を大幅に上げることができる。例えば、記事カテゴリとユーザが検索するキーワードのマッチングである。
本発明によれば、記事毎の評価からウェブページとブログページならびに、ウェブサイトとブログサイトを総合評価することにより、有益な情報を発信しているウェブサイトならびにブログサイトの表示順を決定し、検索エンジン本来の目的であるユーザの要求する必要な情報を速やかに取得することができる。
次に、本発明の実施形態について図面を参照して説明する。まず、図1を参照して、本発明の実施の形態にかかる検索エンジンシステムについて説明する。図1は、本発明の実施の形態にかかる検索エンジンシステムの構成を示すブロック図である。この検索エンジンシステムは、ネットワーク1に設けられたウェブサイトもしくはブログサイト10からコンテンツ情報更新通知を行うPingサーバ20と、更新通知によりウェブサイトもしくはブログサイト10のRSSファイル11を取得し、RSSファイル11を記事毎に分解整理する、RSSクローラサーバ30と、取得したRSS情報を記事毎に独自アルゴリズムによりキーワード抽出と重み付けを行いキーワード分類の解析と評価を行うインデックスサーバ40と、ユーザが検索条件を入力し、検索要求を行う端末60と、その検索要求を受付け、検索結果を返信する検索サーバ50と、を含む。
ウェブサイトもしくはブログサイト10は、情報コンテンツであるページを更新した場合、RSSファイル11を記載する所定の書式であるRSS、Atom準拠もしくは準じる書式で、自動もしくは手動にてRSSファイル11を生成配置し、Pingサーバ20へウェブサイトもしくはブログサイト10のURL(Uniform Resource Locator)等の情報を送信する。
Pingサーバ20は、更新通知のサイト情報URL等を更新サイト情報データベース21に格納する。
図2を参照して説明すると、図2は、RSSクローラサーバ30の処理概要を図に表したものである。RSSクローラサーバ30の更新サイト情報取得プログラム(P35)は、Pingサーバ20の更新サイト情報データベース21から更新サイト情報URLを取得し、更新サイト情報を引数に更新チェックプログラム(P36)を起動する(P35)。
更新サイト情報のURLを元に、該当ウェブサイトもしくはブログサイト10にRSSファイル11が存在するかチェックを行う。RSSファイル11が存在する場合、ウェブサイトもしくはブログサイト10のRSSファイル11のURL情報を取得し、RSSファイル11のURLならびに最終更新日時とクローラ管理データベース31のURLならびに最終更新日時を比較し、未登録もしくは更新されている場合は、RSSファイル11のURLを引数にRSS取得更新プログラム(P37)を起動する(P36)。
RSSファイル11を取得し、RSSファイル11を記事単位に分解し、分解した記事本文中にURIが存在した場合は次巡回先として、次巡回先URIを引数に更新チェックプログラム(P36)を起動し、分解した記事情報をインデックスサーバ40のインデックスデータベース41のワークテーブルへ追加更新し情報を引継ぎ、クローラ管理データベース31へ巡回済み情報として、RSSファイル11のURLと最終更新日時の追加更新を行う(P37)。
また、RSSクローラサーバ30は、クローラ管理データベース31に登録されている定期巡回先サイトのURLを取得し、このURLを引数に更新チェックプログラム(P36)を起動し、RSSファイル11が更新されているかどうかも定期的にチェックを行うものとする。
また、RSSクローラサーバ30は、クローラ管理データベース31に登録されている外部公開PingサーバのURLを取得し、このURLを引数に更新サイト情報取得プログラム(P35)を起動し、外部公開Pingサーバから更新サイト情報の取得を行うものとする。
インデックスサーバ40は、インデックスデータベース41のワークテーブルへ格納された分解済みの記事情報を元に、インデックスデータベース41へ未登録記事と過去に登録した記事があるかどうかチェックを行う。分解済みの記事情報が未登録記事もしくは更新記事である場合、記事単位に分解したRSS情報を独自アルゴリズムにより解析し、キーワード抽出と重み付けを行いキーワード分類の解析と評価を行いインデックスデータベース41に追加更新する。また、記事本文中にURIが存在した場合、そのURI先への評価を行う。
インデックスサーバ40は、記事毎の評価からウェブページとブログページならびにウェブサイトとブログサイトを総合評価することにより、有益な情報を発信しているウェブサイトならびにブログサイトの表示順位を決定し、インデックスデータベース41に格納する。
図3はRSSファイル11を記事毎に分解し、インデックスデータベース41のワークテーブルへ格納する際のマッピングを表した図である。
図1を参照すると、定期的に独自アルゴリズムにより評価した結果が格納されたインデックスデータベース41から検索サーバ50の検索データベース51へ更新を行う。
図1を参照すると、端末60からユーザが検索条件を入力し、検索要求を検索サーバ50に送信する。検索サーバ50はその検索要求を受信し、検索要求の検索条件を元に検索データベース51を検索し、検索結果を端末60へ返信する。また、検索API(Application Program Interface)を公開することにより、他のウェブサイトからも検索要求を行うことが可能である。
本発明の実施形態にかかる検索エンジンシステムの検索結果は、有名なニュース配信サイト、ポータルサイト、ウェブサイト、ブログサイトが上位に表示され、その他サイトが埋没し閲覧されない問題があるので、有名サイト以外と範囲指定をして検索要求を行うことと、新着情報順で検索要求を行うこと等も可能である。
本発明に係わる検索エンジンシステムの構成図である。 RSSクローラサーバ30の処理概要図である。 RSSファイル11とインデックスデータベース41のマッピング図である。
符号の説明
1 ネットワーク
10 ウェブサイトもしくはブログサイト
11 RSSファイル
20 Pingサーバ
21 更新サイト情報データベース
30 RSSクローラサーバ
31 クローラ管理データベース
40 インデックスサーバ
41 インデックスデータベース
50 検索サーバ
51 検索データベース
60 端末

Claims (3)

  1. 端末からネットワークを通じて検索エンジンに検索条件を送り、前記検索エンジンが前記検索条件に基づいて検索し、検索結果の情報一覧を前記端末に出力表示する検索エンジンシステムにおいて、
    ウェブサイトもしくはブログサイトからネットワークを通じてコンテンツ情報更新通知を送るPingサーバと、
    前記Pingサーバから前記コンテンツ情報更新通知を取得し、前記ウェブサイトもしくはブログサイトのRSS情報を取得し、RSS情報を記事毎に分解整理するクローラサーバと、
    前記RSS情報を記事毎に独自アルゴリズムによりキーワード抽出と重み付けを行い、キーワード分類の解析と評価を行い、記事毎の評価から該当のウェブページとブログページならびにウェブサイトとブログサイトの総合評価を行うインデックスサーバと、
    端末から検索条件を受け取り、前記インデックスサーバから取得した評価結果を元に、検索処理をした検索結果の情報一覧を前記端末に出力表示する検索サーバと、
    を備えることを特徴とする検索エンジンシステム。
  2. 請求項1記載の検索エンジンシステムであって、
    前記RSS情報を記載する所定の書式はRSS(RDF Site Summary、Rich Site Summary、Really Simple Syndicationの略)もしくはAtom(Atom Syndication Format)フォーマットに準拠もしくは準じるフォーマットを特徴とする検索エンジンシステム。
  3. 請求項1から2のいずれかに記載の検索エンジンシステムであって、
    前記クローラサーバはデータベースに登録済みの巡回先サイトのURL(Uniform Resource Locator)を取得し、該当のウェブサイトもしくはブログサイトのRSS情報が更新されている場合、RSS情報を取得し、前記RSS情報を記事毎に分解整理することを特徴とする検索エンジンシステム。
JP2007126105A 2007-04-11 2007-04-11 インターネット情報検索システム及びその方法 Pending JP2008262520A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007126105A JP2008262520A (ja) 2007-04-11 2007-04-11 インターネット情報検索システム及びその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007126105A JP2008262520A (ja) 2007-04-11 2007-04-11 インターネット情報検索システム及びその方法

Publications (1)

Publication Number Publication Date
JP2008262520A true JP2008262520A (ja) 2008-10-30

Family

ID=39984926

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007126105A Pending JP2008262520A (ja) 2007-04-11 2007-04-11 インターネット情報検索システム及びその方法

Country Status (1)

Country Link
JP (1) JP2008262520A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298609A (zh) * 2010-06-24 2011-12-28 Nhn株式会社 文档收集系统和方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298609A (zh) * 2010-06-24 2011-12-28 Nhn株式会社 文档收集系统和方法
JP2012009024A (ja) * 2010-06-24 2012-01-12 Nhn Corp 文書収集システムおよび方法
EP2400409A3 (en) * 2010-06-24 2012-12-26 NHN Business Platform Corporation System and method for collecting document
US8930343B2 (en) 2010-06-24 2015-01-06 Nhn Corporation System and method for collecting document

Similar Documents

Publication Publication Date Title
US9613008B2 (en) Dynamic aggregation and display of contextually relevant content
US7818659B2 (en) News feed viewer
US8612416B2 (en) Domain-aware snippets for search results
US8806000B1 (en) Identifying viral videos
US7840527B2 (en) Platform for feeds
US20070162459A1 (en) System and method for creating searchable user-created blog content
US8856111B1 (en) Cross media type recommendations for media items based on identified entities
US10372769B2 (en) Displaying results, in an analytics visualization dashboard, of federated searches across repositories using as inputs attributes of the analytics visualization dashboard
KR20090100430A (ko) 질문에 대한 답변 얻기
JP2006309515A (ja) 情報配信方法および情報配信サーバ
US20100011025A1 (en) Transfer learning methods and apparatuses for establishing additive models for related-task ranking
JP2010257453A (ja) サーチクエリデータを用いて文書にタグ付けするシステム
JP2006099341A (ja) 更新履歴生成装置及びプログラム
KR20070057578A (ko) 인터넷 리소스에 태그 정보를 부가하여 공유 정보를제공하는 시스템, 장치, 방법 및 이를 구현할 수 있는컴퓨터로 읽을 수 있는 기록 매체
US9990425B1 (en) Presenting secondary music search result links
JP5290041B2 (ja) 情報検索装置及び情報検索方法
US8131752B2 (en) Breaking documents
JP4853915B2 (ja) 検索システム
US20080082318A1 (en) Semantic retrieval method and computer product
JP2008262520A (ja) インターネット情報検索システム及びその方法
JP2006227925A (ja) 情報提供方法および情報提供装置
JP2011145813A (ja) 検索支援装置及び検索支援方法
JP2009059195A (ja) 情報提供サーバ及び情報提供方法
KR101696026B1 (ko) 오픈 응용프로그램 인터페이스를 이용한 디자인트랜드정보제공방법
JP2007026457A (ja) 閲覧頻度データ提供方法、そのための中継装置、プログラム及び記録媒体