JP2011146059A - 複数の情報ブロックに区分されたウェブページを用いた情報検索サービス提供方法 - Google Patents

複数の情報ブロックに区分されたウェブページを用いた情報検索サービス提供方法 Download PDF

Info

Publication number
JP2011146059A
JP2011146059A JP2011042894A JP2011042894A JP2011146059A JP 2011146059 A JP2011146059 A JP 2011146059A JP 2011042894 A JP2011042894 A JP 2011042894A JP 2011042894 A JP2011042894 A JP 2011042894A JP 2011146059 A JP2011146059 A JP 2011146059A
Authority
JP
Japan
Prior art keywords
information
search
web page
sorting
web
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011042894A
Other languages
English (en)
Other versions
JP5559725B2 (ja
Inventor
Se-Dong Nam
ナム、セ‐ドン
Joong-Ho Shin
シン、ジュン‐ホ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHUTNOON Inc
Original Assignee
CHUTNOON Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHUTNOON Inc filed Critical CHUTNOON Inc
Publication of JP2011146059A publication Critical patent/JP2011146059A/ja
Application granted granted Critical
Publication of JP5559725B2 publication Critical patent/JP5559725B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ユーザーの希望する情報に近接した検索結果を提供する検索サービス。
【解決手段】サーバーにおいて実行される仕分け検索サービス提供方法であって、質疑語に基づく情報検索が要請される段階と、ウェブロボットによって収集された複数のウェブページのウェブデータのHTMLタグを分析してHTMLテンプレートを抽出し、抽出されたHTMLテンプレートに基づきそれぞれの前記ウェブデータを複数個の情報ブロックに区分する段階と、前記区分された情報ブロック別の索引語を生成する段階と、前記質疑語と前記索引語とを情報ブロック別に比較し、前記質疑語と前記索引語との間の関連性に基づき前記キーワードに対する仕分け検索結果情報を生成して提供する段階と、を含むことを特徴とする仕分け検索サービス提供方法。
【選択図】図2

Description

本発明は、情報検索サービスに係り、より詳細には、複数の情報ブロックに区分されたウェブページを用いた情報検索サービス提供サーバー、方法及びシステムに関する。
インターネットの発達に伴い、インターネット上の膨大な量の情報をコンピュータを用いて適切に加工し体系的に蓄積し、ユーザがその情報を迅速にかつ正確に探すことができるインターネット情報検索技術が発展されてきている。
インターネット情報検索技術は、インターネット上のイメージ、音声、動映像などの様々な形態の情報をウェブブラウザ(WebBrowser)を用いて容易で迅速に検索できるようにするが、幾何級数的に増加する数多くのウェブサイト(Web Site)のうち、どのウェブサイトに必要な情報があるかが確認し難いという欠点がある。このような欠点を克服するために工夫された方法の中で最も一般的なものは、検索エンジン(SearchEngine)を利用する方法である。
検索エンジンとは、WWW(World Wide Web)のように、企業や独自のネットワーク又はパーソナルコンピュータ内のコンピュータシステムに格納された情報の検索を手助けするためにデザインされたソフトウェア(プログラム)のことを総称する。検索エンジンは、通常、検索ロボット(SearchRobot)やウェブスパイダー(Web Spider)プログラムと呼ばれる検索プログラムが収集したウェブサイトの情報に対する索引(インデックス)作業を行い、データベース(Database)に保存する。そして、インターネット使用者に、予め与えられたワードやフレーズを含む特定の基準に対応したコンテンツに対する問い合わせを許容し、上記基準と一致する参照リストを検索する。
このような検索エンジンは、通常、使用者が入力した質疑語と一致する単語を含むウェブページを検索する。そして、検索結果を内部的な基準に基づいて決定された正確度や重要度によって再び整列(ソート)し、その結果を使用者に提供する。一方、検索エンジンは、索引しているウェブページが非常に多いため、通常、数万乃至数十億個のウェブページを検索結果として提供するが、検索結果として提供されるウェブページのうち、ユーザーの希望する情報を含むウェブページはごく一部に過ぎない。
したがって、検索エンジンは、使用者に必要な情報を検索結果の上位に出力できる順位体系(RankingSystem)を導入して使用している。順位体系とは、ウェブページ内部に存在する情報と、ウェブページの外部に存在するがウェブページと関連付けられている情報とを分析し、分析した情報に基づいて内部的な基準にしたがってウェブページの順位を算出できる一連の論理的な体系のことをいう。
このような順位体系を正確に具現するために、検索エンジンは、質疑語の出現頻度、逆参照頻度、スパムフィルタリング(SpamFiltering)などを考慮している。すなわち、検索エンジンは、ウェブページ内の質疑語出現頻度によって検索結果を整列する、逆参照頻度によって検索結果を整列する、または、スパムフィルタリングによって検索結果を整列する等、順位体系を合理的に具現するための手段を備えて検索に活用する。
このような通常の検索エンジンを用いた情報検索方法は、一つ一つのウェブページに対してその内部に質疑語が含まれているか否か、質疑語の出現頻度、リンクの出現頻度、リンクテキストの反映有無、スパムフィルタリングなどを考慮して情報を検索する。すなわち、通常の情報検索方法は、質疑語を含むウェブページを、ウェブページ単位に検索し、検索したウェブページを順位体系に従って使用者に提供する。
一方、ウェブページは、通常、HTML(Hypertext Markup Language)のようなマークアップ文書の文法によって作成されたHTMLタグ(Tag)と本文テキストで構成される。また、ウェブページは、基本情報を表すためのタグとテキストを含む。すなわち、ウェブページは、題名、作成者、ヒット数、本文などに区分された情報ブロックを含んでおり、情報ブロックはタグによって区分される。
そして、ユーザーの希望する情報は、その種類(type)又は属性(attribute)によって情報ブロックのうちの特定の情報ブロックに含まれていることができる。例えば、使用者が、“キム・チョルス”という作成者によって作成された“株式話”という題名のウェブページを探そうとする場合、ウェブページ内の複数の情報ブロックのうち、“題名”、“本文”、“ヒット数”などの情報ブロックに“キム・チョルス”という単語が含まれたウェブページよりは、“作成者”の情報ブロックに“キム・チョルス”という単語を含んでいるウェブページが、ユーザーの希望する情報を含むウェブページである可能性が高い。
したがって、使用者から質疑語が打ち込まれ、この質疑語に対する情報検索を行う時に、質疑語を情報ブロック別に選択して該当する情報ブロックのみを検索する、または、情報ブロック別に異なる重み値を付けて評価値を計算し、該評価値を用いて順位を決定して該決定された順位にしたがって検索結果を提供することによって、ユーザーの希望する情報に近接した情報を提供することができる。
しかしながら、通常の検索方法は、未だウェブページ単位にしか検索できず、ウェブページの含む情報を情報ブロックに区分して情報ブロック別に検索する、または、各情報ブロック別に異なる重み値を付けて評価値を計算したのち検索結果を提供することはできなかった。
一方、特定サーバーから提供するウェブページでは、使用者に項目別の検索ができるようにしている。しかし、このような方式の検索サービスも同様に、特定ウェブサーバーで管理する特定データベースを用いた検索方法に過ぎず、インターネット全体のウェブページを対象にした全体検索サービスにおいてはウェブページを情報ブロックに区分して検索できないという問題があった。
本発明は上記の問題点を解決するためのもので、その目的は、インターネット上の情報検索において、検索しようとする情報と最も一致する情報を検索するために、ウェブページを該ウェブページが含む情報の属性によって複数の情報ブロックに区分し、区分された情報ブロック別に索引した後、検索の際に情報ブロック別に選択的に検索したり、検索結果を、情報ブロック別に異なる重み値を付けて計算された評価値を用いて決定された順位によって整列したのちに提供する情報検索サービス提供サーバー、方法及びシステムを提供することにある。
上記の目的を達成するために、本発明は、(a)収集されたデータを分析してそれぞれのデータを複数個の情報ブロックに区分する段階と、(b)区分された情報ブロック別に索引語を生成する段階と、(c)任意のキーワードと索引語とを比較し、キーワードと索引語との間の関連性によってキーワードに対する仕分け検索結果情報を生成して提供する段階と、を含む仕分け検索サービス提供方法を提供する。
また、上記の目的を達成するために、本発明は、質疑語を送信し、検索結果を出力する使用者端末機、複数のウェブページ(WebPage)を提供するウェブサーバー及び使用者端末機から質疑語を受信して検索結果を生成し、使用者端末機に送信する仕分け検索サーバーを含むシステムにおける情報を検索するサービスを提供する方法であって、(a)使用者端末機から質疑語及び仕分け検索要請信号を受信する段階と、(b)ウェブサーバーからウェブページを受信する段階と、(c)ウェブページを複数の情報ブロックに区分する段階と、(d)区分されたウェブページから情報ブロック別に索引語を抽出し、該索引語情報及び索引語が参照するウェブページである参照ページのURL情報を生成する段階と、(e)質疑語と同一または関連した索引語を検索して仕分け検索結果情報を生成し、使用者端末機に送信する段階と、を含む仕分け検索サービス提供方法を提供する。
また、本発明の目的を達成するために、本発明は、有無線通信網上の複数のウェブページ内の情報を検索して検索結果を提供するシステムであって、有無線通信網を用いてウェブサーフィン(WebSurfing)を行い、質疑語及び検索要請信号を送信して仕分け検索結果情報を受信し、備えられた画面に出力する使用者端末機と、情報を複数のウェブページとして生成して提供するウェブサーバーと、ウェブページを複数の情報ブロックに区分し、区分されたウェブページを用いて情報を検索することによって仕分け検索結果情報を生成した後、使用者端末機に送信する仕分け検索サーバーと、を備える仕分け検索サービス提供システムを提供する。
また、本発明の目的を達成するために、本発明は、収集されたデータを分析してそれぞれのデータを複数個の情報ブロックに区分するページ仕分けモジュールと、区分された情報ブロック別に索引語を生成する索引管理モジュールと、任意のキーワードと索引語とを比較し、キーワードと索引語との間の関連性によってキーワードに対する仕分け検索結果情報を生成して提供する制御部と、を備える仕分け検索サービス提供サーバーを提供する。
また、本発明の目的を達成するために、本発明は、有無線通信網を介してウェブサーフィンを行う使用者端末機から質疑語及び検索要請信号を受信し、ウェブサーバーによって提供されるウェブページ上の情報を検索し、該検索結果を使用者端末機に送信する検索サービスを提供するサーバーであって、ウェブページ収集プログラムを実行し、有無線通信網に接続したウェブサーバーによって提供されるウェブページを保存するウェブページ収集モジュールと、ウェブページ収集モジュールによって受信したウェブページを分析してURL形式を生成するURL形式生成モジュールと、URL形式を用いてウェブページからHTMLテンプレートを抽出し、HTMLテンプレートを用いてウェブページを複数の情報ブロックに区分するページ仕分けモジュールと、区分されたウェブページ内の情報ブロック別に索引語を抽出し、索引語情報及び索引語が参照するウェブページである参照ページのURL情報を生成して保存する索引管理モジュールと、使用者端末機から質疑語と一緒に情報検索要請信号を受信して質疑語と同一または関連した索引語を検索して仕分け検索結果情報を生成し、使用者端末機に送信する質疑管理モジュールと、仕分け検索サーバーが区分されたウェブページを用いて検索を行うように、ウェブページ収集モジュール、URL形式生成モジュール、ページ仕分けモジュール、索引管理モジュール及び質疑管理モジュールを制御し、仕分け検索サーバーが有無線通信網を用いて使用者端末機及びウェブサーバーと通信を行うように制御する制御部と、を備える仕分け検索サービス提供サーバーを提供する。
本発明によれば、情報別ブロックでインターネット上の情報に対する利便性(便宜)を提供でき、さらには、個々の情報別ブロックに異なる重み値を付けて評価値を計算することによって順位を決定し、該順位にしたがって出力するため、正確な検索結果を提供することが可能になる。
本発明の好適な実施例による複数の情報ブロックに区分されたウェブページを用いた情報検索サービス提供システムを示すブロック図である。 本発明の好適な実施例による仕分け検索サーバーを示すブロック図である。 本発明の好適な実施例による順位決定方法を説明するための図である。 本発明の好適な実施例による順位決定方法を説明するための図である。 本発明の好適な実施例による複数の情報ブロックに区分されたウェブページを用いた情報検索サービス提供方法を示すフローチャートである。 本発明の好適な実施例による仕分け検索結果画面の一例を示す図である。
以下、本発明の好適な実施例を、添付の図面を参照しつつ詳細に説明する。
図1は、本発明の好適な実施例による複数の情報ブロックに区分されたウェブページを用いた情報検索サービス提供システムを示すブロック図である。
本発明の好適な実施例による複数の情報ブロックに区分されたウェブページを用いた情報検索サービス提供システムは、使用者端末機110、有無線通信網120、ウェブサーバー130、仕分け検索サーバー140及び仕分け検索データベース(Database:以下、DBと称する)141、索引サーバー150及び索引DB151と、を備える。
使用者端末機110は、インターネット使用者の操作によって有無線通信網120を介して仕分け検索サーバー140に接続し、質疑語と一緒に検索要請信号を送信し、仕分け検索サーバー140から提供される仕分け検索結果情報を受信して自身の画面に出力するコンピュータである。
したがって、使用者端末機110は、有無線通信網120を介して仕分け検索サーバー140に接続するためにVDSL(VeryHigh Data RateDigital Subscriber Line)モデム、ケーブルモデムなどのようなインターネットモデムを含む有線通信手段及び/またはCDMA(Code Division Multiple Access)2000モデム、WCDMA(WideBand CDMA)モデムなどのような移動通信モデムを含む移動通信手段を備え、使用者から質疑語を受けて情報の検索を要請し、検索結果を画面に出力するためのウェブブラウザ(WebBrowser)プログラムを保存したメモリー(Memory)と使用者端末機110の全体的な動作を制御するための演算を行うマイクロプロセッサを有する制御部を備える。
このような使用者端末機110は、デスクトップ(Desktop)コンピュータまたはラップトップ(LapTop)やノートブックなどの移動コンピュータのような個人用コンピュータ(PC:Personal Computer)などを使用しても良く、PDA(Personal Digital Assistant)、セルラーフォン、PCS(Personal CommunicationService)フォン、ハンドヘルドPC(Hand−Held PC)、GSM(GlobalSystem for Mobile)フォン、W−CDMA(WideBand CDMA)フォン、CDMA−2000フォン、MBS(Mobile Broadband System)フォンなどのような移動通信端末機を使用してもよい。
有無線通信網120は、使用者端末機110、ウェブサーバー130、仕分け検索サーバー140、索引サーバー150を有線又は無線で連結し、各構成要素相互間に送受信されるデータを中継する。
ウェブサーバー130は、一般的なネットワークサーバーで具現される複数のコンピュータシステム又はコンピュータソフトウェアを含み、様々な情報をウェブページ(WebPage)として提供する。ここで、ネットワークサーバーとは、通常、私設イントラネット又はインターネットのようなコンピューターネットワークを介して他のネットワークサーバーと通信できる下位装置と連結されて作業(オペレーション)要請を受け取り、この作業を遂行してその結果を提供するコンピュータシステム及びコンピュータソフトウェア(ネットワークサーバープログラム)のことを意味する。ただし、このようなネットワークサーバープログラムの他にも、ネットワークサーバー上で動作する一連の応用プログラムと、場合によっては内部に構築されている各種データベースを含む広い概念として理解されるべきである。このようなネットワークサーバーは、DOS、Windows(登録商標)、Linux、UNIX(登録商標)またはMacOSなどの運営体制によって様々に提供されているネットワークサーバープログラムを用いて具現することができる。
索引サーバー150は、通常、ウェブロボット(web robot)と呼ばれるデータ収集プログラムを行い、有無線通信網120に連結されたウェブサーバー130からデータを収集する。索引サーバー150は周期的に収集データを更新し、索引DB151は、収集されたデータを転置ファイル(invertedfile)などを用いて保存する。
仕分け検索サーバー140は、索引サーバー150及び索引DB151との通信によって読み込んだウェブデータの位置情報を分析し、複数の位置情報形式を生成する。ここで、位置情報は、収集されたウェブデータのインターネット上における経路を含む位置情報を意味するもので、好ましくは、ウェブデータのURL(UniformResource Locator)を含む。このように生成したURL形式を用いて、収集したウェブページからHTMLテンプレート(HTMLTemplate:Hypertext Markup LanguageTemplate)を抽出し、抽出したHTMLテンプレートを用いてウェブページを複数の情報ブロックに区分する。また、処理速度の改善などを目的であらかじめ定義されたテンプレート形式を使用する方法も活用することができる。ここで、情報ブロックは、題名、作成者、ヒット数、本文などのウェブページの基本情報と本文内容などを、その情報の種類または属性によってウェブページ内において一定の部分に区分されたものをいう。
また、仕分け検索サーバー140は、前述したように、ウェブページを複数の情報ブロックに区分した後、ウェブページを情報ブロック別に索引し、情報ブロック別索引語情報と該索引語が参照するウェブページ(以下、‘参照ページ’と称する。)のURL情報を生成して仕分け検索DB141に保存する。その後、使用者端末機110から質疑語と一緒に検索要請信号を受信すると、質疑語と索引語を比較し、仕分け検索結果情報を生成して使用者端末機110に送信する。生成された仕分け検索結果情報は、質疑語と関連した他の検索結果と一緒に使用者端末機110に転送されることができる。仕分け検索サーバー140に関する詳細は、図2で説明するものとする。
一方、仕分け検索サーバー140は、使用者からの質疑語と検索要請信号無しに、任意のキーワードと関連した仕分け検索結果情報を、仕分け検索DB141を検索して出力することができる。例えば、仕分け検索結果は、使用者が閲覧しているウェブ文書に対して所定の方法で抽出されたキーワードなどに対する推奨情報として提供されることができる。
仕分け検索DB141は、仕分け検索サーバー140から受信した索引語情報と参照ページの位置情報(URL情報を含む)を保存する。また、仕分け検索DB141は、仕分け検索サーバー140から索引語情報と参照ページのURL情報を受信し、索引語情報を情報ブロック別に保存し、参照ページのURL情報を仕分け検索DB141に保存する。また、仕分け検索DB141と索引DB151は、個別的にまたは統合的に運営されることができる。
ここで、DBは、データベース管理システム(DBMS:Database Management System)プログラムなどを用いてコンピュータシステムの保存空間に具現されたデータ構造を意味するもので、データの検索、削除、編集及び追加などを自由に行えるデータ保存形態を意味する。このようなデータベースは、Oracle、informix、Sybase、MSSQL(MicrosoftStructured Query Language)またはDB2のような関係型データベース管理システム(RDBMS:RelationalDatabase Management System)などを用いて本発明の目的に合うように具現することができ、データの保存、検索、削除、編集及び追加などの機能を行うための適切なフィールド(Field)又は構成要素を持っている。
図2は、本発明の好適な実施例による仕分け検索サーバー140を示すブロック図である。
本発明の好適な実施例による仕分け検索サーバー140は、ウェブページ収集モジュール210、URL形式生成モジュール220、ページ仕分けモジュール230、索引管理モジュール240、質疑管理モジュール250及び制御部260を備えるネットワークサーバーである。
ウェブページ収集モジュール210は、有無線通信網120を介してウェブサーバー130に接続してデータを収集する機能を担うもので、索引サーバー150が収集して索引DB151に保存した位置情報によって参照されるデータの変更などを反映するために仕分け検索サーバー140に選択的に備えられる。
URL形式生成モジュール220は、制御部260又はウェブページ収集モジュール210によって獲得されたウェブページのURLを分析し、URL形式を生成する。本発明でいうURL形式は、複数のウェブページのうち類似な形式を持つ、すなわち、同じ基本骨格を持つウェブページを一般化する所定の形式である。本発明ではHTMLテンプレートを共有するウェブページをHTMLテンプレート単位に複数の情報ブロックに分け、区分された情報ブロック別に情報を検索する。このとき、HTMLテンプレートを共有するウェブページを選定する基準が必要とされ、この基準として用いられるのがURL形式である。
すなわち、同じHTMLテンプレートを共有する複数のウェブページは、同じ管理者によって生成される可能性が高く、かつウェブページに含まれる内容も類似な事項を含む可能性が高い。また、同じ管理者によって生成されたウェブページは、掲示板(Board)サービス、ブログ(Blog)サービス、マイページ(MiniHompy)サービスなどを提供する特定ウェブサーバーによって管理される複数のページに含まれることができる。
本発明のHTMLテンプレートは、ウェブページの作成を容易にするために、よく使用される部分を一定の構造で作成した基本骨格であり、HTMLで作成されたウェブページの内容を分析するのに用いられる。例えば、<Table...><TD>[文番号]</TD><TD>[題名]</TD>...</TABLE>のようにウェブページを作成する際によく使用されるタグ(Tag)の形式である。通常、ウェブページとして作成されるHTML文書は、HTML文法(構文)に合わせたHTMLタグとテキストとの組合せで構成されるが、HTML文書は、表現しようとする機能によって複数の機能ブロック、すなわち、例えば、メニューを構成するためのメニューブロック、他のポータルサイトと連結するためのリンクブロック、本文内容を含めるためのメッセージブロックなどで構成される。これらの機能ブロックはウェブページ内でよく使用されることからHTMLテンプレートで作成され、使用者の便宜を図っている。
掲示板サービス、ブログサービス、マイページサービスなどのサービスを提供する特定ウェブサーバー130は、自身の管理する大部分のウェブページをHTMLテンプレートを用いて作成することから、一つのウェブサーバー130によって管理されるウェブページは、いずれもHTMLテンプレートを共有するようになる。したがって、同じURL形式を持つウェブページからHTMLテンプレートを抽出でき、抽出したHTMLテンプレートを用いれば、ウェブページを複数の情報ブロックに区分することが可能になる。
ページ仕分けモジュール230は、URL形式生成モジュール220によって生成されたURL形式を用いてウェブページからHTMLテンプレートを抽出し、抽出したHTMLテンプレートを用いてウェブページを複数の情報ブロックに区分する。
索引管理モジュール240は、ページ仕分けモジュール230によって複数の情報ブロックに区分されたウェブページから情報ブロック別に索引語を抽出し、該索引語が参照するURL情報を仕分け検索DB141に保存する。すなわち、索引管理モジュール240は、ウェブページの区分された各情報ブロック別に索引語を抽出し、抽出した索引語を各情報ブロック別に索引DB151に保存し、各情報ブロック別に生成された索引語が参照するウェブページである参照ページのURL情報を仕分け検索DB141に保存する。
質疑管理モジュール250は、使用者端末機110から質疑語と一緒に情報検索要請信号を受信すると、質疑語と同一である、または、関連した意味を持つ索引語が参照する参照ページのURL情報を仕分け検索DB141から受信し、仕分け検索結果情報を生成して使用者端末機110に送信する。
また、質疑管理モジュール250は、仕分け検索結果情報の生成において、情報ブロック別に索引された索引語を検索し、情報ブロック別仕分け検索結果情報及び全体仕分け検索結果情報を生成する。
本発明の情報ブロック別仕分け検索結果情報は、情報ブロック別に区分され、各情報ブロック別に質疑語と同一である、または、関連した索引語と、該索引語が参照する参照ページのURL情報とを含む。すなわち、例えば、情報ブロックが題名、作成者、本文のみに区分され、索引管理モジュール240によってそれぞれのブロックに索引され、それぞれの索引語が索引DB151にそれぞれのブロック別に保存された場合、質疑管理モジュール250は、質疑語と一致または関連した索引語が参照する参照ページのURL情報を含む情報ブロック別仕分け検索結果情報を生成する。したがって、情報ブロック別仕分け検索結果情報は、題名、作成者、本文ごとに参照ページのURL情報をそれぞれ持つようになる。
前記質疑語と索引語の関連性を判断する際は、必ずしも質疑語と索引語が物理的に同一な場合のみを要求するのではなく、形態素分析またはn−gram等によって質疑語と索引語が部分的に一致する場合も含む。また、あらかじめ定義された用語分類辞書などを用いて分類が一致するとか、辞書的に類義語である場合にまで検索結果を拡張することができる。
また、本発明における全体仕分け検索結果情報は、質疑語と同一または関連した索引語と、該索引語が参照する参照ページのURL情報を含むが、参照ページのURL情報は、質疑管理モジュール250によって情報ブロック別に異なる重み値を付けて計算された評価値によって順位が決定され、該順位にしたがって整列(ソート)される。すなわち、前述したように、例えば、情報ブロックが題名、作成者、本文のみに区分され、索引管理モジュール240によってそれぞれのブロックに索引され、それぞれの索引語が索引DB151にそれぞれのブロック別に保存された場合、質疑管理モジュール250は、索引DB151でそれぞれ情報ブロック別に質疑語と一致または関連した索引語を検索し、検索の結果、索引DB151から質疑語と一致または関連した索引語が検索されると、情報ブロック別に検索された索引語に、該情報ブロック別に異なる重み値を付けて評価値を計算することによって、該索引語が参照する参照ページのURL情報の順位を決定し、決定された順位によって参照ページのURL情報を整列することによって全体仕分け検索結果情報を生成する。
制御部260は、仕分け検索サーバー140が仕分けされたページを用いて検索を行うように、前述のウェブページ収集モジュール210、URL形式生成モジュール220、ページ仕分けモジュール230、索引管理モジュール240、質疑管理モジュール250などを制御し、仕分け検索サーバー140が有無線通信網120、仕分け検索DB141、索引サーバー150及び索引DB151と通信を行うようにする。
図3及び図4は、本発明の好適な実施例による順位決定方法を説明するための図である。
より具体的に、図3は、既存(従来)の検索における順位決定方法を説明する図である。使用者が入力した質疑語を含む“イ”と“ロ”の二つのウェブページがある場合、これら両ウェブページ間の順位を決定するに当たり、既存の検索では、ウェブページを‘題名'、‘作成者'、‘本文'などの情報ブロックに区分できないため、各情報ブロック別に重み値を付けず、単に質疑語の言及された回数を数えて評価値を計算するため、“イ”ウェブページの順位決定のための評価値は、(1×1=1)+(2×1=2)+(30×1=30)=33となり、“ロ”ウェブページの順位決定のための評価値は(3×1=3)+(3×1=3)+(20×1=20)=26となる。したがって、“イ”ウェブページで質疑語の言及された回数が、“ロ”ウェブページで質疑語の言及された回数よりも多く、したがって、“イ”ウェブページの順位が“ロ”ウェブページの順位よりも高い。
図4は、本発明の好適な実施例による順位決定方法を説明するため図である。本発明では、“イ”と“ロ”の二つのウェブページの順位を決定するに当たり、それぞれのウェブページを‘題名'、‘作成者'、‘本文'などの情報ブロックに区分し、使用者の選好度によってまたは検索サービス提供のための政策によって各情報ブロック別に重み値(0を含む)を付けて評価値を計算し、該評価値によって順位を決定する。図4に示すように、‘題名'、‘作成者'、‘本文'のそれぞれに、‘×20'、‘×5'、‘×2'の重み値が付けられると、“イ”ウェブページの順位決定のための評価値は、(1×20=20)+(2×5=10)+(30×2=60)=90となり、“ロ”ウェブページの順位決定のための評価値は、(3×20)=(60+3×5=15)+(20×2=40)=115となる。したがって、本発明によれば、“イ”ウェブページで質疑語の言及された回数が“ロ”ウェブページで質疑語の言及された回数よりも多いにもかかわらず、既存検索とは違い、評価値は“ロ”ウェブページが“イ”ウェブページよりも大きく、したがって、“ロ”ウェブページの順位が“イ”ウェブページの順位よりも高くなる。
したがって、使用者の検索しようとする情報の種類または属性が‘題名'である場合、すなわち、使用者の探そうとする情報が特定ウェブページの題名であれば、本発明による検索方法を用いることによってより信頼高い検索結果を提供できる。
ただし、参照ページのURL情報の順位を決定において、索引した情報ブロックだけでなく索引していない情報ブロックも順位決定のための重要な判断基準となる。すなわち、例えば、ウェブページがヒット数を表すための情報ブロックを含んでいると、ヒット数情報ブロックの内容が索引されなくても、前述のように参照ページのURL情報の順位を決定した後に、ヒット数を参照して決定された順位を変更してもよい。
図5は、本発明の好適な実施例による複数の情報ブロックに区分されたウェブページを用いた情報検索サービス提供方法を示すフローチャートである。
インターネットを利用するインターネット使用者は、使用者端末機110を用いて質疑語を入力し、質疑語と一緒に検索要請信号を有無線通信網120を介して仕分け検索サーバー140に送信する(S410)。このS410段階は、場合によっては省略してもよい。すなわち、使用者からの質疑語入力や検索要請信号の入力無しに、保存されたデータを分析して仕分け検索サービスを行ってもよい。
使用者端末機から質疑語と一緒に検索要請信号を受信した仕分け検索サーバー140は、ウェブロボット(WebRobot)プログラムを実行し、有無線通信網120に接続したウェブサーバー130からウェブページを受信する(S420)。または、仕分け検索サーバー140は、使用者からの質疑語や検索要請信号無しに、あらかじめ設定された方法によってウェブロボットプログラムが実行されることによってウェブページを受信し、データを保存してもよい。
ウェブサーバー130からウェブページを受信した仕分け検索サーバー140は、受信したウェブページを分析してURL形式を生成する(S430)。
URL形式を生成した仕分け検索サーバー140は、生成したURL形式を用いてウェブページからHTMLテンプレートを検索HTMLテンプレートを抽出し(S440)、抽出したHTMLテンプレートを用いてウェブページを複数の情報ブロックに区分する(S450)。
ウェブページを複数の情報ブロックに区分した仕分け検索サーバー140は、ウェブページに区分された各情報ブロック別に、各情報ブロックが含む情報から索引語を抽出して索引語情報を生成し、索引語が参照する参照ページのURL情報を生成する(S460)。
索引語情報と参照ページのURL情報を生成した仕分け検索サーバー140は、抽出した索引語を各情報ブロック別に索引DB151に保存し、各情報ブロック別に生成された索引語が参照する参照ページのURL情報を仕分け検索DB141に保存する(S470)。
索引作業を行った仕分け検索サーバー140は、使用者端末機110から受信した質疑語を索引DB151から検索し、仕分け検索結果情報を生成した後に、使用者端末機110に送信する(S480)。すなわち、仕分け検索サーバー140は、質疑語を索引DB151に保存された情報ブロック別索引語と比較して情報ブロック別仕分け検索結果情報を生成する、または、索引DB151に保存された索引語情報のうち全体の索引語を検索して全体仕分け検索結果情報を生成し、使用者端末機110に送信する。
仕分け検索結果情報を受信した使用者端末機110は、備えられた画面に受信した仕分け検索結果情報を出力する(S490)。一方、使用者から入力された質疑語無しにも本発明のサービスは提供されることができる。
図6は、本発明の好適な実施例による仕分け検索結果画面の一例を示す図である。
仕分け検索サービスは、インターネット全体のウェブページに収録された掲示文を検索するのに利用されることができる。使用者は、使用者端末機110に出力された仕分け検索サービスを提供するウェブページにおいて入力窓510に質疑語の“(公序良俗違反につき、不掲載)”を入力し、‘検索’を選択して検索を要請する。このとき、使用者は、検索しようとする情報の種類や属性によって、検索設定窓520に区分された‘題名'、‘本文'、‘作成者'項目のいずれか一項目を選択し、選択された項目に重み値を付けて検索することができる。図6では、‘題名'の項目を選択したので、題名に質疑語をより多く含むウェブページが優先的に出力される。
入力窓510に質疑語を入力し、検索設定窓520から検索項目を選択して検索すると、図6に示すように、仕分け検索結果540が出力される。表示された仕分け検索結果540は、整列方式メニュー530中の‘ネオランキング順'に整列された結果である。使用者は、仕分け検索結果540を確認する途中で必要によって整列方式メニュー530を‘日付順'、‘ヒット数順'に変えて選択することによって、仕分け検索結果540の整列基準を変更することができる。
以上の実施例は、本発明の技術的思想を例示するためのもので、本発明の技術的思想を限定するためのものではない。したがって、本発明の属する技術分野における通常の知識を持つ者にとっては、本発明の本質的な特性を逸脱しない範囲で様々な修正及び変形が可能である。したがって、本発明の技術的範囲は、添付の請求範囲の解釈によって定められるべきであり、これと同等な範囲内における全ての技術的思想は本発明の権利範囲に含まれることは自明である。

Claims (1)

  1. サーバーにおいて実行される仕分け検索サービス提供方法であって、
    質疑語に基づく情報検索が要請される段階と、
    ウェブロボットによって収集された複数のウェブページのウェブデータのHTMLタグを分析してHTMLテンプレートを抽出し、抽出されたHTMLテンプレートに基づきそれぞれの前記ウェブデータを複数個の情報ブロックに区分する段階と、
    前記区分された情報ブロック別の索引語を生成する段階と、
    前記質疑語と前記索引語とを情報ブロック別に比較し、前記質疑語と前記索引語との間の関連性に基づき前記キーワードに対する仕分け検索結果情報を生成して提供する段階と、
    を含むことを特徴とする仕分け検索サービス提供方法。
JP2011042894A 2005-03-04 2011-02-28 複数の情報ブロックに区分されたウェブページを用いた情報検索サービス提供方法 Active JP5559725B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2005-0018310 2005-03-04
KR20050018310 2005-03-04
KR10-2006-0020349 2006-03-03
KR1020060020349A KR100645711B1 (ko) 2005-03-04 2006-03-03 다수의 정보 블록으로 구분된 웹 페이지를 이용한 정보검색 서비스 제공 서버, 방법 및 시스템

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2007557936A Division JP2008538021A (ja) 2005-03-04 2006-03-03 複数の情報ブロックに区分されたウェブページを用いた情報検索サービス提供サーバー、方法及びシステム

Publications (2)

Publication Number Publication Date
JP2011146059A true JP2011146059A (ja) 2011-07-28
JP5559725B2 JP5559725B2 (ja) 2014-07-23

Family

ID=37623991

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2007557936A Pending JP2008538021A (ja) 2005-03-04 2006-03-03 複数の情報ブロックに区分されたウェブページを用いた情報検索サービス提供サーバー、方法及びシステム
JP2011042894A Active JP5559725B2 (ja) 2005-03-04 2011-02-28 複数の情報ブロックに区分されたウェブページを用いた情報検索サービス提供方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2007557936A Pending JP2008538021A (ja) 2005-03-04 2006-03-03 複数の情報ブロックに区分されたウェブページを用いた情報検索サービス提供サーバー、方法及びシステム

Country Status (2)

Country Link
JP (2) JP2008538021A (ja)
KR (1) KR100645711B1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6187095B2 (ja) * 2013-09-26 2017-08-30 大日本印刷株式会社 情報処理装置及び情報処理方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06309365A (ja) * 1993-04-20 1994-11-04 Fuji Xerox Co Ltd 文書処理装置
JPH10207911A (ja) * 1996-11-25 1998-08-07 Fuji Xerox Co Ltd 文書検索装置
JP2000339347A (ja) * 1999-03-02 2000-12-08 Canon Inc インデックス作成装置及びその方法、文書検索装置及びその方法、文書検索システム、データベース作成装置及びその方法、記憶媒体
JP2001344254A (ja) * 2000-05-31 2001-12-14 Fuji Xerox Co Ltd ドキュメント管理システム
JP2002297627A (ja) * 2001-03-29 2002-10-11 Tokyo Electric Power Co Inc:The 情報収集システム、情報収集端末、データベースサーバ
JP2003067419A (ja) * 2001-08-24 2003-03-07 Toshiba Corp 情報検索方法および情報検索システム
JP2004070376A (ja) * 2002-06-10 2004-03-04 Fuji Xerox Co Ltd 文書表示装置および方法
JP2004086805A (ja) * 2002-08-29 2004-03-18 Ricoh Co Ltd 単語出現度計算装置、文書検索装置、キーワード抽出装置、文書要約装置、文書分類装置、プログラム及び記憶媒体
JP2004220251A (ja) * 2003-01-14 2004-08-05 Nippon Telegr & Teleph Corp <Ntt> 情報抽出規則作成システム、情報抽出規則作成方法及び情報抽出規則作成プログラム
JP2004341942A (ja) * 2003-05-16 2004-12-02 Nippon Telegr & Teleph Corp <Ntt> コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類用プログラムおよびコンテンツ分類用プログラムを記憶した記憶媒体
JP2004342016A (ja) * 2003-05-19 2004-12-02 Ult Research Co Ltd 情報探索プログラム及び情報探索プログラムを記録した媒体

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100643979B1 (ko) * 2000-05-18 2006-11-13 엘지전자 주식회사 인터넷을 이용한 정보검색 결과 제공방법
JP2006163723A (ja) * 2004-12-06 2006-06-22 Hitachi Software Eng Co Ltd ドキュメント検索方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06309365A (ja) * 1993-04-20 1994-11-04 Fuji Xerox Co Ltd 文書処理装置
JPH10207911A (ja) * 1996-11-25 1998-08-07 Fuji Xerox Co Ltd 文書検索装置
JP2000339347A (ja) * 1999-03-02 2000-12-08 Canon Inc インデックス作成装置及びその方法、文書検索装置及びその方法、文書検索システム、データベース作成装置及びその方法、記憶媒体
JP2001344254A (ja) * 2000-05-31 2001-12-14 Fuji Xerox Co Ltd ドキュメント管理システム
JP2002297627A (ja) * 2001-03-29 2002-10-11 Tokyo Electric Power Co Inc:The 情報収集システム、情報収集端末、データベースサーバ
JP2003067419A (ja) * 2001-08-24 2003-03-07 Toshiba Corp 情報検索方法および情報検索システム
JP2004070376A (ja) * 2002-06-10 2004-03-04 Fuji Xerox Co Ltd 文書表示装置および方法
JP2004086805A (ja) * 2002-08-29 2004-03-18 Ricoh Co Ltd 単語出現度計算装置、文書検索装置、キーワード抽出装置、文書要約装置、文書分類装置、プログラム及び記憶媒体
JP2004220251A (ja) * 2003-01-14 2004-08-05 Nippon Telegr & Teleph Corp <Ntt> 情報抽出規則作成システム、情報抽出規則作成方法及び情報抽出規則作成プログラム
JP2004341942A (ja) * 2003-05-16 2004-12-02 Nippon Telegr & Teleph Corp <Ntt> コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類用プログラムおよびコンテンツ分類用プログラムを記憶した記憶媒体
JP2004342016A (ja) * 2003-05-19 2004-12-02 Ult Research Co Ltd 情報探索プログラム及び情報探索プログラムを記録した媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
岩淵 保、外2名: "日本語全文情報の自動索引法", 第44回(平成4年前期)全国大会講演論文集(4) 平成4年3月17日〜20日, JPN6014018220, 20 March 1992 (1992-03-20), JP, pages 4 - 95, ISSN: 0002803704 *

Also Published As

Publication number Publication date
KR20060096357A (ko) 2006-09-11
JP5559725B2 (ja) 2014-07-23
JP2008538021A (ja) 2008-10-02
KR100645711B1 (ko) 2006-11-15

Similar Documents

Publication Publication Date Title
US20080065632A1 (en) Server, method and system for providing information search service by using web page segmented into several inforamtion blocks
US8166013B2 (en) Method and system for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis
CN110597981B (zh) 一种采用多策略自动生成摘要的网络新闻概要系统
EP2181405B1 (en) Automatic expanded language search
US9305100B2 (en) Object oriented data and metadata based search
US9268873B2 (en) Landing page identification, tagging and host matching for a mobile application
US9619571B2 (en) Method for searching related entities through entity co-occurrence
JP5329540B2 (ja) ユーザ中心の情報探索方法、コンピュータ読み取り可能な記録媒体およびユーザ中心の情報探索システム
KR20160124079A (ko) 인-메모리 데이터베이스 탐색을 위한 시스템 및 방법
KR20100112512A (ko) 검색 장치 및 검색 방법
JP4769822B2 (ja) ページグループを用いた情報検索サービス提供サーバー、方法及びシステム
JP5221664B2 (ja) 情報マップ管理システムおよび情報マップ管理方法
CN105808615A (zh) 一种基于分词权重的文档索引生成方法和装置
Li [Retracted] Internet Tourism Resource Retrieval Using PageRank Search Ranking Algorithm
JP2008299842A (ja) 広告執行による反応情報提供方法、コンピュータ読み取り可能な記録媒体、広告執行による反応情報提供システム
CN109948015B (zh) 一种元搜索列表结果抽取方法及系统
JP5688754B2 (ja) 情報検索装置及びコンピュータプログラム
JP5559725B2 (ja) 複数の情報ブロックに区分されたウェブページを用いた情報検索サービス提供方法
KR101347123B1 (ko) 정보검색장치 및 정보검색방법, 컴퓨터 판독가능 기록매체
KR100942902B1 (ko) 웹페이지 검색 방법 및 상기 방법을 컴퓨터에서 구현하는 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
TWI423053B (zh) Domain Interpretation Data Retrieval Method and Its System
KR100871470B1 (ko) 색인 데이터를 구축하기 위한 검색 시스템 및 이를 위한 방법
TW201131399A (en) Indexing method and apparatus
Chen et al. Vertical Search Method of Tourism Information Based on Mixed Semantic Similarity
Thomas et al. A Specialized Data Crawler for Urban Wood Information

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110329

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110329

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121120

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130220

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130319

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130903

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20131128

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20131203

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20131220

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20131226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140131

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140606

R150 Certificate of patent or registration of utility model

Ref document number: 5559725

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250