JP2004206211A - Information retrieval device, information retrieval method, program and storage medium storing the program - Google Patents

Information retrieval device, information retrieval method, program and storage medium storing the program Download PDF

Info

Publication number
JP2004206211A
JP2004206211A JP2002371677A JP2002371677A JP2004206211A JP 2004206211 A JP2004206211 A JP 2004206211A JP 2002371677 A JP2002371677 A JP 2002371677A JP 2002371677 A JP2002371677 A JP 2002371677A JP 2004206211 A JP2004206211 A JP 2004206211A
Authority
JP
Japan
Prior art keywords
information
category
homepage
keyword
holding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002371677A
Other languages
Japanese (ja)
Inventor
Junichi Yoshida
純一 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2002371677A priority Critical patent/JP2004206211A/en
Publication of JP2004206211A publication Critical patent/JP2004206211A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To reduce a user's burden by dispensing with a keyword input by the user and to obtain a reliable retrieval result by the use of a proper keyword. <P>SOLUTION: The retrieval server 5 (information retrieval device) comprises a retention means for patrolling a network on a regular base or irregular base according to a prescribed site list, downloading a homepage present in the network for every prescribed category, and retaining a character string contained in the homepage in association with the view frequency of the homepage and the address of the homepage; a retrieval means for retrieving, according to a predetermined keyword dictionary, information to be provided to a user from the information retained in the retaining means for every category; and a disclosure means for generating a content listing the information retrieved by the retrieval means or its link information and disclosing the content to the network. <P>COPYRIGHT: (C)2004,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、情報検索装置、情報検索方法、プログラム及びそのプログラムを格納した記録媒体に関する。詳しくは、インターネットやイントラネット等のネットワーク上に存在する多種多様な情報の中から、ユーザにとって重要と思われる情報を検索し、その情報をユーザに提示する情報検索装置、情報検索方法、プログラム及びそのプログラムを格納した記録媒体に関する。
【0002】
【従来の技術】
インターネットやイントラネット等のネットワーク、とりわけ、地球規模の広域ネットワークであるインターネット上には膨大な量の情報が氾濫しており、その情報の中から、ユーザにとって重要と思われる情報を見つけだすのはきわめて至難の技である。このため、インターネット上には「検索サイト」と呼ばれるサービスサイトが設けられており、ユーザはそれらの検索サイトを利用して所望の情報を見つけ出している。これらの検索サイトは、いわゆる「プル型」のサービス形態をとる。すなわち、プル型の検索サイトは、ユーザからのキーワードを受け取り、そのキーワードに合致した情報を検索してユーザに提供する。
【0003】
プル型の検索サービスは、ユーザが特定の情報について知りたいと思ったとき、つまり、自発的な使い方をするときに便利である。しかし、時々刻々と変化する情報、たとえば、ニュースのような情報を知りたいときは、プル型の検索サービスは使い勝手が悪い。いちいちキーワードを入力しなければならないからである。しかも、キーワードが不適切な場合は、精度のよい情報が得られないという欠点もある。
【0004】
そこで、事前にユーザ登録を行うことにより、検索サービス提供者側で、そのユーザ専用の情報をリストアップした専用画面(たとえば、そのユーザの興味分野を網羅した専用のニュース画面など)を生成して、ユーザのクライアント端末に配信する、いわゆる「プッシュ型」の検索サービスが利用されている。
【0005】
従来のプッシュ型の情報検索方法としては、ユーザ登録時の登録情報からキーワードを抽出し、そのキーワードに基づいてインターネットやイントラネット等のネットワーク上に存在する多種多様な情報の中から、そのユーザにとって重要と思われる情報を検索し、その情報をプッシュ型でユーザに配信するものが知られている(たとえば、特許文献1参照。)。
【0006】
【特許文献1】
特開2000−298677公報(〔0302〕〜〔0327〕、第105図)
【0007】
【発明が解決しようとする課題】
しかしながら、従来のプッシュ型の情報検索方法にあっては、ユーザ登録時にユーザ自らキーワードを入力しなければならず、この点(キーワード入力)において、プル型の検索サービスと同様の欠点を有している。すなわち、キーワード入力が面倒であるし、入力したキーワードが不適切なこともあり得るため、必ずしも期待した検索精度が得られないという問題点がある。
【0008】
したがって、本発明が解決しようとする課題は、ユーザによるキーワード入力を不要にしてユーザ負担を軽減し、また、適切なキーワードを用いて信頼性の高い検索結果を得ることを目的とする。
【0009】
【課題を解決するための手段】
本発明に係る情報検索装置は、巡回すべきネットワークの情報を保持する巡回情報保持手段と、この巡回情報保持手段に保持される内容に従って、定期的又は不定期にネットワークを巡回する巡回手段と、この巡回手段による巡回によって前記ネットワークに存在するホームページを所定のカテゴリ毎にダウンロードするダウンロード手段と、このダウンロード手段によって取得したホームページに含まれる文字列と、そのホームページのビュー頻度、及び、そのホームページのアドレスとを関連づけて保持する保持手段と、キーワード辞書をカテゴリ別に保持するキーワード辞書保持手段と、このキーワード辞書保持手段に保持されたキーワード辞書に従って、前記保持手段に保持された情報の中からユーザに提供すべき情報をカテゴリ毎に検索する検索手段と、前記検索手段によって検索された情報又はそのリンク情報をリストにしたコンテンツを生成し、そのコンテンツをネットワークに公開する公開手段とを備えたことを特徴とする。
【0010】
本発明では、ネットワークに存在するホームページが所定のカテゴリ毎にダウンロードされ、そのホームページに含まれる文字列と、そのホームページのビュー頻度、及び、そのホームページのアドレスとを関連づけて保持されると共に、その保持情報の中からユーザに提供すべき情報が、キーワード辞書に従って検索され、そして、検索された情報又はそのリンク情報を含むコンテンツが生成され、ネットワークに公開される。
【0011】
したがって、適切なキーワード辞書を準備することにより、その時点で注目を集めている情報をカテゴリ毎に収集し、プッシュ型でユーザに提供することができ、その結果、ユーザによるキーワード入力を不要にしてユーザ負担を軽減し、また、適切なキーワードを用いて信頼性の高い検索結果を得ることができる。
【0012】
【発明の実施の形態】
以下、本発明の実施の形態を、図面を参照しながら説明する。なお、以下の説明における様々な細部の特定ないし実例および数値や文字列その他の記号の例示は、本発明の思想を明瞭にするための、あくまでも参考であって、それらのすべてまたは一部によって本発明の思想が限定されないことは明らかである。また、周知の手法、周知の手順、周知のアーキテクチャおよび周知の回路構成等(以下「周知事項」)についてはその細部にわたる説明を避けるが、これも説明を簡潔にするためであって、これら周知事項のすべてまたは一部を意図的に排除するものではない。かかる周知事項は本発明の出願時点で当業者の知り得るところであるので、以下の説明に当然含まれている。
【0013】
図1は、実施の形態の全体的なシステム構成図である。この図において、インターネット又はイントラネット等のネットワーク(以下「インターネット」とする。)1には、複数のWWW(World Wide Web)サーバ2a〜2dが接続されている。これらのWWWサーバ2a〜2dは、URL(Uniform Resource Locator)と呼ばれるアドレスが与えられており、各々のアドレスを指定することにより、同じくインターネット1に接続された複数のユーザ端末3a〜3dからアクセスできるようになっている。
【0014】
すなわち、WWWサーバ2a〜2dは、HTML(Hyper Text Markup Language)やXML(eXtensible Markup Language)等の構造化言語で記述されたドキュメント(多くの場合、“index.html”や“default.html”などの名前を持つトップページとそのトップページにリンクされた各種のコンテンツから構成される。以下、これらを総称して便宜的に「ホームページ」という。)をインターネット1上に公開する。ユーザは自端末(ユーザ端末3a〜3dのいずれか)のホームページ閲覧ソフト(いわゆるブラウザソフト)を用いて所望のホームページアドレスを入力し、そのホームページを自端末にダウンロードして閲覧する。
【0015】
ここで、図面上のWWWサーバ2a〜2dは4台しか示されていない。これは図面の輻輳を避けるためであり、実際には、とりわけインターネットの場合、地球規模の膨大な台数になり、したがって、ホームページの量もきわめて大量になる。このため、上記の閲覧手順、つまり、ブラウザソフトを用いてそのホームページのアドレスを入力して閲覧するという手順は、アドレスが分かっているホームページの閲覧には有効であるが、アドレス不明のホームページの閲覧には適用できない。
【0016】
インターネット1に接続された検索サービスサイト4は、アドレス不明のホームページの閲覧を行う際の便宜を図るものであり、特にプッシュ型の情報検索サービスを提供するものである。この検索サービスサイト4は、インターネット1に接続された検索サーバ5(情報検索装置)を含む。
【0017】
図2は、検索サーバ5の構成を示す図である。検索サーバ5は、CPU10(巡回手段、ダウンロード手段、検索手段、公開手段)、RAM11、ディスクコントローラ12、ディスク装置13(巡回情報保持手段、保持手段、キーワード辞書保持手段)、ディスプレイコントローラ14、ディスプレイ装置15、キーボードコントローラ16、キーボード装置17、ポインティングデバイス装置18、通信制御装置19、メインバス20、バスインターフェース21および内部バス22などを有する。
【0018】
検索サーバ5は、ディスク装置13にあらかじめ格納された基本ソフトや応用ソフトをRAM11にロードしてCPU10で実行することにより、以下の各機能を有する所定の検索サービスを実現し、通信制御装置19を介してインターネット1上に提供する。
【0019】
(1)会員(ユーザ)管理機能
検索サーバ5は、検索サービスを受けようとするユーザの氏名、住所、連絡先等の固有情報をディスク装置13の所定のデータベースファイルに保持・管理する。また、当該サービスを有料で提供する場合は、その課金のための決済情報(たとえば、カード決済であればカード会社名、カード番号、カード有効期限等の情報)を更に保持・管理し、必要であれば、たとえば、マーケティング調査や販売活動等に有益なその他の情報も保持・管理する。また、後述のサイトリストやカテゴリ別キーワード辞書についてもユーザ毎に保持・管理されている。
【0020】
(2)インターネット情報収集機能
検索サーバ5は、ユーザ毎に保持された所定のサイトリスト(図3参照)に従って、定期的又は不定期にインターネット1を自動もしくは手動巡回し、インターネット1に存在するホームページを所定のカテゴリ毎にダウンロードして、そのホームページに含まれる文字列と、そのホームページのビュー頻度、及び、そのホームページのアドレスとを関連づけてユーザ毎に保持する。
【0021】
(3)情報検索機能
検索サーバ5は、後述のカテゴリ別キーワード辞書(図4参照)に従って、(2)で保持された情報の中からユーザに提供すべき情報をカテゴリ毎に検索する。
【0022】
(4)コンテンツの生成と配信機能
検索サーバ5は、(3)で検索された情報又はそのリンク情報をリストにしたコンテンツ(HTML等の構造化言語によって記述されたドキュメント形式のコンテンツ)を生成し、そのコンテンツをインターネット1に公開する。なお、登録ユーザのみに当該コンテンツの閲覧を許容する場合(つまり匿名公開を許可しない場合)は、パスワード等によって当該コンテンツを保護する。
【0023】
(4)課金処理機能
検索サーバ5は、上記コンテンツの閲覧を有料で行う場合、閲覧回数等の従量制又は月ごとの利用料徴収などの定額性により、登録ユーザに対する課金処理を行う。
【0024】
図3は、サイトリストの構造概念図である。サイトリスト20は、カテゴリNo.フィールド21、カテゴリ名フィールド22、サイトNo.フィールド23、サイトURLフィールド24、ビュー頻度値フィールド25、適用キーワード辞書フィールド26などからなる。
【0025】
カテゴリNo.フィールド21には“1、2、3、・・・・”の連番が格納されており、カテゴリ名フィールド22にはユーザの興味分野ごとの適当なカテゴリ(たとえば、“ニュース”、“スポーツ”、“芸能”など)が格納されている。また、サイトNo.フィールド23には各カテゴリ毎に“1、2、3、・・・・”の連番が格納されており、サイトURLフィールド24には各サイトのURLが格納されている。また、ビュー頻度値フィールド25には各サイト毎のトップページの閲覧頻度(ビュー頻度)を表す値(たとえば、閲覧回数など)が格納されており、適用キーワード辞書フィールド26にはカテゴリ毎に適用されるキーワード辞書(たとえば、“ニュース用キーワード辞書”、“スポーツ用キーワード辞書”、“芸能用キーワード辞書”など)が格納(格納とは当該辞書の実体を格納すること又は当該辞書へのリンク情報を格納することを意味する。)されている。
【0026】
図4は、カテゴリ別キーワード辞書の概念図である。ここでは、前記のサイトリスト20に対応するニュース用キーワード辞書27、スポーツ用キーワード辞書28及び芸能用キーワード辞書29の三つのキーワード辞書が示されている。これらのキーワード辞書27〜29は、いずれもキーワードフィートルド27aや評価値フィールド27bを有している。キーワードフィールド27aには様々な単語や人名、地名、一般名詞等が格納(図では便宜的にKW1、KW2、KW3、KW4、KW5、・・・・としている。)されており、評価値フィールド27bにはそのカテゴリにおける当該キーワードの重要性を示す値(たとえば、ニュース性の高い事件又は人物などに関わるキーワードには大きな値を付与する等)が格納されている。
【0027】
図5、図7は、検索サーバ5のCPU10で実行される応用ソフトの要部を示す概念的なフローチャートである。このフローチャートは所定の時間毎に繰り返し実行される。このフローチャートは、以下の説明からも明らかなように、ネスト構造の二つのループを含む。第一のループは「カテゴリループ」であり、第二のループは当該第一のループ内で繰り返される「サイトループ」である。変数iはカテゴリループのループカウンタ、変数jはサイトループのループカウンタである。
【0028】
このフローチャートでは、まず、変数iと変数jに初期値“1”をセットすると共に、カテゴリループの最大回数を規定する変数imaxに、前記のサイトリスト20のカテゴリNo.の最大値をセットする(ステップS10)。ここで、カテゴリNo.の最大値とは、前記のサイトリスト20に登録されているカテゴリ総数に対応する値である。たとえば、前記のとおり、カテゴリNo.に“1、2、3、・・・・”の連番が格納されている場合は、その連番の最後の値である。以下、説明の便宜上、サイトリスト20のカテゴリNo.の最大値を“3”とする。したがって、この場合は、カテゴリループの最大回数を規定する変数imaxに“3”がセットされる。
【0029】
次に、サイトループの最大回数を規定する変数jmaxに、カテゴリNo.(i)のサイトNo.の最大値をセットする(ステップS11)。ここに、カテゴリNo.(i)は、“カテゴリNo.”+(その時点での変数iの値)を意味する。つまり、変数i=1のとき、カテゴリNo.(i)は、カテゴリNo.=1を示す。図3において、カテゴリNo.=1は、“ニュース”のカテゴリであり、そのカテゴリのサイトNo.の最大値は、たとえば、サイトURL“www.news4.com”の“4”である。したがって、この場合は、サイトループの最大回数を規定する変数jmaxに“4”がセットされる。
【0030】
次に、カテゴリNo.(i)のサイトNo.(j)のURLにアクセスし、そのトップページをダウンロードする(ステップS12)。ここに、カテゴリNo.(i)は、上記のとおり、“カテゴリNo.”+(その時点での変数iの値)を意味し、同様に、サイトNo.(j)は、“サイトNo.”+(その時点での変数jの値)を意味する。つまり、変数i=1、変数j=1のとき、カテゴリNo.(i)のサイトNo.(j)は、カテゴリNo.=1のサイトNo.=1を示す。図3において、カテゴリNo.=1のサイトNo.=1は、“ニュース”のカテゴリの1番目のサイトであり、そのサイトのURLは“www.news1.com”である。したがって、この場合は、“www.news1.com”のトップページがダウンロードされる。
【0031】
次に、ダウンロードしたトップページ内に、カテゴリNo.(i)の適用キーワード辞書に登録されている各キーワードと一致する文言(又は単語等)があるか否かを調べる(ステップS13、ステップS14)。ここで、カテゴリNo.(i)の適用キーワード辞書とは、変数iの値に対応する各カテゴリ毎のキーワード辞書を意味する。たとえば、変数i=1であれば、カテゴリNo=1は“ニュース”のカテゴリであるから、ニュース用キーワード辞書27(図4参照)を意味する。先に説明したとおり、ニュース用キーワード辞書27には様々なキーワード(KW1、KW2、KW3、KW4、KW5、・・・・)がそのカテゴリにおける評価値と共に登録(図4のキーワードフィートルド27a及び評価値フィールド27bを参照)されているので、このステップS13、ステップS14では、ダウンロードしたトップページ内に、それらのキーワード(KW1、KW2、KW3、KW4、KW5、・・・・)が含まれているか否かを調べる。
【0032】
そして、含まれている場合(ステップS14の“YES”)は、次に、カテゴリNo.(i)のキーワード出現テーブルにそのトップページのURLを登録すると共に、所定のキーワード出現記号(後述の黒丸記号)をセットする。
【0033】
図6は、キーワード出現テーブル30の構造概念図である。キーワード出現テーブル30は、カテゴリ毎に設けられており、たとえば、カテゴリループの最大回数を規定する変数imaxに“3”がセットされている場合、カテゴリ総数は“3”であるので、全部で三つのキーワード出現テーブル30が設けられる。説明の都合上、図示のキーワード出現テーブル30を“ニュース”のカテゴリ用のものとする。このキーワード出現テーブル30は、ニュース用キーワード辞書27に登録(図4のキーワードフィートルドを参照)されている各キーワード(KW1、KW2、KW3、KW4、KW5、・・・・)を格納するためのキーワードフィールド31と、ニュース用キーワード辞書27に登録されている各キーワード毎の評価値(図4の評価値フィールド27bを参照)を格納するための評価値フィールド32と、URL登録フィールド33と、キーワード出現評価値フィールド34とを含んで構成されている。
【0034】
URL登録フィールド33は、そのカテゴリにおけるサイトループの最大回数を規定する変数jmaxの値に対応した数のURL登録部33a〜33hを有する。そして、それらのURL登録部33a〜33hは、左から順に変数(j)の値に対応した連番が付されており、たとえば、変数i=1、変数j=1のときに、前記のステップS14の判定結果が“YES”であった場合、つまり、“ニュース”のカテゴリの1番目のサイト“www.news1.com”からダウンロードしたトップページ内にキーワード(KW1、KW2、KW3、KW4、KW5、・・・・)の少なくともいずれか一つが含まれていた場合に、左端のURL登録部33aにそのトップページのURL(“www.news1.com”)が登録される。
【0035】
なお、図示の例では、それぞれのURL登録部33a〜33hに“URL1”、“URL2”、“URL3”、・・・・が格納されているが、これらは、実際のURL(たとえば、“www.news1.com”など)を示す単なる置換文字列である。また、各々のURL登録部33a〜33hの下段に付記された数値(“78”、“83”、“92”、“64”、・・・・)は、“URL1”、“URL2”、“URL3”、・・・・のそれぞれのビュー頻度値であり、図3のサイトリスト20のビュー頻度値フィールド25からルックアップされた値である。
【0036】
ここで、図中の黒丸(●)は、キーワード出現記号(キーワード出現フラグと読み替えてもよい)である。たとえば、KW1の行に注目すると、その行には五つの黒丸がセットされており、各黒丸の位置はそれぞれURL1〜URL4及びURL8の列に一致している。したがって、この場合、URL1〜URL4及びURL8の各トップページにキーワード(KW1)が含まれていたことを明示する。キーワード出現評価値フィールド34には、次の計算式▲1▼の答え(以下「キーワード出現評価値」という。)がセットされる。
【0037】
キーワード出現評価値=(そのキーワードの評価値)×(そのキーワード行の黒丸の数) ・・・・▲1▼
たとえば、KW1の評価値は“511”、KW1行の黒丸の数は“5”であるので、式▲1▼の答えは「511×5=2,555」となる。したがって、この場合、“ニュース”のカテゴリのキーワード(KW1)の出現評価値は、図示のとおり、“2,555”となる。
【0038】
同様に、KW2の評価値は“367”、KW2行の黒丸の数は“5”であるので、式▲1▼の答えは「367×5=1,835」となる。したがって、この場合、“ニュース”のカテゴリのキーワード(KW2)の出現評価値は、図示のとおり、“1,835”となる。
同様に、KW3の評価値は“403”、KW3行の黒丸の数は“4”であるので、式▲1▼の答えは「403×4=1,612」となる。したがって、この場合、“ニュース”のカテゴリのキーワード(KW3)の出現評価値は、図示のとおり、“1,612”となる。
同様に、KW4の評価値は“301”、KW4行の黒丸の数は“4”であるので、式▲1▼の答えは「301×4=1,204」となる。したがって、この場合、“ニュース”のカテゴリのキーワード(KW4)の出現評価値は、図示のとおり、“1,204”となる。
同様に、KW5の評価値は“192”、KW5行の黒丸の数は“4”であるので、式▲1▼の答えは「192×4=768」となる。したがって、この場合、“ニュース”のカテゴリのキーワード(KW5)の出現評価値は、図示のとおり、“768”となる。
同様に、KW6の評価値は“219”、KW6行の黒丸の数は“3”であるので、式▲1▼の答えは「219×3=657」となる。したがって、この場合、“ニュース”のカテゴリのキーワード(KW6)の出現評価値は、図示のとおり、“657”となる。
同様に、KW7の評価値は“97”、KW2行の黒丸の数は“6”であるので、式▲1▼の答えは「97×6=582」となる。したがって、この場合、“ニュース”のカテゴリのキーワード(KW7)の出現評価値は、図示のとおり、“582”となる。
同様に、KW8の評価値は“530”、KW8行の黒丸の数は“1”であるので、式▲1▼の答えは「530×1=530」となる。したがって、この場合、“ニュース”のカテゴリのキーワード(KW8)の出現評価値は、図示のとおり、“530”となる。
【0039】
このようにして、一つのカテゴリ(変数i=1のときは“ニュース”のカテゴリ)のキーワード出現テーブル30が生成されるが、当該カテゴリのキーワード出現テーブル30が完成するときは、変数jを逐次にカウントアップ(ステップS16)して、その変数jの値が変数jmaxを超えたときである。つまり、当該カテゴリにおけるサイトループが完結したとき(ステップS17の“YES”)である。
【0040】
当該カテゴリにおけるサイトループが完結すると(ステップS17の“YES”)、次に、変数iをカウントアップし(ステップS18)、カウントアップ後の変数iが変数imaxを超えたか否かを判定する(ステップS19)。超えていない場合は、残りのカテゴリがあると判断して、再びステップS11以降の処理を繰り返し実行する。これにより、他のカテゴリ(“スポーツ”や“芸能”など)のキーワード出現テーブル30も、以上の説明と同様に生成される。カテゴリループのループ回数はimax回である。また、サイトループのループ回数は各カテゴリ毎にそのカテゴリに登録されているサイト数回である。
【0041】
そして、すべてのカテゴリのキーワード出現テーブル30を完成すると、それらのキーワード出現テーブル30に基づいてプッシュコンテンツを生成し、インターネット1に公開して(ステップS20)、フローチャートを終了する。
【0042】
図8は、プッシュコンテンツ35(コンテンツ)の一例を示す図である。このプッシュコンテンツ35は、ユーザの端末(ユーザ端末3a〜3d)上に表示された状態を表している。プッシュコンテンツ35は、HTMLやXML等の構造化言語によって記述されたドキュメントであり、たとえば、各カテゴリ(図示の例では“ニュース”、“スポーツ”、“芸能”など)ごとに、現在注目を集めている最も重要な情報にリンク36〜38が張られている。なお、図示の例では、各リンク36〜38の表示態様として、合致するキーワード(たとえば、KW1、KW2、KW3、・・・・)を画面に明示しているが、これは簡単な一例を示しているに過ぎない。キーワードと共にリンク先のURLを表示してもよいし、当該URLのトップページに含まれる文字列の一部や画像を表示してもよい。あるいは、それらのリンク36〜38をフォーカスしたときにポップアップ形式で上記の文字列等を表示してもよい。
【0043】
さて、このようなプッシュコンテンツ35に表示する情報(リンク36〜38)は、先にも説明したとおり、キーワード出現テーブル30に基づいて選択されるが、その選択の態様は次の二つがある。
【0044】
<単一のキーワードによる選択>
図6のキーワード出現テーブル30において、キーワード出現評価値の最大値は1行目のKW1に対応する“2,555”であり、当該カテゴリにおいて、KW1の出現数(黒丸記号の数)が最も高いことを表しているから、単一のキーワードによる選択を行う場合は、このキーワード(KW1)を含むトップページを公開するURL(図示の例の場合、URL1〜URL4)にリンクを張ればよい。
【0045】
ただし、図示の例の場合は、少ない数のURL(URL1〜URL4の四つ)であるため、プッシュコンテンツ35への表示に支障はないが、場合によっては、大量のURLがヒットすることがあり、この場合、ユーザの端末上で有益な情報を見つけにくくなるから、たとえば、ヒットしたURLのうち最大のビュー評価値を持つもの(URL3)だけをプッシュコンテンツ35に表示したり、あるいは、ビュー評価値の上位のいくつかをプッシュコンテンツ35に表示したりしてもよい。
【0046】
<複数のキーワードによる選択>
一般に、大量の情報の中から所望の情報を見つけだす際に、複数のキーワードのand検索が行われる。たとえば、「KW1、KW2、KW3のすべてを含む」という検索条件指定である。このような条件指定は、データベースの分野で「and検索」又は「and結合」と呼ばれ、“検索キーワード”and“検索キーワード”の形式で表される。本発明において、このようなand検索を適用する場合は、次のようにすればよい。
【0047】
図6のキーワード出現テーブル30において、たとえば、KW1〜KW4のand検索を行う場合、KW1〜KW4をすべて含むURLは、URL1、URL3及びURL4である。したがって、前式▲1▼を変形して、
キーワード出現評価値=(各キーワードの評価値の総和)×(各キーワードを含むURLの数) ・・・・▲2▼
とすると、KW1〜KW4の評価値の総和は「511+367+403+301=1582」、各キーワード(KW1〜KW4)を含むURLの数はURL1、URL3及びURL4の「3」つであり、式▲2▼の答えは「1582×3=4,746」となって最大のキーワード出現評価値が得られるから、これらのキーワード(KW1〜KW4)を含むトップページを公開するURL(図示の例の場合、URL1、URL3及びURL4)にリンクを張ればよい。
【0048】
ただし、図示の例の場合は、少ない数のURL(URL1、URL3及びURL4の三つ)であるため、プッシュコンテンツ35への表示に支障はないが、場合によっては、大量のURLがヒットすることがあり、この場合、ユーザの端末上で有益な情報を見つけにくくなるから、たとえば、ヒットしたURL(URL1、URL3及びURL4)のうち最大のビュー評価値を持つもの(URL3)だけをプッシュコンテンツ35に表示したり、あるいは、ビュー評価値の上位のいくつかをプッシュコンテンツ35に表示したりしてもよい。
【0049】
以上のとおり、本実施の形態によれば、検索サーバ5において、“ニュース”、“スポーツ”、“芸能”などのカテゴリ毎に、現在注目を集めている情報を検索し、それらの情報へのリンク36〜38を張ったプッシュコンテンツ35を生成してインターネット1に公開することができる。したがって、ユーザは自分の端末(ユーザ端末3a〜3d)を用いて、好きなときにプッシュコンテンツ35を閲覧するだけで、いちいちキーワードを入力することなく、最新の有益情報に触れることができるという格別の効果を得ることができる。
【0050】
【発明の効果】
本発明によれば、ネットワークに存在するホームページが所定のカテゴリ毎にダウンロードされ、そのホームページに含まれる文字列と、そのホームページのビュー頻度、及び、そのホームページのアドレスとを関連づけて保持されると共に、その保持情報の中からユーザに提供すべき情報が、所定のキーワード辞書に従って検索され、そして、検索された情報又はそのリンク情報を含むコンテンツが生成され、ネットワークに公開される。
【0051】
したがって、適切なキーワード辞書を準備することにより、その時点で注目を集めている情報をカテゴリ毎に収集し、プッシュ型でユーザに提供することができ、その結果、ユーザによるキーワード入力を不要にしてユーザ負担を軽減し、また、適切なキーワードを用いて信頼性の高い検索結果を得ることができる。
また、前記ユーザ毎に、前記巡回情報保持手段、前記保持手段、キーワード辞書保持手段の少なくとも一つを管理する管理手段を更に備えるという好ましい態様によれば、前記のコンテンツ生成、公開のサービスをユーザ毎に行うことができ、個々のユーザに対応したきめ細かなサービスを実現することができる。
【図面の簡単な説明】
【図1】実施の形態の全体的なシステム構成図である。
【図2】検索サーバ5の構成を示す図である。
【図3】サイトリストの構造概念図である。
【図4】キーワード辞書の概念図である。
【図5】検索サーバ5のCPU10で実行される応用ソフトの要部を示す概念的なフローチャート(その1)である。
【図6】キーワード出現テーブル30の構造概念図である。
【図7】検索サーバ5のCPU10で実行される応用ソフトの要部を示す概念的なフローチャート(その2)である。
【図8】プッシュコンテンツ35の一例を示す図である。
【符号の説明】
1 インターネット(ネットワーク)
5 検索サーバ(情報検索装置)
10 CPU(巡回手段、ダウンロード手段、検索手段、公開手段)
13 ディスク装置(巡回情報保持手段、保持手段、キーワード辞書保持手段)
20 サイトリスト
27 ニュース用キーワード辞書(カテゴリ別キーワード辞書)
28 スポーツ用キーワード辞書(カテゴリ別キーワード辞書)
29 芸能用キーワード辞書(カテゴリ別キーワード辞書)
35 プッシュコンテンツ(コンテンツ)
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to an information search device, an information search method, a program, and a recording medium storing the program. More specifically, an information search device, an information search method, a program, and the like that search for information considered important to a user from various types of information existing on a network such as the Internet or an intranet, and present the information to the user. The present invention relates to a recording medium storing a program.
[0002]
[Prior art]
Huge amounts of information are flooding networks such as the Internet and intranets, especially the Internet, which is a global wide-area network, and it is extremely difficult to find information that is important to users from the information. It is a technique of. For this reason, service sites called “search sites” are provided on the Internet, and users use the search sites to find desired information. These search sites take a so-called “pull-type” service form. That is, the pull-type search site receives a keyword from the user, searches for information that matches the keyword, and provides the user with the information.
[0003]
The pull-type search service is useful when a user wants to know specific information, that is, when he / she uses it spontaneously. However, when it is desired to know information that changes every moment, for example, information such as news, the pull-type search service is inconvenient. This is because each time a keyword must be entered. In addition, if the keyword is inappropriate, accurate information cannot be obtained.
[0004]
Therefore, by performing user registration in advance, the search service provider generates a dedicated screen listing information dedicated to the user (for example, a dedicated news screen covering the area of interest of the user). A so-called “push-type” search service that distributes to a user's client terminal is used.
[0005]
As a conventional push-type information search method, a keyword is extracted from registration information at the time of user registration, and based on the keyword, a variety of information existing on a network such as the Internet or an intranet is used. There is known an apparatus that searches for information that is considered to be available and distributes the information to a user in a push type (for example, see Patent Document 1).
[0006]
[Patent Document 1]
JP-A-2000-298677 ([0302] to [0327], FIG. 105)
[0007]
[Problems to be solved by the invention]
However, the conventional push-type information search method requires a user to input a keyword at the time of user registration, and in this point (keyword input), it has the same disadvantage as the pull-type search service. I have. That is, there is a problem in that the input of the keyword is troublesome and the input keyword may be inappropriate, so that the expected search accuracy cannot always be obtained.
[0008]
Therefore, it is an object of the present invention to reduce the burden on the user by eliminating the need for a user to input a keyword, and to obtain a highly reliable search result using an appropriate keyword.
[0009]
[Means for Solving the Problems]
The information search device according to the present invention is a patrol information holding unit that holds information of a network to be patrolled, and a patrolling unit that patrols the network periodically or irregularly according to the content held in the patrolling information holding unit. Download means for downloading homepages existing in the network for each predetermined category by patrol by the patrol means, character strings included in the homepage acquired by the download means, view frequency of the homepage, and address of the homepage , A keyword dictionary holding means for holding a keyword dictionary for each category, and a user provided from the information held in the holding means according to the keyword dictionary held in the keyword dictionary holding means. Information to be classified by category A search to find means to generate content that list the retrieved information or the link information by the retrieving means, characterized in that a public means for publishing the content to the network.
[0010]
According to the present invention, a homepage existing on a network is downloaded for each predetermined category, and a character string included in the homepage, a view frequency of the homepage, and an address of the homepage are stored in association with each other. From the information, information to be provided to the user is searched according to the keyword dictionary, and the content including the searched information or its link information is generated and made public on the network.
[0011]
Therefore, by preparing an appropriate keyword dictionary, information that is attracting attention at that time can be collected for each category and can be provided to the user in a push type. As a result, keyword input by the user becomes unnecessary. The user's burden can be reduced, and a highly reliable search result can be obtained using an appropriate keyword.
[0012]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the following description, the specification or examples of various details and examples of numerical values, character strings, and other symbols are merely reference for clarifying the idea of the present invention, and all or some of them Obviously, the idea of the invention is not limited. In addition, well-known techniques, well-known procedures, well-known architectures, and well-known circuit configurations (hereinafter, “known matters”) will not be described in detail, but this is also for the purpose of simplifying the description, It does not intentionally exclude all or some of the matters. Such a well-known matter can be known to those skilled in the art at the time of filing the present invention, and is naturally included in the following description.
[0013]
FIG. 1 is an overall system configuration diagram of an embodiment. In FIG. 1, a plurality of WWW (World Wide Web) servers 2a to 2d are connected to a network (hereinafter, referred to as "Internet") 1 such as the Internet or an intranet. These WWW servers 2a to 2d are given addresses called URLs (Uniform Resource Locators), and can be accessed from a plurality of user terminals 3a to 3d also connected to the Internet 1 by specifying each address. It has become.
[0014]
That is, the WWW servers 2a to 2d communicate with a document (in many cases, such as "index.html" or ".html") described in a structured language such as HTML (Hyper Text Markup Language) or XML (extensible Markup Language). And a variety of contents linked to the top page. Hereinafter, these will be collectively referred to as “homepage” for convenience. The user inputs a desired homepage address using homepage browsing software (so-called browser software) of his own terminal (any of the user terminals 3a to 3d), downloads the homepage to his own terminal, and browses it.
[0015]
Here, only four WWW servers 2a to 2d on the drawing are shown. This is in order to avoid drawing congestion, and in fact, especially in the case of the Internet, a huge number of units on a global scale, and therefore, the amount of home pages becomes extremely large. For this reason, the above-mentioned browsing procedure, that is, the procedure of browsing by entering the address of the home page using browser software is effective for browsing a home page whose address is known, but browsing a home page whose address is unknown. Not applicable to
[0016]
The search service site 4 connected to the Internet 1 is provided for convenience in browsing a homepage whose address is unknown, and particularly provides a push-type information search service. The search service site 4 includes a search server 5 (information search device) connected to the Internet 1.
[0017]
FIG. 2 is a diagram illustrating a configuration of the search server 5. The search server 5 includes a CPU 10 (a traveling unit, a downloading unit, a searching unit, a publishing unit), a RAM 11, a disk controller 12, a disk unit 13 (a traveling information holding unit, a holding unit, a keyword dictionary holding unit), a display controller 14, and a display unit. 15, a keyboard controller 16, a keyboard device 17, a pointing device device 18, a communication control device 19, a main bus 20, a bus interface 21, an internal bus 22, and the like.
[0018]
The search server 5 implements a predetermined search service having the following functions by loading basic software and application software stored in the disk device 13 in advance into the RAM 11 and executing the same by the CPU 10. It is provided on the Internet 1 through the Internet.
[0019]
(1) Member (user) management function
The search server 5 holds and manages specific information such as the name, address, and contact information of the user who is to receive the search service in a predetermined database file of the disk device 13. When the service is provided for a fee, payment information for the charging (for example, in the case of a card payment, information such as a card company name, a card number, and a card expiration date) is further held and managed. If so, it also retains and manages other information useful for marketing research and sales activities, for example. Further, a site list and a category-specific keyword dictionary, which will be described later, are held and managed for each user.
[0020]
(2) Internet information collection function
The search server 5 automatically or manually patrols the Internet 1 periodically or irregularly according to a predetermined site list (see FIG. 3) held for each user, and downloads home pages existing in the Internet 1 for each predetermined category. Then, a character string included in the home page, a view frequency of the home page, and an address of the home page are associated with each other and stored for each user.
[0021]
(3) Information search function
The search server 5 searches, for each category, information to be provided to the user from the information stored in (2) according to a category-specific keyword dictionary described later (see FIG. 4).
[0022]
(4) Content generation and distribution function
The search server 5 generates contents (contents in a document format described by a structured language such as HTML) listing information searched for in (3) or link information thereof, and publishes the contents to the Internet 1. . When only the registered user is permitted to view the content (that is, when anonymous disclosure is not permitted), the content is protected by a password or the like.
[0023]
(4) Billing function
When browsing the content for a fee, the search server 5 performs a charging process for the registered user according to a pay-as-you-go system such as the number of times of browsing or a fixed amount such as a monthly usage fee collection.
[0024]
FIG. 3 is a conceptual diagram of the structure of the site list. The site list 20 includes a category number field 21, a category name field 22, a site number field 23, a site URL field 24, a view frequency value field 25, an applied keyword dictionary field 26, and the like.
[0025]
... Are stored in the category No. field 21, and an appropriate category (for example, “news”, “news”, “Sports”, “entertainment”, etc.) are stored. The site number field 23 stores serial numbers "1, 2, 3, ..." for each category, and the site URL field 24 stores the URL of each site. The view frequency value field 25 stores a value (for example, the number of times of browsing) representing the browsing frequency (view frequency) of the top page of each site, and the applied keyword dictionary field 26 is applied to each category. (E.g., “News keyword dictionary”, “Sports keyword dictionary”, “Entertainment keyword dictionary”, etc.) are stored (to store the entity of the dictionary or to store link information to the dictionary). Means to store.)
[0026]
FIG. 4 is a conceptual diagram of a category-based keyword dictionary. Here, three keyword dictionaries of a news keyword dictionary 27, a sports keyword dictionary 28, and a performing arts keyword dictionary 29 corresponding to the site list 20 are shown. Each of these keyword dictionaries 27 to 29 has a keyword field 27a and an evaluation value field 27b. The keyword field 27a stores various words, personal names, place names, general nouns, and the like (KW1, KW2, KW3, KW4, KW5,... In the figure for convenience), and an evaluation value field 27b. Stores a value indicating the importance of the keyword in the category (for example, a large value is assigned to a keyword related to a highly newsworthy case or a person).
[0027]
FIGS. 5 and 7 are conceptual flowcharts showing the main parts of the application software executed by the CPU 10 of the search server 5. This flowchart is repeatedly executed at predetermined time intervals. This flowchart includes two nested loops, as will be apparent from the following description. The first loop is a "category loop", and the second loop is a "site loop" repeated within the first loop. The variable i is a loop counter of a category loop, and the variable j is a loop counter of a site loop.
[0028]
In this flowchart, first, an initial value “1” is set to a variable i and a variable j, and the maximum value of the category number of the site list 20 is set to a variable imax that defines the maximum number of times of the category loop ( Step S10). Here, the maximum value of the category number is a value corresponding to the total number of categories registered in the site list 20. For example, as described above, when the serial number of “1, 2, 3,...” Is stored in the category No., it is the last value of the serial number. Hereinafter, for convenience of explanation, the maximum value of the category number of the site list 20 is set to “3”. Therefore, in this case, “3” is set to the variable imax that defines the maximum number of times of the category loop.
[0029]
Next, the maximum value of the site No. of the category No. (i) is set in a variable jmax that defines the maximum number of site loops (step S11). Here, the category No. (i) means “category No.” + (The value of the variable i at that time). That is, when the variable i = 1, the category No. (i) indicates the category No. = 1. In FIG. 3, the category No. = 1 is the category of "news", and the maximum value of the site No. of the category is, for example, "4" of the site URL "www.news4.com". Therefore, in this case, “4” is set to the variable jmax that defines the maximum number of site loops.
[0030]
Next, the user accesses the URL of the site No. (j) of the category No. (i) and downloads its top page (step S12). Here, the category No. (i) means “category No.” + (The value of the variable i at that time) as described above, and similarly, the site No. (j) is “the site No. "+ (The value of the variable j at that time). That is, when the variable i = 1 and the variable j = 1, the site No. (j) of the category No. (i) indicates the site No. = 1 of the category No. = 1. In FIG. 3, the site No. = 1 of the category No. = 1 is the first site in the category of "news", and the URL of the site is "www.news1.com". Therefore, in this case, the top page of “www.news1.com” is downloaded.
[0031]
Next, it is checked whether or not the downloaded top page includes a word (or word, etc.) that matches each keyword registered in the applicable keyword dictionary of the category No. (i) (step S13, step S14). . Here, the applicable keyword dictionary of the category No. (i) means a keyword dictionary for each category corresponding to the value of the variable i. For example, if the variable i = 1, the category No = 1 is the category of "news", and thus means the news keyword dictionary 27 (see FIG. 4). As described above, various keywords (KW1, KW2, KW3, KW4, KW5,...) Are registered in the news keyword dictionary 27 together with the evaluation value in the category (the keyword field 27a and the evaluation in FIG. 4). (See the value field 27b), and in these steps S13 and S14, whether or not those keywords (KW1, KW2, KW3, KW4, KW5,...) Are included in the downloaded top page. Check whether or not.
[0032]
If it is included (“YES” in step S14), the URL of the top page is registered in the keyword appearance table of category No. (i), and a predetermined keyword appearance symbol (black circle described later) is entered. Symbol).
[0033]
FIG. 6 is a conceptual diagram of the structure of the keyword appearance table 30. The keyword appearance table 30 is provided for each category. For example, when "3" is set in a variable imax that defines the maximum number of times of the category loop, the total number of categories is "3". One keyword appearance table 30 is provided. For convenience of explanation, the illustrated keyword appearance table 30 is for the category of “news”. This keyword appearance table 30 is used to store each keyword (KW1, KW2, KW3, KW4, KW5,...) Registered in the news keyword dictionary 27 (see the keyword field in FIG. 4). A keyword field 31, an evaluation value field 32 for storing an evaluation value for each keyword registered in the news keyword dictionary 27 (see the evaluation value field 27b in FIG. 4), a URL registration field 33, a keyword And an appearance evaluation value field 34.
[0034]
The URL registration field 33 has a number of URL registration units 33a to 33h corresponding to the value of the variable jmax that defines the maximum number of site loops in the category. The URL registration units 33a to 33h are sequentially numbered from the left corresponding to the value of the variable (j). For example, when the variable i = 1 and the variable j = 1, the above-described step is performed. If the determination result in S14 is “YES”, that is, the keywords (KW1, KW2, KW3, KW4, KW5) are included in the top page downloaded from the first site “www.news1.com” in the “news” category. ,...), The URL of the top page (“www.news1.com”) is registered in the URL registration unit 33a on the left end.
[0035]
In the illustrated example, “URL1”, “URL2”, “URL3”,... Are stored in the respective URL registration units 33a to 33h, but these are stored in actual URLs (for example, “www”). .News1.com ”). The numerical values (“78”, “83”, “92”, “64”,...) Appended to the lower part of each of the URL registration sections 33a to 33h are “URL1,” “URL2,” “ URL3 ",... Are the values looked up from the view frequency value field 25 of the site list 20 in FIG.
[0036]
Here, black circles (•) in the figure are keyword appearance symbols (may be read as keyword appearance flags). For example, focusing on the row of KW1, five black circles are set in the row, and the positions of the black circles correspond to the columns of URL1 to URL4 and URL8, respectively. Therefore, in this case, it is specified that the keyword (KW1) is included in each of the top pages of URL1 to URL4 and URL8. In the keyword appearance evaluation value field 34, the answer of the following formula (1) (hereinafter referred to as "keyword appearance evaluation value") is set.
[0037]
Keyword appearance evaluation value = (Evaluation value of the keyword) × (Number of black circles in the keyword line)... ▲ 1 ▼
For example, since the evaluation value of KW1 is “511” and the number of black circles in the KW1 row is “5”, the answer of the equation (1) is “511 × 5 = 2,555”. Therefore, in this case, the appearance evaluation value of the keyword (KW1) in the category of “news” is “2,555” as illustrated.
[0038]
Similarly, since the evaluation value of KW2 is “367” and the number of black circles in the KW2 row is “5”, the answer of Expression (1) is “367 × 5 = 1,835”. Therefore, in this case, the appearance evaluation value of the keyword (KW2) in the category of “news” is “1,835” as illustrated.
Similarly, since the evaluation value of KW3 is “403” and the number of black circles in the KW3 row is “4”, the answer of Expression (1) is “403 × 4 = 1,612”. Therefore, in this case, the appearance evaluation value of the keyword (KW3) in the category of “news” is “1,612” as illustrated.
Similarly, since the evaluation value of KW4 is "301" and the number of black circles in the KW4 row is "4", the answer to the expression (1) is "301 × 4 = 1,204". Therefore, in this case, the appearance evaluation value of the keyword (KW4) in the category of “news” is “1,204” as illustrated.
Similarly, since the evaluation value of KW5 is “192” and the number of black circles in the KW5 row is “4”, the answer of Expression (1) is “192 × 4 = 768”. Therefore, in this case, the appearance evaluation value of the keyword (KW5) in the category of “news” is “768” as illustrated.
Similarly, since the evaluation value of KW6 is “219” and the number of black circles in the row of KW6 is “3”, the answer of Expression (1) is “219 × 3 = 657”. Therefore, in this case, the appearance evaluation value of the keyword (KW6) in the category of “news” is “657” as illustrated.
Similarly, since the evaluation value of KW7 is “97” and the number of black circles in the KW2 row is “6”, the answer of Expression (1) is “97 × 6 = 582”. Therefore, in this case, the appearance evaluation value of the keyword (KW7) in the category of “news” is “582” as illustrated.
Similarly, since the evaluation value of KW8 is “530” and the number of black circles in the KW8 line is “1”, the answer of the equation (1) is “530 × 1 = 530”. Therefore, in this case, the appearance evaluation value of the keyword (KW8) in the category of “news” is “530” as illustrated.
[0039]
Thus, the keyword appearance table 30 of one category (the category of “news” when the variable i = 1) is generated. When the keyword appearance table 30 of the category is completed, the variable j is sequentially set. (Step S16), and the value of the variable j exceeds the variable jmax. That is, when the site loop in the category is completed (“YES” in step S17).
[0040]
When the site loop in the category is completed (“YES” in step S17), the variable i is counted up (step S18), and it is determined whether the variable i after the count exceeds the variable imax (step S18). S19). If not exceeded, it is determined that there is a remaining category, and the processes after step S11 are repeatedly executed. As a result, the keyword appearance tables 30 for other categories (such as "sports" and "entertainment") are generated in the same manner as described above. The number of times of the category loop is imax. The number of site loops is the number of sites registered in each category for each category.
[0041]
When the keyword appearance tables 30 for all categories are completed, push content is generated based on the keyword appearance tables 30 and published to the Internet 1 (step S20), and the flowchart ends.
[0042]
FIG. 8 is a diagram illustrating an example of the push content 35 (content). This push content 35 represents a state displayed on a user terminal (user terminals 3a to 3d). The push content 35 is a document described in a structured language such as HTML or XML, and, for example, currently attracts attention for each category (in the illustrated example, “news”, “sports”, “entertainment”, etc.). The most important information is provided with links 36-38. In the illustrated example, matching keywords (for example, KW1, KW2, KW3,...) Are clearly displayed on the screen as display modes of the links 36 to 38, but this is a simple example. It is just that. The URL of the link destination may be displayed together with the keyword, or a part of a character string or an image included in the top page of the URL may be displayed. Alternatively, the above character strings and the like may be displayed in a pop-up format when the links 36 to 38 are focused.
[0043]
As described above, the information (links 36 to 38) to be displayed on the push content 35 is selected based on the keyword appearance table 30, as described above.
[0044]
<Selection by a single keyword>
In the keyword appearance table 30 of FIG. 6, the maximum value of the keyword appearance evaluation value is “2,555” corresponding to KW1 in the first row, and the appearance number (the number of black circle symbols) of KW1 is the highest in the category. Therefore, when a selection is made using a single keyword, a link may be provided to a URL (URL1 to URL4 in the example shown) that publishes a top page including this keyword (KW1).
[0045]
However, in the case of the illustrated example, the number of URLs is small (four URLs, URL1 to URL4), so that there is no problem in displaying on the push content 35. However, in some cases, a large number of URLs may be hit. In this case, it is difficult to find useful information on the user's terminal. For example, only the hit URL having the highest view evaluation value (URL3) is displayed on the push content 35, or the view evaluation is performed. Some of the higher values may be displayed in the push content 35.
[0046]
<Selection by multiple keywords>
Generally, when finding desired information from a large amount of information, an AND search for a plurality of keywords is performed. For example, the search condition is specified as “including all of KW1, KW2, and KW3”. Such a condition designation is called “and search” or “and combination” in the field of a database, and is expressed in a format of “search keyword” and “search keyword”. In the present invention, when such an and search is applied, the following may be performed.
[0047]
In the keyword appearance table 30 of FIG. 6, for example, when performing an AND search of KW1 to KW4, URLs including all of KW1 to KW4 are URL1, URL3, and URL4. Therefore, by transforming the above formula (1),
Keyword appearance evaluation value = (sum of evaluation values of each keyword) x (number of URLs including each keyword) ... 2
Then, the sum of the evaluation values of KW1 to KW4 is “511 + 367 + 403 + 301 = 15882”, the number of URLs including each keyword (KW1 to KW4) is “3” of URL1, URL3, and URL4, and the answer of equation (2) Is “1582 × 3 = 4,746” and the maximum keyword appearance evaluation value is obtained. Therefore, a URL that publishes a top page including these keywords (KW1 to KW4) (URL1, URL3 in the example shown) And URL 4).
[0048]
However, in the case of the example shown in the figure, since there are only a small number of URLs (three URL1, URL3 and URL4), there is no problem in displaying on the push content 35. However, in some cases, a large number of URLs may be hit. In this case, it is difficult to find useful information on the user's terminal. For example, only the hit URL (URL1, URL3, and URL4) having the highest view evaluation value (URL3) is pushed content 35. Or some of the higher-ranked view evaluation values may be displayed on the push content 35.
[0049]
As described above, according to the present embodiment, the search server 5 searches for information that is currently attracting attention for each category such as “news”, “sports”, and “entertainment”, and searches the information. Push content 35 with links 36 to 38 can be generated and made public on the Internet 1. Therefore, the user can use his / her terminal (user terminals 3a to 3d) to browse the push content 35 whenever he wants, and can touch the latest useful information without inputting a keyword each time. The effect of can be obtained.
[0050]
【The invention's effect】
According to the present invention, a homepage existing on a network is downloaded for each predetermined category, and a character string included in the homepage, a view frequency of the homepage, and an address of the homepage are held in association with each other. From the held information, information to be provided to the user is searched according to a predetermined keyword dictionary, and a content including the searched information or the link information is generated and made public on the network.
[0051]
Therefore, by preparing an appropriate keyword dictionary, information that is attracting attention at that time can be collected for each category and can be provided to the user in a push type. As a result, keyword input by the user becomes unnecessary. The user's burden can be reduced, and a highly reliable search result can be obtained using an appropriate keyword.
Further, according to a preferred aspect of the present invention, a management unit for managing at least one of the tour information holding unit, the holding unit, and the keyword dictionary holding unit is provided for each user, and the content generation and disclosure service is provided by the user. This can be performed for each user, and a detailed service corresponding to each user can be realized.
[Brief description of the drawings]
FIG. 1 is an overall system configuration diagram of an embodiment.
FIG. 2 is a diagram showing a configuration of a search server 5.
FIG. 3 is a conceptual diagram of the structure of a site list.
FIG. 4 is a conceptual diagram of a keyword dictionary.
FIG. 5 is a conceptual flowchart (part 1) illustrating a main part of application software executed by the CPU 10 of the search server 5.
FIG. 6 is a conceptual diagram of the structure of a keyword appearance table 30.
FIG. 7 is a conceptual flowchart (part 2) illustrating a main part of application software executed by the CPU 10 of the search server 5.
FIG. 8 is a diagram showing an example of a push content 35.
[Explanation of symbols]
1 Internet (network)
5. Search server (information search device)
10 CPU (touring means, download means, search means, disclosure means)
13 Disk device (tour information holding means, holding means, keyword dictionary holding means)
20 Site List
27 Keyword Dictionary for News (Keyword Dictionary by Category)
28 Sport Keyword Dictionary (Keyword Dictionary by Category)
29 Keyword Dictionary for Entertainment (Keyword Dictionary by Category)
35 Push Content (Content)

Claims (5)

巡回すべきネットワークの情報を保持する巡回情報保持手段と、
この巡回情報保持手段に保持される内容に従って、定期的又は不定期にネットワークを巡回する巡回手段と、
この巡回手段による巡回によって前記ネットワークに存在するホームページを所定のカテゴリ毎にダウンロードするダウンロード手段と、
このダウンロード手段によって取得したホームページに含まれる文字列と、そのホームページのビュー頻度、及び、そのホームページのアドレスとを関連づけて保持する保持手段と、
キーワード辞書をカテゴリ別に保持するキーワード辞書保持手段と、
このキーワード辞書保持手段に保持されたキーワード辞書に従って、前記保持手段に保持された情報の中からユーザに提供すべき情報をカテゴリ毎に検索する検索手段と、
前記検索手段によって検索された情報又はそのリンク情報をリストにしたコンテンツを生成し、そのコンテンツをネットワークに公開する公開手段と
を備えたことを特徴とする情報検索装置。
Traveling information holding means for holding information on a network to be visited,
In accordance with the contents held in the tour information holding means, a tour means that tours the network periodically or irregularly,
Download means for downloading home pages existing in the network for each predetermined category by patrol by the patrol means;
Holding means for associating a character string included in the homepage acquired by the download means with a view frequency of the homepage and an address of the homepage,
Keyword dictionary holding means for holding a keyword dictionary for each category;
Searching means for searching, for each category, information to be provided to the user from the information held in the holding means according to the keyword dictionary held in the keyword dictionary holding means;
An information search device, comprising: a publishing unit that generates a content listing information searched by the search unit or link information thereof, and publishes the content to a network.
前記ユーザ毎に、前記巡回情報保持手段、前記保持手段、キーワード辞書保持手段の少なくとも一つを管理する管理手段を更に備えたことを特徴とする請求項1に記載の情報検索装置。2. The information retrieval apparatus according to claim 1, further comprising a management unit for managing at least one of the tour information holding unit, the holding unit, and the keyword dictionary holding unit for each user. 所定のサイトリストに従って、定期的又は不定期にネットワークを巡回し、前記ネットワークに存在するホームページを所定のカテゴリ毎にダウンロードして、そのホームページに含まれる文字列と、そのホームページのビュー頻度、及び、そのホームページのアドレスとを関連づけて保持する保持工程と、
所定のカテゴリ別キーワード辞書に従って、前記保持工程によって保持された情報の中からユーザに提供すべき情報をカテゴリ毎に検索する検索工程と、
前記検索工程によって検索された情報又はそのリンク情報をリストにしたコンテンツを生成し、そのコンテンツをネットワークに公開する公開工程と
を含むことを特徴とする情報検索方法。
According to a predetermined site list, periodically or irregularly patrols the network, downloads a homepage existing in the network for each predetermined category, a character string included in the homepage, a view frequency of the homepage, and A holding process for holding the homepage address in association with the address,
A search step of searching, for each category, information to be provided to the user from the information held in the holding step, according to a predetermined category-specific keyword dictionary;
A publishing step of generating a content listing information searched for in the search step or link information thereof, and publishing the content to a network.
コンピュータに所定の処理機能を実行させるためのプログラムであって、
前記処理機能は、
所定のサイトリストに従って、定期的又は不定期にネットワークを巡回し、前記ネットワークに存在するホームページを所定のカテゴリ毎にダウンロードして、そのホームページに含まれる文字列と、そのホームページのビュー頻度、及び、そのホームページのアドレスとを関連づけて保持する保持工程と、
所定のカテゴリ別キーワード辞書に従って、前記保持工程によって保持された情報の中からユーザに提供すべき情報をカテゴリ毎に検索する検索工程と、
前記検索工程によって検索された情報又はそのリンク情報をリストにしたコンテンツを生成し、そのコンテンツをネットワークに公開する公開工程と
を実現するための機能を含むことを特徴とするプログラム。
A program for causing a computer to execute a predetermined processing function,
The processing function includes:
According to a predetermined site list, periodically or irregularly patrols the network, downloads a homepage existing in the network for each predetermined category, a character string included in the homepage, a view frequency of the homepage, and A holding process for holding the homepage address in association with the address,
A search step of searching, for each category, information to be provided to the user from the information held in the holding step, according to a predetermined category-specific keyword dictionary;
A program for generating a content listing information searched for in the search step or link information thereof, and publishing the content to a network.
請求項4記載のプログラムを格納した記録媒体。A recording medium storing the program according to claim 4.
JP2002371677A 2002-12-24 2002-12-24 Information retrieval device, information retrieval method, program and storage medium storing the program Pending JP2004206211A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002371677A JP2004206211A (en) 2002-12-24 2002-12-24 Information retrieval device, information retrieval method, program and storage medium storing the program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002371677A JP2004206211A (en) 2002-12-24 2002-12-24 Information retrieval device, information retrieval method, program and storage medium storing the program

Publications (1)

Publication Number Publication Date
JP2004206211A true JP2004206211A (en) 2004-07-22

Family

ID=32810506

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002371677A Pending JP2004206211A (en) 2002-12-24 2002-12-24 Information retrieval device, information retrieval method, program and storage medium storing the program

Country Status (1)

Country Link
JP (1) JP2004206211A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007025943A (en) * 2005-07-14 2007-02-01 Sharp Corp Display device, server device, program and recording medium
JP2009064435A (en) * 2007-09-06 2009-03-26 Nhn Corp Method and system for providing up-to-date information

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007025943A (en) * 2005-07-14 2007-02-01 Sharp Corp Display device, server device, program and recording medium
JP2009064435A (en) * 2007-09-06 2009-03-26 Nhn Corp Method and system for providing up-to-date information
JP2011118946A (en) * 2007-09-06 2011-06-16 Nhn Corp Method for providing the newest information

Similar Documents

Publication Publication Date Title
US9342609B1 (en) Ranking custom search results
JP5474038B2 (en) Mobile site map
US6311194B1 (en) System and method for creating a semantic web and its applications in browsing, searching, profiling, personalization and advertising
US20090006388A1 (en) Search result ranking
US20070067304A1 (en) Search using changes in prevalence of content items on the web
US20020078045A1 (en) System, method, and program for ranking search results using user category weighting
US20070271255A1 (en) Reverse search-engine
JP2005535039A (en) Interact with desktop clients with geographic text search systems
WO2002027549A1 (en) Internet searching system to be easy by user and method thereof
US9275145B2 (en) Electronic document retrieval system with links to external documents
EP1938214A1 (en) Search using changes in prevalence of content items on the web
EP1143349A1 (en) Method and apparatus for generating index data for search engines
EP1934825A2 (en) Mobile sitemaps
JP2004206211A (en) Information retrieval device, information retrieval method, program and storage medium storing the program
Garofalakis Panagiotis et al. Improving the performance of Web access by bridging global ranking with local page popularity metrics
KR100496384B1 (en) Search engine, search system, method for making a database in a search system, and recording media
JP2005031867A (en) Web information collecting device and web information collecting method
KR101083669B1 (en) Expert website searching system using internet and method thereof
Kantor et al. Ant World (demonstration abstract)
Schmidt et al. Distributed search for structured documents
Hu Advanced WML
Singh et al. Link Analysis to Visualize a Web Graph
WEITZMAN et al. Virtual URLs for Browsing & Searching Large Information Spaces
EP1906318A1 (en) Dynamic content based assisted information browsing

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080523

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080603

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080901

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081225