JP2004118415A - Information collection method, and program for making computer perform processing in the method - Google Patents

Information collection method, and program for making computer perform processing in the method Download PDF

Info

Publication number
JP2004118415A
JP2004118415A JP2002279049A JP2002279049A JP2004118415A JP 2004118415 A JP2004118415 A JP 2004118415A JP 2002279049 A JP2002279049 A JP 2002279049A JP 2002279049 A JP2002279049 A JP 2002279049A JP 2004118415 A JP2004118415 A JP 2004118415A
Authority
JP
Japan
Prior art keywords
information
priority
user
search
collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002279049A
Other languages
Japanese (ja)
Inventor
Kanji Uchino
内野 寛治
Katsutoshi Iifushi
飯伏 勝俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2002279049A priority Critical patent/JP2004118415A/en
Publication of JP2004118415A publication Critical patent/JP2004118415A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide an information collection method capable of effectively collecting information according to a user's purpose, presenting a retrieval result to the user, and promoting the browsing of prescribed information provided by an information provider. <P>SOLUTION: This information collection method for collecting information provided to the user through a network comprises a provided information management procedure for managing the provided information provided to the user, which is retrieved based on the input information from the user, as history; a priority adjusting procedure for calculating priority showing the degree of preferential collection of provided information, based on the provided information managed by a history information management procedure, and inserting specification information for specifying provided information on the network in the descending order of priority to a queue; and an information collecting procedure for collecting provided information based on the specification information. <P>COPYRIGHT: (C)2004,JPO

Description

【0001】
【発明の属する技術分野】
本発明は情報収集方法に係り、特に、インターネットを介して利用者に提供する情報を、リアルタイムな状況変化に応じて収集するための情報収集方法に関する。
【0002】
また、本発明は、そのような情報収集方法における処理をコンピュータに行わせるためのプログラムに関する。
【0003】
【従来の技術】
近年、利用者は、携帯電話やPC等の端末を用いて、インターネットを介して目的の情報を検索し、端末に表示させた検索結果により目的の情報の閲覧が可能となる。目的の情報を検索する場合、利用者は利用者側の端末により、情報管理者(プロバイダ)により運営されている各種ポータルサイト上での検索機能を用いて目的の情報を検索する。この時、利用者側の端末からキーワードを入力欄に入力され、情報の検索が開始されると、プロバイダの情報提供サーバでは、コンテンツ情報収集専用のプログラムであるクローラやスパイダにより、キーワードに基づいたコンテンツ情報の収集、分析が行われる。情報提供サーバーは、収集したコンテンツ情報から検索インデックスと呼ばれるデータベース(以降DBとする)を管理し、利用者側の端末に検索結果としてその検索インデックスを提供する。利用者は、端末に検索インデックスを表示することにより、目的の情報を閲覧することが可能となる。
【0004】
また、情報提供サーバでは、コンテンツ情報を収集する頻度などは目的に応じて任意に設定、変更することができる。例えば、収集するコンテンツ情報が新聞社の提供するニュースである場合、更新頻度を高くして情報を収集する必要があるため、10分程度の間隔で収集するように予め設定されている。
【0005】
また、検索を行う利用者の利便性を向上させるのを目的として、利用者が求める有用な情報をなるべく上位に表示されるように、様々な方法が用いられている。例えば、コンテンツ情報の文章中に現われるキーワード数や、キーワードの重要度、他のサイトからリンクされる割合(被リンクによる重要度)を考慮したランキングを付加して検索結果に表示させることにより、利用者は即時に目的の情報を閲覧することができる。
【0006】
また、情報提供サーバにおいて、利用者によって1日に何百万件もの検索のためのキーワードが入力されるため、検索回数が急増したコンテンツ情報に関するキーワードを所定期間内で集計することにより、多くの利用者がどうのようなキーワードに注目しているかを知ることができる。
【0007】
また、情報提供サーバーは、収集したコンテンツ情報の商品在庫やサービスの締めきりなどの情報に基づいて、検索結果の順序を変更することで利用者が求める情報を効率的に提供することができる。
【0008】
【非特許文献1】
“Google searches more sites more quickly, delivering the most relevant results”、[online]、Google Technology、インターネット<URL:http://www.google.com/technology/index.html>
【非特許文献2】
Charu C Aggarwal、外2名、“Intelligent Crawling on the World Wide Webwith Arbitrary Predicates”、[online]、2001年3月1〜5日、第10回インターナショナルワールドワイドウェブコンフェレンス、インターネット<URL:http://www.www10.org/cdrom/papers/pdf/p110.pdf>
【非特許文献3】
Soumen Chakrabarti、外2名、“Accelerated Focused Crawling through Online Relevance Feedback”、[online]、2002年3月7〜11日、2002インターナショナルワールドワイドウェブコンフェレンス、インターネット<URL:http://www.cs.berkeley.edu/^soumen/doc/www2002m/p336−chakrabarti.pdf>
【0009】
【発明が解決しようとする課題】
しかしながら、上記従来技術において、所定期間内で検索回数が急増した話題に関するキーワードや収集したコンテンツ情報の商品在庫やサービスの締めきりなどの情報に基づいて検索を行った場合、コンテンツ情報が収集された時点で検索インデックスが生成されるため、必ずしも検索開始時点で最適なコンテンツ情報が検索結果として利用者に提供されるとは限らない、即ち、リアルタイムな状況変化に対応した検索結果が提供されるとは限らないため、利用者にとって利便性に欠けるという問題点があった。
【0010】
また、上記従来の検索方法では、様々なコンテンツ情報を提供する情報提供者にとって、情報提供サーバで管理されているサイトの上部に一行広告などの掲載を依頼するのみで、利用者に対して広告の訴求効果が期待できず、情報提供者が提供する所定の情報の閲覧を利用者に促すための検索結果を得ることができないという問題点があった。
【0011】
そこで、本発明の課題は、利用者の目的に応じた情報を効果的に収集、検索した検索結果を利用者に提供することができ、また、情報提供者が提供する所定の情報の閲覧を促すことができる検索結果を利用者に提供することができる情報収集方法及びその方法における処理をコンピュータに行わせるためのプログラムを提供することである。
【0012】
【課題を解決するための手段】
上記の課題を解決するため、本発明は、ネットワークを介して利用者に提供する情報を収集する情報収集方法であって、上記利用者からの入力情報に基づいて検索した該利用者へ提供する提供情報を履歴として管理する提供情報管理手順と、上記履歴情報管理手順により管理された上記提供情報に基づいて、提供情報を優先的に収集する度合いを示す優先度を算出し、該優先度の高い順番に上記提供情報の上記ネットワーク上で特定する特定情報をキューに挿入する優先度調整手順と、上記キューから上記特定情報を取り出して、該特定情報に基づいて上記提供情報を収集する情報収集手順とを有する構成とされる。
【0013】
このような情報収集方法では、利用者からの入力情報に基づいて検索した利用者へ提供する提供情報を履歴として管理し、提供情報に基づいて、提供情報を優先的に収集する度合いを示す優先度を算出し、該優先度の高い順番に提供情報のネットワーク上で特定する特定情報をキューに挿入し、キューから特定情報を取り出して、該特定情報に基づいて提供情報を収集することにより、利用者の目的に応じた情報を効果的に収集、検索した検索結果を利用者に提供することができ、また、情報提供者が提供する所定の情報の閲覧を促すことができる検索結果を利用者に提供することができる。
【0014】
また、上記課題を解決するため、本発明は、上記情報収集方法による処理をコンピュータに行なわせるためのプログラム及びそのプログラムを記録した記録媒体とすることもできる。
【0015】
【発明の実施の形態】
以下、本発明の実施の形態を図面に基づいて説明する。
【0016】
図1は、本発明の実施の一形態に係る情報収集方法におけるシステム構成図を示している。図1において、情報収集方法における情報提供システム10は、検索した情報を利用者に提供する情報提供サーバ20と、キーワード目的の情報の検索を要求する利用者側端末50等で構成されるシステムである。図1において、情報提供サーバ20はサーバコンピュータであって、CPU(中央処理装置)によって各構成が制御される。CPUは、メモリユニットに格納されたプログラムに従って情報収集方法での処理を行う。ネットワーク1を介して情報提供サーバ20と、利用者側端末50とが接続されている。
【0017】
情報提供サーバ20は、主に、検索した情報を利用者側端末50に提供する検索情報提供処理部30と、入力されたキーワードに対する優先度等を調整する優先度調整処理部40とで構成されている。検索情報提供処理部30は、情報提供方法に係る処理を実行するプログラムをインストールするインストーラ11と、データの表示を制御する表示制御処理部12と、データ通信を制御する通信制御処理部13と、データの入出力を制御する入出力制御処理部14と、コンテンツ情報に対するシナリオ情報が格納されたシナリオDB31と、コンテンツ情報が格納されたコンテンツDB32と、コンテンツ情報における在庫や締め切りなどをチェックするチェック処理部33と、コンテンツ情報の検索インデックスを生成するインデクサ34と、シナリオ情報に基づいてコンテンツ情報を順番にソートする知的ソータ部35と、コンテンツ情報の検索インデックスを格納する検索DB36と、利用者側端末50からキーワードを受信して検索処理を行い、検索結果を利用者側端末50に送信する検索処理部37とを有する。
【0018】
表示制御処理部12は、ディスプレイ等の表示ユニットを有し、表示用データを制御して該表示ユニットに表示させる。入出力制御処理部14は、マウス、キーボード等の入力ユニット及びプリンタ等の出力ユニットを制御し、データの入出力を制御する。通信制御処理部13は、ネットワーク1を介して送受信データを制御する処理部であって、ネットワーク網に接続するための通信ユニットを有する。インストーラ11は、本発明の一実施例に係る情報収集方法を実現するためのプログラムが記録された記録媒体60から該プログラムを読み出し、その読み出されたプログラムを、例えば、補助記憶装置等にインストールする。そして、後述される情報収集方法における処理が起動されると、補助記憶装置にインストールされた当該プログラムに従って、CPUがその処理を開始する。尚、記録媒体60は、CD−ROMなどプログラムが格納可能であり、コンピュータが読み取り可能な媒体であればよい。
【0019】
シナリオDB31には、情報提供サーバ20の管理者によって、情報提供側が優先的に利用者に提供したい情報又は、優先度を下げて利用者に提供するのを避けたいコンテンツ情報を分類するための情報が予め格納されている。尚、シナリオDB31は、検索DB36(48a〜n)とは独立しており、検索結果に対して所定条件毎に文書単位で決定された優先度(重み)が格納されている。シナリオDB31については、図9で詳細に説明する。
【0020】
コンテンツDB32には、優先度調整処理部40によって収集されたコンテンツ情報が格納されている。尚、コンテンツDB32には、イントラネット内のコンテンツ情報を格納してもよく、また、収集処理部450によって収集されたコンテンツ情報を格納することも可能である。例えば、コンテンツ情報がE−コマース系のサイトであれば、コンテンツDB32に商品情報(商品名、値段、在庫数など)を格納することも可能である。
【0021】
チェック処理部33は、コンテンツDB32に格納されたコンテンツ情報における在庫や締め切りなどをチェックする。尚、上記のようにコンテンツDb32で商品情報を管理している場合、お勧め情報や在庫数などをチェックしてそのコンテンツ情報の重みを決定し、シナリオDB31に格納されるテーブルと同様の形式(<Doc−ID,Point>)に変換され、チェック処理部33と知的ソータ部35との間に設けられたDBに格納される(図示せず)。例えば、イントラネット内で収集した一般的なWebコンテンツの場合、パターンマッチなどの方法で日付情報を抽出し、抽出した日付と現在の日付とに基づいて重みを決定し(直近未来のコンテンツの重みが一番重い)、<Doc−ID,Point>形式に変換されてDBに格納される。
【0022】
インデクサ34は、コンテンツDB32に格納されたコンテンツ情報の検索インデックスを生成する。知的ソータ部35は、検索DB36(48a〜n)に格納された検索インデックスを受信し、シナリオDB31に格納されたシナリオ情報とチェック処理部33によりチェックされたコンテンツ情報とに基づいて、優先度を付加して順番にソートし、最終的なソート結果として検索処理部37に供給する。例えば、知的ソータ部35では、受信した検索DB36(48a〜n)に格納された検索インデックスが、<Doc−ID,Point>形式になっているが、Pointには予め決定されたデフォルト値が格納されている。尚、デフォルト値には、検索処理部37が算出したTF/IDFの値や被リンク数などを格納してもよい。また、<Doc−ID,Point>形式の検索インデックスがシナリオDB31の条件部に対応する、又はチェック処理部33と知的ソータ部35との間に設けられたDB(図示せず)に格納された情報に対応する場合、検索インデックスを対応するPoint値に更新する。
【0023】
検索DB36には、インデクサ34からの検索インデックスが格納される。検索処理部37は、利用者側端末50から入力されたキーワードと、知的ソータ35からの検索インデックスとに基づいて検索処理を行い、検索結果を利用者側端末50に送信する。
【0024】
例えば、検索処理部37は、利用者側端末50から検索要求を受信すると(ステップS1)、その入力されたキーワードに基づいて、優先度調整処理部40からの優先度を付加した検索インデックスと、検索DB36からの検索インデックスとにより検索処理を行う。検索結果は一端知的ソータ部35に供給され(ステップS2)、検索処理部37は、知的ソータ部35によりソータされた検索結果を利用者側端末50に送信する。
【0025】
優先度調整処理部40は、検索処理部37により利用者側端末50に送信された検索インデックスの履歴を格納する検索ログ41と、キーワードに対する優先度を算出する優先度算出処理部42と、キーワードの優先度情報を格納する優先度DB43と、優先度を有するキーワードに基づいてコンテンツ情報の収集、優先度に基づいた振り分けを行う収集情報制御処理部45と、優先度に基づいて収集されたコンテンツ情報を格納する収集DB46a〜nと、収集DB46a〜nに基づいてコンテンツ情報の検索インデックスを生成するインデクサ47a〜nと、インデクサ47a〜nからの検索インデックスを格納する検索DB48a〜nとを有する。
【0026】
検索ログ41は、検索処理部37により利用者側端末50に送信された検索インデックスの履歴を格納すると共に、キーワードを優先度算出処理部42に供給する。優先度算出処理部42は、キーワード及び検索処理部37からの検索結果とに基づいて優先度を算出し、優先度DB43に供給する。また、優先度算出処理部42は、コンテンツ収集時に優先的に処理すべきコンテンツの文書などの特徴と共に、そのコンテンツ情報の優先度を優先度DB43に供給する。
【0027】
例えば、優先度算出処理部42は、以下の3つの条件に基づいて優先度を算出する。第1に、短期間に利用者側端末50からの検索要求が高まったキーワード及びコンテンツに対して優先度を高くする、第2に、検索結果が少ないキーワード及びコンテンツに対して優先度を高くする、第3に、利用者が検索結果を閲覧する頻度が少ない(クリック率が低い)キーワード及びコンテンツに対して優先度を高くする。例えば、優先度算出処理部42は、(期間Short_Timeの検索数/期間Long_Timeの検索数)×(1/検索結果数)×(1/検索結果クリック率)により優先度を算出する。尚、検索結果数及び検索結果クリック率が0の場合は、0以上1以下の値を代用する。このクリック率は、検索結果の画面に検索結果として表示する文書へ埋め込むリンクを、クリック率集計用のCGI(Common Gateway Interface)への引数としてURLを埋め込むことにより集計される。このようなURLが埋め込まれた検索結果の画面から利用者が選択した文書の情報をCGIで検索ログの一部として収集し、ブラウザのリダイレクト処理機能により、目的の文書のURLを利用者側端末50に表示させる。
【0028】
収集情報制御処理部45は、ネットワーク1を介してコンテンツ情報を収集すると共に、それらのコンテンツ情報に優先度を付加して振分処理部452に供給する収集処理部450と、収集キュー453と優先度DB43に格納された優先度情報とに基づいて収集処理部450を制御する制御処理部451と、優先度に基づいてコンテンツ情報の振り分けを行う振分処理部452と、優先度の高い順番にコンテンツ情報を収集する情報が格納された収集キュー453とを有する。収集キュー453には、優先度順にコンテンツ情報のURLが格納されている。尚、収集処理部450は、収集したコンテンツ情報の優先度が高い場合、直接インデクサ47aに供給する。収集DB46a〜nには、それぞれ振分処理部452からのコンテンツ情報のうち、所定範囲での優先度のコンテンツ情報が格納される。インデクサ47a〜nは、各収集DB46a〜nに格納されたコンテンツ情報に基づいて検索インデックスを生成し、検索DB48a〜nに供給する。尚、検索DB36(48a〜n)については、図6で詳細に説明する。
【0029】
次に、優先度算出処理部42における処理手順について説明する。図2は、優先度算出処理を説明するためのフローチャート図である。先ず、ステップS10の処理で、優先度算出処理部42は、キーワード及び検索処理部37からの検索結果とに基づいて優先度算出処理が終了したか否かを判断する。ステップS10の処理で優先度算出処理が終了していない場合、ステップS11の処理で、優先度算出処理部42は、キーワード及び検索処理部37からの検索結果のうち優先度の最も高い優先キーを取り出す。
【0030】
ステップS13の処理で、優先度算出処理部42は、取り出した優先キーがアンカー文字列あるいはURLの文字列に含まれているか否かを判断する。ステップS13の処理で優先キーがアンカー文字列あるいはURLの文字列に含まれている場合、ステップS14の処理で、優先度算出処理部42は、優先キーの優先度をコンテンツ情報の文書の優先度として優先DB43に格納する。ステップS15の処理で、優先度算出処理部42は、優先度を付加した検索情報を、優先度の高い情報がファーストアウトするように収集キー453に挿入する。ステップS13の処理で優先キーがアンカー文字列あるいはURLの文字列に含まれていない場合、ステップS10からの処理を繰り返す。ステップS10の処理で優先度算出処理が終了した場合、ステップS12の処理で、そのコンテンツ情報の文書の優先度を0とし、ステップS15の処理を行う。
【0031】
したがって、優先度算出処理部42は、収集キュー453の中で優先度の最も高いURLの優先度が、予め設定された所定の優先度(Min−Priority)以下のとき、優先度を再計算して収集キュー453を並び替える。これにより、リアルタイムな状況変化に応じた優先度を付加した検索結果を求めることができる。
【0032】
次に、収集情報制御処理部45による処理手順について説明する。図3は、収集情報制御処理を説明するためのフローチャート図である。先ず、ステップS20の処理で、収集情報制御処理部45の制御処理部451は、コンテンツ情報の収集処理の初期化(Loop=0)を行う。ステップS21の処理で、制御処理部451は、収集キー453から優先度が最大のコンテンツ情報のURLを選択する。ステップS22の処理で、制御処理部451は、選択されたURLの優先度が所定の優先度(Min−Priority)以上であるか否かを判断する。ステップS22の処理で、選択されたURLの優先度が所定の優先度以上でない場合、ステップS23の処理で、制御処理部451は、Loop=1であるか否かを判断する。
【0033】
ステップS22の処理で、選択されたURLの優先度が所定の優先度以上である場合、又はステップS23の処理でLoop=1である場合、ステップS24の処理で制御処理部451は、収集処理部450へURLを供給する。ステップS23の処理でLoop=1でない場合、ステップS25の処理で、制御処理部451は、Loop=1に設定する。ステップS26の処理で、制御処理部451は収集キー453中の全URLと優先度DB43に格納された優先度とに基づいて、優先度の再計算を行い、収集キー453を優先度順に並び替え、ステップS21からの処理を繰り返す。
【0034】
尚、上記収集情報制御処理において、収集キー453に格納された時点で優先度の低い優先キーが、その後の時間経過に伴って優先度が高くなっている場合があるため、所定のタイミングで再計算を行うように設定することも可能である。
【0035】
尚、優先度算出処理及び収集情報制御処理で用いられる所定の優先度(Min−Priority)は、処理を立ち上げた時点で読み込まれているものとする。
【0036】
次に、優先度DB43に格納される情報について説明する。図4は、優先度DBに格納されるテーブルを示す図である。図4において、テーブル430には、利用者側端末50から入力されたキーワードの優先度などの情報が格納されている。テーブル430には、優先キーを識別する優先キーIDと、優先キーをチェックする項目を示す優先キーチェック項目と、利用者側端末50から入力された優先キーと、優先キーに対応する優先度とが格納される。例えば、優先キーチェック項目は、コンテンツ情報の文書の本文中のキーワード、URL中の文字列、リンク元のアンカー文字列などで構成されている。
【0037】
次に、優先度DB43に格納される情報について説明する。図5は、優先度DBに格納されるテーブルを示す図である。図5において、テーブル431には、予め情報提供サーバ20の管理者などにより設定された各インデックス34(47a〜n)に関する情報が格納されている。テーブル431には、インデクサ47a〜n毎の識別子を示すインデクサIDと、インデクサに割り当てられるコンテンツ情報の文書の優先度の最大値、インデクサに割り当てられるコンテンツ文書の優先度の最小値とが格納される。
【0038】
次に、収集DB46a〜nに格納される情報について説明する。図6は、収集DBに格納されるテーブルを示す図である。図6において、テーブル460には、振分処理部452により優先度毎に振り分けられたコンテンツ情報に関する情報が格納されている。テーブル460には、URL毎の識別子を示すURL_IDと、収集した文書のURLと、優先度に応じて割り振られたインデクサIDと、コンテンツ情報の収集された日時と、収集された文書内容とが格納される。
【0039】
次に、検索DB36(48a〜n)に格納される情報について説明する。図7は、検索DBに格納されるテーブルを示す図である。図7において、テーブル360には、インデクサ34(47a〜n)からの検索結果に関する情報が格納されている。テーブル360には、キーワードに基づいて検索された検索語句と、検索語句を含むコンテンツ情報の文書のIDリストとが格納されている。
【0040】
次に、検索DB36(48a〜n)に格納される情報について説明する。図8は、検索DBに格納されるテーブルを示す図である。図8において、テーブル361には、インデクサ34(47a〜n)からの検索結果の文書毎の情報が格納されている。テーブル361には、文書の識別子を示す文書IDと、その文書IDに対する文書のタイトル、文書のURL、文書の要約文、文書が収集された日時とが格納されている。尚、テーブル361に格納される文書ID毎の情報は、検索処理部37により検索され、利用者側端末50に提供される。
【0041】
次に、シナリオDB310に格納される情報について説明する。図9は、シナリオDBに格納されるテーブルを示す図である。図9において、テーブル310には、情報提供サーバ20の管理者などにより設定されたシナリオ情報が格納されている。テーブル310には、一つのレコードとして<条件部>と<文書ID、ポイント>(<Doc−ID,Point>)とが格納されている。例えば、<条件部>が<文書ID>の場合、検索結果中にその文書IDの文書があると、その他の文書についての重みを決定する。<条件部>が<キーワード>の場合は、<キーワード>(検索式)で検索された結果中の文書IDの重みを決定する。
【0042】
例えば、利用者側端末50から「ブロードバンド」というキーワードが入力された場合、情報提供サーバ20は、このキーワードとシナリオDB31のテーブル310とに基づいて検索された結果を利用者側端末50に提供する。この時、利用者側端末50には検索結果である1.「ブロードバンドとは」、2.「ブロードバンドの各種サービスについて」、3.「各種サービス契約案内」が表示される。利用者は、利用者側端末50に表示された検索結果からコンテンツ情報を辿ることにより、ブロードバンドの概要を理解し、各種サービスを受ける方法を知ることができる。また、情報提供者の意図を反映した検索結果を利用者側に提供することができるため、目的のコンテンツ情報へナビゲートを行うシナリオ的な方法や、商品やチケット情報が検索された場合に在庫や締め切り日などを考慮したお勧めコンテンツ情報を提供する方法などに適応させることも可能である。
【0043】
このように、上記情報収集方法において、利用者側端末からの入力情報であるキーワードに基づいて検索した利用者へ提供する提供情報を履歴として管理し、提供情報を優先的に収集する度合いを示す優先度を算出し、該優先度の高い順番に提供情報のネットワーク上で特定する特定情報をキューに挿入し、キューから特定情報を取り出して、該特定情報に基づいて提供情報を収集すると共に、優先度が付加された提供情報を取得し、利用者に所定の手順で提供情報を参照させるシナリオ情報を管理し、提供情報をシナリオ情報に従って、提供情報を優先度の高い順番に並び替えて、並び替えた該提供情報を利用者に提供することにより、利用者の目的に応じた情報を効果的に収集、検索した検索結果を利用者に提供することができ、また、情報提供者が提供する所定の情報の閲覧を促すことができる検索結果を利用者に提供することができる。
(付記1) ネットワークを介して利用者に提供する情報を収集する情報収集方法であって、
上記利用者からの入力情報に基づいて検索した該利用者へ提供する提供情報を履歴として管理する提供情報管理手順と、
上記履歴情報管理手順により管理された上記提供情報に基づいて、提供情報を優先的に収集する度合いを示す優先度を算出し、該優先度の高い順番に上記提供情報の上記ネットワーク上で特定する特定情報をキューに挿入する優先度調整手順と、
上記キューから上記特定情報を取り出して、該特定情報に基づいて上記提供情報を収集する情報収集手順とを有することを特徴とする情報収集方法。
(付記2) 上記優先度算出手順により算出された優先度情報を管理する優先度管理手順を有することを特徴とする付記1記載の情報収集方法。
(付記3) 上記情報収集手順は、上記特定情報が所定の優先度以下であるか否かを判断する判断手順を有することを特徴とする付記1又は2記載の情報収集方法。
(付記4) 上記情報収集手順は、上記判断手順による判断結果に基づいて、上記キューに格納された上記特定情報の順番を更新する更新手順を有することを特徴とする付記3記載の情報収集方法。
(付記5) 上記情報収集手順は、上記優先度情報に基づいて収集した提供情報を所定の優先度範囲毎に管理する収集情報管理手順を有することを特徴とする付記1乃至4いずれか一項記載の情報収集方法。
(付記6) ネットワークを介して収集した情報を利用者に提供する情報提供方法であって、
上記利用者からの入力情報に基づいて、該利用者に提供する提供情報を検索する検索手順と、
上記利用者に所定の手順で上記提供情報を参照させるシナリオ情報を管理するシナリオ情報管理手順を有し、
上記検索手順により検索された上記提供情報を上記シナリオ情報に従って、上記提供情報を優先度の高い順番に並び替えて、並び替えた該提供情報を上記利用者に提供する提供手順とを有することを特徴とする情報提供方法。
(付記7) ネットワークを介して利用者に提供する情報を収集する情報収集方法における処理をコンピュータに行なわせるためのプログラムであって、
上記利用者からの入力情報に基づいて検索した該利用者へ提供する提供情報を履歴として管理する提供情報管理手順と、
上記履歴情報管理手順により管理された上記提供情報に基づいて、提供情報を優先的に収集する度合いを示す優先度を算出し、該優先度の高い順番に上記提供情報の上記ネットワーク上で特定する特定情報をキューに挿入する優先度調整手順と、
上記キューから上記特定情報を取り出して、該特定情報に基づいて上記提供情報を収集する情報収集手順とを有することを特徴とするプログラム。
(付記8) ネットワークを介して利用者に提供する情報を収集する情報収集方法における処理をコンピュータに行なわせるためのプログラムを格納した記録媒体であって、
上記利用者からの入力情報に基づいて検索した該利用者へ提供する提供情報を履歴として管理する提供情報管理手順と、
上記履歴情報管理手順により管理された上記提供情報に基づいて、提供情報を優先的に収集する度合いを示す優先度を算出し、該優先度の高い順番に上記提供情報の上記ネットワーク上で特定する特定情報をキューに挿入する優先度調整手順と、
上記キューから上記特定情報を取り出して、該特定情報に基づいて上記提供情報を収集する情報収集手順とを有することを特徴とするプログラムを格納した記録媒体。
【0044】
【発明の効果】
上述の如く本発明によれば、利用者からの入力情報に基づいて検索した利用者へ提供する提供情報を履歴として管理し、提供情報に基づいて、提供情報を優先的に収集する度合いを示す優先度を算出し、該優先度の高い順番に提供情報のネットワーク上で特定する特定情報をキューに挿入し、キューから特定情報を取り出して、該特定情報に基づいて提供情報を収集することにより、利用者の目的に応じた情報を効果的に収集、検索した検索結果を利用者に提供することができ、また、情報提供者が提供する所定の情報の閲覧を促すことができる検索結果を利用者に提供することができる。
【図面の簡単な説明】
【図1】本発明の実施の一形態に係る情報収集方法におけるシステム構成図を示している。
【図2】優先度算出処理を説明するためのフローチャート図である。
【図3】収集情報制御処理を説明するためのフローチャート図である。
【図4】優先度DBに格納されるテーブルを示す図である。
【図5】優先度DBに格納されるテーブルを示す図である。
【図6】収集DBに格納されるテーブルを示す図である。
【図7】検索DBに格納されるテーブルを示す図である。
【図8】検索DBに格納されるテーブルを示す図である。
【図9】シナリオDBに格納されるテーブルを示す図である。
【符号の説明】
1         ネットワーク
10        情報提供システム
11        インストーラ
12        表示制御処理部
13        通信制御処理部
14        入出力制御処理部
20        情報提供サーバ
30        検索情報提供処理部
31        シナリオDB
32        コンテンツDB
33        チェック処理部
34        インデクサ
35        知的ソータ部
36、48a〜n  検索DB
37        検索処理部
40        優先度調整処理部
41        検索ログ
42        優先度算出処理部
43        優先度DB
45        収集情報制御処理部
450       収集処理部
451       制御処理部
452       振分処理部
453       収集キュー
46a〜n     収集DB
50        利用者側端末
60        記録媒体
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to an information collection method, and more particularly to an information collection method for collecting information provided to a user via the Internet in accordance with a real-time situation change.
[0002]
In addition, the present invention relates to a program for causing a computer to perform the processing in such an information collection method.
[0003]
[Prior art]
In recent years, a user can search for target information via the Internet using a terminal such as a mobile phone or a PC, and browse the target information based on the search result displayed on the terminal. When searching for the target information, the user searches for the target information by using a search function on various portal sites operated by an information manager (provider) using a terminal on the user side. At this time, when a keyword is input to the input field from the user's terminal and the search for information is started, the information providing server of the provider uses a crawler or a spider, which is a program dedicated to collecting content information, to execute the search based on the keyword. Content information is collected and analyzed. The information providing server manages a database (hereinafter, referred to as a DB) called a search index from the collected content information, and provides the search index to a user terminal as a search result. The user can browse target information by displaying the search index on the terminal.
[0004]
In the information providing server, the frequency of collecting the content information and the like can be arbitrarily set and changed according to the purpose. For example, when the content information to be collected is news provided by a newspaper company, it is necessary to collect information at a high update frequency, so that the information is preset to be collected at intervals of about 10 minutes.
[0005]
Also, various methods have been used for the purpose of improving the convenience of a user performing a search so that useful information required by the user is displayed as high as possible. For example, by adding a ranking that takes into account the number of keywords appearing in the text of the content information, the importance of the keywords, and the ratio of links from other sites (importance due to linked sites), and displaying them in search results, The person can immediately browse the target information.
[0006]
In addition, in the information providing server, since a user inputs millions of keywords for a search in a day, many keywords related to the content information whose number of searches has rapidly increased are aggregated within a predetermined period, so that a large number of keywords can be obtained. It is possible to know what kind of keywords users are paying attention to.
[0007]
Further, the information providing server can efficiently provide the information required by the user by changing the order of the search results based on information such as the product inventory of the collected content information and the service closing.
[0008]
[Non-Patent Document 1]
"Google search more sites more quickly, delivering the most relevant results", [online], Google Technology, Internet <URL: // www. google. com / technology / index. html>
[Non-patent document 2]
Charu C Aggarwal, 2 outsiders, “Intelligent Crawling on the World Wide Webbite Arbitrary Predicates”, [online], March 1-5, 2001, 10th International World Wide Web Conference, Internet <t: h / Www. www10. org / cdrom / papers / pdf / p110. pdf>
[Non-Patent Document 3]
Soumen Chakrabarti, 2 others, “Accelerated Focused Crawling Through Through Relevance Feedback”, [online], March 7-11, 2002, 2002 International World Wide Web Conference, Internet <URL: http: // www. cs. berkley. edu / @ soumen / doc / www2002m / p336-chakrabarti. pdf>
[0009]
[Problems to be solved by the invention]
However, in the above-described related art, when a search is performed based on information on a keyword related to a topic for which the number of searches has rapidly increased within a predetermined period, product inventory of the collected content information, service closing, and the like, the content information is collected. Since the search index is generated at the time, the optimal content information is not always provided to the user as the search result at the time of starting the search, that is, when the search result corresponding to the real-time situation change is provided. However, there is a problem that convenience is lacking for users.
[0010]
In addition, in the conventional search method described above, an information provider that provides various content information simply requests a user to place a one-line advertisement or the like at the top of a site managed by an information providing server. However, there is a problem that a search result for prompting a user to browse predetermined information provided by an information provider cannot be obtained.
[0011]
Therefore, an object of the present invention is to effectively collect information according to the purpose of the user and to provide a search result obtained by the search to the user, and to browse predetermined information provided by the information provider. An object of the present invention is to provide an information collection method capable of providing a search result that can be prompted to a user and a program for causing a computer to perform processing in the method.
[0012]
[Means for Solving the Problems]
In order to solve the above-mentioned problem, the present invention is an information collecting method for collecting information to be provided to a user via a network, and providing the information to the user searched based on input information from the user. Based on the provided information management procedure for managing the provided information as a history and the provided information managed by the history information management procedure, a priority indicating the degree to which the provided information is preferentially collected is calculated. A priority adjustment procedure of inserting the specific information of the provided information specified on the network in a high order into a queue; and collecting information of the provided information by extracting the specified information from the queue and collecting the provided information based on the specified information. And a procedure.
[0013]
In such an information collection method, information provided to a user searched based on input information from a user is managed as a history, and priority information indicating a degree of priority of the provided information is collected based on the information provided. By calculating the degree, inserting the specific information specified on the network of the provision information in the order of the priority in the queue, extracting the specific information from the queue, and collecting the provision information based on the specific information, Utilize search results that can effectively collect and search information according to the purpose of the user and provide the user with search results, and encourage browsing of predetermined information provided by the information provider Can be provided.
[0014]
Further, in order to solve the above-mentioned problems, the present invention can also be a program for causing a computer to perform a process according to the information collection method, and a recording medium on which the program is recorded.
[0015]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[0016]
FIG. 1 shows a system configuration diagram in an information collection method according to an embodiment of the present invention. In FIG. 1, an information providing system 10 in an information collecting method is a system including an information providing server 20 for providing searched information to a user, a user terminal 50 for requesting a search for information for a keyword, and the like. is there. In FIG. 1, an information providing server 20 is a server computer, and each component is controlled by a CPU (Central Processing Unit). The CPU performs a process according to the information collection method according to a program stored in the memory unit. The information providing server 20 and the user terminal 50 are connected via the network 1.
[0017]
The information providing server 20 mainly includes a search information providing processing unit 30 that provides the searched information to the user side terminal 50, and a priority adjusting processing unit 40 that adjusts the priority and the like for the input keyword. ing. The search information provision processing unit 30 includes an installer 11 for installing a program for executing a process according to the information provision method, a display control processing unit 12 for controlling data display, a communication control processing unit 13 for controlling data communication, An input / output control processing unit 14 for controlling data input / output; a scenario DB 31 in which scenario information for the content information is stored; a content DB 32 in which the content information is stored; Unit 33, an indexer 34 for generating a search index for content information, an intelligent sorter unit 35 for sorting content information in order based on scenario information, a search DB 36 for storing a search index for content information, Search by receiving keyword from terminal 50 Performs management, and a search processing unit 37 to transmit the search results to the user terminal 50.
[0018]
The display control processing unit 12 has a display unit such as a display, and controls display data to cause the display unit to display the data. The input / output control processing unit 14 controls input units such as a mouse and a keyboard, and output units such as a printer, and controls input and output of data. The communication control processing unit 13 is a processing unit that controls transmission / reception data via the network 1 and has a communication unit for connecting to a network. The installer 11 reads the program from the recording medium 60 on which the program for realizing the information collecting method according to the embodiment of the present invention is recorded, and installs the read program in, for example, an auxiliary storage device. I do. Then, when a process in the information collection method described later is started, the CPU starts the process according to the program installed in the auxiliary storage device. The recording medium 60 may be any medium that can store a program such as a CD-ROM and is readable by a computer.
[0019]
The scenario DB 31 includes information for the information providing server 20 to classify information that the information providing side preferentially provides to the user or content information that the user of the information providing side wants to reduce the priority and avoid providing to the user. Are stored in advance. Note that the scenario DB 31 is independent of the search DB 36 (48a to 48n), and stores the priority (weight) determined for each search condition on a document basis for the search result. The scenario DB 31 will be described in detail with reference to FIG.
[0020]
The content DB 32 stores the content information collected by the priority adjustment processing unit 40. Note that the content DB 32 may store content information in the intranet, or may store content information collected by the collection processing unit 450. For example, if the content information is an E-commerce site, it is possible to store product information (product name, price, stock quantity, etc.) in the content DB 32.
[0021]
The check processing unit 33 checks the inventory, the deadline, and the like in the content information stored in the content DB 32. When the merchandise information is managed by the content Db32 as described above, the weight of the content information is determined by checking the recommended information and the stock quantity, and the same format as the table stored in the scenario DB 31 ( <Doc-ID, Point>) and stored in a DB provided between the check processing unit 33 and the intelligent sorter unit 35 (not shown). For example, in the case of general Web content collected in an intranet, date information is extracted by a method such as pattern matching, and a weight is determined based on the extracted date and the current date (the weight of the content of the latest future is Heaviest), converted to <Doc-ID, Point> format and stored in the DB.
[0022]
The indexer 34 generates a search index for the content information stored in the content DB 32. The intelligent sorter unit 35 receives the search index stored in the search DB 36 (48a to n), and sets the priority based on the scenario information stored in the scenario DB 31 and the content information checked by the check processing unit 33. , And sorts them in order, and supplies the results to the search processing unit 37 as final sort results. For example, in the intelligent sorter unit 35, the search index stored in the received search DB 36 (48a to 48n) is in the form of <Doc-ID, Point>, but Point has a predetermined default value. Is stored. The default value may store the value of TF / IDF calculated by the search processing unit 37, the number of links, and the like. Also, a search index in the form of <Doc-ID, Point> is stored in a DB (not shown) corresponding to the condition part of the scenario DB 31, or provided between the check processing part 33 and the intelligent sorter part 35. When the search index corresponds to the searched information, the search index is updated to the corresponding Point value.
[0023]
The search DB 36 stores a search index from the indexer 34. The search processing unit 37 performs a search process based on the keyword input from the user-side terminal 50 and the search index from the intelligent sorter 35, and transmits a search result to the user-side terminal 50.
[0024]
For example, when the search processing unit 37 receives a search request from the user terminal 50 (step S1), based on the input keyword, a search index to which a priority from the priority adjustment processing unit 40 has been added, Search processing is performed using the search index from the search DB 36. The search result is once supplied to the intelligent sorter unit 35 (step S2), and the search processing unit 37 transmits the search result sorted by the intelligent sorter unit 35 to the user terminal 50.
[0025]
The priority adjustment processing unit 40 includes a search log 41 that stores the history of the search index transmitted to the user side terminal 50 by the search processing unit 37, a priority calculation processing unit 42 that calculates the priority for the keyword, A priority DB 43 for storing priority information, a collection information control processing unit 45 for collecting content information based on a keyword having a priority, and a distribution based on priority, and a content collected based on the priority. It has collection DBs 46a-n for storing information, indexers 47a-n for generating search indexes for content information based on the collection DBs 46a-n, and search DBs 48a-n for storing search indexes from the indexers 47a-n.
[0026]
The search log 41 stores the history of the search index transmitted to the user terminal 50 by the search processing unit 37 and supplies the keyword to the priority calculation processing unit 42. The priority calculation processing unit 42 calculates the priority based on the keyword and the search result from the search processing unit 37, and supplies the priority to the priority DB 43. In addition, the priority calculation processing unit 42 supplies the priority of the content information to the priority DB 43 together with the characteristics of the content to be preferentially processed at the time of content collection, such as documents.
[0027]
For example, the priority calculation processing unit 42 calculates the priority based on the following three conditions. First, a higher priority is given to keywords and contents for which a search request from the user terminal 50 has increased in a short period of time, and second, a higher priority is given to keywords and contents with a small search result. Third, the priority is increased with respect to keywords and contents for which the user does not frequently browse the search results (the click rate is low). For example, the priority calculation processing unit 42 calculates the priority according to (the number of searches in the period Short_Time / the number of searches in the period Long_Time) × (1 / the number of search results) × (1 / the click rate of the search result). When the number of search results and the search result click rate are 0, a value between 0 and 1 is substituted. The click rate is calculated by embedding a URL to be embedded in a document displayed as a search result on the search result screen as an argument to a CGI (Common Gateway Interface) for calculating a click rate. The information of the document selected by the user from the search result screen in which the URL is embedded is collected as a part of the search log by CGI, and the URL of the target document is converted to the user terminal by the redirection processing function of the browser. 50 is displayed.
[0028]
The collection information control processing unit 45 collects the content information via the network 1, adds a priority to the content information and supplies the content information to the distribution processing unit 452, a collection queue 453, A control processing unit 451 that controls the collection processing unit 450 based on the priority information stored in the degree DB 43; a distribution processing unit 452 that distributes content information based on the priority; A collection queue 453 in which information for collecting content information is stored. The collection queue 453 stores URLs of content information in order of priority. When the priority of the collected content information is high, the collection processing unit 450 directly supplies the content information to the indexer 47a. In the collection DBs 46a to 46n, of the content information from the distribution processing unit 452, content information having a priority within a predetermined range is stored. The indexers 47a-n generate search indexes based on the content information stored in the collection DBs 46a-n, and supply the search indexes to the search DBs 48a-n. The search DB 36 (48a-n) will be described in detail with reference to FIG.
[0029]
Next, a processing procedure in the priority calculation processing unit 42 will be described. FIG. 2 is a flowchart for explaining the priority calculation process. First, in the processing of step S10, the priority calculation processing unit 42 determines whether the priority calculation processing has been completed based on the keyword and the search result from the search processing unit 37. If the priority calculation processing is not completed in the processing of step S10, the priority calculation processing unit 42 determines the priority key having the highest priority among the keywords and the search results from the search processing unit 37 in the processing of step S11. Take out.
[0030]
In the process of step S13, the priority calculation processing unit 42 determines whether or not the extracted priority key is included in the anchor character string or the URL character string. If the priority key is included in the anchor character string or the URL character string in the process of step S13, the priority calculation processing unit 42 determines the priority of the priority key in the content information document priority in the process of step S14. And stored in the priority DB 43. In the process of step S15, the priority calculation processing unit 42 inserts the search information to which the priority is added into the collection key 453 so that the information with the higher priority is first out. If the priority key is not included in the anchor character string or the URL character string in the processing in step S13, the processing from step S10 is repeated. When the priority calculation processing is completed in the processing of step S10, the priority of the document of the content information is set to 0 in the processing of step S12, and the processing of step S15 is performed.
[0031]
Therefore, when the priority of the URL with the highest priority in the collection queue 453 is equal to or less than a predetermined priority (Min-Priority), the priority calculation processing unit 42 recalculates the priority. To sort the collection queue 453. Thereby, a search result to which a priority according to a real-time situation change is added can be obtained.
[0032]
Next, a processing procedure by the collection information control processing unit 45 will be described. FIG. 3 is a flowchart for explaining the collected information control processing. First, in the process of step S20, the control processing unit 451 of the collection information control processing unit 45 initializes the content information collection process (Loop = 0). In the process of step S21, the control processing unit 451 selects the URL of the content information having the highest priority from the collection key 453. In the process of step S22, the control processing unit 451 determines whether the priority of the selected URL is equal to or higher than a predetermined priority (Min-Priority). If the priority of the selected URL is not equal to or higher than the predetermined priority in the process of step S22, the control processing unit 451 determines whether or not Loop = 1 in the process of step S23.
[0033]
If the priority of the selected URL is equal to or higher than the predetermined priority in the processing of step S22, or if Loop = 1 in the processing of step S23, the control processing unit 451 performs the processing of step S24 by using the collection processing unit. Provide URL to 450. If Loop = 1 is not satisfied in the process of step S23, the control processing unit 451 sets Loop = 1 in the process of step S25. In the process of step S26, the control processing unit 451 recalculates the priority based on all the URLs in the collection key 453 and the priority stored in the priority DB 43, and sorts the collection keys 453 in order of priority. , The processing from step S21 is repeated.
[0034]
In the collection information control process, a priority key having a lower priority at the time when the priority key is stored in the collection key 453 may have a higher priority as time passes thereafter. It is also possible to set to perform the calculation.
[0035]
It is assumed that the predetermined priority (Min-Priority) used in the priority calculation processing and the collection information control processing is read when the processing is started.
[0036]
Next, information stored in the priority DB 43 will be described. FIG. 4 is a diagram illustrating a table stored in the priority DB. In FIG. 4, a table 430 stores information such as a priority of a keyword input from the user terminal 50. The table 430 includes a priority key ID for identifying a priority key, a priority key check item indicating an item to be checked for the priority key, a priority key input from the user terminal 50, and a priority corresponding to the priority key. Is stored. For example, the priority key check item includes a keyword in the body of the document of the content information, a character string in the URL, an anchor character string of a link source, and the like.
[0037]
Next, information stored in the priority DB 43 will be described. FIG. 5 is a diagram illustrating a table stored in the priority DB. In FIG. 5, a table 431 stores information about each index 34 (47a to n) set in advance by an administrator of the information providing server 20 or the like. The table 431 stores an indexer ID indicating an identifier for each of the indexers 47a to 47n, the maximum value of the priority of the document of the content information assigned to the indexer, and the minimum value of the priority of the content document assigned to the indexer. .
[0038]
Next, information stored in the collection DBs 46a to 46n will be described. FIG. 6 is a diagram illustrating a table stored in the collection DB. In FIG. 6, a table 460 stores information on content information sorted by priority by the sorting processing unit 452. The table 460 stores a URL_ID indicating an identifier for each URL, a URL of a collected document, an indexer ID assigned according to a priority, a date and time when the content information was collected, and the content of the collected document. Is done.
[0039]
Next, information stored in the search DB 36 (48a to 48n) will be described. FIG. 7 is a diagram illustrating a table stored in the search DB. In FIG. 7, a table 360 stores information on search results from the indexers 34 (47a to 47n). The table 360 stores a search term searched based on a keyword and an ID list of a document of content information including the search term.
[0040]
Next, information stored in the search DB 36 (48a to 48n) will be described. FIG. 8 is a diagram illustrating a table stored in the search DB. In FIG. 8, a table 361 stores information for each document as a search result from the indexer 34 (47a to 47n). The table 361 stores a document ID indicating a document identifier, a title of the document corresponding to the document ID, a URL of the document, a summary of the document, and a date and time when the document was collected. The information for each document ID stored in the table 361 is searched by the search processing unit 37 and provided to the user terminal 50.
[0041]
Next, information stored in the scenario DB 310 will be described. FIG. 9 is a diagram illustrating a table stored in the scenario DB. In FIG. 9, a table 310 stores scenario information set by an administrator of the information providing server 20 or the like. The table 310 stores <condition part> and <document ID, point>(<Doc-ID,Point>) as one record. For example, when the <condition part> is <document ID>, if there is a document with the document ID in the search result, the weight for other documents is determined. When <condition part> is <keyword>, the weight of the document ID in the result searched by <keyword> (search formula) is determined.
[0042]
For example, when the keyword “broadband” is input from the user terminal 50, the information providing server 20 provides the user terminal 50 with a search result based on the keyword and the table 310 of the scenario DB 31. . At this time, the search result 1. "What is broadband?" “About various services of broadband”, 3. "Various service contract information" is displayed. By tracing the content information from the search results displayed on the user terminal 50, the user can understand the outline of broadband and know how to receive various services. In addition, since search results that reflect the intention of the information provider can be provided to the user side, a scenario-like method of navigating to the target content information, and inventory information when product or ticket information is searched, It is also possible to adapt to a method of providing recommended content information in consideration of the date and deadline.
[0043]
As described above, in the information collecting method, the provided information to be provided to the user searched based on the keyword as the input information from the user side terminal is managed as a history, and the degree to which the provided information is preferentially collected is indicated. Calculate the priority, insert the specific information to be specified on the network of the provision information in the order of the priority in the queue, take out the specific information from the queue, and collect the provision information based on the specific information, Obtain the provided information with the priority added, manage the scenario information that allows the user to refer to the provided information in a predetermined procedure, sort the provided information according to the scenario information, and rearrange the provided information in descending order of priority, By providing the sorted information to the user, information according to the purpose of the user can be effectively collected and the search result obtained by the search can be provided to the user. It is possible to provide the search results broadcast provider can encourage the viewing of predetermined information to be provided to the user.
(Supplementary Note 1) An information collection method for collecting information to be provided to a user via a network,
Provided information management procedure for managing, as a history, provided information to be provided to the user searched based on the input information from the user,
Based on the provision information managed by the history information management procedure, a priority indicating the degree of preferential collection of the provision information is calculated, and the provision information is specified on the network in the descending order of the priority. A priority adjustment procedure to insert specific information into the queue,
An information collection procedure for extracting the specific information from the queue and collecting the provided information based on the specific information.
(Supplementary note 2) The information collection method according to supplementary note 1, further comprising a priority management procedure for managing the priority information calculated by the priority calculation procedure.
(Supplementary note 3) The information collecting method according to Supplementary note 1 or 2, wherein the information collecting procedure includes a determining step of determining whether the specific information has a predetermined priority or less.
(Supplementary Note 4) The information collection method according to Supplementary Note 3, wherein the information collection procedure includes an update procedure for updating an order of the specific information stored in the queue based on a determination result of the determination procedure. .
(Supplementary note 5) The information collection procedure according to any one of Supplementary notes 1 to 4, wherein the information collection procedure includes a collected information management procedure for managing provided information collected based on the priority information for each predetermined priority range. Information collection method described.
(Supplementary Note 6) An information providing method of providing information collected through a network to a user,
A search procedure for searching for information to be provided to the user based on the information input from the user;
A scenario information management procedure for managing scenario information that causes the user to refer to the provided information in a predetermined procedure,
A providing step of rearranging the provided information retrieved in accordance with the search procedure in accordance with the scenario information in an order of higher priority, and providing the rearranged provided information to the user. Characteristic information provision method.
(Supplementary Note 7) A program for causing a computer to perform a process in an information collection method for collecting information to be provided to a user via a network,
Provided information management procedure for managing, as a history, provided information to be provided to the user searched based on the input information from the user,
Based on the provision information managed by the history information management procedure, a priority indicating a degree of preferential collection of the provision information is calculated, and the provision information is specified on the network in the descending order of the priority. A priority adjustment procedure to insert specific information into the queue,
An information collection step of extracting the specific information from the queue and collecting the provided information based on the specific information.
(Supplementary Note 8) A recording medium storing a program for causing a computer to perform a process in an information collection method for collecting information to be provided to a user via a network,
Provided information management procedure for managing, as a history, provided information to be provided to the user searched based on the input information from the user,
Based on the provision information managed by the history information management procedure, a priority indicating a degree of preferential collection of the provision information is calculated, and the provision information is specified on the network in the descending order of the priority. A priority adjustment procedure to insert specific information into the queue,
An information collection procedure for extracting the specific information from the queue and collecting the provided information based on the specific information.
[0044]
【The invention's effect】
As described above, according to the present invention, the provided information to be provided to the user searched based on the input information from the user is managed as a history, and the degree to which the provided information is preferentially collected based on the provided information is indicated. By calculating the priority, inserting the specific information specified on the network of the provided information in the order of the higher priority into the queue, extracting the specific information from the queue, and collecting the provided information based on the specific information In addition, it is possible to effectively collect information according to the purpose of the user and provide the user with the search results obtained by the search, and to search the search results that can prompt the user to browse predetermined information provided by the information provider. Can be provided to users.
[Brief description of the drawings]
FIG. 1 shows a system configuration diagram in an information collection method according to an embodiment of the present invention.
FIG. 2 is a flowchart illustrating a priority calculation process.
FIG. 3 is a flowchart illustrating a collected information control process.
FIG. 4 is a diagram showing a table stored in a priority DB;
FIG. 5 is a diagram showing a table stored in a priority DB;
FIG. 6 is a diagram showing a table stored in a collection DB.
FIG. 7 is a diagram showing a table stored in a search DB.
FIG. 8 is a diagram showing a table stored in a search DB.
FIG. 9 is a diagram showing a table stored in a scenario DB.
[Explanation of symbols]
1 Network
10 Information system
11 Installer
12 Display control processing unit
13 Communication control processing unit
14 I / O control processing unit
20 Information Provision Server
30 Search information provision processing unit
31 Scenario DB
32 Content DB
33 Check processing section
34 Indexer
35 Intelligent Sorter Department
36, 48a-n Search DB
37 Search processing section
40 Priority adjustment processing unit
41 Search Log
42 Priority calculation processing unit
43 Priority DB
45 Collected information control processing unit
450 Collection processing unit
451 Control processing unit
452 distribution processor
453 collection queue
46a-n Collection DB
50 User terminal
60 recording media

Claims (5)

ネットワークを介して利用者に提供する情報を収集する情報収集方法であって、
上記利用者からの入力情報に基づいて検索した該利用者へ提供する提供情報を履歴として管理する提供情報管理手順と、
上記履歴情報管理手順により管理された上記提供情報に基づいて、提供情報を優先的に収集する度合いを示す優先度を算出し、該優先度の高い順番に上記提供情報の上記ネットワーク上で特定する特定情報をキューに挿入する優先度調整手順と、
上記キューから上記特定情報を取り出して、該特定情報に基づいて上記提供情報を収集する情報収集手順とを有することを特徴とする情報収集方法。
An information collection method for collecting information to be provided to a user via a network,
Provided information management procedure for managing, as a history, provided information to be provided to the user searched based on the input information from the user,
Based on the provision information managed by the history information management procedure, a priority indicating the degree of preferential collection of the provision information is calculated, and the provision information is specified on the network in the descending order of the priority. A priority adjustment procedure to insert specific information into the queue,
An information collection procedure for extracting the specific information from the queue and collecting the provided information based on the specific information.
上記優先度算出手順により算出された優先度情報を管理する優先度管理手順を有することを特徴とする請求項1記載の情報収集方法。2. The information collection method according to claim 1, further comprising a priority management procedure for managing the priority information calculated by the priority calculation procedure. 上記情報収集手順は、上記特定情報が所定の優先度以下であるか否かを判断する判断手順を有することを特徴とする請求項1又は2記載の情報収集方法。3. The information collecting method according to claim 1, wherein the information collecting step includes a determining step of determining whether the specific information has a predetermined priority or less. 上記情報収集手順は、上記判断手順による判断結果に基づいて、上記キューに格納された上記特定情報の順番を更新する更新手順を有することを特徴とする請求項3記載の情報収集方法。4. The information collection method according to claim 3, wherein the information collection step includes an update step of updating an order of the specific information stored in the queue based on a result of the determination. ネットワークを介して利用者に提供する情報を収集する情報収集方法における処理をコンピュータに行なわせるためのプログラムであって、
上記利用者からの入力情報に基づいて検索した該利用者へ提供する提供情報を履歴として管理する提供情報管理手順と、
上記履歴情報管理手順により管理された上記提供情報に基づいて、提供情報を優先的に収集する度合いを示す優先度を算出し、該優先度の高い順番に上記提供情報の上記ネットワーク上で特定する特定情報をキューに挿入する優先度調整手順と、
上記キューから上記特定情報を取り出して、該特定情報に基づいて上記提供情報を収集する情報収集手順とを有することを特徴とするプログラム。
A program for causing a computer to perform a process in an information collection method for collecting information to be provided to a user via a network,
Provided information management procedure for managing, as a history, provided information to be provided to the user searched based on the input information from the user,
Based on the provision information managed by the history information management procedure, a priority indicating a degree of preferential collection of the provision information is calculated, and the provision information is specified on the network in the descending order of the priority. A priority adjustment procedure to insert specific information into the queue,
An information collection procedure for extracting the specific information from the queue and collecting the provided information based on the specific information.
JP2002279049A 2002-09-25 2002-09-25 Information collection method, and program for making computer perform processing in the method Pending JP2004118415A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002279049A JP2004118415A (en) 2002-09-25 2002-09-25 Information collection method, and program for making computer perform processing in the method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002279049A JP2004118415A (en) 2002-09-25 2002-09-25 Information collection method, and program for making computer perform processing in the method

Publications (1)

Publication Number Publication Date
JP2004118415A true JP2004118415A (en) 2004-04-15

Family

ID=32274167

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002279049A Pending JP2004118415A (en) 2002-09-25 2002-09-25 Information collection method, and program for making computer perform processing in the method

Country Status (1)

Country Link
JP (1) JP2004118415A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011070523A (en) * 2009-09-28 2011-04-07 Nec Corp System, method and program for collection of document information
JP2014528136A (en) * 2011-12-13 2014-10-23 北大方正集▲団▼有限公司Peking University Founder Group Co., Ltd Net data collection method and system

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11328191A (en) * 1998-05-13 1999-11-30 Nec Corp Www robot retrieving system
JP2000330856A (en) * 1999-05-21 2000-11-30 Nec Corp Information collection device and method therefor
JP2000339316A (en) * 1999-05-25 2000-12-08 Nippon Telegr & Teleph Corp <Ntt> Method and device for collecting retrieval link type information and recording medium with its method stored therein
JP2001067359A (en) * 1999-08-27 2001-03-16 Fuji Xerox Co Ltd Retrieval device
JP2001209655A (en) * 2000-01-28 2001-08-03 Nec Corp Information providing device, information updating method, recording medium having information providing program recorded thereon and information providing system
JP2002108915A (en) * 2000-09-28 2002-04-12 Toshiba Corp Natural language interaction system and natural language processing method

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11328191A (en) * 1998-05-13 1999-11-30 Nec Corp Www robot retrieving system
JP2000330856A (en) * 1999-05-21 2000-11-30 Nec Corp Information collection device and method therefor
JP2000339316A (en) * 1999-05-25 2000-12-08 Nippon Telegr & Teleph Corp <Ntt> Method and device for collecting retrieval link type information and recording medium with its method stored therein
JP2001067359A (en) * 1999-08-27 2001-03-16 Fuji Xerox Co Ltd Retrieval device
JP2001209655A (en) * 2000-01-28 2001-08-03 Nec Corp Information providing device, information updating method, recording medium having information providing program recorded thereon and information providing system
JP2002108915A (en) * 2000-09-28 2002-04-12 Toshiba Corp Natural language interaction system and natural language processing method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Web検索ビジネスを拓く Realization of Web Search Business", 人工知能学会誌 第16巻 第4号 JOURNAL OF JAPANESE SOCIETY FOR ARTIFICIAL INTELLIGENCE, CSNG200301506008, 1 July 2001 (2001-07-01), ISSN: 0000795234 *
"検索ログからの話題抽出に向けて Towards the Extraction of Topic by Analyzing Search Log", 情報処理学会研究報告 VOL.2002 NO.101 IPSJ SIG NOTES, CSNG200401368003, 6 November 2002 (2002-11-06), ISSN: 0000795235 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011070523A (en) * 2009-09-28 2011-04-07 Nec Corp System, method and program for collection of document information
JP2014528136A (en) * 2011-12-13 2014-10-23 北大方正集▲団▼有限公司Peking University Founder Group Co., Ltd Net data collection method and system

Similar Documents

Publication Publication Date Title
US6718365B1 (en) Method, system, and program for ordering search results using an importance weighting
US6480837B1 (en) Method, system, and program for ordering search results using a popularity weighting
CN100483407C (en) Document information management system and document information management method
US7653623B2 (en) Information searching apparatus and method with mechanism of refining search results
JP3771822B2 (en) Data retrieval method, system, and program
US5978828A (en) URL bookmark update notification of page content or location changes
US8020106B2 (en) Integration of personalized portals with web content syndication
US9002856B2 (en) Agent rank
US10162802B1 (en) Systems and methods for syndicating and hosting customized news content
JP3841233B2 (en) Information processing apparatus and information processing method
CN1095568C (en) Named bookmark sets
US7761423B1 (en) System and method for indexing a network of interrelated elements
US8775396B2 (en) Method and system for searching a wide area network
US7107264B2 (en) Content bridge for associating host content and guest content wherein guest content is determined by search
US20050240875A1 (en) Method and apparatus for providing information
JP4870011B2 (en) Information search system, information search device, history sharing method, and history sharing processing program
US20140046925A1 (en) Mobile sitemaps
US20080104042A1 (en) Personalized Search Using Macros
CN103339597A (en) Transforming search engine queries
EP1428139A2 (en) System and method for extracting content for submission to a search engine
CN101583945A (en) Providing virtual really simple syndication (RSS) feeds
US20070162524A1 (en) Network document management
US20100125781A1 (en) Page generation by keyword
US7120870B1 (en) Method, system, and program for presenting data in a limited display area
JP2006099341A (en) Update history generation device and program

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070227

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070807