JP2000339316A - Method and device for collecting retrieval link type information and recording medium with its method stored therein - Google Patents

Method and device for collecting retrieval link type information and recording medium with its method stored therein

Info

Publication number
JP2000339316A
JP2000339316A JP11144833A JP14483399A JP2000339316A JP 2000339316 A JP2000339316 A JP 2000339316A JP 11144833 A JP11144833 A JP 11144833A JP 14483399 A JP14483399 A JP 14483399A JP 2000339316 A JP2000339316 A JP 2000339316A
Authority
JP
Japan
Prior art keywords
link
search
extracted
priority
links
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP11144833A
Other languages
Japanese (ja)
Inventor
Kazuhiro Hayakawa
和宏 早川
Hiroto Inagaki
博人 稲垣
Kazuo Tanaka
一男 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP11144833A priority Critical patent/JP2000339316A/en
Publication of JP2000339316A publication Critical patent/JP2000339316A/en
Withdrawn legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To provide such collecting method and device as make the priority with which data is collected coincide with the request of a retrieving person and to provide a recording medium in which a computer program is stored. SOLUTION: These method store a retrieval word for retrieving a database, extract a retrieval word whose number of appearance times is a high frequency among stored retrieval words (S32), select one link with the highest priority from a list of links according to the extracted retrieval word (S34), acquire and output information indicated by the selected link, extract all the links included in the acquired information, calculate the priority of each extracted link according to the extracted retrieval word with the high frequency and add the priority and link to the above link (S40) and repeat operations that follow the link selection of the whole links in the list.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、他の文書へのリン
クを含むような文書が複数のサーバーに分散配置され、
かつ各々のサーバーの保持する文書が独立に追加・削除
・更新されるような分散型ハイパーテキストシステムの
文書を網羅的に取得するための検索連動型情報収集方法
及び装置及びプログラムを記録した記録媒体に関する。
[0001] The present invention relates to a document which is arranged such that a document including a link to another document is distributed to a plurality of servers,
And a search-linked information collection method and apparatus for comprehensively acquiring documents of a distributed hypertext system in which documents held by each server are independently added, deleted, and updated, and a recording medium recording the program About.

【0002】[0002]

【従来の技術】インターネット上の分散型ハイパーテキ
ストシステムであるWorldWideWeb(以下W
WW)では、多数のサーバーがその内容を勝手に追加・
削除・更新している。そのため、WWWの全体を検索す
るためには、まず各サーバーに置かれている文書のコピ
ーを一箇所に集積し、そのデータの中を検索する方法が
採られている。
2. Description of the Related Art World Wide Web (hereinafter referred to as W) is a distributed hypertext system on the Internet.
In WW), many servers add their content without permission.
Deleted / updated. Therefore, in order to search the entire WWW, a method of first collecting copies of documents placed on each server in one place and searching the data is adopted.

【0003】そのような検索システムでは、各サーバー
の文書のコピーを収集するプロセス(以下クローリング
プロセス)が存在する。クローリングプロセスは、デー
タを取得してはそのデータが参照しているリンクを辿り
つづけることにより、分散したデータを集めていく。同
時に、同一文書も一定期間毎に再収集して常に最新の文
書を保持している。しかし、このような収集方法は通常
長い時間がかかるため、効率よくデータを集積するため
に、データを収集する優先順位を決める必要がある。
In such a search system, there is a process (hereinafter referred to as a crawling process) for collecting a copy of a document of each server. The crawling process collects distributed data by acquiring data and continuing to follow the link referred to by the data. At the same time, the same document is re-collected at regular intervals to keep the latest document. However, since such a collection method usually takes a long time, it is necessary to determine a priority of collecting data in order to efficiently collect data.

【0004】従来、優先順位決定手法として米Lyco
s社の方法である「被参照リンクが多い文書を優先す
る」という方法があった。この方法は「他の文書からよ
く参照されている情報」すなわち常識的な、すぐに探し
出せる情報が優先されることになる。しかし、検索者は
「自分が知らない情報」「簡単には見つからなかった情
報」こそが求めている情報であり、この優先順位決定方
法ではそのような情報の優先順位が高くならないという
問題があった。
Conventionally, Lyco US
There is a method of "company giving priority to a document having many referenced links" which is a method of company s. In this method, “information frequently referred to from other documents”, that is, common sense and information that can be found immediately is given priority. However, searchers are only looking for information that they do not know or information that is not easily found, and there is a problem that this priority determination method does not increase the priority of such information. Was.

【0005】[0005]

【発明が解決しようとする課題】本発明の目的は、デー
タを収集する優先順位が検索者のニーズと合致するよう
なデータ収集方法を提供する検索連動型情報収集方法及
び装置及びプログラムを記録した記録媒体を提供するこ
とにある。
SUMMARY OF THE INVENTION An object of the present invention is to record a search-linked information collection method, apparatus and program for providing a data collection method in which the priority of collecting data matches the needs of a searcher. It is to provide a recording medium.

【0006】[0006]

【課題を解決するための手段】本発明の検索連動型情報
収集方法は、データベースを検索するための検索語を蓄
積し、蓄積された検索語から出現回数が高頻度の検索語
を抽出し、抽出された検索語に従ってリンクのリストか
らもっとも優先度が高いリンクを一つ選択し、選択した
リンクが指す情報を取得して出力し、取得した情報の内
部に含まれるリンクを全て抽出して抽出された各リンク
の優先度を前記の抽出された高頻度の検索語に従って算
出して優先度とリンクを前記リストに追加し、リストの
中の全てのリンクに対し上記リンクの選択以下の動作を
繰り返すことを特徴とする。
A search-linked information collecting method according to the present invention accumulates search terms for searching a database, extracts a search term having a high frequency of appearance from the accumulated search terms, Select one link with the highest priority from the list of links according to the extracted search term, acquire and output the information indicated by the selected link, and extract and extract all the links included in the acquired information The calculated priority of each link is calculated in accordance with the extracted high-frequency search term, and the priority and the link are added to the list. It is characterized by repeating.

【0007】本発明の検索連動型情報収集装置は、デー
タベースを検索するための検索語を蓄積する手段と、蓄
積された検索語から高頻度の検索語を抽出する手段と、
高頻度の検索語を含むデータにリンクされた情報を収集
してデータベースに追加する手段を具備する。本発明に
よれば、頻繁に用いられる検索後についてより豊富かつ
新しい情報を収集することができる。
[0007] A search-linked information collecting apparatus according to the present invention comprises: means for accumulating search terms for searching a database; means for extracting high-frequency search terms from the accumulated search terms;
Means are provided for collecting information linked to data containing high-frequency search terms and adding the information to a database. ADVANTAGE OF THE INVENTION According to this invention, richer and newer information can be collected about the frequently used search.

【0008】本発明の検索連動型情報収集プログラムを
記録した記録媒体は、データベースを検索するための検
索語を蓄積し、蓄積された検索語から高頻度の検索語を
抽出し、高頻度の検索語を含むデータにリンクされた情
報を収集してデータベースに追加する。
[0008] A recording medium storing the search-linked information collection program of the present invention stores search terms for searching a database, extracts high-frequency search terms from the stored search terms, and performs high-frequency search. Gather information linked to data containing words and add it to the database.

【0009】本プログラムは検索要求が頻繁なものにつ
いてより多くの情報を収集することをもっとも主要な特
徴とする。本発明によれば、頻繁に用いられる検索語に
ついてより豊富かつ新しい情報を収集することができ
る。
[0009] The main feature of the present program is to collect more information about frequent search requests. ADVANTAGE OF THE INVENTION According to this invention, more rich and new information can be collected about the search word used frequently.

【0010】[0010]

【発明の実施の形態】図1に本発明の一実施形態による
情報収集装置の全体構成を示す。入力装置101は検索
語を入力するためのものである。記憶装置104には検
索プログラム、情報収集プログラム、収集したデータを
格納するデータベース、および使用された検索語を記録
する検索履歴データが格納されている。
FIG. 1 shows an overall configuration of an information collecting apparatus according to an embodiment of the present invention. The input device 101 is for inputting a search word. The storage device 104 stores a search program, an information collection program, a database for storing collected data, and search history data for recording used search terms.

【0011】入力装置101からは検索語が入力され
る。制御装置103は検索語を記憶装置104内の検索
履歴データに追加される。また検索プログラムを起動し
検索語を用いてデータベースを検索し、結果を出力装置
102に出力する。
A search word is input from the input device 101. The control device 103 adds the search term to the search history data in the storage device 104. In addition, a search program is started, a database is searched using the search word, and the result is output to the output device 102.

【0012】一方、収集プログラムは検索要求の有無と
は関係なく独立に定期的に起動される。収集プログラム
は与えられた起点から文書中のリンク情報を使って次々
にリンクされた文書を収集する。一般的に、一つの文書
には複数のリンクが含まれており、未収集のリンクは優
先順位を付けて順番に処理する必要がある。
On the other hand, the collection program is started independently and periodically regardless of the presence or absence of a search request. The collection program collects documents linked one after another using the link information in the document from a given starting point. Generally, one document includes a plurality of links, and uncollected links need to be prioritized and processed in order.

【0013】このため、検索履歴データを参照し、使用
頻度が高い検索語を調べる。使用頻度が高い検索語が文
書中のリンクと関連度が高い場合、そのリンクの優先順
位を高くする。
[0013] For this reason, a search term frequently used is checked by referring to the search history data. If a frequently used search word is highly related to a link in the document, the priority of the link is increased.

【0014】収集した文書は記憶装置104内のデータ
ベースに追加され、検索用に供される。
[0014] The collected documents are added to a database in the storage device 104 and provided for searching.

【0015】なお簡単のため記憶装置104は一つとし
たが、一般的には入出力の負荷を軽減するため複数の記
憶装置104にデータベースやプログラムを分散しても
よい。また入力装置101・出力装置102はネットワ
ークで接続された別のコンピュータでもよい。
Although one storage device 104 is used for simplicity, a database or a program may be generally distributed to a plurality of storage devices 104 in order to reduce an input / output load. Further, the input device 101 and the output device 102 may be different computers connected via a network.

【0016】図2は図1の装置をCPU201を用いて
実現した場合のハードウェア構成を示す図である。図2
において、CPU201にはメモリ202、表示装置で
あるディスプレイ204、入力装置であるキーボード2
03、記憶装置であるハードディスク205が接続され
ている。ハードディスク205には、検索プログラム2
06、収集プログラム207、データベース208、検
索履歴データ209が格納されている。
FIG. 2 is a diagram showing a hardware configuration when the apparatus of FIG. 1 is realized using a CPU 201. FIG.
In the CPU 201, a memory 202, a display 204 as a display device, and a keyboard 2 as an input device are provided.
03, a hard disk 205 as a storage device is connected. The hard disk 205 has a search program 2
06, a collection program 207, a database 208, and search history data 209 are stored.

【0017】図3は図2における情報収集プログラムの
フローチャートである。入力として情報を取得したい起
点リンクのリストをキューに入れ、高頻度検索語抽出の
ためのパラメータを与えてスタート(31)し、高頻度
検索語を抽出する(32)。高頻度の検索語の抽出につ
いては図4、図5、図6で説明する。リンクが空であれ
ば(33)処理を終了する(41)。リンクが空でなけ
れば、キューからもっとも優先順位の高いリンクを選択
し(34)、選択したリンクをリストから削除しておく
(35)。そしてそのリンクが指す情報を取得し(3
6)、取得した情報を出力する(37)。次に取得した
情報の内部に含まれるリンクを全て抽出し(38)、抽
出された各リンクの優先度を算出(39)する。優先度
の求め方は後述する(図7)。そして優先度とリンクを
リストに追加する(40)。次に別のリンクについて同
様の処理を行い、キューが空になるまで繰り返す(3
3)。
FIG. 3 is a flowchart of the information collection program in FIG. A list of origin links from which information is desired to be acquired is put into a queue, parameters for extracting high-frequency search terms are given, the process is started (31), and high-frequency search terms are extracted (32). The extraction of a high-frequency search term will be described with reference to FIGS. If the link is empty (33), the process ends (41). If the link is not empty, the link with the highest priority is selected from the queue (34), and the selected link is deleted from the list (35). Then, the information indicated by the link is obtained (3
6) Output the obtained information (37). Next, all the links included in the acquired information are extracted (38), and the priority of each extracted link is calculated (39). The method of obtaining the priority will be described later (FIG. 7). Then, the priority and the link are added to the list (40). Next, the same processing is performed for another link, and the processing is repeated until the queue becomes empty (3.
3).

【0018】なお実際に運用する場合には、無限ループ
になったりあまりにも時間がかかるのを防止するため、
一定時間が経過したらキューが空でなくても終了するよ
うにしておく必要がある。
In actual operation, in order to prevent an infinite loop or taking too much time,
After a certain period of time, it is necessary to terminate even if the queue is not empty.

【0019】リンクの優先順位は、あらかじめ与えられ
た検索履歴データ中のキーワードとキーワードの出現頻
度の組を用いて算出する。各キーワードについて、(リ
ンクとキーワードとの関連度×キーワードの出現頻度)
を求め、これを各キーワードについて合計した量が大き
いものほど高い優先順位を与える。
The priority of the link is calculated using a set of a keyword and a frequency of appearance of the keyword in search history data given in advance. For each keyword, (Relationship between link and keyword x Frequency of keyword appearance)
, And the larger the sum of the keywords, the higher the priority.

【0020】ここで、リンクとキーワードとの関連度の
算出方法は、そのリンクを含む文書全体とキーワードと
の関連度を流用することが考えられる。文書とキーワー
ドとの関連度としては、TF*IDFが知られている。
この場合、同一文書に含まれるリンクは同一の優先順位
が与えられることになる。ここで、TF(TermFr
equency)は単語の出現頻度をあらわし、IDF
(InversedDocument Frequen
cy)は複数の文書の中の何%の文書に単語がでてくる
かの数値の逆数であり、*は乗算をあらわす。
Here, as a method of calculating the degree of association between the link and the keyword, it is conceivable to divert the degree of association between the entire document including the link and the keyword. TF * IDF is known as the degree of association between a document and a keyword.
In this case, the links included in the same document are given the same priority. Here, TF (TermFr
EQF) indicates the frequency of occurrence of a word, and IDF
(Inversed Document Frequency
cy) is the reciprocal of the numerical value of what percentage of a plurality of documents a word appears in, and * represents multiplication.

【0021】また、HTMLの場合にはリンク情報は単
語ないし文節に対して与えられていることが多いので、
この単語の検索履歴データにおける出現頻度を関連度と
して用いることも考えられる。
In the case of HTML, since link information is often given to words or phrases,
It is also conceivable to use the appearance frequency of this word in the search history data as the relevance.

【0022】図4はリンクの優先度の計算例を示した図
である。ここではリンクが付与されている単語の検索履
歴データにおける出現頻度を関連度として用いている。
FIG. 4 is a diagram showing an example of calculating the priority of a link. Here, the frequency of appearance of the word to which the link is assigned in the search history data is used as the degree of association.

【0023】まず、検索履歴データから出現頻度の高い
単語として「Linux」「チャット」「MIDI」
「ダウンロード」「Windows」が得られ、それぞ
れ出現回数が図4(A)のようであったとする。一方、
リンクの優先順位を計算したい文書には、「Linux
のページ」「MIDIのページ」の二つのリンクが含ま
れていたとする。すると、「Linuxのページ」とい
うリンクには「Linux」という単語が含まれている
ので、このリンクの検索履歴との関連度は45000と
なる。同様に「MIDIのページ」の関連度は3700
0である。優先順位は数値が大きいほうが優先されると
しておけば、この関連度をそのまま優先順位として採用
すればよい。
First, the words "Linux", "chat" and "MIDI" are used as words having a high frequency of appearance from the search history data.
It is assumed that “download” and “Windows” are obtained and the number of appearances is as shown in FIG. on the other hand,
Documents for which you want to calculate link priorities include "Linux
Page "and" MIDI page "are included. Then, since the link “Page of Linux” includes the word “Linux”, the relevance of the link to the search history is 45000. Similarly, the relevance of “MIDI page” is 3700
0. Assuming that the higher the numerical value, the higher the priority, the degree of relevance may be used as the priority as it is.

【0024】図5は本発明において蓄積された検索語か
ら高頻度の検索語を抽出するステップの例を示したもの
である。(A)は蓄積された検索語の例、(C)は抽出
された高頻度検索語の例、(B)は抽出する処理の内容
である。
FIG. 5 shows an example of steps for extracting a high-frequency search word from the search words stored in the present invention. (A) is an example of accumulated search terms, (C) is an example of extracted high-frequency search terms, and (B) is the content of the extraction process.

【0025】検索システムでは、図5(A)のようにい
つどのような検索が行われたかを検索履歴ファイルに記
録している。
In the search system, as shown in FIG. 5A, when and what search is performed are recorded in a search history file.

【0026】図5(B)は高頻度検索語の抽出処理の動
作フローチャートで、日数Dと出力語数Nを入力してス
タートする(51)。D日前(例えば3日前)から前日
までの検索ログを読み込み(52)、ログの中の各検索
語の出現回数を調べる(53)。次に、検索語を出現回
数の多い順に並べ替え(54)、検索語と出現回数を出
現回数の多い方からN個(例えば上位20%)を出力し
て(55)、終了する(56)。出力されるものは、
「順位、検索語、D日前から前日までの検索語の出現回
数」をN個並べた表である。
FIG. 5B is an operation flowchart of the extraction processing of a high-frequency search word, which is started by inputting the number of days D and the number of output words N (51). The search log from the day before D (for example, three days before) to the previous day is read (52), and the number of appearances of each search word in the log is checked (53). Next, the search words are rearranged in descending order of the number of appearances (54), and the search words and the number of appearances are output from the most frequently appearing N (for example, the top 20%) (55), and the process ends (56) . The output is
It is a table in which N ranks, search words, and the number of appearances of search words from D days ago to the previous day are arranged.

【0027】ここで過去何日分の履歴を用いるか、また
上位何%の検索語を出力するかは検索システムの利用頻
度や検索語のばらつきにより変更してよい。また、検索
語が非常に多い場合には、(B)においてすべての検索
語を出現回数に応じて並べ替える代わりに、ある一定頻
度以下の検索語は切り捨てた残りの検索語についてのみ
並べ替え処理を行ってよい。
Here, how many days of history in the past are used, and what percentage of the search words are output may be changed depending on the frequency of use of the search system and variations in the search words. If the number of search words is very large, instead of rearranging all search words according to the number of appearances in (B), search words below a certain frequency are rearranged only for the remaining search words that have been truncated. May be performed.

【0028】図6は検索語の抽出基準として検索語の用
いられた回数の代わりに用いられた回数の伸び率を用い
る場合の例である。まず、図5で得られた検索語の順位
及び出現回数の過去の計算結果を記録しておく。
FIG. 6 shows an example in which an expansion rate of the number of times of use of the search word is used instead of the number of times of use of the search word as a search word extraction criterion. First, the past calculation results of the ranking and the number of appearances of the search word obtained in FIG. 5 are recorded.

【0029】次に、新たに図5に従い計算された検索語
の順位及び前日の各検索語の順位から、各検索語につい
て前日と現在の順位の差を求める。たとえば図6(A)
において「金利」は3位から2位に上昇しているので+
1、逆に「株」は2位から3位に下降しているので−1
となる。
Next, the difference between the previous day and the current order for each search word is determined from the order of the search words newly calculated according to FIG. 5 and the order of each search word on the previous day. For example, FIG.
In the "interest rate" has risen from third to second place
1. Conversely, “shares” have dropped from second to third, so -1
Becomes

【0030】この変動分を最新の順位から減算する。す
ると「金利」は1位、「株」は4位となる。
This variation is subtracted from the latest ranking. Then "interest rate" ranks first and "shares" rank fourth.

【0031】上記のように順位の変動を用いることで、
各検索語の今後の順位を推定し、それを実際の順位の代
わりに用いることができる。この例ではもっとも簡単に
1日前の順位との差を順位の変化の傾きとして用いた
が、検索システムの性質によってどのくらい過去の順位
を用いるか、また何次の推定を行うかは変えてよい。
By using the change of the rank as described above,
The future ranking of each search term can be estimated and used in place of the actual ranking. In this example, the difference from the ranking one day ago is most simply used as the gradient of the change in the ranking. However, how much the ranking in the past is used and how many estimations are performed may be changed depending on the nature of the search system.

【0032】図7は、図5や図6で得られた各検索語の
順位に基づき、リンクの優先順位を決定する処理を示す
動作フローチャートである。入力として、優先度を算出
したいリンクのリストと高頻度検索語の出力結果を与え
てスタートする(71)。全てのリンクの優先度を算出
ずみ(72)であれば処理を終了(78)する。算出ず
みでなければ、優先度未算出のリンクを一つ選択し(7
3)、リンクのタイトルを単語に分割する(74)。分
割するには漢字の連続やカタカナの連続を単語とみなす
方法や、辞書を用いた形態素解析を用いることができ
る。次にあらかじめ算出しておいた高頻度検索語の出力
結果からタイトルの各単語の出現回数を求め(75)、
出現回数の合計を算出して(76)、算出結果を選択さ
れたリンクの優先度として出力する(77)。以上の動
作を全てのリンクについて繰り返す(72)。
FIG. 7 is an operation flowchart showing a process of determining the priority of a link based on the order of each search word obtained in FIG. 5 or FIG. As an input, a list of links whose priority is to be calculated and an output result of a frequently searched word are given to start (71). If the priorities of all the links have been calculated (72), the process ends (78). If the link has not been calculated, one link whose priority has not been calculated is selected (7
3) Divide the link title into words (74). For the division, a method in which a sequence of kanji or katakana is regarded as a word or a morphological analysis using a dictionary can be used. Next, the number of appearances of each word of the title is obtained from the output result of the high-frequency search word calculated in advance (75),
The total number of appearances is calculated (76), and the calculation result is output as the priority of the selected link (77). The above operation is repeated for all links (72).

【0033】リンクの表題としてしばしば「ここ」「こ
れ」といった指示代名詞しかない場合がある。たとえば
「○○新聞のページ」というリンクを作る代わりに、
「○○新聞はここ」という文の「ここ」の部分にリンク
を設定するというような場合である。図7においてリン
クの表題を取得する代わりにリンクを含む文全体の単語
を用いることで、このような場合に対応することができ
る。
Often, there are only demonstrative pronouns such as "here" and "this" as link titles. For example, instead of creating a link called “XX newspaper page”,
This is a case where a link is set at the “here” portion of the sentence “XX newspaper is here”. By using the words of the entire sentence including the link instead of acquiring the title of the link in FIG. 7, such a case can be dealt with.

【0034】[0034]

【発明の効果】以上説明したように、本発明の請求項1
の検索連動型情報収集方法を用いれば、頻繁に用いられ
る検索語についてより豊富かつ新しい情報を収集するこ
とができる。
As described above, according to the first aspect of the present invention,
By using the search-linked information collection method, richer and newer information about frequently used search words can be collected.

【0035】本発明の請求項2の検索連動型情報収集装
置を用いれば、頻繁に用いられる検索語についてより豊
富かつ新しい情報を収集することができる。
With the use of the search-linked information collection device according to the second aspect of the present invention, abundant and new information can be collected for frequently used search words.

【0036】本発明の請求項3の検索連動型情報収集プ
ログラムを記録した記録媒体を用いれば、頻繁に用いら
れる検索語についてより豊富かつ新しい情報を収集する
ことができる。
By using the recording medium storing the search-linked information collection program according to the third aspect of the present invention, richer and newer information can be collected for frequently used search words.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施形態に必要となるハードウェア
の全体構成を示した図である。
FIG. 1 is a diagram illustrating an overall configuration of hardware necessary for an embodiment of the present invention.

【図2】図1の装置を、CPUを用いて実現した場合の
ハードウェア構成を示す図である。
FIG. 2 is a diagram illustrating a hardware configuration when the device in FIG. 1 is implemented using a CPU.

【図3】図2における情報収集プログラムのフローチャ
ートである。
FIG. 3 is a flowchart of an information collection program in FIG. 2;

【図4】リンクの優先度の計算例を示した図である。FIG. 4 is a diagram illustrating a calculation example of link priorities;

【図5】本発明において蓄積された検索語から高頻度の
検索語を抽出する例を示す図である。
FIG. 5 is a diagram illustrating an example of extracting a high-frequency search word from search words stored in the present invention.

【図6】検索語の抽出基準として検索語の用いられた回
数の代わりに、用いられた回数の伸び率を用いる場合
の、検索語を抽出する例を示す図である。
FIG. 6 is a diagram illustrating an example of extracting a search word in a case where an expansion rate of the number of times of use of the search word is used instead of the number of times of use of the search word as a search word extraction criterion.

【図7】リンクの優先順位を決定する処理の動作フロー
である。
FIG. 7 is an operation flow of a process of determining a priority order of a link.

【符号の説明】[Explanation of symbols]

101 入力装置 102 出力装置 103 制御装置 104 記憶装置 201 CPU 202 メモリ 203 キーボード 204 ディスプレイ 205 ハードディスク 206 検索プログラム 207 収集プログラム 208 データベース 209 検索履歴データ Reference Signs List 101 input device 102 output device 103 control device 104 storage device 201 CPU 202 memory 203 keyboard 204 display 205 hard disk 206 search program 207 collection program 208 database 209 search history data

フロントページの続き (72)発明者 田中 一男 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内 Fターム(参考) 5B075 ND03 ND36 NK31 PR04 Continued on the front page (72) Inventor Kazuo Tanaka 3-19-2 Nishishinjuku, Shinjuku-ku, Tokyo F-term (reference) in Nippon Telegraph and Telephone Corporation 5B075 ND03 ND36 NK31 PR04

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 情報を収集する方法において、 データベースを検索するための検索語を蓄積し、 蓄積された検索語から出現回数が高頻度の検索語を抽出
し、 抽出された検索語に従ってリンクのリストからもっとも
優先度が高いリンクを一つ選択し、 選択したリンクが指す情報を取得して出力し、 取得した情報の内部に含まれるリンクを全て抽出して抽
出された各リンクの優先度を前記の抽出された高頻度の
検索語に従って算出して優先度とリンクを前記リストに
追加し、 リストの中の全てのリンクに対し上記リンクの選択以下
の動作を繰り返すことを特徴とする、検索連動型情報収
集方法。
In a method for collecting information, a search term for searching a database is accumulated, a search term having a high frequency of appearance is extracted from the accumulated search terms, and a link of a link is extracted according to the extracted search term. Select one link with the highest priority from the list, obtain and output the information indicated by the selected link, extract all the links included in the obtained information, and set the priority of each extracted link. Calculating according to the extracted high-frequency search term, adding a priority and a link to the list, and repeating the operation following the selection of the link for all the links in the list. Linked information collection method.
【請求項2】 情報を収集する検索連動型情報収集装置
において、 データベースを検索するための検索語を蓄積する手段
と、 蓄積された検索語から出現回数が高頻度の検索語を抽出
する手段と、 抽出された検索語に従ってリンクのリストからもっとも
優先度が高いリンクを一つ選択する手段と、 選択したリンクが指す情報を取得して出力する手段と、 取得した情報の内部に含まれるリンクを全て抽出して抽
出された各リンクの優先度を前記の抽出された高頻度の
検索語に従って算出して優先度とリンクを前記リストに
追加する手段と、 リストの中の全てのリンクに対し上記リンクの選択以下
の動作を繰り返す手段とを有することを特徴とする、検
索連動型情報収集装置。
2. A search-linked information collection device for collecting information, comprising: means for accumulating search terms for searching a database; means for extracting a search term having a high frequency of appearance from the accumulated search terms. Means for selecting one of the links having the highest priority from the list of links according to the extracted search term; means for acquiring and outputting information indicated by the selected link; and linking included in the acquired information. Means for calculating the priority of each extracted and extracted link according to the extracted high-frequency search term, and adding the priority and the link to the list; Means for repeating the operation following the selection of a link.
【請求項3】 情報を収集するコンピュータプログラム
を記憶した記録媒体において、 データベースを検索するための検索語を蓄積し、 蓄積された検索語から出現回数が高頻度の検索語を抽出
し、 抽出された検索語に従ってリンクのリストからもっとも
優先度が高いリンクを一つ選択し、 選択したリンクが指す情報を取得して出力し、 取得した情報の内部に含まれるリンクを全て抽出して抽
出された各リンクの優先度を前記の抽出された高頻度の
検索語に従って算出して優先度とリンクを前記リストに
追加し、 リストの中の全てのリンクに対し上記リンクの選択以下
の動作を繰り返すコンピュータプログラムを記憶するこ
とを特徴とする、検索連動型情報収集プログラムを記憶
した記録媒体。
3. A storage medium storing a computer program for collecting information, accumulating search terms for searching a database, extracting a search term having a high frequency of appearance from the accumulated search terms, and extracting the extracted search terms. One of the links with the highest priority is selected from the list of links according to the search term obtained, the information indicated by the selected link is obtained and output, and all the links included in the obtained information are extracted and extracted. A computer that calculates the priority of each link according to the extracted high-frequency search term, adds the priority and the link to the list, and repeats the above-mentioned operation of selecting the link for all the links in the list. A storage medium storing a search-linked information collection program, characterized by storing the program.
JP11144833A 1999-05-25 1999-05-25 Method and device for collecting retrieval link type information and recording medium with its method stored therein Withdrawn JP2000339316A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11144833A JP2000339316A (en) 1999-05-25 1999-05-25 Method and device for collecting retrieval link type information and recording medium with its method stored therein

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11144833A JP2000339316A (en) 1999-05-25 1999-05-25 Method and device for collecting retrieval link type information and recording medium with its method stored therein

Publications (1)

Publication Number Publication Date
JP2000339316A true JP2000339316A (en) 2000-12-08

Family

ID=15371509

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11144833A Withdrawn JP2000339316A (en) 1999-05-25 1999-05-25 Method and device for collecting retrieval link type information and recording medium with its method stored therein

Country Status (1)

Country Link
JP (1) JP2000339316A (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004118415A (en) * 2002-09-25 2004-04-15 Fujitsu Ltd Information collection method, and program for making computer perform processing in the method
JP2004206517A (en) * 2002-12-26 2004-07-22 Nifty Corp Hot keyword presentation method and hot site presentation method
JPWO2003091906A1 (en) * 2002-04-24 2005-09-02 富士通株式会社 Document display program and document display method
JP2006079454A (en) * 2004-09-10 2006-03-23 Fujitsu Ltd Search keyword analysis method, search keyword analysis program and search keyword analysis apparatus
JP2007035034A (en) * 2005-07-27 2007-02-08 Nhn Corp Method and system for detecting in real-time search terms whose popularity increase rapidly
JP2009217661A (en) * 2008-03-12 2009-09-24 Kddi Corp Illicit content determination support system and control program for illicit content determination support system
JP2011159296A (en) * 2003-09-30 2011-08-18 Google Inc Method for document scoring
JP2011253415A (en) * 2010-06-03 2011-12-15 Yahoo Japan Corp Query suggestion device and method based on phrase
KR101126498B1 (en) 2004-05-19 2012-03-30 엔에이치엔(주) Method and system for managing search terms to provide internet search service efficiently

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2003091906A1 (en) * 2002-04-24 2005-09-02 富士通株式会社 Document display program and document display method
JP2004118415A (en) * 2002-09-25 2004-04-15 Fujitsu Ltd Information collection method, and program for making computer perform processing in the method
JP2004206517A (en) * 2002-12-26 2004-07-22 Nifty Corp Hot keyword presentation method and hot site presentation method
US8521749B2 (en) 2003-09-30 2013-08-27 Google Inc. Document scoring based on document inception date
US8407231B2 (en) 2003-09-30 2013-03-26 Google Inc. Document scoring based on link-based criteria
US9767478B2 (en) 2003-09-30 2017-09-19 Google Inc. Document scoring based on traffic associated with a document
US8639690B2 (en) 2003-09-30 2014-01-28 Google Inc. Document scoring based on query analysis
US8577901B2 (en) 2003-09-30 2013-11-05 Google Inc. Document scoring based on query analysis
JP2011159296A (en) * 2003-09-30 2011-08-18 Google Inc Method for document scoring
US8549014B2 (en) 2003-09-30 2013-10-01 Google Inc. Document scoring based on document content update
US8527524B2 (en) 2003-09-30 2013-09-03 Google Inc. Document scoring based on document content update
KR101126498B1 (en) 2004-05-19 2012-03-30 엔에이치엔(주) Method and system for managing search terms to provide internet search service efficiently
JP2006079454A (en) * 2004-09-10 2006-03-23 Fujitsu Ltd Search keyword analysis method, search keyword analysis program and search keyword analysis apparatus
JP2007035034A (en) * 2005-07-27 2007-02-08 Nhn Corp Method and system for detecting in real-time search terms whose popularity increase rapidly
US7822720B2 (en) 2005-07-27 2010-10-26 Nhn Corporation Method and system of detecting keyword whose input number is rapidly increased in real time
JP4550781B2 (en) * 2005-07-27 2010-09-22 エヌエイチエヌ コーポレーション Real-time soaring search word detection method and real-time soaring search word detection system
JP2009217661A (en) * 2008-03-12 2009-09-24 Kddi Corp Illicit content determination support system and control program for illicit content determination support system
JP2011253415A (en) * 2010-06-03 2011-12-15 Yahoo Japan Corp Query suggestion device and method based on phrase

Similar Documents

Publication Publication Date Title
USRE36727E (en) Method of indexing and retrieval of electronically-stored documents
US7792833B2 (en) Ranking search results using language types
KR100304335B1 (en) Keyword Extraction System and Document Retrieval System Using It
US8301437B2 (en) Tokenization platform
US20040002945A1 (en) Program for changing search results rank, recording medium for recording such a program, and content search processing method
US7103536B1 (en) Symbol dictionary compiling method and symbol dictionary retrieving method
US8452788B2 (en) Information retrieval system, registration apparatus for indexes for information retrieval, information retrieval method and program
JP2006048683A (en) Phrase identification method in information retrieval system
US8423885B1 (en) Updating search engine document index based on calculated age of changed portions in a document
KR20040017008A (en) System and method for offering information using a search engine
JP2000339316A (en) Method and device for collecting retrieval link type information and recording medium with its method stored therein
JPH11265393A (en) Information retrieving device
US9886446B1 (en) Inverted index for text searching within deduplication backup system
RU2733482C2 (en) Method and system for updating search index database
EP2017752A1 (en) Information processing apparatus, information processing method and program
JP2003173352A (en) Retrieval log analysis method and device, document information retrieval method and device, retrieval log analysis program, document information retrieval program and storage medium
JP2006302024A (en) Relevant document display method and program
JP4759600B2 (en) Text search device, text search method, text search program and recording medium thereof
JP3547074B2 (en) Data retrieval method, apparatus and recording medium
JP2011170583A (en) Information search apparatus, information search method and information search program
JP2004157649A (en) Hierarchized user profile creation method and system, hierarchized user profile creation program and record medium recorded therewith
JP2003271669A (en) Topic extracting device
JP2003173351A (en) Method, device, program and storage medium for analysis, collection and retrieval of information
JP2675958B2 (en) Information retrieval computer system and method of operating storage device thereof
JPH0561910A (en) Full sentence index retrieving method

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060801