JP2002197115A - Web page retrieval method with usage of evaluation reference data and storage medium - Google Patents
Web page retrieval method with usage of evaluation reference data and storage mediumInfo
- Publication number
- JP2002197115A JP2002197115A JP2000404838A JP2000404838A JP2002197115A JP 2002197115 A JP2002197115 A JP 2002197115A JP 2000404838 A JP2000404838 A JP 2000404838A JP 2000404838 A JP2000404838 A JP 2000404838A JP 2002197115 A JP2002197115 A JP 2002197115A
- Authority
- JP
- Japan
- Prior art keywords
- search
- web page
- evaluation
- read
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、ウェブページ(す
なわち、インターネット上で読みとり可能な文書)の検
索方法及び該方法に係るプログラムを記憶した記憶媒体
に関し、特に、検索するトピックに関わる詳細な諸条件
を記述した評価基準データを使用し、この評価基準デー
タを再利用可能とすることで、的確かつ簡便に検索を行
うことを可能にしたものであり、例えば、従来の検索エ
ンジンと同程度の簡便さであるにもかかわらず、従来の
検索エンジンよりも的確な検索を行うこと、検索エンジ
ンのデータベースに登録されていないウェブページをも
含めて効率的に検索すること、あるいは従来人手が必要
であった検索手順を安価な自動的手段で置き換えるこ
と、などに役立つものであり、インターネットの特長で
ある情報の共有及び流通を更に推し進めるものである。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method for retrieving a web page (that is, a document readable on the Internet) and a storage medium storing a program according to the method. By using the evaluation criteria data describing the conditions and making this evaluation criteria data reusable, it is possible to perform a search accurately and easily, for example, the same level as a conventional search engine Despite its simplicity, it is necessary to perform a more accurate search than a conventional search engine, to efficiently search even web pages that are not registered in the search engine database, or It replaces existing search procedures with inexpensive automatic means, and is useful for sharing information, which is a feature of the Internet. It is intended to further promote the passage.
【0002】[0002]
【従来の技術】ウェブページの情報を収集する従来の技
術の代表的なものは、いわゆる検索エンジンのウェブロ
ボットを用いる方法である。これは、ウェブページを自
動的に読み込むプログラムを多数働かせることにより、
多くのウェブページの情報を高速かつ網羅的に収集し
て、データベース化する方式である。しかし、この方式
は特定の関心に的を絞った情報収集を行う目的で一般ユ
ーザが利用するには、あまりに大規模かつ網羅的な情報
収集方法であり、また高価でもあるため不適である。2. Description of the Related Art A typical conventional technique for collecting information of a web page is a method using a so-called search engine web robot. This is done by running a number of programs that automatically load web pages,
This is a system that collects information of many web pages at high speed and comprehensively and creates a database. However, this method is not suitable for general users to collect information focused on specific interests, because it is a large-scale and comprehensive information collection method and is expensive.
【0003】一般ユーザが簡便にウェブページを検索す
るために、現在最も広く利用されている方法は、インタ
ーネット上のサービスである「検索エンジン」を利用す
る方法である。たとえば、Internet Expl
orer(マイクロソフ社の商標)などのウェブブラウ
ザーを用いてYahoo!などの検索エンジンによる検
索機能を利用することにより、簡単かつ高速にウェブペ
ージを検索できる。しかし、よく知られているように、
この方法による検索結果には、一般ユーザが意図した検
索対象とは無関係なウェブページも多く含まれてしま
う、という問題がある。また、この方法では指定できる
検索条件に大きな制約があるため、前述したような無関
係なウェブページを避けるために必要な、詳細な諸条件
の指定自体がすでに不可能である場合も多い。たとえ
ば、個人が自分の趣味に係わる関心事を細かく表現する
とすれば400字詰め原稿用紙にして何枚もの量になる
かもしれないが、現在の検索エンジンで文字数にして百
字以上の条件を指定することは実際的ではない。このよ
うに、検索条件の入力時点ですでに限界があることもあ
って、従来の検索エンジンの検索結果がある程度不正確
になることは避けがたい。[0003] In order for ordinary users to easily search web pages, the most widely used method at present is to use a "search engine" which is a service on the Internet. For example, Internet Expl
Yahoo! using a web browser such as orer (trademark of Microsoft Corporation). By using a search function provided by a search engine such as that described above, a web page can be searched easily and quickly. However, as is well known,
There is a problem that a search result by this method includes many web pages unrelated to a search target intended by a general user. Also, in this method, since there are great restrictions on the search conditions that can be specified, in many cases, it is often impossible to specify the detailed conditions necessary to avoid the irrelevant web page as described above. For example, if an individual expresses their interests related to their hobbies in detail, the number of sheets may be as many as 400 characters in a manuscript sheet, but a current search engine specifies a condition of more than one hundred characters. That is not practical. Since there is already a limit at the time of inputting the search condition, it is inevitable that the search result of the conventional search engine will be somewhat inaccurate.
【0004】単なる検索エンジンの検索よりも効果的な
ウェブページの検索方法として、複数の検索エンジンに
同時に要求を出す「メタ検索」を利用する方法もよく知
られている。これは、検索用のソフトウェアであり、多
くの検索エンジンに同時に問い合わせる機能を持つた
め、検索条件に該当するウェブページを見い出すチャン
スが多くなるという長所を持つものである。しかし、こ
の方法は基本的に検索エンジンの検索結果を寄せ集める
だけの方法であるため、検索結果には検索エンジン自体
の限界がそのまま反映される。言い換えると、検索結果
にユーザの関心と無関係な情報が多くなることは避けら
れず、ユーザの関心の細かな点まで反映するような質の
高い検索には適さない。また、単一の検索エンジンを利
用した場合と同様に、ユーザは不的確な検索結果から自
分の探している情報を探し出すために、多くの手間をか
けて自分自身でウェブページを読む必要があるため、面
倒である。As a more effective search method of a web page than a simple search engine search, a method of using a “meta search” for simultaneously requesting a plurality of search engines is well known. This is a search software, which has the advantage that it has a function of inquiring many search engines at the same time, so that there is a greater chance of finding web pages that meet the search conditions. However, this method is basically a method of merely collecting search results of search engines, and the search results reflect the limitations of the search engines themselves. In other words, the search results inevitably include a lot of information irrelevant to the user's interest, and are not suitable for a high-quality search that reflects even a small point of the user's interest. Also, as with a single search engine, users have to spend a lot of time reading their own web pages to find the information they are looking for from the incorrect search results. Therefore, it is troublesome.
【0005】的確な検索を迅速に行うために、専門のデ
ータベースを準備する方法もある。これは、たとえば医
学文献の検索システムや、特許情報の検索システムとし
て実用化されている。特定の分野に限れば、このように
網羅的なデータベースを構築し、さらにトピックに合っ
た検索手段を提供することによって、的確かつ迅速に検
索することが可能となる。この方法がそのままウェブペ
ージに適用できれば上述の諸々の問題も解決されるので
あるが、医学文献などの情報源と比べてインターネット
の規模は桁違いに大きく、また日々更新され、調査・追
跡も難しいため、ウェブページ全体をデータベース化す
ることは非常に困難である。たとえば、現在最も広い範
囲をカバーしているといわれる検索エンジンですら、高
々インターネット全体の数十パーセント程度しか、デー
タベース化できていない。また、インターネットの場合
には全分野の情報に対応する必要があるため、専門分野
ごとの詳細なインデックスづくりが困難であり、よっ
て、詳細なインデックスを利用した的確な検索も困難に
なる。たとえば、医学文献データベースのインデックス
には、文献の発行年月日、著作者、出版社などの詳細な
項目を設定することができるため、これらの条件を利用
して的確に検索することできる。しかし、ウェブページ
は、あまりに非限定的であるため、このような特殊条件
をデータベースのインデックスとして用いることが困難
である。以上のように、ウェブページの場合には、専門
データベースの必須条件ともいえる、網羅性やインデッ
クスの詳細さを実現することが困難であるため、専門デ
ータベースの検索方法を適用することには問題が多い。There is also a method of preparing a specialized database in order to quickly perform an accurate search. This has been put to practical use, for example, as a search system for medical literature and a search system for patent information. If it is limited to a specific field, by constructing such an exhaustive database and providing a search means suitable for a topic, it becomes possible to search accurately and quickly. If this method can be applied to web pages as it is, the above problems will be solved, but the size of the Internet is orders of magnitude larger than information sources such as medical literature, and it is updated daily, making it difficult to investigate and track Therefore, it is very difficult to make a database of the entire web page. For example, even search engines, which are said to cover the widest range at present, can at most only tens of percent of the Internet as a database. Further, in the case of the Internet, it is necessary to deal with information in all fields, so it is difficult to create a detailed index for each specialized field, and thus it is also difficult to perform an accurate search using the detailed index. For example, in the index of the medical literature database, detailed items such as the publication date of the literature, the author, the publisher, and the like can be set, so that accurate search can be performed using these conditions. However, web pages are so non-limiting that it is difficult to use such special conditions as database indexes. As described above, in the case of web pages, it is difficult to achieve completeness and detailed index, which are essential conditions for specialized databases, so there are problems in applying specialized database search methods. Many.
【0006】以上のように、検索エンジン等を利用した
機械的方法ではウェブページ一般を的確に検索すること
が難しいため、人手による検索サービスがビジネスとし
て行われている。これは、通常ならばユーザが行う検索
作業をエキスパートが代行するサービスであり、人間が
ウェブページを読んでチェックするため、的確な検索が
可能である。しかし、この検索方法は人手に頼るため、
大きなコストと時間を要し、一般ユーザが簡便にウェブ
ページを検索するには不適である。As described above, it is difficult to accurately search a general web page by a mechanical method using a search engine or the like, and a manual search service is provided as a business. This is a service in which a search operation performed by a user is usually performed by an expert, and an accurate search is possible because a human reads and checks a web page. However, since this search method depends on humans,
It requires a great deal of cost and time, and is not suitable for general users to easily search web pages.
【0007】以上のように、機械的方法であるか、人手
を要する方法であるかに関わらず、従来のウェブページ
の検索方法では、一般ユーザが簡便に利用できるという
第一の条件と、ユーザの関心事項を細かく反映した的確
な検索を行うという第二の条件を同時に満たすものがな
い。的確な検索のためには、検索するトピックについて
のユーザの関心を反映するために詳細な諸条件を考慮し
なければならないが、このような詳細な条件を指定する
ための機械的検索方法若しくは検索装置がない、という
ことがこの問題の本質的な点である。仮に、的確な検索
を行うために、前記のような詳細な諸条件の指定が可能
な機械的検索方法若しくは検索装置を作ったとしても、
それと同時二、当該諸条件を指定するための簡便な方法
若しくは装置も同時に提供しない限り、検索毎にユーザ
が多数の条件を入力することを要するため、大変面倒で
あるため実用的でない。As described above, regardless of whether the method is a mechanical method or a method requiring manpower, the conventional web page search method has the first condition that general users can easily use the method, Nothing simultaneously satisfies the second condition of performing an accurate search that reflects the interests of the above. For an accurate search, detailed conditions must be considered in order to reflect the user's interest in the topic to be searched. However, a mechanical search method or search for specifying such detailed conditions must be considered. The lack of equipment is the essential point of this problem. Even if a mechanical search method or a search device capable of specifying detailed conditions as described above was created in order to perform an accurate search,
At the same time, unless a simple method or device for specifying the various conditions is also provided at the same time, the user needs to input a large number of conditions for each search, which is very troublesome and impractical.
【0008】[0008]
【本発明が解決しようとする課題】本発明は上述の種々
の不具合若しくは問題を解決するためになされたもの
で、検索のトピックごとに細かい条件設定を可能とし、
この条件設定を簡便に再利用可能とし、検索を代行する
人手を要することなく、的確にウェブページを検索する
方法及び該方法に係るプログラムを記憶した記憶波媒体
を提供しようとするものである。SUMMARY OF THE INVENTION The present invention has been made to solve the above-mentioned various problems or problems, and enables detailed setting of conditions for each search topic.
An object of the present invention is to provide a method of searching for a web page accurately without requiring a person to perform a search, and a storage medium storing a program according to the method, by making the condition setting easily reusable.
【0009】[0009]
【課題を解決するための手段】本発明に係るウェブペー
ジの検索方法は、ユーザの要求に応じて特定のトピック
に関する検索を行う際にウェブページを評価するための
基準となる、再利用可能な評価基準データを、該ユーザ
若しくは第三者が作成する第1のステップと、すでに作
成されている再利用可能な評価基準データの中から、検
索のトピックに該当する評価基準データを指定する第2
のステップと、該ユーザが検索条件を入力することによ
って実行時の評価基準データを決定する第3のステップ
と、ウェブページの読み込みを開始する時点での、読み
込み待ちウェブページの集合を設定する第4のステップ
と、前記読み込み待ちウェブページの集合から、前記実
行時の評価基準データに基づいて計算された評価の最も
高いウェブページを次の読み込み対象として選択する第
5のステップと、前記第5のステップで選択された該ウ
ェブページを読み込む第6のステップと、読み込んだウ
ェブページ内のリンクが参照するウェブページのうち、
今後の読み込み候補であるものを前記読み込み待ちウェ
ブページの集合に追加する第7のステップと、実行時の
評価基準データに基づいて、読み込み済みのページの評
価を計算する第8のステップとを具備する。一例とし
て、前記第8のステップの後に、読み込み済みのウェブ
ページを、その評価の高い順にリスト(以下、検索結果
リストという)としてユーザに表示するステップを具備
する。さらに、一例として、ユーザが前記検索結果リス
トの一項目をマウスのクリック等で指定することによっ
て、瞬時に該当するウェブページを閲覧可能とするよう
な表示処理のステップを具備する。なお、前記検索結果
リストが該ユーザに満足いくものでない場合に対処する
ために、該検索結果リストを利用して評価基準データを
適応的に更新するとよい。一例として、該検索結果リス
トから、該ユーザの満足なページ、不満足なページを指
定できるようにしておき、満足なページの共通属性を属
性1とし、不満足なページの共通属性を属性2とし、
「該属性1を満たす」という条件と、「該属性2を満た
さない」という条件の両方を該評価基準データに追加す
るステップを具備する。According to the present invention, there is provided a method for retrieving a web page, which is used as a reference for evaluating a web page when performing a search on a specific topic in response to a user request. A first step of creating evaluation criteria data by the user or a third party; and a second step of designating evaluation criteria data corresponding to a search topic from reusable evaluation criteria data already created.
A third step of determining the evaluation reference data at the time of execution by the user inputting search conditions; and a third step of setting a set of web pages waiting to be read at the time of starting to read web pages. 4 and steps, from the set of the read waiting web page, a fifth step of selecting the highest web page evaluation calculated based on the evaluation reference data during the execution as the next read target, the fifth A sixth step of reading the web page selected in the step of; and a web page referenced by a link in the read web page,
A seventh step of adding a candidate to be read in the future to the set of web pages waiting to be read, and an eighth step of calculating an evaluation of the read page based on the evaluation reference data at the time of execution. I do. As an example, after the eighth step, the method includes a step of displaying the read web pages to the user as a list (hereinafter, referred to as a search result list) in descending order of evaluation. Further, as an example, the method includes a display processing step in which a user can instantly browse a corresponding web page by designating one item of the search result list with a mouse click or the like. In order to cope with a case where the search result list is not satisfactory to the user, the evaluation reference data may be adaptively updated using the search result list. As an example, it is possible to designate a satisfactory page and an unsatisfied page of the user from the search result list, set a common attribute of the satisfied page as an attribute 1, set a common attribute of the unsatisfied page as an attribute 2,
A step of adding both the condition of “satisfying the attribute 1” and the condition of “not satisfying the attribute 2” to the evaluation criterion data.
【0010】本発明に係る方法の概略を説明する。ま
ず、本発明の検索方法を具備した検索器が検索を開始す
る前に、検索過程におけるウェブページの順位付けの基
準となる評価基準データを作成し、記憶装置に保存して
おく(第1のステップ)。この評価基準データとは、ウ
ェブページを評価する際に基準となる条件であって、該
ウェブページがその条件を満たしているかどうかの判定
アルゴリズムのあるもの、または該ウェブページがその
条件を満たしている程度を数値若しくはベクトルで計算
するアルゴリズムのあるものであれば何を用いても構わ
ない。この評価基準データによる該ウェブページの判定
結果、あるいは、該ウェブページがこの評価基準データ
を満たしている程度を示す数値若しくはベクトルのこと
を、以下では便宜上、「ウェブページの評価」という。
また、この評価基準データのデータ形式は、前記検索器
が利用可能な形式であればよい。検索過程において、前
記評価基準データは、検索対象についてのユーザーの関
心を記述するデータとして機能する。すなわち、評価基
準データに照らして評価の高いウェブページほど、ユー
ザにとって関心の高いデータであると推定し、検索結果
の上位に位置付ける。また、前記評価基準データは、前
記検索器のユーザ自身がデータを入力する、第三者がデ
ータを入力する、あるいはソフトウェア的に自動生成す
る、などの方法で作成することができる。また、この評
価基準データは、検索開始に先立ついかなる時点で作成
しても構わない。検索のトピックごとに作成した評価基
準データを記憶装置に適宜保存しておくことにより、同
一トピックで検索するときに該評価基準データを読み出
して簡便に再利用することができる。この評価基準デー
タは、勿論個人で利用してもよいし、ネットワーク上で
第三者と共有して利用してもよい。The outline of the method according to the present invention will be described. First, before a searcher equipped with the search method of the present invention starts a search, evaluation criterion data serving as a criterion for ranking web pages in a search process is created and stored in a storage device (first example). Steps). This evaluation criterion data is a condition that becomes a criterion when evaluating a web page, and includes a determination algorithm for determining whether the web page satisfies the condition, or a condition that the web page satisfies the condition. Any algorithm may be used as long as it has an algorithm for calculating the degree of the numerical value or vector. The determination result of the web page based on the evaluation criterion data, or a numerical value or a vector indicating the degree to which the web page satisfies the evaluation criterion data, is hereinafter referred to as “web page evaluation” for convenience.
The data format of the evaluation criterion data may be any format that can be used by the searcher. In the search process, the evaluation criterion data functions as data describing the user's interest in the search target. That is, a web page with a higher evaluation in the light of the evaluation reference data is estimated to be data of higher interest to the user, and is ranked higher in the search results. Further, the evaluation reference data can be created by a method of inputting data by a user of the searcher, inputting data by a third party, or automatically generating the data by software. Further, the evaluation criterion data may be created at any time prior to the start of the search. By appropriately storing the evaluation criterion data created for each search topic in a storage device, the evaluation criterion data can be read out and easily reused when searching for the same topic. This evaluation criterion data may, of course, be used by an individual or shared with a third party on a network.
【0011】前記検索器が検索を開始する前に、評価基
準データの一つを指定する(第2のステップ)。該評価
基準データの指定は、該検索器のユーザが検索器の用意
した入力画面に入力することによって行ってもよいし、
該検索器が記憶装置内の評価基準データ、若しくは通信
ネットワーク上で読み込み可能な評価基準データの中か
ら、所定のアルゴリズムにしたがって自動選択すること
によって行ってもよい。たとえば、後述するように検索
条件が指定される第3のステップの後で、その検索条件
と関係の最も関係の深いトピックの評価基準データをプ
ログラム的に自動選択してもよい。具体的には、個々の
評価基準データを、それぞれのトピックを表すファイル
名称で保存しておき、単一のキーワードから構成される
検索条件が、トピック名称と同一である場合に、当該ト
ピック名称の評価基準データを自動的に選択する、など
の方法がある。[0011] Before the searcher begins searching, specifying one of the evaluation criteria data (second step). The specification of the evaluation criterion data may be performed by the user of the search device by inputting to an input screen prepared by the search device,
The search may be performed by automatically selecting according to a predetermined algorithm from evaluation reference data in a storage device or evaluation reference data that can be read on a communication network. For example, after a third step in which a search condition is specified as described later, evaluation reference data of a topic most closely related to the search condition may be automatically selected programmatically. Specifically, each evaluation criterion data is saved under a file name representing each topic, and when a search condition composed of a single keyword is the same as the topic name, the evaluation name of the topic name is stored. For example, there is a method of automatically selecting evaluation reference data.
【0012】前記検索器のユーザが検索条件を入力する
(第3のステップ)。この検索条件とは、前記評価基準
データが検索の背景となる条件を定めるのに対し、検索
対象自体を指定する条件のことである。ただし、ユーザ
が評価基準データの指定によって、検索対象の指定をも
同時に行ったと考える場合には、検索条件の入力を省略
してもよい。前記検索条件は、従来の検索エンジンの場
合と同じようなキーワードの論理結合、あるいは検索器
が解釈することの可能な、その他の任意の表現形式によ
って指定することができる。たとえば、検索器が自然言
語解析の機能を持つ場合には、自然言語による検索条件
の指定が可能となる。前記検索条件が入力されると、該
検索条件と該評価基準データとから、検索過程で実際に
使用する評価基準データ(以下、便宜上、「実行時の評
価基準データ」という)を生成する。この実行時の評価
基準データの生成とは、ウェブページを評価する基準と
なる二つのデータである前記検索条件と前記評価基準デ
ータとを、ひとまとめにする作業のことにである。この
過程の詳細な説明は後述するが、たとえば、該検索条件
を一つの必須条件とみなして該評価基準データに追加す
る、という処理によってひとまとめにすることもでき
る。検索器のユーザが検索条件の入力を省略した場合に
は、前記評価基準データが同時に検索条件を定めている
ものとみなして差し支えないものと定めているから、該
評価基準データを、なんら変更を加えずにそのまま実行
時の評価基準データとして用いればよい。A user of the searcher inputs search conditions (third step). The search condition is a condition that specifies the search target itself while the evaluation criterion data determines a condition that is the background of the search. However, when it is considered that the user has also specified the search target by specifying the evaluation reference data, the input of the search condition may be omitted. The search condition can be specified by a logical combination of keywords similar to that of a conventional search engine, or any other expression form that can be interpreted by a searcher. For example, if the searcher has a function of natural language analysis, it is possible to specify search conditions in natural language. When the search condition is input, evaluation reference data actually used in the search process (hereinafter referred to as “execution evaluation reference data”) is generated from the search condition and the evaluation reference data. The generation of the evaluation reference data at the time of execution refers to an operation of putting together the search condition and the evaluation reference data, which are two data serving as a reference for evaluating a web page. Although a detailed description of this process will be described later, for example, the search condition may be regarded as one indispensable condition and added to the evaluation criterion data to be put together. If the user of the searcher omits the input of the search condition, the evaluation criterion data is determined to define the search condition at the same time. Therefore, the evaluation criterion data is not changed. Instead, it may be used as it is as the evaluation reference data at the time of execution.
【0013】ウェブページの読み込みを開始するため
に、読み込み待ちウェブページの集合を初期設定する
(第4のステップ)。ここで、以下、読み込み待ちウェ
ブページの集合を、便宜上、「読み込み待ち集合」とい
うことにする。今後読み込まれるべきウェブページのU
RLの集合を明確に指定することができるものであれ
ば、この読み込み待ち集合は、任意のデータ形式をとっ
てよい。ここで、URLとは周知のように、インターネ
ット上でウェブページを一意に指定するアドレス情報の
ことである。前記読み込み待ち集合の初期設定は、適宜
任意の手法で行ってよい。たとえば、前記第3のステッ
プでユーザが指定した検索条件を用いてYahoo!や
Googleなどに検索要求を出し、その検索結果の上
位50件のURLを読み込み待ち集合とすることによっ
て行うことができる。In order to start reading a web page, a set of web pages waiting to be read is initialized (fourth step). Here, hereinafter, a set of web pages waiting to be read will be referred to as a “ready set” for convenience. U of web page to be loaded in the future
As long as the set of RLs can be clearly specified, the set waiting to be read may take any data format. Here, the URL is, as is well known, address information that uniquely specifies a web page on the Internet. The initialization of the set waiting for reading may be appropriately performed by an arbitrary method. For example, using the search condition specified by the user in the third step, Yahoo! Or a search request to Google or the like, and the top 50 URLs of the search result are set as a read waiting set.
【0014】前記読み込み待ち集合から、前記実行時の
評価基準データに基づいて計算した評価の最も高いウェ
ブページを次の読み込み対象として選択する(第5のス
テップ)。ここでの評価の計算は、該ウェブページを実
際に読み込む前に、該ウェブページに関して入手可能な
情報に基づいて行う他にない。たとえば、前記第4のス
テップで検索エンジンを利用して初期設定した読み込み
待ち集合に含まれるウェブページの場合は、検索結果に
おける順位若しくはスコアをそのまま利用することもで
きる。これより一般的な場合は、該ウェブページが後述
の第7のステップにおいて読み込み待ち集合に追加され
た場合であるが、これについては第7のステップについ
て説明する箇所で後述する。The web page with the highest evaluation calculated based on the evaluation reference data at the time of execution is selected as the next read target from the read waiting set (fifth step). The calculation of the rating here has to be based on information available about the web page before actually reading the web page. For example, in the case of a web page included in the set waiting to be read which is initially set by using the search engine in the fourth step, the ranking or score in the search result can be used as it is. A more general case is a case where the web page is added to the set waiting to be read in a seventh step described later, which will be described later in a section describing the seventh step.
【0015】前記第5のステップで選択されたウェブペ
ージを読み込む(第6のステップ)。該ウェブページの
読み込みを開始したら、該ウェブページを前記読み込み
待ち集合から除去する。検索の効率を上げるため、該ウ
ェブページを読み込んでいる最中に、前記第5のステッ
プ及び前記第6のステップを次々と繰り返して、複数の
ウェブページを同時に読み込むようにするとよい。これ
は、コンピュータのマルチスレッド機能若しくは複数マ
シンを利用して実現することができる。ここでコンピュ
ータのマルチスレッド機能とは、一つのプログラムの中
で複数の処理を並行的に行うことを可能にするコンピュ
ータの機能のことであり、一つの処理が滞っているとき
には別の処理に計算資源を使用するように制御できるた
め、効率的なプログラムを作成することができる。たと
えばJavaなどのプログラミング言語を用いて、マル
チスレッド機能を利用したプログラムを比較的容易に作
成することができる。The web page selected in the fifth step is read (sixth step). When the reading of the web page is started, the web page is removed from the set waiting for reading. In order to improve the efficiency of the search, the fifth step and the sixth step may be repeated one after another while reading the web page, so that a plurality of web pages are read simultaneously. This can be realized by using a multi-thread function of a computer or a plurality of machines. Here, the multi-thread function of a computer is a function of the computer that enables multiple processes to be performed in parallel in one program, and when one process is delayed, it is calculated in another process. Since the resource can be controlled to be used, an efficient program can be created. For example, using a programming language such as Java, a program using a multi-thread function can be created relatively easily.
【0016】前記第6のステップで読み込んだウェブペ
ージには、一般に、複数のリンクが掲載されているが、
それらのリンクが参照するウェブページのうち、今後読
み込む候補であるウェブページを新たに読み込み待ち集
合に追加する(第7のステップ)。ここでウェブページ
内のリンクとは、周知のように、該ウェブページ内に記
述された別のウェブページへの参照であり、たとえば、
Internet Explorer(マイクロソフ社
の商標)などのブラウザー上に表示されたリンクをマウ
スでクリックすると、該リンクの参照先であるウェブペ
ージが該ブラウザー上に自動的に読み込まれて表示され
る、といった仕方で用いられるものである。一つのウェ
ブページが読み込む候補であることは、様々な仕方で判
定してよい。たとえば、単に該ウェブページをまだ読み
込んでいない、という条件で読み込む候補とすることも
できるし、該ウェブページの内容についての手がかりを
なんらかの仕方で入手した上で、該ウェブページが検索
対象として有望であるか判定し、有望であった場合のみ
読み込み待ち集合に追加するようにしてもよい。一例と
して、一つのウェブページ上のリンクは、そのウェブペ
ージの内容と関連のあるウェブページを参照するもので
あることが多いという性質を利用して、前記実行時の評
価基準データによって高く評価されたウェブページのリ
ンクが参照するウェブページは、それ自体が検索対象と
して有望であると推定する方法もある。前記第7のステ
ップで読み込み待ち集合に追加されたウェブページにつ
いては、そのウェブページを参照するリンクを掲載して
いたウェブページ(読み込み済みのウェブページ)を利
用して、前記第5のステップにおける評価を行う。すな
わち、該ウェブページ(読み込み待ちのウェブページ)
を参照するリンクがいかなる意味内容を示しているかの
情報を、リンクを有しているウェブページ(読み込み済
みのウェブページ)の記述から解析し、その解析結果に
ついて前記実行時の評価基準データに基づいて評価を計
算し、その計算値を該ウェブページの評価とする。この
解析および評価の具体的な実施例については、発明の実
施の箇所で後述する。The web page read in the sixth step generally contains a plurality of links.
Among the web pages referred to by those links, a web page that is a candidate to be read in the future is newly added to the set waiting to be read (seventh step). Here, the link in the web page is, as is well known, a reference to another web page described in the web page.
When a link displayed on a browser such as Internet Explorer (trademark of Microsoft Corporation) is clicked with a mouse, a web page referred to by the link is automatically read and displayed on the browser. What is used. Whether one web page is a candidate to be read may be determined in various ways. For example, the web page may be simply a candidate to be read on condition that the web page has not been read yet, or after obtaining a clue about the content of the web page in some way, the web page is promising as a search target. It may be determined whether or not there is, and only when it is promising, may be added to the read waiting set. As an example, a link on one web page is highly evaluated by the evaluation criterion data at the time of execution by utilizing the property that a link on a web page is often referred to a web page related to the content of the web page. There is also a method of presuming that the web page referred to by the link of the web page is a promising search target. With respect to the web page added to the set waiting to be read in the seventh step, the web page (the loaded web page) on which the link referring to the web page has been posted is used in the fifth step. Perform an evaluation. That is, the web page (the web page waiting to be read)
Is analyzed from the description of the web page (the loaded web page) having the link, based on the evaluation criteria data at the time of execution. And calculate the evaluation, and use the calculated value as the evaluation of the web page. Specific examples of the analysis and evaluation will be described later in the section of the embodiment of the invention.
【0017】前記第6のステップで読み込み済みのウェ
ブページの評価を、前記実行時の評価基準データに基づ
いて計算する(第8のステップ)。該検索器のユーザの
便宜のため、読み込み済みのウェブページの集合を、そ
の評価の高い順にリスト表示できるようにするとよい。
さらに、リスト表示された個々のウェブページについ
て、タイトル、要約、評価などの属性情報を簡単に参照
できるようにしておくと便利である。The evaluation of the web page read in the sixth step is calculated based on the evaluation reference data at the time of execution (eighth step). For the convenience of the user of the searcher, a set of loaded web pages may be displayed in a list in descending order of evaluation.
Further, it is convenient to be able to easily refer to attribute information such as titles, summaries, and evaluations of individual web pages displayed in a list.
【0018】このように、本発明によれば、検索におけ
る条件設定の問題に着目し、検索のトピックごとにきめ
細かな対応が可能な評価基準データを考え、記憶装置に
保存しておくことによってこれを簡便に再利用可能と
し、この評価基準データに基づいてウェブページの検索
対象としての有望性を判定し、有望なウェブページを優
先的に読み込んで検索するようにしたので、従来の検索
エンジンでは不可能であった詳細な条件設定を簡便に行
うことができ、無関係なウェブページを避けて高い効率
で検索でき、また、専用のデータベースが不要であり、
多大なコストと時間を要する人手に頼る面倒もなく、し
たがって一般ユーザが簡便かつ的確にウェブページを検
索するために最適である、等々の優れた効果を奏する。As described above, according to the present invention, attention is paid to the problem of condition setting in search, and evaluation reference data capable of finely handling each search topic is considered and stored in a storage device. Is easily reusable, and based on this evaluation criterion data, the potential of a web page as a search target is determined, and a promising web page is read first and searched. You can easily set detailed conditions that were impossible, search with high efficiency by avoiding irrelevant web pages, and do not need a dedicated database,
There is no need to rely on manual labor that requires a great deal of cost and time, and therefore, it has excellent effects such as being optimal for a general user to easily and accurately search a web page.
【0019】ところで、検索器のユーザが、自分の関心
を正確に反映しない評価基準データを作成して検索を要
求したために、検索結果がユーザにとって不満足になる
場合が十分あり得る。この問題に対処するために、該検
索結果を利用して、ユーザの関心を正確に反映するよう
に、該評価基準データの内容を適応更新するとよい。す
なわち、ユーザが不満足と考えたウェブページが持つ望
ましくない属性を、所定のアルゴリズムを用いて特定し
た後、「当該属性を持たない」という条件を該評価基準
データに追加する、というステップを更に具備するもの
とする。また、後述するように、ユーザが満足したウェ
ブページから「望ましい属性」を抽出することによっ
て、前記評価基準データを、ユーザの関心をより的確に
反映させるように更新することもできる。以上のように
評価基準データを自動的に適応更新する際に、不適切な
更新となる恐れをなくすためには、当該更新前にユーザ
に更新の確認をとるステップを更に具備するとよい。By the way, since the user of the searcher has made a search request by creating evaluation reference data that does not accurately reflect his / her interest, the search result may be unsatisfactory to the user. To address this problem, the content of the evaluation criterion data may be adaptively updated using the search result so as to accurately reflect the user's interest. That is, the method further includes a step of specifying an undesired attribute of the web page which the user considers unsatisfactory by using a predetermined algorithm, and then adding a condition of “not having the attribute” to the evaluation criterion data. It shall be. In addition, as described later, by extracting “desired attributes” from a web page satisfied by the user, the evaluation criterion data can be updated so as to more accurately reflect the interests of the user. As described above, when the evaluation reference data is automatically and adaptively updated, it is preferable to further include a step of confirming the update with the user before the update in order to eliminate the possibility of an inappropriate update.
【0020】ユーザが複数のトピックに関心を持ち、そ
れぞれのトピックについて評価基準データを有している
とき、本発明の検索方法を利用して、ブラウザーのブッ
クマーク(マイクロソフ社のInternet Exp
lorerでは「お気に入り」と呼ばれる)の自動更新
を行うことも可能となる。たとえば、全てのトピックに
ついて定期的に自動検索を行い、その検索結果上位30
件がブックマークにおける該トピックのフォルダの構成
要素となるようにブックマークを更新すれば十分であ
る。具体的には、ブックマークは特殊な形式のファイル
としてコンピュータに保存されているため、このファイ
ルに関する更新処理を行えばよい。このようなブックマ
ークの自動更新機能への応用は、検索結果の的確さに依
存した応用例であって、従来の検索エンジンによる検索
結果のようにユーザの関心と無関係なウェブページが多
い場合には、該検索結果はそのままブックマークとして
使うには不適である。When the user is interested in a plurality of topics and has evaluation criteria data for each topic, the search method of the present invention is used to bookmark the browser (Internet Exp. Of Microsoft Corporation).
It is also possible to perform automatic updating of the "favorite" in the lorer. For example, an automatic search is periodically performed for all topics, and the top 30 search results are obtained.
It is sufficient to update the bookmark so that the matter is a component of the topic's folder in the bookmark. Specifically, since the bookmark is stored in the computer as a file in a special format, an update process for this file may be performed. Such an application to the automatic update function of the bookmark is an application example depending on the accuracy of the search result, and when there are many web pages irrelevant to the user's interest like the search result by the conventional search engine, However, the search result is not suitable for use as a bookmark as it is.
【0021】本発明は、方法の発明として実施できるの
みならず、該方法に係るプログラムを記憶した記憶媒体
の形態で実施することができる。すなわち、本発明に係
るコンピュータ読み取り可能な記憶媒体は、評価基準デ
ータに基づくウェブページの検索方法を前記コンピュー
タに実行させるためのプログラムを記憶しており、この
プログラムは、ウェブページを評価するための基準とな
る再利用可能な評価基準データを、ユーザ若しくは第三
者が作成する第1のステップと、すでに作成されている
再利用可能な評価基準データの中から、検索のトピック
に該当する評価基準データを指定する第2のステップ
と、この記憶媒体のユーザが検索条件を入力することに
よって実行時の評価基準データを決定する第3のステッ
プと、ウェブページの読み込みを開始する時点での、読
み込み待ちウェブページの集合を設定する第4のステッ
プと、読み込み待ちウェブページの集合から、実行時の
評価基準データに基づいて計算された評価の最も高いウ
ェブページを次の読み込み対象として選択する第5のス
テップと、選択されたウェブページを読み込む第6のス
テップと、読み込んだウェブページ内のリンクが参照す
るウェブページのうち、今後読み込む候補であるウェブ
ページを読み込み待ちウェブページの集合に追加する第
7のステップと、読み込み済みのページの評価を、実行
時の評価基準データに基づいて計算する第8のステップ
とを具備する。The present invention can be implemented not only as a method invention but also in the form of a storage medium storing a program according to the method. That is, the computer-readable storage medium according to the present invention stores a program for causing the computer to execute a web page search method based on evaluation criterion data, and the program includes a program for evaluating a web page. A first step in which a user or a third party creates reusable evaluation criterion data as a reference, and an evaluation criterion corresponding to a search topic from among the reusable evaluation criterion data already created. A second step of designating the data, a third step of determining the evaluation reference data at the time of execution by the user of the storage medium by inputting search conditions, and reading at the time of starting reading the web page From the fourth step of setting a set of waiting web pages and a set of waiting web pages, A fifth step of selecting a web page with the highest rating calculated based on the evaluation criterion data as a next read target, a sixth step of reading the selected web page, and a link in the read web page. A seventh step of adding a web page that is a candidate to be read in the future to the read web page to a set of web pages waiting to be read, and calculating an evaluation of the loaded page based on the evaluation reference data at the time of execution. 8 steps.
【0022】[0022]
【発明の実施の形態】以下、本発明の一実施形態を添付
図面に基づき詳細に説明する。図1は本発明に係るウェ
ブページの検索方法の原理を説明する機能ブロック図で
あり、ブロック10はインターネット上で読み込み可能
な情報源、若しくはその情報源を記憶しているコンピュ
ータを示し、ブロック20は検索器、すなわち本発明の
検索方法を具備した機器を示す。検索器20のブロック
においては、ウェブページの検索のために実行される処
理を機能ブロックによって概念的に示している。後述す
るように、これらの機能ブロックの中には適宜省略して
もよいものもある。また、以下述べる例では各機能ブロ
ックが別々に構成されるものとしているが、一体的に構
成されていてもよい。DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described below in detail with reference to the accompanying drawings. FIG. 1 is a functional block diagram illustrating the principle of a method for searching a web page according to the present invention. Block 10 indicates an information source readable on the Internet, or a computer storing the information source. Denotes a searcher, that is, a device provided with the search method of the present invention. In the block of the searcher 20, the processing executed for searching the web page is conceptually shown by functional blocks. As will be described later, some of these functional blocks may be appropriately omitted. Further, in the example described below, each functional block is configured separately, but may be configured integrally.
【0023】図2は、本発明に係る検索方法に従う検索
プログラムの一例を示すフロー図であり、以下このフロ
ー図に沿って説明する。まず、ウェブページの検索に先
立って、ウェブページの順位付けのための評価基準デー
タを作成しておく(ステップST1)。ここでウェブペ
ージとは、周知のようにインターネットから読みとり可
能でブラウザーによって表示可能な文書のことである。
ウェブページには文章の他に、画像などのマルチメディ
アファイルを掲載することができる。また、ここでウェ
ブページの順位付けとは、後述のようにウェブページを
読み込む際の優先順位を定めること、若しくは読み込ん
だウェブページをリスト表示するときの順位を定めるこ
とを意味する。FIG. 2 is a flowchart showing an example of a search program according to the search method according to the present invention, and the following description will be made with reference to this flowchart. First, prior to a search for a web page, evaluation reference data for ranking web pages is created (step ST1). Here, a web page is a document that can be read from the Internet and displayed by a browser, as is well known.
In addition to text, multimedia files such as images can be posted on web pages. Here, the ranking of the web pages means to determine the order of priority when reading the web pages or to determine the order when displaying the loaded web pages in a list as described later.
【0024】図3は、評価基準データに基づくウェブペ
ージおよびリンクの評価方法の一例を示す略図である。
前述のように、評価基準データとは、ウェブページを評
価する基準となる条件を記述したデータであって、特定
のウェブページがその条件を満たしているかどうかの判
定アルゴリズムのあるもの、または該ウェブページがそ
の条件をどの程度満たしているかを数値若しくはベクト
ルで計算するアルゴリズムのあるものであれば何を用い
ても構わない。たとえば、「ファイルサイズが10キロ
バイト未満のウェブページである」という条件や「画像
を5つ以上含むウェブページである」という条件を考え
ることができる。図3左上の評価基準データは、評価基
準データの一例を示したものであって、キーワードのリ
ストから構成されている。この評価基準データの各キー
ワードについては、必須性と重みを設定することが可能
である。ここで必須性とは、ウェブページがそのキーワ
ードを含む必要があるかどうかを定める条件のことであ
り、必須が否かの二通りの指定ができる。また、ここで
重みとは、そのキーワードの重要性の指標となる数値で
あって、ウェブページが当該キーワードを含んでいるこ
とが、ウェブページの評価にどの程度寄与するかを定め
る条件のことである。この重みを利用した評価の計算方
法は後述する。前記評価基準データの一例は、たとえ
ば、トピック「音楽」に関する評価基準データとしてコ
ンピュータに保存しておくことにより、再びトピック
「音楽」に関する検索を行う場合に、再利用することが
できる。また、この例ではキーワードが3つしかない
が、前述したように本発明の検索方法が真価を発揮する
のはキーワードの個数が数十から百以上にものぼるよう
な複雑な評価基準データを使用する場合である。FIG. 3 is a schematic diagram showing an example of a method for evaluating a web page and a link based on the evaluation reference data.
As described above, the evaluation criterion data is data describing a condition that is a criterion for evaluating a web page, and includes a determination algorithm for determining whether or not a specific web page satisfies the condition, or Any algorithm may be used as long as there is an algorithm for calculating how much the page satisfies the condition using a numerical value or a vector. For example, a condition that “the web page has a file size of less than 10 kilobytes” or a condition that “the web page includes five or more images” can be considered. The evaluation reference data at the upper left of FIG. 3 is an example of the evaluation reference data, and is composed of a list of keywords. For each keyword of the evaluation criterion data, it is possible to set the necessity and weight. Here, the necessity is a condition for determining whether or not the web page needs to include the keyword, and two types of necessity can be specified. Here, the weight is a numerical value that is an index of the importance of the keyword, and is a condition that determines how much the inclusion of the keyword in the web page contributes to the evaluation of the web page. is there. A method of calculating the evaluation using the weight will be described later. An example of the evaluation criterion data is stored in a computer as evaluation criterion data on the topic “music”, so that it can be reused when a search on the topic “music” is performed again. Also, in this example, there are only three keywords. However, as described above, the search method of the present invention shows its true value using complex evaluation standard data in which the number of keywords ranges from tens to hundreds or more. This is the case.
【0025】図3の右上のは、前記評価基準データの
一例を利用した場合の、ウェブページの評価方法の一例
を概念的に示したものである。もし、該ウェブページが
必須条件を満たさなければ(すなわち、必須指定のキー
ワード「音楽」を含まなければ)、ただちに評価=0.
0とする。必須条件をみたすウェブページについては、
各キーワードごとに該ウェブページにおける当該キーワ
ードの出現回数Sをカウントし、所定の単調増加関数f
を利用して関数値f(S)を計算し、そのキーワードの
重みWとの積、すなわちW×f(S)を計算する。そし
て、この計算値を全てのキーワードについて合計した数
値 Σ{W×f(S)}を、該ウェブページの評価とす
る。つまり、関数fが単調増加のためにキーワードを多
く含むほど評価が高く、また、Wとの積をとっているた
めに重みの大きなキーワードを含むほど評価が高くな
る、という性質の計算方法である。The upper right part of FIG. 3 conceptually shows an example of a web page evaluation method when an example of the evaluation reference data is used. If the web page does not satisfy the required condition (that is, does not include the required keyword “music”), the rating = 0.
Set to 0. For web pages that meet the requirements,
The number of appearances S of the keyword on the web page is counted for each keyword, and a predetermined monotonically increasing function f
Is used to calculate the function value f (S), and the product of the keyword with the weight W, that is, W × f (S) is calculated. Then, a numerical value {W × f (S)} obtained by summing the calculated values for all the keywords is used as the evaluation of the web page. In other words, the calculation method has a property that the evaluation is higher as the function f includes more keywords due to monotonic increase, and the evaluation is higher as the function f includes a keyword having a larger weight because it takes a product with W. .
【0026】前述したようなキーワードの重み付きの検
索条件指定ができないことが、従来の検索エンジンの限
界の一つとなっている。たとえば、音楽の著作権保護に
興味を持つユーザがいたとし、このユーザがキーワード
「音楽」とキーワード「著作権」で検索する場合、著作
権にはごく僅かしか触れていない音楽ファン向けのウェ
ブページであっても、該検索条件によく該当してしま
う。しかし、本発明の一例として前述した評価基準デー
タを用いて、キーワード「音楽」を必須かつ重み1.
0、キーワード「著作権」を必須かつ重み9.0と指定
すれば、著作権に重きを置いたページほど高く評価され
るため、より的確な検索結果を期待できる。One of the limitations of the conventional search engine is that it is not possible to specify a search condition with a keyword weight as described above. For example, if a user is interested in protecting the copyright of music, and this user searches for the keyword "music" and the keyword "copyright", a web page for music fans who only touches the copyright very little Even so, the search condition is well matched. However, using the above-described evaluation reference data as an example of the present invention, the keyword “music” is indispensable and has a weight of 1.
If 0 and the keyword “copyright” are required and the weight is specified as 9.0, the page that places more importance on the copyright is highly evaluated, so that a more accurate search result can be expected.
【0027】図3のステップST1における評価基準デ
ータの作成は、適宜の方法で行えばよい。たとえば、流
通しているテキストエディタ(文書ファイルの編集プロ
グラム)若しくはバイナリエディタ(二進ファイルの編
集プログラム)を利用して、評価基準データを記述した
ファイルを直接に編集する手段も考えられる。しかし、
評価基準データが複雑な形式を有する場合には、流通エ
ディタで作成・編集するのは面倒であるため、検索器自
体が評価基準データを簡便に編集するための機能を具備
するとよい。図1における評価基準データ編集器21の
ブロックは、この作成・編集処理を概念的に示すもので
ある。The creation of the evaluation reference data in step ST1 of FIG. 3 may be performed by an appropriate method. For example, it is also conceivable to use a distributed text editor (program for editing a document file) or a binary editor (program for editing a binary file) to directly edit a file describing evaluation reference data. But,
When the evaluation criterion data has a complicated format, it is troublesome to create and edit the evaluation criterion data with the distribution editor. Therefore, it is preferable that the searcher itself has a function for easily editing the evaluation criterion data. The block of the evaluation criterion data editor 21 in FIG. 1 conceptually shows the creation / edit processing.
【0028】次に、検索で利用する評価基準データを指
定する(ステップST2)。指定する評価基準データ
は、検索器内部に保存されているもの(図1のブロック
21のすぐ下に位置する楕円で図示)でもよいし、ある
いは、インターネットから読みとり可能なもの(図1の
ブロック10内の右側に位置する楕円で図示)であって
もよい。また、その評価基準データの作成者が誰であっ
ても構わない。図1における評価基準データ選択器22
のブロックは、この指定処理を概念的に示すものであ
る。この指定処理は、プログラムが提供する入力画面か
ら検索器のユーザが入力することによって行ってもよい
し、あるいは、他の任意の方法で行ってよい。要は、検
索開始に先立って、検索で利用する評価基準データを一
つ定めれば十分である。Next, the evaluation reference data used in the search is specified (step ST2). The specified evaluation criterion data may be data stored inside the searcher (illustrated by an ellipse located immediately below block 21 in FIG. 1), or data readable from the Internet (block 10 in FIG. 1). (Illustrated by an ellipse located on the right side of the inside). Also, the creator of the evaluation reference data may be anyone. Evaluation criteria data selector 22 in FIG.
Block conceptually shows this designation processing. This designation process may be performed by the user of the searcher inputting from an input screen provided by the program, or may be performed by another arbitrary method. In short, it is sufficient to determine one evaluation criterion data to be used in the search before starting the search.
【0029】次に、検索条件の入力と実行時の評価基準
データの生成を行う(ステップST3)。図1の検索条
件入力器23のブロックは、検索条件の入力処理を概念
的に示すものであり、このブロック23から出る矢印が
指している「実行時の評価基準データ」の楕円状図形
は、ステップST3で生成された評価基準データを概念
的に示すものである。なお、前述したように、検索器の
ユーザが、ステップST2で指定した評価基準データを
もって検索条件をも兼ねるものと考えた場合には、ステ
ップST3は省略可能であり、実行時の評価基準データ
として、ステップST2で指定した評価基準データその
ものを用いればよい。検索条件の入力形式は、前記検索
条件入力器の解釈可能な形式であればよい。ここで解釈
可能であるとは、検索器がウェブページについて該検索
条件を満たすかどうか、若しくはどの程度満たすかを判
定するアルゴリズムを持っていることである。たとえ
ば、該検索条件入力器がキーワードの論理結合を解釈可
能であるということは、「モーツァルト AND レク
イエム」という検索条件を入力することができ、しかも
該検索器が、与えられたウェブページが「モーツァル
ト」と「レクイエム」という二つのキーワードを両方と
も含むかどうかを判定する機能を持つことを意味する。Next, search conditions are input and evaluation reference data at the time of execution are generated (step ST3). The block of the search condition input device 23 in FIG. 1 conceptually shows the input process of the search condition. The elliptical figure of “evaluation reference data at the time of execution” indicated by the arrow coming out of the block 23 is: This conceptually shows the evaluation reference data generated in step ST3. As described above, if the user of the searcher considers that the evaluation reference data specified in step ST2 also serves as a search condition, step ST3 can be omitted, and the evaluation reference data at the time of execution can be omitted. The evaluation reference data itself specified in step ST2 may be used. The input format of the search condition may be any format that can be interpreted by the search condition input device. Here, being interpretable means that the searcher has an algorithm for determining whether or not the web page satisfies the search condition. For example, the fact that the search condition input device is capable of interpreting the logical combination of keywords means that a search condition of “Mozart AND Requiem” can be input, and the search device provides a “Mozart AND Requiem” "And" Requiem "have the function of determining whether or not both keywords are included.
【0030】なお、上記ステップST3は必ずしもステ
ップST2の後で行う必要はなく、ステップST2と同
時に、若しくはステップST2の前に行ってもよい。た
とえば、検索器のユーザによる検索条件入力(ステップ
ST3の一例)の後で、検索器が該検索条件と最も関係
の深いトピックの評価基準データを自動的に指定する
(ステップST2の一例)、などの処理手順を踏んでも
構わない。評価基準データと検索条件は、どちらもウェ
ブページの評価の基準となる点では、内容的に明確な区
別があるわけではなく、むしろ検索処理手順の運用上の
役割によって区別される。すなわち、前述のように、評
価基準データは検索の背景を指定し、通常は多数の条件
から構成される、再利用可能なデータであり、一方、検
索条件は検索対象を指定し、通常は少数の条件から構成
される、使い捨てのデータである。検索過程でウェブペ
ージを評価する際には、これら二種類のデータに基づ
き、一つの評価がなされる。言い換えると、検索の実行
時には、これら二種類のデータは全体として一つの評価
基準として機能することになる。この一つの評価基準
は、それに基づいてウェブページの評価を計算できるも
のでなければならないから、定義により、それ自体が一
つの評価基準データでもある。これが、前述した実行時
の評価基準データに他ならない。ただし、必ずしも検索
条件と評価基準データを統合した新しい実体を記憶装置
内に作成することを要するものではなく、検索器内部で
は常に検索条件と評価基準データを別個に管理しておく
ことも可能である。しかし、この実行時の評価基準デー
タを、検索終了までの一時的なデータとして、該検索条
件及び評価基準データとは別個に作成・保存しておく方
が、多くの場合に適していると考えられる。これは、検
索条件と評価基準データという二つの評価基準を一つに
まとめてしまうことによって、プログラム的に扱いやす
くなるだけでなく、ハードディスクとメインメモリとい
う、コンピュータの二種類の記憶装置の特徴のためであ
る。すなわち、長期間保存し、再利用し、多数保存する
ための記憶容量を必要とする評価基準データは、容量が
大きく長期保存に適したハードディスク内のファイルと
して保存するとよい。一方、一時的に利用するだけで、
再利用せず、必要な記憶容量が僅かであるが、データの
高速な読みとりが必要となる実行時の評価基準データ
は、容量は小さいが高速なアクセスが可能なメインメモ
リ内のデータとして保持するとよい。このような観点か
らは、ハードディスク内の評価基準データと、入力され
た検索条件とを足し合わせて、メインメモリ内に実行時
の評価基準データを生成する、という実施形態をとるの
が得策であるといえる。また、ハードディスク内の評価
基準データと、実行時の評価基準データとは必ずしも同
一形式の評価基準データである必要はないが、同一にし
ておけばプログラム的な扱いが容易になるという利点が
ある。The step ST3 need not always be performed after the step ST2, but may be performed simultaneously with the step ST2 or before the step ST2. For example, after the search condition input by the user of the searcher (an example of step ST3), the searcher automatically specifies the evaluation reference data of the topic most closely related to the search condition (an example of step ST2). May be followed. The evaluation criterion data and the search conditions do not have a clear distinction in content in that both serve as the criterion for the evaluation of the web page, but rather are distinguished by the operational role of the search processing procedure. That is, as described above, the evaluation criterion data specifies the background of the search, and is usually reusable data composed of a large number of conditions, while the search condition specifies the search target and is usually a small Is disposable data composed of the following conditions. When evaluating the web page in search process, based on these two types of data, one of the evaluation is made. In other words, when the search is executed, these two types of data function as one evaluation criterion as a whole. Since this one evaluation criterion must be able to calculate the evaluation of the web page based on it, it is, by definition, itself one evaluation criterion data. This is nothing but the evaluation reference data at the time of execution described above. However, it is not always necessary to create a new entity integrating the search conditions and the evaluation reference data in the storage device. It is also possible to always manage the search conditions and the evaluation reference data separately inside the searcher. is there. However, it is considered that in many cases, it is appropriate to create and store the evaluation reference data at the time of execution as temporary data until the end of the search separately from the search conditions and the evaluation reference data. Can be This is because the two evaluation criteria of the search condition and the evaluation reference data are combined into one to make it easier to handle programmatically, as well as the characteristics of the two types of storage devices of the computer, the hard disk and main memory. That's why. That is, the evaluation reference data that requires a storage capacity for long-term storage, reuse, and storage of a large number may be stored as a file in a hard disk that has a large capacity and is suitable for long-term storage. On the other hand, just use temporarily,
The evaluation reference data at the time of execution that does not reuse and requires a small amount of storage capacity but requires high-speed reading of data is stored as data in the main memory that is small in size but can be accessed at high speed. Good. From such a viewpoint, it is advisable to take an embodiment in which the evaluation reference data in the hard disk and the input search condition are added to generate the evaluation reference data at the time of execution in the main memory. It can be said that. Further, the evaluation reference data in the hard disk and the evaluation reference data at the time of execution do not necessarily have to be evaluation reference data in the same format.
【0031】実行時の評価基準データを決定したら、次
に、読み込み待ち集合を初期設定する(ステップST
4)。前述したように、この初期設定は、たとえばYa
hoo!やGoogleなどの検索エンジンを利用して
行うことができる。たとえば、検索器のユーザが「モー
ツァルト AND レクイエム」という検索条件を指定
したとき、まずYahoo!に該検索条件での検索要求
を行い、検索結果から上位20件のウェブページを抽出
して、読み込み待ち集合とすればよい。この例は、容易
に純プログラム的に(ユーザの介入なしに)実現可能で
ある。After the evaluation reference data at the time of execution is determined, a set waiting to be read is initialized (step ST).
4). As described above, the initial setting is, for example, Ya
hoo! And a search engine such as Google. For example, when the searcher user specifies a search condition of “Mozart AND Requiem”, first, Yahoo! Then, a search request is made under the search condition, and the top 20 web pages are extracted from the search result, and the web page may be set as a read waiting set. This example can easily be implemented purely programmatically (without user intervention).
【0032】次に、前記読み込み待ち集合から最も評価
の高いウェブページを選択する(ステップST5)。図
1の読み込み対象選択器24のブロックは、この選択処
理を概念的に示したものである。このステップST5
は、図2のフロー図から分かるように、ステップST
6、ST7、ST9とループを形成している。ステップ
ST4の直後のステップST5の処理と、該ループを循
環してきた後のステップST5の処理とでは、次に述べ
るように様相が若干相違する。ステップST4の直後で
は、読み込み待ち集合に属するウェブページについて、
評価の手がかりとなる情報が限られている。たとえば、
前述の例のようにYahoo!などの検索エンジンのデ
ータベースが提供する情報である。したがって、おのず
とウェブページの評価の仕方も限られる。たとえば、Y
ahoo!の検索結果の順位をそのままウェブページの
評価の順位として利用する、などの方法で最も評価の高
いウェブページを選択することになる。Next, the web page with the highest evaluation is selected from the set waiting for reading (step ST5). The block of the read target selector 24 in FIG. 1 conceptually illustrates this selection processing. This step ST5
Corresponds to step ST, as can be seen from the flowchart of FIG.
6, ST7 and ST9 form a loop. The processing in step ST5 immediately after step ST4 is slightly different from the processing in step ST5 after circulating through the loop, as described below. Immediately after step ST4, for web pages belonging to the set waiting to be read,
Limited information is available for evaluation. For example,
As in the previous example, Yahoo! Such information is provided by a search engine database. Therefore, the method of evaluating a web page is naturally limited. For example, Y
ahoo! The highest rated web page is selected by a method such as using the rank of the search result as the ranking of the web page as it is.
【0033】一方、前記第7のステップにおいて、読み
込み待ち集合の中に、実際に読み込んだウェブページ内
のリンクの参照先であるウェブページが追加された場合
には、読み込み済みのウェブページを利用して評価す
る。この評価の方法は、前述のように、読み込み済みの
ウェブページ上の記述を解析することによって行う。こ
の解析方法の一例として、リンクの前後の文章を利用す
る方法がある。すなわち、該ウェブページを参照するリ
ンクの前後の文章は、一般に該ウェブページに関係が深
いと考えられることから、該リンクおよびその前後の文
章(すなわち該リンクの近傍部分)を該ウェブページの
代替となるウェブページとみなす。そして、この仮想的
なウェブページの評価を、前記実行時の評価基準データ
に基づいて計算し、該ウェブページの評価とする。図3
のは、この評価方法を概念的に示す略図である。の
左側は、ウェブページの中にリンクが掲載されている様
子を示す概念図であり、の右側は該リンクの前後の文
章を抜き出した近傍部分を示す概念図である。ここで、
該リンクの前後の文章ということで、該リンクの記述さ
れているウェブページ上に該リンクの前後に存在するの
別のリンクを含まないように範囲を制限すると有効であ
ろう。これは、たとえば、ウェブページ画面のメニュー
や、リンク集など多くのリンクが続けて並んでいるウェ
ブページの中でのリンクは、そのリンクの前後の文章と
無関係である傾向が強いためである。前記解析方法の別
の例(改善例)として、リンク前後の文章の構造を利用
する方法がある。すなわち、該リンク自体が文字列とし
て表現されている場合にはその文字列を、画像として表
現されている場合には、その画像の記述(技術的にはH
TMLファイルのimgタグの中のalt属性に記述さ
れる文字列)を最重視するような評価アルゴリズムとす
る。また、該リンクの後の文章よりは、該リンクの前の
文章をより重視するような評価アルゴリズムとする。こ
のように、ウェブページの構造上の特徴を利用して、よ
り正確な評価のためのアルゴリズムを工夫するとよい。On the other hand, in the seventh step, when a web page to which a link in the actually read web page is referred to is added to the set waiting to be read, the read web page is used. And evaluate. This evaluation method is performed by analyzing the description on the read web page as described above. As an example of this analysis method, there is a method of using sentences before and after a link. That is, since sentences before and after a link that refers to the web page are generally considered to be closely related to the web page, the link and the sentences before and after the link (that is, a portion near the link) are substituted for the web page. Web page. Then, the evaluation of the virtual web page is calculated based on the evaluation criterion data at the time of execution, and is set as the evaluation of the web page. FIG.
Is a schematic diagram conceptually showing this evaluation method. The left side of is a conceptual diagram showing a state in which a link is posted in a web page, and the right side is a conceptual diagram showing a neighborhood extracted from sentences before and after the link. here,
As for the text before and after the link, it would be effective to limit the range so as not to include another link existing before and after the link on the web page where the link is described. This is because, for example, a link in a web page in which many links such as a menu on a web page screen and a link collection are arranged in a row tends to be unrelated to the text before and after the link. As another example (improvement example) of the analysis method, there is a method of using a sentence structure before and after a link. That is, if the link itself is represented as a character string, the character string is represented as an image, and if the link is represented as an image, the description of the image (technically, H
An evaluation algorithm that places the highest priority on the character string described in the alt attribute in the img tag of the TML file. In addition, the evaluation algorithm is such that the sentence before the link is more important than the sentence after the link. As described above, it is preferable to devise an algorithm for more accurate evaluation by utilizing the structural characteristics of the web page.
【0034】次に、読み込み待ち集合の中から選択され
たウェブページを読み込む(ステップST6)。読み込
んだウェブページは、記憶装置に一時的に保存してお
く。図1の読み込み器25のブロックは、この読み込み
処理を概念的に示したものである。ウェブページの読み
込みは、プログラム的に容易に行うことができる。ま
た、前述のように「マルチスレッド機能」を利用して読
み込み効率を向上させるとよい。この「マルチスレッド
機能」を利用する場合には、一例として、前記ステップ
ST5は、他の処理からの入力を待たずして、複数回の
処理を続けて行えばよい。あるいは、別の例として、読
み込み待ち集合の中から最も評価の高いウェブページを
複数選択して、それらの読み込みを同時に開始する方法
も考えられる。Next, the web page selected from the set waiting for reading is read (step ST6). The read web page is temporarily stored in a storage device. The block of the reading unit 25 in FIG. 1 conceptually illustrates this reading processing. Reading a web page can be easily performed programmatically. As described above, the reading efficiency may be improved by using the “multi-thread function”. When the "multi-thread function" is used, for example, the step ST5 may be performed a plurality of times without waiting for an input from another process. Alternatively, as another example, a method is conceivable in which a plurality of web pages with the highest evaluation are selected from a set waiting to be read, and reading of the web pages is started simultaneously.
【0035】一つのウェブページの読み込みが完了する
と、次に、該ウェブページ内のリンクが参照するウェブ
ページのうち、今後の読み込み候補であるものを読み込
み待ち集合へ追加する(ステップST7)。図1のリン
ク追加器26のブロックは、この追加処理を概念的に示
したものである。ウェブページは一定の規則で記述され
ており、リンクを記述する書式も約束されているので、
読み込み済みのウェブページを解析することで、その中
のリンク情報をプログラム的に容易に抽出することが可
能である。このようにして抽出したリンク情報は、それ
が今後の読み込み候補として適当である場合に、適宜デ
ータ形式の変換等を行って、検索器の記憶装置内部に保
存されている読み込み待ち集合に追加すればよい。性能
的には劣化することになるが、一つのウェブページが読
み込み候補として適当か否かの判定は、省略しても構わ
ない。ただし、実際上は、一度読み込んだページを何度
も繰り返し読み込む無駄を省くために、該リンクがすで
に読み込み済みのウェブページを参照していないことを
最低限確認した上で、読み込み待ち集合に追加するとよ
い。When the reading of one web page is completed, next, among the web pages referenced by the links in the web page, those which are candidates for reading in the future are added to the waiting set for reading (step ST7). The block of the link adder 26 in FIG. 1 conceptually illustrates this addition processing. Because web pages are written according to certain rules and the format for writing links is also promised,
By analyzing the loaded web page, the link information therein can be easily extracted programmatically. If the link information extracted in this way is suitable as a future read candidate, it is subjected to data format conversion or the like as appropriate, and added to a read waiting set stored inside the storage device of the searcher. I just need. Although the performance is degraded, the determination as to whether or not one web page is appropriate as a reading candidate may be omitted. However, in practice, in order to avoid wasting reading pages once and over again, it is necessary to make sure that the link does not refer to a web page that has already been read before adding it to the waiting list. Good to do.
【0036】一つのウェブページの読み込みが終了した
ら、該ウェブページの評価を計算する(ステップST
8)。図1のページ評価器27のブロックは、この評価
計算処理を概念的に示したものである。このステップS
T8は、前記ステップST7の後で行う必要はなく、該
ウェブページの読み込み終了後の適宜の時点で行えばよ
い。また、該ウェブページの評価計算の実施例について
は、すでに図3に沿って具体的に記述した。前述のよう
に、読み込んだウェブページは、その評価の順に並べて
リスト表示できるようにするとよい。図1の検索結果リ
スト作成・表示器28のブロックは、このリスト作成・
表示処理を概念的に示したものである。なお、このよう
にして表示されたリストの項目をマウスによってクリッ
クしたときに、該項目に対応するウェブページが即座に
閲覧できるようなプログラムにしておくと便利である。
また、ユーザの便宜のために、該検索結果リストを保存
しておいて後日再び参照できるようにするとよい。When the reading of one web page is completed, the evaluation of the web page is calculated (step ST).
8). The block of the page evaluator 27 in FIG. 1 conceptually illustrates this evaluation calculation process. This step S
T8 does not need to be performed after step ST7, and may be performed at an appropriate time after the end of reading the web page. Further, the embodiment of the evaluation calculation of the web page has already been specifically described with reference to FIG. As described above, the read web pages may be displayed in a list in the order of their evaluation. The block of the search result list creation / display unit 28 in FIG.
7 is a diagram conceptually showing a display process. It is convenient to make the program such that, when the item of the displayed list is clicked with a mouse, the web page corresponding to the item can be immediately viewed.
In addition, for the convenience of the user, the search result list may be saved so that the user can refer to it again later.
【0037】ところで、インターネット上のウェブペー
ジの数は膨大(本特許出願時点で数十億といわれてい
る)であるため、上記ST5、ST6、ST7の諸ステ
ップが形成するループによるウェブページの読み込み過
程は、事実上終わりのない過程とみなせるほどである。
このような膨大なウェブページの中で、本発明の検索過
程は、事実上際限なく続けてもよい。しかし、あらかじ
め検索の終了条件を設けておいて、その条件が満たされ
たときに前記ウェブページの読み込み過程および検索過
程を終了するようにしておくことが望ましい場合が多い
であろう。その場合には、図2のステップST9のよう
に、終了条件の判定処理ステップを具備するとよい。該
終了条件が満たされない間は前述のループを繰り返す
が、該終了条件が満たされたら、たとえば最終的な検索
結果リストを表示して、検索過程の終了処理を行う。前
記終了条件としては、たとえば、一定以上の評価のウェ
ブページを発見したら終了する、一定時間検索したら終
了する、一定数のウェブページを読み込んだら終了す
る、検索結果リストの上位50件が一定時間変化しなか
ったら終了する、などの条件が有効であろう。このよう
な終了条件の設定については、検索の目的に応じて柔軟
に定めることが望ましい。そのために、ユーザが簡便に
終了条件の設定を行える機能を、検索器に追加するとよ
い。By the way, since the number of web pages on the Internet is enormous (it is said to be billions at the time of filing this patent application), reading of web pages by a loop formed by the above steps ST5, ST6 and ST7 is performed. The process can be considered a virtually endless process.
In such a huge number of web pages, the search process of the present invention may be continued virtually endlessly. However, in many cases, it is often desirable to provide a search termination condition in advance and terminate the web page reading process and the search process when the condition is satisfied. In such a case, it is preferable to include an end condition determination processing step as in step ST9 of FIG. While the end condition is not satisfied, the above-described loop is repeated. When the end condition is satisfied, for example, a final search result list is displayed, and a search process end process is performed. The termination conditions include, for example, ending when a web page with a certain rating or more is found, ending after searching for a certain time, ending after reading a certain number of web pages, and changing the top 50 items in the search result list for a certain time. Conditions such as exiting if not done will be valid. It is desirable to flexibly set such an end condition according to the purpose of the search. For this purpose, a function that allows the user to easily set the end condition may be added to the search device.
【0038】ところで、たとえユーザが自ら評価基準デ
ータを作成した場合でも、ユーザが自分自身の関心事項
を全て自覚できるとは限らないため、該評価基準データ
がユーザの関心を的確に反映していないことがあり得
る。このような不的確な評価基準データから生じる不的
確な検索に対処するために、検索結果が不満足であった
場合に、評価基準データの内容を適応的に(フィードバ
ックにより)更新するとよい。図1の評価基準データ適
応化器29のブロックは、この適応化更新処理を概念的
に示したものである。また、図4の機能ブロック図は、
この適応化更新処理の一例を示した略図である。まず、
前記検索結果リストから、ユーザが不満足なウェブペー
ジをチェックする。次に検索器は、チェックされたペー
ジにに共通する条件(すなわち、望ましくない条件)を
所定のアルゴリズムによって抽出する。そして、最後に
「当該条件を満たさないウェブページである」という条
件を該評価基準データに追加する。こうすることによ
り、この評価基準データを用いた次回以降の検索では、
該共通属性を持つ不適切なページは自動的に除外される
こととなる。逆に検索結果が満足であった場合でも、同
様な手順により、評価基準データの適応化更新処理を行
うことができる。前記複数のウェブページの共通属性を
抽出するアルゴリズムとしては、適宜の方法を用いれば
よい。たとえば、複数のウェブページが共通して含む単
語の集合を共通属性とみなす、などの方法が考えられ
る。By the way, even if the user creates the evaluation reference data by himself, the user does not always become aware of his or her own interests, so that the evaluation reference data does not accurately reflect the user's interest. It is possible. In order to cope with such inaccurate search resulting from inaccurate evaluation criterion data, the content of the evaluation criterion data may be updated adaptively (by feedback) when the search result is unsatisfactory. The block of the evaluation criterion data adaptor 29 in FIG. 1 conceptually shows this adaptation update processing. The functional block diagram of FIG.
5 is a schematic diagram illustrating an example of the adaptation update process. First,
From the search result list, a web page that the user is dissatisfied with is checked. Next, the searcher extracts conditions common to the checked pages (that is, undesired conditions) by a predetermined algorithm. Then, finally, a condition that the web page does not satisfy the condition is added to the evaluation criterion data. By doing so, in subsequent searches using this evaluation criterion data,
Inappropriate pages having the common attribute are automatically excluded. Conversely, even when the search result is satisfactory, the adaptive update processing of the evaluation reference data can be performed by the same procedure. An appropriate method may be used as an algorithm for extracting a common attribute of the plurality of web pages. For example, a method is considered in which a set of words commonly included in a plurality of web pages is regarded as a common attribute.
【0039】なお、検索器をコンピュータソフトウェア
の形態で実現する場合に、必ずしも検索器の全ての機能
を一台のコンピュータで実行する必要はなく、検索器の
種々の機能を、種々のコンピュータで分散した形態で実
行してもよい。このように分散した形態で検索機能を実
現したため、分散した個々の部分装置自体は検索装置と
はいえないような場合でも、再利用可能な評価基準デー
タを利用して、リンクを取捨選択しつつ、ウェブページ
を検索するという本発明の技術思想に含まれるものであ
れば、本発明の範囲に含まれる。また、このようにネッ
トワーク上に分散した形態で検索器を実現する際など
に、プライベートな関心事項を詳細に記述した評価基準
データを送信しなければならない場合には、プライバシ
ー保護のため、評価基準データを暗号化して扱うとよ
い。When the searcher is realized in the form of computer software, it is not always necessary to execute all functions of the searcher on one computer, and various functions of the searcher are distributed among various computers. It may be executed in the form described. Since the search function is realized in a distributed form as described above, even in a case where the dispersed individual partial devices themselves cannot be said to be a search device, it is possible to use the reusable evaluation reference data to select links. Anything that is included in the technical idea of the present invention of searching for a web page is included in the scope of the present invention. In the case of implementing a search device in a distributed form on a network as described above, when it is necessary to transmit evaluation reference data in which private interests are described in detail, in order to protect privacy, evaluation standards are required. It is good to handle the data encrypted.
【0040】前述のように分散した形態をとるだけでな
く、多大の時間を要するウェブページの検索を行う場合
は、ネットワークを介して時時刻刻と検索結果リストを
表示するには適さないことも多いと考えられる。そのよ
うな場合には、検索結果をユーザに伝達するために電子
メール、FAX、あるいはその他任意の通信手段を適宜
利用するとよい。In addition to the distributed form described above, when searching for a web page that requires a long time, it may not be suitable for displaying a time and a search result list via a network. It is thought that there are many. In such a case, e-mail, FAX, or any other communication means may be appropriately used to transmit the search result to the user.
【0041】なお、本発明は、必要とあらば、ウェブペ
ージ検索装置という専用ハードウエアの形態で実施する
ことも可能であり、その場合も本発明に従う効果・利点
を享受することができる。よって、本発明に従うウェブ
ページの検索方法を専用ハードウエア装置で実現しうる
ように構成した実施の形態も本発明の範囲に含まれる。The present invention can be implemented, if necessary, in the form of a dedicated hardware called a web page search device. In such a case, the effects and advantages according to the present invention can be enjoyed. Therefore, an embodiment in which the web page search method according to the present invention can be realized by a dedicated hardware device is also included in the scope of the present invention.
【0042】[0042]
【発明の効果】以上の通り、本発明によれば、検索にお
ける条件設定の問題に着目し、検索のトピックごとにき
め細かな対応が可能な評価基準データを考え、記憶装置
に保存しておくことによってこれを簡便に再利用可能と
し、この評価基準データに基づいて検索対象として有望
なウェブページを優先的に読み込んで検索するようにし
たので、従来の検索エンジンでは不可能であった詳細な
条件設定を簡便に行うことができ、無関係なウェブペー
ジを避けるため高い効率で検索することができ、従来の
検索エンジンに比べて的確な検索を可能とし、また、専
用のデータベースが不要であり、多大なコストと時間を
要する人手に頼る面倒もなく、したがって一般ユーザが
簡便かつ的確にウェブページを検索するために最適であ
る、等々の優れた効果を奏する。As described above, according to the present invention, attention is paid to the problem of setting conditions in a search, and evaluation reference data that can be finely handled for each search topic is considered and stored in a storage device. This makes it easy to reuse it, and based on this evaluation criterion data, we preferentially load and search for promising web pages as search targets, so detailed conditions that were not possible with conventional search engines It is easy to set up, can search with high efficiency to avoid irrelevant web pages, enables more accurate search compared to conventional search engines, and does not require a dedicated database, Without the hassle of relying on expensive and time-consuming human resources, and is therefore ideal for general users to easily and accurately search web pages. Achieve the results.
【図1】 本発明に係るウェブページの検索方法の原理
を説明する機能ブロック図。FIG. 1 is a functional block diagram illustrating the principle of a web page search method according to the present invention.
【図2】 本発明に係る検索方法に従う検索プログラム
の一例を示すフロー図。FIG. 2 is a flowchart showing an example of a search program according to a search method according to the present invention.
【図3】 評価基準データに基づくウェブページおよび
リンクの評価方法の一例を示す略図。FIG. 3 is a schematic diagram illustrating an example of a method for evaluating a web page and a link based on evaluation reference data.
【図4】 評価基準データ適応化更新処理の一例を示す
機能ブロック図。FIG. 4 is a functional block diagram showing an example of an evaluation reference data adaptation update process.
10 インターネット上で読み取り可能な情報源若しく
は該情報源を保存するコンピュータ 20 本発明に係る検索方法を具備する検索器 21 評価基準データ編集器 22 評価基準データ選択器 23 検索条件入力器 24 読み込み対象選択器 25 読み込み器 26 リンク抽出・追加器 27 ページ評価器 28 検索結果リスト作成・表示器 29 評価基準データ適応化器Reference Signs List 10 Information source readable on the Internet or computer storing the information source 20 Search device having search method according to the present invention 21 Evaluation reference data editor 22 Evaluation reference data selector 23 Search condition input device 24 Selection of reading target Unit 25 reader 26 link extraction / addition unit 27 page evaluator 28 search result list creation / display unit 29 evaluation standard data adaptor
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06F 13/00 540 G06F 13/00 540E ──────────────────────────────────────────────────続 き Continued on the front page (51) Int.Cl. 7 Identification symbol FI Theme coat ゛ (Reference) G06F 13/00 540 G06F 13/00 540E
Claims (11)
関する検索を行う際にウェブページを評価するための基
準となる、再利用可能な評価基準データを、該ユーザ若
しくは第三者が作成する第1のステップと、 すでに作成されている再利用可能な評価基準データの中
から、検索のトピックに該当する評価基準データを指定
する第2のステップと、 前記ユーザが検索条件を入力することによって実行時の
評価基準データを決定する第3のステップと、 読み込み待ちウェブページの集合を設定する第4のステ
ップと、 前記読み込み待ちウェブページの集合から、前記実行時
の評価基準データに基づいて計算された評価の最も高い
ウェブページを次の読み込み対象として選択する第5の
ステップと、 前記第5のステップで選択された該ウェブページを読み
込む第6のステップと、 前記第6のステップで読み込んだ該ウェブページ内のリ
ンクが参照するウェブページのうち、今後の読み込み候
補であるものを前記読み込み待ちウェブページの集合に
追加する第7のステップと、 読み込み済みのページの評価を、前記実行時の評価基準
データに基づいて計算する第8のステップとを具備する
ウェブページの検索方法。1. A reusable evaluation criterion data, which is used as a criterion for evaluating a web page when performing a search on a specific topic in response to a request from a user, is created by the user or a third party. A first step, a second step of specifying evaluation criteria data corresponding to a search topic from reusable evaluation criteria data that has already been created, and execution by inputting search conditions by the user A third step of determining the evaluation reference data at the time; a fourth step of setting a set of web pages waiting to be read; and calculating from the set of web pages waiting to be read based on the evaluation reference data at the time of execution. A fifth step of selecting a web page with the highest evaluation as the next reading target, and the web page selected in the fifth step. A sixth step of reading a web page, and adding a web page referred to by a link in the web page read in the sixth step, which is a future read candidate, to the set of web pages waiting to be read. A web page search method, comprising: a seventh step; and an eighth step of calculating an evaluation of the read page based on the evaluation reference data at the time of execution.
ワードのリストを含み、前記第8のステップにおいて、
ウェブページの評価が、該ウェブページがキーワードを
含む回数とともに単調に増加し、またそのキーワードの
重みとともに単調に増加するように評価の計算を行う請
求項1に記載のウェブページの検索方法。2. The evaluation criterion data includes a list of weighted keywords, and in the eighth step,
The method of claim 1, wherein the evaluation of the web page is calculated such that the evaluation monotonically increases with the number of times the web page includes a keyword and increases monotonically with the weight of the keyword.
便な検索サービスに、前記実行時の評価基準データと類
似の内容を持つ検索条件による検索を要求し、その検索
結果を読みこむステップを具備し、 前記第4のステップでは、前記検索サービスの検索結果
として列挙されたウェブページの集合を、前記読み込み
待ちウェブページの集合として設定する請求項1乃至2
に記載のウェブページの検索方法3. A step of requesting a simple search service on the Internet such as a search site to perform a search using search conditions having contents similar to the evaluation reference data at the time of execution, and reading the search result. The fourth step is to set a set of web pages listed as search results of the search service as the set of read-ready web pages.
How to search for web pages listed in
前記ユーザが評価基準データを指定しなくても、該ユー
ザが指定した検索条件から、該検索条件と最も関係の深
い評価基準データを自動的に設定する請求項1乃至3の
いずれかに記載のウェブページの検索方法。4. In the second and third steps,
4. The evaluation reference data according to claim 1, wherein even if the user does not specify the evaluation reference data, evaluation reference data most closely related to the search condition is automatically set based on the search condition specified by the user. 5. How to search web pages.
待ち集合に属するウェブページが、前記第7のステップ
において別のウェブページ上に掲載されいるリンクの参
照先として追加されたものである場合、該別のウェブペ
ージ上での該リンクの近傍の記述を解析し、その解析結
果を利用して該ウェブページの評価を行う請求項1乃至
4のいずれかに記載のウェブページの検索方法。5. In the fifth step, when a web page belonging to the set waiting to be read is added as a reference destination of a link posted on another web page in the seventh step, The web page search method according to any one of claims 1 to 4, wherein a description of the vicinity of the link on the another web page is analyzed, and the web page is evaluated using the analysis result.
価の高い順にリストとして前記ユーザに表示し、さら
に、該ユーザが該リストの一項目をマウスのクリック等
で指定することによって、瞬時に該当するウェブページ
を閲覧可能とするステップを更に具備する請求項1乃至
5のいずれかに記載のウェブページの検索方法。6. The web pages that have been read are displayed to the user as a list in descending order of evaluation, and the user specifies one item of the list by clicking a mouse or the like. The web page search method according to any one of claims 1 to 5, further comprising the step of enabling browsing of the web page.
成するループで処理が行われている最中に、検索終了条
件を適宜チェックし、該条件が満たされた場合には検索
の終了処理を行うステップをさらに具備する請求項1乃
至6のいずれかに記載のウェブページの検索方法。7. While a process is being performed in a loop formed by the fifth, sixth, and seventh steps, a search end condition is appropriately checked, and if the condition is satisfied, the search is terminated. 7. The web page search method according to claim 1, further comprising a step of performing an end process.
ユーザが簡便に設定するための入力装置をさらに具備す
る請求項7に記載のウェブページの検索方法。8. The web page search method according to claim 7, further comprising an input device for allowing the user to easily set the search end condition according to claim 7.
ウェブページ若しくは満足なウェブページを前記ユーザ
に指摘させ、それらのページの共通属性を解析し、前記
ユーザの関心をより正確に反映するために、その解析結
果を利用して該評価基準データを適応的に更新するステ
ップをさらに具備する請求項1乃至8のいずれかに記載
のウェブページの検索方法。9. To cause the user to point out unsatisfied web pages or satisfied web pages from the list of search results, analyze common attributes of those pages, and more accurately reflect the interests of the user. 9. The web page search method according to claim 1, further comprising a step of adaptively updating the evaluation criterion data using the analysis result.
であって、ウェブページの検索方法を前記コンピュータ
に実行させるためのプログラムを記憶しており、このプ
ログラムは、 ユーザの要求に応じて特定のトピックに関する検索を行
う際にウェブページを評価するための基準となる、再利
用可能な評価基準データを作成する第1のステップと、 すでに作成されている再利用可能な評価基準データの中
から、検索のトピックに該当する評価基準データを指定
する第2のステップと、 前記ユーザが検索条件を入力することによって実行時の
評価基準データを決定する第3のステップと、 読み込み待ちウェブページの集合を設定する第4のステ
ップと、 前記読み込み待ちウェブページの集合から、前記実行時
の評価基準データに基づいて計算された評価の最も高い
ウェブページを次の読み込み対象として選択する第5の
ステップと、 前記第5のステップで選択された該ウェブページを読み
込む第6のステップと、 前記第6のステップで読み込んだ該ウェブページ内のリ
ンクが参照するウェブページのうち、今後の読み込み候
補であるものを前記読み込み待ちウェブページの集合に
追加する第7のステップと、 読み込み済みのページの評価を、前記実行時の評価基準
データに基づいて計算する第8のステップとを具備す
る。10. A computer-readable storage medium storing a program for causing the computer to execute a web page search method, wherein the program is configured to search for a specific topic in response to a user request. The first step is to create reusable evaluation criteria data, which will be the basis for evaluating a web page when performing a search, and search topics from already created reusable evaluation data. A second step of specifying evaluation criteria data corresponding to the following; a third step of determining evaluation criteria data at the time of execution by the user inputting a search condition; and a second step of setting a set of web pages waiting to be read. And calculating from the set of web pages waiting to be read based on the evaluation criteria data at the time of execution. A fifth step of selecting the web page with the highest evaluation obtained as the next read target, a sixth step of reading the web page selected in the fifth step, and a read step of the sixth step A seventh step of adding, to the set of web pages waiting to be read, web pages that are future read candidates among web pages referred to by links in the web page, and evaluating the read pages at the time of execution. An eighth step of calculating based on the evaluation reference data.
からなるシステムであって、ウェブページの検索方法を
該システム全体として実行させるための部分的機能を個
々の装置が具備しており、これらの部分的機能は全体と
して、ユーザの要求に応じて特定のトピックに関する検
索を行う際にウェブページを評価するための基準とな
る、再利用可能な評価基準データを作成する第1のステ
ップと、すでに作成されている再利用可能な評価基準デ
ータの中から、検索のトピックに該当する評価基準デー
タを指定する第2のステップと、 前記ユーザが検索条件を入力することによって実行時の
評価基準データを決定する第3のステップと、 読み込み待ちウェブページの集合を設定する第4のステ
ップと、 前記読み込み待ちウェブページの集合から、前記実行時
の評価基準データに基づいて計算された評価の最も高い
ウェブページを次の読み込み対象として選択する第5の
ステップと、 前記第5のステップで選択された該ウェブページを読み
込む第6のステップと、 前記第6のステップで読み込んだ該ウェブページ内のリ
ンクが参照するウェブページのうち、今後の読み込み候
補であるものを前記読み込み待ちウェブページの集合に
追加する第7のステップと、 読み込み済みのページの評価を、前記実行時の評価基準
データに基づいて計算する第8のステップとを具備す
る。11. A system comprising a plurality of devices which are physically distributed, wherein each device has a partial function for executing a web page search method as an entire system. These partial functions collectively comprise a first step of creating reusable evaluation criteria data that serves as a basis for evaluating a web page when performing a search on a particular topic in response to a user request. A second step of specifying evaluation criteria data corresponding to a search topic from among reusable evaluation criteria data already created, and an evaluation criteria at the time of execution by the user inputting search conditions. A third step of determining data, a fourth step of setting a set of web pages waiting to be read, and from the set of web pages waiting to be read. A fifth step of selecting a web page having the highest evaluation calculated based on the evaluation criterion data at the time of execution as a next reading target, and a sixth step of reading the web page selected in the fifth step. And a seventh step of adding, to the set of web pages waiting to be read, a web page referred to by a link in the web page read in the sixth step that is a candidate for future reading, An eighth step of calculating an evaluation of the read page based on the evaluation reference data at the time of execution.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000404838A JP2002197115A (en) | 2000-12-26 | 2000-12-26 | Web page retrieval method with usage of evaluation reference data and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000404838A JP2002197115A (en) | 2000-12-26 | 2000-12-26 | Web page retrieval method with usage of evaluation reference data and storage medium |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002197115A true JP2002197115A (en) | 2002-07-12 |
Family
ID=18868722
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000404838A Pending JP2002197115A (en) | 2000-12-26 | 2000-12-26 | Web page retrieval method with usage of evaluation reference data and storage medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2002197115A (en) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006164256A (en) * | 2004-11-12 | 2006-06-22 | Yafoo Japan Corp | Attribute evaluation program, attribute evaluation system and attribute evaluation method |
JP2006194817A (en) * | 2005-01-17 | 2006-07-27 | Xanavi Informatics Corp | Navigation device |
JP2008117367A (en) * | 2006-10-12 | 2008-05-22 | Yafoo Japan Corp | Method for performing retrieval in cooperation with event, server and program |
JP2008276624A (en) * | 2007-05-01 | 2008-11-13 | Canon Inc | Conference record management device and method |
JP2009510577A (en) * | 2005-10-03 | 2009-03-12 | ソニー エリクソン モバイル コミュニケーションズ, エービー | Method and apparatus for obtaining evaluation of electronic document |
WO2015033712A1 (en) * | 2013-09-03 | 2015-03-12 | フェリカネットワークス株式会社 | Information processing device and information processing method |
JP2015201184A (en) * | 2014-04-04 | 2015-11-12 | 富士通株式会社 | Method for collecting teaching materials for informal learning and non-temporary computer readable medium |
JP2020181425A (en) * | 2019-04-26 | 2020-11-05 | キヤノンメディカルシステムズ株式会社 | Medical image processing device, method, and system |
-
2000
- 2000-12-26 JP JP2000404838A patent/JP2002197115A/en active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006164256A (en) * | 2004-11-12 | 2006-06-22 | Yafoo Japan Corp | Attribute evaluation program, attribute evaluation system and attribute evaluation method |
JP2006194817A (en) * | 2005-01-17 | 2006-07-27 | Xanavi Informatics Corp | Navigation device |
JP4684661B2 (en) * | 2005-01-17 | 2011-05-18 | クラリオン株式会社 | Navigation device |
JP2009510577A (en) * | 2005-10-03 | 2009-03-12 | ソニー エリクソン モバイル コミュニケーションズ, エービー | Method and apparatus for obtaining evaluation of electronic document |
JP2012069132A (en) * | 2005-10-03 | 2012-04-05 | Sony Ericsson Mobile Communications Ab | Method of acquiring evaluation of electronic document, and electronic device |
JP2008117367A (en) * | 2006-10-12 | 2008-05-22 | Yafoo Japan Corp | Method for performing retrieval in cooperation with event, server and program |
JP2008276624A (en) * | 2007-05-01 | 2008-11-13 | Canon Inc | Conference record management device and method |
WO2015033712A1 (en) * | 2013-09-03 | 2015-03-12 | フェリカネットワークス株式会社 | Information processing device and information processing method |
JPWO2015033712A1 (en) * | 2013-09-03 | 2017-03-02 | フェリカネットワークス株式会社 | Information processing apparatus and information processing method |
JP2015201184A (en) * | 2014-04-04 | 2015-11-12 | 富士通株式会社 | Method for collecting teaching materials for informal learning and non-temporary computer readable medium |
JP2020181425A (en) * | 2019-04-26 | 2020-11-05 | キヤノンメディカルシステムズ株式会社 | Medical image processing device, method, and system |
JP7483326B2 (en) | 2019-04-26 | 2024-05-15 | キヤノンメディカルシステムズ株式会社 | Medical image processing device, method and system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4711385B2 (en) | Information processing | |
RU2501078C2 (en) | Ranking search results using edit distance and document information | |
US7653623B2 (en) | Information searching apparatus and method with mechanism of refining search results | |
JP5555327B2 (en) | Search result generation method and information search system | |
JP3665480B2 (en) | Document organizing apparatus and method | |
JP4776894B2 (en) | Information retrieval method | |
US8745039B2 (en) | Method and system for user guided search navigation | |
Hong et al. | Multimedia question answering | |
Hardy et al. | Customized information extraction as a basis for resource discovery | |
Holzmann et al. | Archivespark: Efficient web archive access, extraction and derivation | |
JP2002132832A (en) | Image search method and image search engine device | |
JP2004054631A (en) | Information retrieval system, information retrieval method, structural analysis method of html document, and program | |
JP7451747B2 (en) | Methods, devices, equipment and computer readable storage media for searching content | |
RU2733482C2 (en) | Method and system for updating search index database | |
Khan et al. | A systematic approach towards web preservation | |
US20100082594A1 (en) | Building a topic based webpage based on algorithmic and community interactions | |
CN106326236A (en) | Webpage content identification method and system | |
JP4469432B2 (en) | INTERNET INFORMATION PROCESSING DEVICE, INTERNET INFORMATION PROCESSING METHOD, AND COMPUTER-READABLE RECORDING MEDIUM CONTAINING PROGRAM FOR CAUSING COMPUTER TO EXECUTE THE METHOD | |
US20110252313A1 (en) | Document information selection method and computer program product | |
JP2002197115A (en) | Web page retrieval method with usage of evaluation reference data and storage medium | |
WO2017000659A1 (en) | Enriched uniform resource locator (url) identification method and apparatus | |
JP4010058B2 (en) | Document association apparatus, document browsing apparatus, computer-readable recording medium recording a document association program, and computer-readable recording medium recording a document browsing program | |
Sadeh | The challenge of metasearching | |
EP2083364A1 (en) | Method for retrieving a document, a computer-readable medium, a computer program product, and a system that facilitates retrieving a document | |
JP2000231569A (en) | Internet information retrieving device, internet information retrieving method and computer readable recording medium with program making computer execute method recorded therein |