JP2001306592A - Catalog-preparing method for web page retrieval engine operating on internet, and retrieval method therefor - Google Patents

Catalog-preparing method for web page retrieval engine operating on internet, and retrieval method therefor

Info

Publication number
JP2001306592A
JP2001306592A JP2000118129A JP2000118129A JP2001306592A JP 2001306592 A JP2001306592 A JP 2001306592A JP 2000118129 A JP2000118129 A JP 2000118129A JP 2000118129 A JP2000118129 A JP 2000118129A JP 2001306592 A JP2001306592 A JP 2001306592A
Authority
JP
Japan
Prior art keywords
language
web page
catalog
character code
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000118129A
Other languages
Japanese (ja)
Inventor
Hiroshi Kawamura
浩 川村
Shingo Yamashita
真吾 山下
Koji Fukuda
浩至 福田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EVOLEX CORP
NTT Hokkaido Telemart Co Ltd
Original Assignee
EVOLEX CORP
NTT Hokkaido Telemart Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EVOLEX CORP, NTT Hokkaido Telemart Co Ltd filed Critical EVOLEX CORP
Priority to JP2000118129A priority Critical patent/JP2001306592A/en
Publication of JP2001306592A publication Critical patent/JP2001306592A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To provide a catalog preparing method and a retrieval method for Web page retrieval engine operating on Internet, by which a retrieval engine can be efficiently operated and the suitable retrieved result suited to retrieval conditions can be presented. SOLUTION: In each of Web pages collected form the Internet, a language ID to be made correspondent to the relevant Web page is determined on the basis of language specification information described in the HTTP header or HTML document of that Web page (100-400). When the language ID cannot be determined through this, the language ID is determined on the basis of the top level domain name of URL storing that Web page (500-600). The catalog of respective Web pages prepared by a catalog preparation pogrom is manage in the data base of the retrieval engine by language ID determined for each Web page.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この発明は、Webページ検索
エンジンにおける目録作成方法および検索方法に関し、
検索エンジンの効率的な運用を可能にするとともに検索
条件に適合する適格な検索結果を提示する検索エンジン
を実現するための技術に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a catalog creation method and a search method in a Web page search engine.
The present invention relates to a technology for realizing a search engine that enables efficient operation of a search engine and presents qualified search results that meet search conditions.

【0002】[0002]

【従来の技術】インターネットの所定のWebサイトの機
能として提供されるWebページ検索エンジンは、インタ
ーネット上に存在する膨大なWebページの中から効率よ
く目的とするWebページを探し出すための必須のツール
となっている。図1に典型的な検索エンジンの概念的な
構成を示している。この図に示すように、検索エンジン
は検索結果として利用者に提示する多数のWebページに
ついての目録を格納するデータベースと、利用者のコン
ピュータから受け付けた検索条件(以下、クエリーと称
する)により前記データベースを検索し検索された目録
を利用者コンピュータに送出するWebサーバと、検索エ
ンジンを運営するソフトウエア群とを備えて構成され
る。
2. Description of the Related Art A Web page search engine provided as a function of a predetermined Web site on the Internet is an essential tool for efficiently searching for a target Web page from a huge number of Web pages existing on the Internet. Has become. FIG. 1 shows a conceptual configuration of a typical search engine. As shown in this figure, a search engine stores a list of a large number of web pages presented to a user as search results, and a search condition (hereinafter referred to as a query) received from a user's computer. It comprises a Web server for searching for and sending the searched list to a user computer, and software for operating a search engine.

【0003】前記のデータベースに格納される目録は、
前記ソフトウエア群の一つである目録作成プログラムに
よって登録される。目録作成プログラムはいわゆるロボ
ット型などのWebページ自動巡回収集システムによりイ
ンターネット上のWebサイトからWebページを収集し、収
集したWebページに基づいて抄録文や要約文、およびそ
のWebページが格納されているURL(Uniform Resourc
e Locator)などからなる目録を作成しこれらをデータ
ベースに登録する。
[0003] The inventory stored in the database is
It is registered by a catalog creation program which is one of the software groups. The catalog creation program collects web pages from websites on the Internet using a so-called robot-type automatic web page collection system, and stores abstracts, summaries, and web pages based on the collected web pages. URL (Uniform Resourc
e Locator) is created and registered in the database.

【0004】検索エンジンの基本的な動作は概ねつぎの
ようである。インターネットを通じて利用者コンピュー
タから要求があると、検索エンジンはまずそのコンピュ
ータにキーワードなどの検索条件(以下、クエリーと称
する)の入力欄を有するクエリー設定ページを送出す
る。利用者コンピュータは送られてきたクエリー設定ペ
ージをWebブラウザに表示して利用者にクエリーの入力
を促す。利用者が所定の操作を行うと利用者コンピュー
タは入力されたクエリーを検索エンジンに送出する。検
索エンジンは利用者コンピュータから送られてきたクエ
リーを受信すると、そのクエリーに該当する目録を前記
データベースから検索する。そして、検索した目録を記
載したホームページを作成しこれを利用者コンピュータ
に送出する。
The basic operation of a search engine is generally as follows. When a request is made from a user computer via the Internet, the search engine first sends a query setting page having input fields for search conditions such as keywords (hereinafter referred to as a query) to the computer. The user computer displays the sent query setting page on a Web browser to prompt the user to input a query. When the user performs a predetermined operation, the user computer sends the input query to a search engine. When receiving the query sent from the user computer, the search engine searches the database corresponding to the query from the database. Then, a home page describing the searched list is created and sent to the user computer.

【0005】[0005]

【発明が解決しようとする課題】ところで、インターネ
ット上のWebサイト数の急増により前記のデータベース
に格納される目録は膨大な数にのぼっており、これによ
る検索速度の低下が問題となっている。また、データベ
ースの肥大化により利用者に検索結果として提示される
目録の数が増加し、クエリーの内容を変えて何度も検索
し直さないとなかなか目的とするWebページを探し出せ
ないといった問題も生じている。
By the way, the number of catalogs stored in the above-mentioned database is enormous due to a rapid increase in the number of Web sites on the Internet, and a reduction in search speed due to this has become a problem. In addition, due to the enlargement of the database, the number of catalogs presented as search results to users has increased, and there has been a problem that it is difficult to find the target Web page unless the content of the query is changed and searched again and again. ing.

【0006】また、後者についてはつぎのような問題も
ある。すなわち、インターネットの国際的な性格上、We
bサイトの多くは言語別の複数のWebページを保有してい
るため、目録には目的とする言語以外の言語で記述され
た目録も多数格納されることとなる。従って、例えばク
エリーとして「trade」などの英文字列のキーワードが
指定された場合には、利用者が日本語で記載されたWeb
ページについてのみの提示を期待している場合であるに
もかかわらず、これと同じキーワードが含まれる英語な
どの他の言語で記載したWebページについての目録も同
時に検索結果として提示されてしまうこととなり、利用
者に高い精度で検索結果を提示することが難しくなって
きている。
[0006] The latter has the following problems. In other words, due to the international nature of the Internet,
Since many b sites have multiple web pages in each language, the catalog will store many catalogs written in languages other than the target language. Therefore, for example, when an English character string keyword such as "trade" is specified as a query, the Web
In spite of the case where only the page is expected to be presented, the catalog of the web page described in another language such as English including the same keyword will be presented as a search result at the same time. It is becoming difficult to present search results to users with high accuracy.

【0007】この発明は以上のような問題を解決すべく
なされたものであって、検索エンジンの効率的な運用を
可能にするとともに検索条件に適合する適格な検索結果
を提示することができる、インターネット上で運用され
るWebページ検索エンジンにおける目録作成方法および
検索方法を提供することを目的とする。
[0007] The present invention has been made to solve the above-described problems, and enables efficient operation of a search engine and presents qualified search results that meet search conditions. An object of the present invention is to provide a catalog creation method and a search method in a Web page search engine operated on the Internet.

【0008】[0008]

【課題を解決するための手段】この目的を達成するため
の本発明の第1の請求項に記載の発明は、以下の特定事
項(1)〜(5)を充足することとする。 (1)インターネット上に展示されているWebページの
内容を記述した目録をデータベースとして保有し、クエ
リーで指定された条件で前記データベースをキーワード
検索するWebページ検索エンジンにおける目録作成方法
である。 (2)前記目録を作成すべくインターネットから収集し
た各Webページに対応づける言語IDをつぎのまたは
のいずれかの手段により決定する。 そのWebページのHTTPヘッダーに言語特定情報が記述
されていたならばその言語特定情報に関連づけてある言
語IDに対応づける。 そのWebページのHTML文書中に言語特定情報が記述さ
れていたならばその言語特定情報に関連づけてある言語
IDに対応づける。 (3)(2)の手段で言語IDを決定できなかった場合
には、そのWebページが格納されているURLのトップ
レベルドメイン名に関連づけてある言語IDに対応づけ
る。 (4)所定のアルゴリズムで記述された目録作成プログ
ラムにより前記各Webページに対応する目録を作成す
る。 (5)前記各目録作成プログラムにより作成された目録
を(2)で決定した言語ID別に前記データベースに管
理する。
Means for Solving the Problems The invention described in the first claim of the present invention for achieving this object satisfies the following specific items (1) to (5). (1) A catalog creation method in a web page search engine that holds a catalog describing the contents of web pages displayed on the Internet as a database and performs a keyword search on the database under conditions specified by a query. (2) A language ID to be associated with each Web page collected from the Internet to create the list is determined by one of the following means. If language specific information is described in the HTTP header of the Web page, it is associated with a language ID associated with the language specific information. If language specific information is described in the HTML document of the Web page, it is associated with a language ID associated with the language specific information. (3) If the language ID cannot be determined by the means of (2), the language ID is associated with the language ID associated with the top-level domain name of the URL where the Web page is stored. (4) Create an inventory corresponding to each Web page by an inventory creation program described by a predetermined algorithm. (5) The catalog created by each catalog creating program is managed in the database for each language ID determined in (2).

【0009】このような構成としたことでつぎのような
効果が生じる。例えば、前述したクエリーにより検索対
象の言語を指定させて検索対象をその言語IDに対応づ
けされた目録に限定するようにすることで、検索対象と
なる目録の数を大幅に減少させることができ、これによ
り検索速度の向上が図られる。また、WebページのHTTP
ヘッダーやHTML文書中に記述されている言語特定情報に
基づいて言語IDを決定するようにしたことで、高い精
度でその作成起源となったWebページを記述している言
語に対応する言語IDを分類することが可能になり、ク
エリーに言語IDが指定されている場合には、検索結果
として提示する目録に前述したように目的とする言語以
外の言語のWebページについての目録が提示されるよう
なことが無く、利用者に高い精度の検索結果を提示する
ことが可能になる。
The following effects are obtained by adopting such a configuration. For example, by specifying a search target language by the above-described query and limiting the search target to the list associated with the language ID, the number of search target lists can be significantly reduced. Thus, the search speed is improved. Also, the web page HTTP
By determining the language ID based on the language identification information described in the header and the HTML document, the language ID corresponding to the language describing the Web page from which it was created with high accuracy can be determined. It is possible to classify, and if a language ID is specified in the query, as described above, the list of Web pages in languages other than the target language will be presented in the list presented as search results. It is possible to present a search result with high accuracy to the user without any problem.

【0010】また、本発明の第2の請求項に記載の発明
は、請求項1に記載の目録作成方法であって、前記
(2)の前記の手段が、そのWebページのHTTPヘッダ
ーにおける「Content-Language」フィールドに定義され
ている言語コードを前記言語特定情報として参照し前記
言語コードに関連づけてある言語IDに当該Webページ
を対応づける手段であることとする。
According to a second aspect of the present invention, there is provided the catalog creating method according to the first aspect, wherein the means of (2) includes the step of: The language code defined in the "Content-Language" field is referred to as the language specifying information, and the web page is associated with a language ID associated with the language code.

【0011】また、本発明の第3の請求項に記載の発明
は、請求項1または2のいずれかに記載の目録作成方法
であって、前記(2)の前記の手段が、そのWebペー
ジのHTTPヘッダーにおける「Content-Type」フィールド
の「charset」の設定文で定義されている文字コード体
系を前記言語特定情報として参照しこの文字コード体系
に関連づけてある言語IDに当該Webページを対応づけ
る手段であることとする。
According to a third aspect of the present invention, there is provided the catalog creating method according to any one of the first and second aspects, wherein the means in (2) is a web page. Refers to the character code system defined in the setting statement of "charset" of the "Content-Type" field in the HTTP header of the above as the language identification information, and associates the web page with the language ID associated with this character code system Means.

【0012】また、本発明の第4の請求項に記載の発明
は、請求項1〜3のいずれかに記載の目録作成方法であ
って、前記(2)の前記の手段が、そのWebページのH
TML文書における「lang属性」の設定文で定義されてい
る言語コードを前記言語特定情報として参照しこの言語
コードに関連づけてある言語IDに当該Webページを対
応づける手段であることとする。
According to a fourth aspect of the present invention, there is provided the catalog creating method according to any one of the first to third aspects, wherein the means of (2) is a web page. H
The language code defined in the setting sentence of the “lang attribute” in the TML document is referred to as the language specifying information, and the web page is associated with the language ID associated with the language code.

【0013】また、本発明の第5の請求項に記載の発明
は、請求項1〜4のいずれかに記載の目録作成方法であ
って、前記(2)の前記の手段が、そのWebページのH
TML文書におけるMETAタグ内の「charset」の設定文で定
義されている文字コード体系を前記言語特定情報として
参照しこの文字コード体系に関連づけてある言語IDに
当該Webページを対応づける手段であることとする。
According to a fifth aspect of the present invention, there is provided the catalog creation method according to any one of the first to fourth aspects, wherein the means in (2) is a web page. H
It is a means to refer to the character code system defined by the setting statement of "charset" in the META tag in the TML document as the language specifying information and to associate the relevant web page with the language ID associated with this character code system And

【0014】また、本発明の第6の請求項に記載の発明
は、請求項3または5のいずれかに記載の目録作成方法
であって、前記参照した文字コード体系が複数の言語I
Dに関連づけしてある文字コード体系であった場合に、
さらに当該WebページのHTML文書を構成する文字の文字
コードAを、言語IDが対応づけされた所定の文字コー
ドBと対照し、文字コードAが文字コードBと一致した
場合にその文字コードBに対応づけられている言語ID
に当該Webページを対応づける手段であることとする。
According to a sixth aspect of the present invention, there is provided the catalog creating method according to any one of the third and fifth aspects, wherein the character code system referred to is a plural language I.
If the character code system is associated with D,
Further, the character code A of the character constituting the HTML document of the Web page is compared with a predetermined character code B associated with the language ID, and when the character code A matches the character code B, the character code B Language ID associated with
Means to associate the Web page with the Web page.

【0015】また、本発明の第7の請求項に記載の発明
は、請求項3または5または6のいずれかに記載の目録
作成方法であって、前記参照した文字コード体系が複数
の言語IDに関連づけしてある文字コード体系であった
場合に、さらに当該WebページのURLのトップレベル
ドメイン名を参照し、前記文字コード体系および前記ト
ップレベルドメイン名の組み合わせに関連づけてある言
語IDに当該Webページを対応づける手段であることと
する。
According to a seventh aspect of the present invention, there is provided the catalog creating method according to any one of the third to fifth or sixth aspects, wherein the character code system referred to is a plurality of language IDs. In the case where the character code system is related to the Web page, the top-level domain name of the URL of the Web page is further referred to, and the language ID associated with the combination of the character code system and the top-level domain name is added to the Web ID. It is a means for associating pages.

【0016】さらに、本発明の第8の請求項に記載の発
明は、以下の特定事項(81)〜(84)を充足することと
する。 (81)請求項1〜7のいずれかに記載の目録作成方法を
適用したWebページ検索エンジンにおいて、利用者から
の求めに応じて検索を実行する方法である。 (82)Webページ検索エンジンはインターネットを通じ
てアクセスしてきた利用者コンピュータに前記言語ID
の指定欄を有するクエリー設定ページを送出する。 (83)Webページ検索エンジンは利用者コンピュータか
ら送られてくる前記クエリー設定ページにより設定され
たクエリーを受け付けて、前記データベースの目録のう
ち前記クエリーに指定されている言語IDに分類されて
いる目録を対象として前記クエリーによる検索処理を実
行する。 (84)Webページ検索エンジンは、前記検索処理により
抽出された目録を記載したホームページを作成し、これ
を前記クエリーを送出してきた利用者コンピュータに向
けて送出する。
Further, the invention described in the eighth aspect of the present invention satisfies the following specific items (81) to (84). (81) A method for executing a search in response to a request from a user in a Web page search engine to which the catalog creation method according to any one of claims 1 to 7 is applied. (82) The Web page search engine stores the language ID in the user computer accessed through the Internet.
Is sent out. (83) The Web page search engine receives the query set by the query setting page sent from the user computer, and the catalog classified into the language ID specified in the query among the catalogs of the database And performs a search process based on the query. (84) The Web page search engine creates a home page describing the list extracted by the search processing, and sends the created home page to the user computer that sent the query.

【0017】[0017]

【発明の実施の形態】以下、本発明の一実施例による検
索エンジンについて説明する。なお、この検索エンジン
の構成のうち、以下に説明した以外の構成については前
述した従来の検索エンジンと同様であるのでここでは特
に説明しない。
DESCRIPTION OF THE PREFERRED EMBODIMENTS A search engine according to one embodiment of the present invention will be described below. The configuration of this search engine other than that described below is the same as that of the above-described conventional search engine, and will not be described here.

【0018】===目録作成プログラム=== この検索エンジンの目録作成プログラムは、前述の従来
の場合と同様にロボット型などの自動巡回方式のシステ
ムによりインターネット上のWebサイトからWebページを
収集する。つぎに目録作成プログラムはこのようにして
収集した各Webページに基づいて目録を作成するに際
し、各Webページに対応づける言語IDを決定し、各Web
ページに基づいて作成した目録を該当のWebページに対
応づけた言語ID別にデータベースに登録する。ここで
前記の言語IDの決定は以下に示す第1〜第5の手段に
より行われる。以下、図2〜図6のフローチャートとと
もにこの言語IDの決定手段について詳述する。
=== Catalog Creation Program === This search engine catalog creation program collects Web pages from Web sites on the Internet by using an automatic patrol system such as a robot, as in the above-described conventional case. . Next, when creating a catalog based on each Web page collected in this way, the catalog creating program determines a language ID to be associated with each Web page,
The catalog created based on the page is registered in the database for each language ID associated with the corresponding web page. Here, the above-mentioned language ID is determined by the following first to fifth means. Hereinafter, the means for determining the language ID will be described in detail with reference to the flowcharts of FIGS.

【0019】<第1の手段>まず、目録作成プログラム
は、そのWebページのHTTP(Hypertext Transfer Protoc
ol)ヘッダーに「Content-Language」フィールドが含ま
れるかどうか(「Content-Language:」という記述が含
まれているかどうか)を調べ(100)、含まれていた
場合にはこのフィールドに設定されている言語コードに
基づいて言語IDを決定する(110〜120)。ここ
で言語コードとはISO-639(ISO;国際標準化機構)で規
定される2文字のコードである。目録作成プログラムは
表1に示す言語コードと言語IDとの対応づけを示す対
応表を管理しており、前記フィールドに設定されている
言語コードをこの対応表に対照して言語IDを決定す
る。図7の例では言語コードとして「ja」が設定されて
おり、この場合、表2に基づいて決定される言語IDは
「2」である。
<First Means> First, the catalog creation program executes HTTP (Hypertext Transfer Protocol) of the Web page.
ol) Checks whether the “Content-Language” field is included in the header (whether or not a description “Content-Language:” is included) (100). The language ID is determined based on the language code that is present (110 to 120). Here, the language code is a two-letter code defined by ISO-639 (ISO; International Organization for Standardization). The catalog creation program manages a correspondence table indicating correspondence between language codes and language IDs shown in Table 1, and determines a language ID by comparing the language code set in the field with the correspondence table. In the example of FIG. 7, “ja” is set as the language code, and in this case, the language ID determined based on Table 2 is “2”.

【0020】[0020]

【表1】 [Table 1]

【0021】<第2の手段>前記の手段で言語IDを特
定することができなかった場合には、つぎにHTTPヘッダ
ー中に「Content-Type」フィールドが含まれているか
(「Content-Type:」という記述が含まれているかどう
か)を調べ(200)、含まれていた場合にはこのフィ
ールドの「charset」に設定されている文字コード体系
(「charset=」に後続して記述されている文字列)に
基づいて言語IDを決定する(210〜230)。ここ
で文字コード体系を参照するのは、例えば、文字コード
体系「US-ASCII」は英語の記述に用いられ、また、「IS
O-2022-JP」、「SHIFT_JIS」、「X-EUC-JP」などは日本
語の記述に用いられるというように、文字コード体系と
そのWebページを記述している言語との間には一定の関
連性があるからである。目録作成プログラムは表2に示
す各文字コード体系と言語IDとの対応づけを示す対応
表を管理しており、「charset」に設定されている文字
コード体系をこの対応表に対照して言語IDを決定する
(220〜230)。図7の例ではHTTPヘッダーの「ch
arset」に文字コード体系として「ISO-2022-JP」が設定
されているので、この場合、表2に基づいて決定される
言語IDは「2」である。
<Second Means> If the language ID could not be specified by the above means, then the HTTP header contains a “Content-Type” field (“Content-Type: ) Is included) (200), and if it is included, the character code set in “charset” of this field (described after “charset =”) The language ID is determined based on the character string (210 to 230). Here, the character code system is referred to because, for example, the character code system “US-ASCII” is used for the description in English,
O-2022-JP "," SHIFT_JIS "," X-EUC-JP ", etc. are used for describing Japanese, so there is a fixed between the character code system and the language that describes the web page This is because there is a relationship. The catalog creation program manages a correspondence table indicating correspondence between each character code system and the language ID shown in Table 2, and compares the character code system set in “charset” with the language ID by comparing this correspondence table. Is determined (220 to 230). In the example of FIG. 7, "ch" of the HTTP header
Since “ISO-2022-JP” is set as the character code system in “arset”, the language ID determined based on Table 2 is “2” in this case.

【0022】[0022]

【表2】 [Table 2]

【0023】ところで、文字コード体系の中には例えば
表2の文字コード体系「ISO-8859-4」や「UTF7」、「UT
F8」、「UTF9」、「UNICODE」などのように複数の言語
に共通に用いられるものがあり、このような文字コード
体系が「charset」に設定されていた場合には、その文
字コード体系から直接言語IDを決定することはできな
い。そこで、このような文字コード体系が設定されてい
た場合には、さらにつぎの処理(221〜222)を行
う。まず、そのWebページのHTML(HyperText Markup La
nguage)文書を構成するテキスト文字を記述している文
字コードを調査して、各言語に特有の文字コードが存在
するかどうかを調べる。ここで各言語に特有の文字コー
ドとは、日本語であれば例えば「ひらがな」の文字コー
ドであり、韓国語であれば「ハングル文字」などであ
る。そして特有の文字コードが存在した場合には、その
文字コードを有する言語の言語IDを当該Webページの
言語IDに決定する。なお、1文字分の文字コードのみ
からでは言語IDを決定できない場合、HTML文書を構成
する複数のテキスト文字のセットを調査対象とする所定
のアルゴリズムにより言語IDを決定する構成としても
よい。
Incidentally, the character code systems include, for example, the character code systems “ISO-8859-4”, “UTF7”, “UT
Some are commonly used in multiple languages, such as "F8", "UTF9", and "UNICODE" .If such a character code system is set to "charset", The language ID cannot be determined directly. Therefore, when such a character code system is set, the following processing (221 to 222) is further performed. First, the HTML (HyperText Markup La
nguage) Inspect the character codes describing the text characters that make up the document to see if there is a character code specific to each language. Here, the character code unique to each language is, for example, a character code of "Hiragana" in Japanese, and a "Hangul character" in Korean. If a unique character code exists, the language ID of the language having the character code is determined as the language ID of the web page. When the language ID cannot be determined only from the character code of one character, the language ID may be determined by a predetermined algorithm that investigates a set of a plurality of text characters constituting the HTML document.

【0024】一方、以上の文字コードの調査によっても
言語IDを決定できない場合には、そのWebページのU
RLのトップレベルドメイン名に基づいて言語IDを特
定する(223〜224)。トップレベルドメイン名は
そのWebページを取得した時のリクエストヘッダから取
得する。URLのトップレベルドメインは、良く知られ
ているように、comやorgのような一般トップレベルドメ
イン(generic TLD;gTLD)や、intなどの国際トップレ
ベルドメイン、ISO3166で規定されるjp(日本)やkr
(韓国)のような国別トップレベルドメインがあり、ト
ップレベルドメイン名からそのWebページを記述してい
る言語を特定することができる。目録作成プログラムは
表3に示すトップレベルドメイン名と言語IDの対応表
を管理しており、そのWebページのトップレベルドメイ
ン名に対応する言語IDをこの対応表から調べてそのWe
bページに基づいて作成した目録に対応づける言語ID
を決定する。なお、文字コードの特徴によって判別でき
ないことが明らかな文字コード体系の場合には、文字コ
ードの判別をすることなく直ちにトップレベルドメイン
名による判定を行うようにしてもよい。
On the other hand, if the language ID cannot be determined by the above character code search, the U
The language ID is specified based on the top-level domain name of the RL (223 to 224). The top level domain name is obtained from the request header when the web page was obtained. As is well known, the URL top-level domain is a generic top-level domain (generic TLD; gTLD) such as com or org, an international top-level domain such as int, or jp (Japan) specified by ISO3166. And kr
There are country-specific top-level domains such as (Korea), and the language that describes the web page can be specified from the top-level domain name. The catalog creation program manages the correspondence table between the top-level domain name and the language ID shown in Table 3, and checks the language ID corresponding to the top-level domain name of the web page from this correspondence table, and checks the language ID.
Language ID associated with the catalog created based on page b
To determine. In the case of a character code system in which it is apparent that the character code cannot be determined by the characteristics of the character code, the determination based on the top-level domain name may be performed immediately without determining the character code.

【0025】[0025]

【表3】 [Table 3]

【0026】<第3の手段>以上のいずれの手段によっ
ても言語IDを特定することができなかった場合、つぎ
に目録作成プログラムはHTML文書内の記述内容による言
語IDの決定を試みる。目録作成プログラムはHTML文書
にMETAタグが記述され、そのHTTP-EQUIV属性の「charse
t」に文字コードが設定されているかどうかを調べ、設
定されていた場合にはその文字コード体系に基づいて言
語IDの決定を試みる(300〜330)。図8はこの
ような記述が存在するHTML文書の一例である。なお、こ
の処理は検索対象がHTTPヘッダーであるかHTML文書であ
るか程度の違い以外は前述した第2の手段(200〜2
30)と同様であるので説明は省略する。
<Third Means> If the language ID cannot be specified by any of the above means, the catalog creation program next attempts to determine the language ID based on the description in the HTML document. In the catalog creation program, the META tag is described in the HTML document, and the HTTP-EQUIV attribute "charse
It is checked whether a character code is set in "t", and if it is, an attempt is made to determine a language ID based on the character code system (300 to 330). FIG. 8 is an example of an HTML document in which such a description exists. This processing is the same as the second means (200 to 2) described above except for the difference in whether the search target is an HTTP header or an HTML document.
The description is omitted because it is the same as 30).

【0027】<第4の手段>以上のいずれの手段によっ
ても言語IDを決定できなかった場合、つぎに目録作成
プログラムはHTML文書内に記述されている「lang属性」
の設定文(図8参照)で定義されている言語コードによ
る言語IDの決定を試みる(400〜420)。この処
理は検索対象がhttpヘッダーであるかHTML文書であるか
程度の違い以外は第1の手段(100〜120)と同様
であるのでここでは説明を省略する。
<Fourth Means> If the language ID cannot be determined by any of the above means, the catalog creation program then proceeds to the “lang attribute” described in the HTML document.
Attempt to determine the language ID based on the language code defined in the setting sentence (see FIG. 8) (400 to 420). This processing is the same as that of the first means (100 to 120) except for the difference in whether the search target is an http header or an HTML document.

【0028】<第5の手段>最後に、以上の第1〜第4
の手段のいずれの手段によっても言語を特定できなかっ
た場合には、そのWebページのトップレベルドメイン名
による判定する(500〜600)。なお、この処理は
第2の手段で説明したトップレベルドメイン名の処理
(223〜224)と同様であるのでここでは説明を省
略する。
<Fifth Means> Finally, the above-described first to fourth aspects are described.
If the language cannot be specified by any of the above means, it is determined by the top level domain name of the Web page (500 to 600). This processing is the same as the processing (223 to 224) of the top-level domain name described in the second means, and the description is omitted here.

【0029】ところで、以上の説明では第1〜第5の手
段がこの順に処理されるとして説明しているが、これら
の手段の処理順序は限定される訳ではなく、処理効率が
最大となるように任意に処理順序を変更することができ
る。また、以上の説明ではWebページがHTML文書で記述
されている場合について説明しているが、例えば、SGML
(Standard Generalized Markup Language)、XML(Exte
nsive Markup Language)、HDML(Handheld Device Mar
kup Language)、C-HTML(Compact-HyperText Markup L
anguage)などのHTML以外の文書であっても同様の処理
が可能であることはいうまでもない。
In the above description, it is described that the first to fifth means are processed in this order. However, the processing order of these means is not limited, and the processing efficiency is maximized. The processing order can be changed arbitrarily. In the above description, the case where the Web page is described in an HTML document is described.
(Standard Generalized Markup Language), XML (Exte
nsive Markup Language), HDML (Handheld Device Mar
kup Language), C-HTML (Compact-HyperText Markup L
Needless to say, the same processing can be performed even for a document other than HTML such as an anguage).

【0030】===データベース=== この実施例における検索エンジンのデータベースには以
上のようにして登録された多数の目録が言語ID別に管
理されている。なお、目録の内容は従来と同様であり、
収集したWebページに基づいて作成された抄録文や要約
文、およびそのWebページが格納されているURL(Uni
form Resource Locator)などによって構成される。目
録は前述したように言語ID別に管理されるがその管理
形態は特に限定されない。言語ID別に管理する方法と
しては、例えば、目録に言語IDを付帯させるようにし
たり、目録を言語IDごとに異なるデータベースで管理
するといった方法が考えられる。
=== Database === In the database of the search engine in this embodiment, a large number of catalogs registered as described above are managed for each language ID. The contents of the catalog are the same as before,
An abstract or summary sentence created based on the collected Web pages, and the URL (Uni
form Resource Locator). The catalog is managed for each language ID as described above, but the management form is not particularly limited. As a method of managing each language ID, for example, a method of attaching a language ID to a list or a method of managing the list with a different database for each language ID can be considered.

【0031】===検索エンジン利用形態=== つぎに、本実施例における検索エンジンの利用形態につ
いて説明する。この検索エンジンはインターネットを通
じて利用者コンピュータからアクセスがあると、言語I
Dの指定欄を有するクエリー設定ページを送出する。利
用者コンピュータは送られてきたクエリー設定ページを
Webブラウザに表示して利用者にクエリーの設定を促
す。利用者がこのページに言語IDや検索キーなどを設
定して所定の送出操作を行うと、利用者コンピュータは
これに応動して当該ページに設定されたクエリーを検索
エンジンに送出する。
=== Search Engine Usage Mode === Next, a search engine usage mode in the present embodiment will be described. When this search engine is accessed from a user computer through the Internet, the language I
A query setting page having a designation field of D is transmitted. The user computer reads the query setting page
Display it on a Web browser and prompt the user to set a query. When the user sets a language ID, a search key, and the like on this page and performs a predetermined sending operation, the user computer sends the query set on the page to the search engine in response.

【0032】検索エンジンは利用者コンピュータから送
られてくるクエリーを受け付けて、このクエリーに基づ
いてデータベースから目録を検索する。ここで検索エン
ジンは前記検索においてクエリーに設定されている言語
IDを参照し、検索対象を前記言語IDに対応づけされ
ている目録に限定する。例えば、検索対象となる言語が
「日本語」に設定された検索クエリーが利用者コンピュ
ータから送られてくると、検索エンジンは「日本語」に
対応づけされている情報のみを検索対象として検索を行
い、これにより検索対象が絞られ高速な検索が可能とな
る。検索エンジンは、前記検索処理により抽出された目
録を記載したホームページを作成し、これを前記クエリ
ーを送出してきた利用者コンピュータに向けて送出す
る。
The search engine receives a query sent from the user computer and searches the database for a list based on the query. Here, the search engine refers to the language ID set in the query in the search, and limits the search target to a list associated with the language ID. For example, when a search query is sent from a user computer with the search target language set to "Japanese", the search engine searches only the information associated with "Japanese" as the search target. By doing so, the search target is narrowed down, and high-speed search becomes possible. The search engine creates a home page describing the list extracted by the search process, and sends it to the user computer that sent the query.

【0033】[0033]

【発明の効果】以上に説明したように本発明を適用した
Webページ検索エンジンにあっては、目録が言語別に管
理されることとなり、検索条件として利用者コンピュー
タから送られてくるクエリーに含まれる言語IDに対応
する目録のみを対照とした検索が可能となり、これによ
りデータベースに格納されている全ての目録を対照とし
て検索する場合に比べて検索速度の大幅な向上を図るこ
とができる。また、言語IDに対応する目録のみを対象
とした検索プログラムを言語IDごとに用意する構成と
すれば該当の言語IDに最適化された検索アルゴリズム
が実装された検索プログラムを提供することが可能とな
り、これにより検索速度や検索精度の向上および検索結
果として提示する目録の質の向上を図ることができると
いった各種の波及効果も期待できる。
The present invention is applied as described above.
In the Web page search engine, the catalog is managed by language, and it is possible to search using only the catalog corresponding to the language ID included in the query sent from the user computer as a search condition, As a result, the search speed can be significantly improved as compared with the case where all the catalogs stored in the database are searched as a reference. Further, if a search program for only the list corresponding to the language ID is prepared for each language ID, it is possible to provide a search program in which a search algorithm optimized for the language ID is mounted. Thus, various ripple effects such as improvement in search speed and search accuracy and improvement in the quality of the catalog presented as search results can be expected.

【0034】また、WebページのHTTPヘッダーやHTML文
書中に記述されている言語特定情報に基づいて言語ID
を決定するようにしたことで、高い精度でその作成起源
となったWebページを記述している言語に対応する言語
IDを分類することが可能となり、クエリーに言語ID
が指定されている場合には、検索結果として提示する目
録に前述したように目的とする言語以外の言語のWebペ
ージについての目録が提示されるようなことが無く、利
用者に高い精度の検索結果を提示することが可能とな
る。
Also, based on the language identification information described in the HTTP header of the Web page or the HTML document, a language ID
Is determined, it is possible to classify the language ID corresponding to the language describing the web page from which the web page was created with high accuracy, and the language ID is included in the query.
Is specified, the catalog presented as a search result does not show the catalog of Web pages in languages other than the target language as described above, and the user can search with high accuracy. The result can be presented.

【図面の簡単な説明】[Brief description of the drawings]

【図1】典型的な検索エンジンの概念的な構成を示す図
である。
FIG. 1 is a diagram showing a conceptual configuration of a typical search engine.

【図2】本発明の一実施例による目録作成プログラムの
処理を説明するフローチャートを示す図である。
FIG. 2 is a flowchart illustrating processing of a catalog creation program according to an embodiment of the present invention.

【図3】本発明の一実施例による目録作成プログラムの
処理を説明するフローチャートを示す図である。
FIG. 3 is a flowchart illustrating processing of an inventory creation program according to an embodiment of the present invention.

【図4】本発明の一実施例による目録作成プログラムの
処理を説明するフローチャートを示す図である。
FIG. 4 is a flowchart illustrating a process of an inventory creation program according to an embodiment of the present invention.

【図5】本発明の一実施例による目録作成プログラムの
処理を説明するフローチャートを示す図である。
FIG. 5 is a flowchart illustrating a process of an inventory creation program according to an embodiment of the present invention.

【図6】本発明の一実施例による目録作成プログラムの
処理を説明するフローチャートを示す図である。
FIG. 6 is a flowchart illustrating a process of an inventory creation program according to an embodiment of the present invention.

【図7】HTTPヘッダーの一例を示す図である。FIG. 7 is a diagram illustrating an example of an HTTP header.

【図8】HTML文書の一例を示す図である。FIG. 8 is a diagram illustrating an example of an HTML document.

【符号の説明】[Explanation of symbols]

100〜120 HTTPヘッダー内の「lang」による言語
IDの決定処理 200〜230 HTTPヘッダー内の「charset」による
言語IDの決定処理 300〜330 HTML文書内の「charset」による言語
IDの決定処理 400〜420 HTML文書内の「lang」による言語ID
の決定処理
100 to 120 Language ID determination process using “lang” in HTTP header 200 to 230 Language ID determination process using “charset” in HTTP header 300 to 330 Language ID determination process using “charset” in HTML document 400 to 420 Language ID by "lang" in HTML document
Decision processing

───────────────────────────────────────────────────── フロントページの続き (72)発明者 山下 真吾 東京都渋谷区初台1丁目34番14号 株式会 社エボレックス内 (72)発明者 福田 浩至 東京都渋谷区初台1丁目34番14号 株式会 社エボレックス内 Fターム(参考) 5B075 NS01 PP22  ──────────────────────────────────────────────────続 き Continued on the front page (72) Inventor Shingo Yamashita 1-34-14 Hatsudai, Shibuya-ku, Tokyo Inside Evolex Co., Ltd. (72) Inventor Hiroshi Fukuda 1-34-14 Hatsudai, Shibuya-ku, Tokyo Stock Company F-term in Evolex (reference) 5B075 NS01 PP22

Claims (8)

【特許請求の範囲】[Claims] 【請求項1】 以下の特定事項(1)〜(5)を充足す
る発明。 (1)インターネット上に展示されているWebページの
内容を記述した目録をデータベースとして保有し、クエ
リーで指定された条件で前記データベースをキーワード
検索するWebページ検索エンジンにおける目録作成方法
である。 (2)前記目録を作成すべくインターネットから収集し
た各Webページに対応づける言語IDをつぎのまたは
のいずれかの手段により決定する。 そのWebページのHTTPヘッダーに言語特定情報が記述
されていたならばその言語特定情報に関連づけてある言
語IDに対応づける。 そのWebページのHTML文書中に言語特定情報が記述さ
れていたならばその言語特定情報に関連づけてある言語
IDに対応づける。 (3)(2)の手段で言語IDを決定できなかった場合
には、そのWebページが格納されているURLのトップ
レベルドメイン名に関連づけてある言語IDに対応づけ
る。 (4)所定のアルゴリズムで記述された目録作成プログ
ラムにより前記各Webページに対応する目録を作成す
る。 (5)前記各目録作成プログラムにより作成された目録
を(2)で決定した言語ID別に前記データベースに管
理する。
An invention which satisfies the following specific items (1) to (5). (1) A catalog creation method in a web page search engine that holds a catalog describing the contents of web pages displayed on the Internet as a database and performs a keyword search on the database under conditions specified by a query. (2) A language ID to be associated with each Web page collected from the Internet to create the list is determined by one of the following means. If language specific information is described in the HTTP header of the Web page, it is associated with a language ID associated with the language specific information. If language specific information is described in the HTML document of the Web page, it is associated with a language ID associated with the language specific information. (3) If the language ID cannot be determined by the means of (2), the language ID is associated with the language ID associated with the top-level domain name of the URL where the Web page is stored. (4) Create an inventory corresponding to each Web page by an inventory creation program described by a predetermined algorithm. (5) The catalog created by each catalog creating program is managed in the database for each language ID determined in (2).
【請求項2】 請求項1に記載の目録作成方法であっ
て、前記(2)の前記の手段が、そのWebページのHTT
Pヘッダーにおける「Content-Language」フィールドに
定義されている言語コードを前記言語特定情報として参
照し前記言語コードに関連づけてある言語IDに当該We
bページを対応づける手段であることを特徴とする。
2. The catalog creation method according to claim 1, wherein said means of (2) is an HTT of the Web page.
The language code defined in the “Content-Language” field in the P header is referred to as the language identification information, and the language ID associated with the language code is referred to as the language ID.
It is a means for associating b pages.
【請求項3】 請求項1または2のいずれかに記載の目
録作成方法であって、前記(2)の前記の手段が、そ
のWebページのHTTPヘッダーにおける「Content-Type」
フィールドの「charset」の設定文で定義されている文
字コード体系を前記言語特定情報として参照しこの文字
コード体系に関連づけてある言語IDに当該Webページ
を対応づける手段であることを特徴とする。
3. The catalog creation method according to claim 1, wherein said means of (2) is a method of generating a list of “Content-Type” in an HTTP header of the Web page.
A character code system defined by a setting statement of "charset" in a field is referred to as the language specifying information, and the web page is associated with a language ID associated with the character code system.
【請求項4】 請求項1〜3のいずれかに記載の目録作
成方法であって、前記(2)の前記の手段が、そのWe
bページのHTML文書における「lang属性」の設定文で定
義されている言語コードを前記言語特定情報として参照
しこの言語コードに関連づけてある言語IDに当該Web
ページを対応づける手段であることを特徴とする。
4. The method for creating an inventory according to claim 1, wherein said means of (2) is executed by
Refer to the language code defined in the “lang attribute” setting sentence in the HTML document of page b as the language identification information, and add the language ID associated with this language code to the Web ID.
It is a means for associating pages.
【請求項5】 請求項1〜4のいずれかに記載の目録作
成方法であって、前記(2)の前記の手段が、そのWe
bページのHTML文書におけるMETAタグ内の「charset」の
設定文で定義されている文字コード体系を前記言語特定
情報として参照しこの文字コード体系に関連づけてある
言語IDに当該Webページを対応づける手段であること
を特徴とする。
5. The catalog creation method according to any one of claims 1 to 4, wherein the means in (2) is a list creation method.
Means for referring to the character code system defined by the “charset” setting sentence in the META tag in the HTML document of page b as the language specifying information, and associating the web page with the language ID associated with this character code system It is characterized by being.
【請求項6】 請求項3または5のいずれかに記載の目
録作成方法であって、前記参照した文字コード体系が複
数の言語IDに関連づけしてある文字コード体系であっ
た場合に、さらに当該WebページのHTML文書を構成する
文字の文字コードAを、言語IDが対応づけされた所定
の文字コードBと対照し、文字コードAが文字コードB
と一致した場合にその文字コードBに対応づけられてい
る言語IDに当該Webページを対応づける手段であるこ
とを特徴とする。
6. The catalog creating method according to claim 3, wherein the referenced character code system is a character code system associated with a plurality of language IDs. The character code A of the characters constituting the HTML document of the Web page is compared with the predetermined character code B associated with the language ID, and the character code A is changed to the character code B.
When the web page is matched, the web page is associated with the language ID associated with the character code B.
【請求項7】 請求項3または5または6のいずれかに
記載の目録作成方法であって、前記参照した文字コード
体系が複数の言語IDに関連づけしてある文字コード体
系であった場合に、さらに当該WebページのURLのト
ップレベルドメイン名を参照し、前記文字コード体系お
よび前記トップレベルドメイン名の組み合わせに関連づ
けてある言語IDに当該Webページを対応づける手段で
あることを特徴とする。
7. The catalog creating method according to claim 3, wherein the referenced character code system is a character code system associated with a plurality of language IDs. Further, it is a means for referring to a top-level domain name of a URL of the web page and associating the web page with a language ID associated with a combination of the character encoding system and the top-level domain name.
【請求項8】 以下の特定事項(81)〜(84)を充足す
る発明。 (81)請求項1〜7のいずれかに記載の目録作成方法を
適用したWebページ検索エンジンにおいて、利用者から
の求めに応じて検索を実行する方法である。 (82)Webページ検索エンジンはインターネットを通じ
てアクセスしてきた利用者コンピュータに前記言語ID
の指定欄を有するクエリー設定ページを送出する。 (83)Webページ検索エンジンは利用者コンピュータか
ら送られてくる前記クエリー設定ページにより設定され
たクエリーを受け付けて、前記データベースの目録のう
ち前記クエリーに指定されている言語IDに分類されて
いる目録を対象として前記クエリーによる検索処理を実
行する。 (84)Webページ検索エンジンは、前記検索処理により
抽出された目録を記載したホームページを作成し、これ
を前記クエリーを送出してきた利用者コンピュータに向
けて送出する。
8. An invention which satisfies the following specific items (81) to (84). (81) A method for executing a search in response to a request from a user in a Web page search engine to which the catalog creation method according to any one of claims 1 to 7 is applied. (82) The Web page search engine stores the language ID in the user computer accessed through the Internet.
Is sent out. (83) The Web page search engine receives the query set by the query setting page sent from the user computer, and the catalog classified into the language ID specified in the query among the catalogs of the database And performs a search process based on the query. (84) The Web page search engine creates a home page describing the list extracted by the search processing, and sends the created home page to the user computer that sent the query.
JP2000118129A 2000-04-19 2000-04-19 Catalog-preparing method for web page retrieval engine operating on internet, and retrieval method therefor Pending JP2001306592A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000118129A JP2001306592A (en) 2000-04-19 2000-04-19 Catalog-preparing method for web page retrieval engine operating on internet, and retrieval method therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000118129A JP2001306592A (en) 2000-04-19 2000-04-19 Catalog-preparing method for web page retrieval engine operating on internet, and retrieval method therefor

Publications (1)

Publication Number Publication Date
JP2001306592A true JP2001306592A (en) 2001-11-02

Family

ID=18629327

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000118129A Pending JP2001306592A (en) 2000-04-19 2000-04-19 Catalog-preparing method for web page retrieval engine operating on internet, and retrieval method therefor

Country Status (1)

Country Link
JP (1) JP2001306592A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013508817A (en) * 2009-10-14 2013-03-07 クゥアルコム・インコーポレイテッド Method and apparatus for automatic predictive selection of input method for web browser

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013508817A (en) * 2009-10-14 2013-03-07 クゥアルコム・インコーポレイテッド Method and apparatus for automatic predictive selection of input method for web browser

Similar Documents

Publication Publication Date Title
US8495049B2 (en) System and method for extracting content for submission to a search engine
US6970863B2 (en) Front-end weight factor search criteria
US8332422B2 (en) Using text search engine for parametric search
KR100567648B1 (en) Electronic bulletin board system and mail server
JP4857075B2 (en) Method and computer program for efficiently retrieving dates in a collection of web documents
US5999929A (en) World wide web link referral system and method for generating and providing related links for links identified in web pages
US7519592B2 (en) Method, apparatus and computer program for key word searching
US6938034B1 (en) System and method for comparing and representing similarity between documents using a drag and drop GUI within a dynamically generated list of document identifiers
US10210222B2 (en) Method and system for indexing information and providing results for a search including objects having predetermined attributes
US6094649A (en) Keyword searches of structured databases
US20090089278A1 (en) Techniques for keyword extraction from urls using statistical analysis
US7124358B2 (en) Method for dynamically generating reference identifiers in structured information
US20030110161A1 (en) Method, product, and apparatus for providing search results
US20080040389A1 (en) Landing page identification, tagging and host matching for a mobile application
WO2002010945A1 (en) Apparatus and method for producing contextually marked-up electronic content
US20020143808A1 (en) Intelligent document linking system
CN1882939A (en) Method and system for augmenting web content
US20090083266A1 (en) Techniques for tokenizing urls
US20070124307A1 (en) Focused search using network addresses
CA2391002C (en) Retrieval of digital objects by redirection of controlled vocabulary searches
WO2001024046A2 (en) Authoring, altering, indexing, storing and retrieving electronic documents embedded with contextual markup
JP2007128367A (en) Information retrieval knowhow management system
US20030163452A1 (en) Direct navigation for information retrieval
WO2000008570A1 (en) Information access
JP2001306592A (en) Catalog-preparing method for web page retrieval engine operating on internet, and retrieval method therefor

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040924