JP5540079B2

JP5540079B2 - 知識ベース構築の方法および装置

Info

Publication number: JP5540079B2
Application number: JP2012508592A
Authority: JP
Inventors: レイホウ; ジーシェンチン; ウェイチェン; チンチャン
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2009-04-29
Filing date: 2010-04-27
Publication date: 2014-07-02
Anticipated expiration: 2030-04-27
Also published as: EP2425355A4; EP2425355A1; WO2010126892A1; JP2012525645A; CN101876981B; HK1148090A1; CN101876981A; US20110060734A1

Description

（関連出願）
本出願は、２００９年４月２９日に出願された、発明の名称が「ＭＥＴＨＯＤＡＮＤＡＰＰＡＲＡＴＵＳＯＦＫＮＯＷＬＥＤＧＥＢＡＳＥＢＵＩＬＤＩＮＧ」である、中国特許出願第２００９１０１３６２０６．６号の優先権の利益を主張し、参照によってその全体が本明細書に組み込まれる。

本出願は、コンピュータと通信の分野に関連し、より具体的には、知識ベースを構築するための、方法および装置に関する。

広く使用されているコンピュータおよびネットワークに関連する技術において、資料の検索は、主な特徴である。多くのユーザの間で、すべての利用可能な情報源から、どのようにユーザの探している情報を検索するかということは、共通の関心事である。したがって、さまざまな検索技術が開発されてきた。

主要な検索技術のうちの１つは、キーワード検索である。ユーザは１つまたは複数のキーワードを検索語句として入力し、検索エンジンは、その検索語句を含むウェブページを識別するように、検索語句に基づいて検索を実行する。しかし、単語が複数の意味を有する場合がしばしばあり、また、１つの単語は、異なる産業または異なる分野において、さまざまな解釈または用途を有する場合がある。単語の、考えられる意味のすべてがユーザに関係するわけではないため、無関係な意味に基づいた検索で出現したウェブページは、ユーザにとって役に立たない可能性がある。Ｈｏｗ−ｎｅｔ等のウェブサイトの存在は、そのような問題を部分的に対処するように思われる。

Ｈｏｗ−ｎｅｔでは、１つの単語または句が複数の概念を含み、複数の概念のそれぞれに基づいて、複数の検索が行われる。そのような検索の結果は、より正確である傾向にある。

しかし、既存のＨｏｗ−ｎｅｔは、手作業で構築および整理され、したがって、頻度の高い（最も一般的な）コンテンツのみを対象にする傾向がある。したがって、それは、ネットワークの限定された包含範囲を有する。さらに、ウェブの急速な発展に伴い、ウェブ上で利用可能となる情報量の速度は、Ｈｏｗ−ｎｅｔの手動更新の速度をはるかに上回る。そのため、Ｈｏｗ−ｎｅｔを使用する検索結果も、最善ではない傾向にある。

本開示は、知識ベースを構築するための方法および装置の、例示的な実装形態を提供する。本方法および装置は、知識ベースの自動作成を実装して、そのような知識ベースの精度を向上させるように、使用することができる。

一態様において、方法は、コンピューティング装置の基本データ処理層を使用して、ウェブページから文を取得する。取得された文は、コンピューティング装置のデータマイニング層を使用して、単語に解析される。知識ベースの第１のカテゴリ内の、１つまたは複数の代表的な単語は、取得された文から解析された単語と照合される。代表的な単語のうちの１つと、取得された文から解析された単語のうちの１つとの間に一致が存在する場合、取得された文中の一致した単語に隣接する単語の列が、第１のエントリとして第１のカテゴリに追加される。取得された文から解析された単語を、知識ベースの第２のカテゴリの第２のエントリと照合するときに、第１のカテゴリと第２のカテゴリとの間に、確立された相関関係が存在するか否かが判定される。第１のカテゴリと第２のカテゴリとの間に、確立された相関関係が存在すると判定された場合、第１のカテゴリの第１のエントリと、第２のカテゴリの第２のエントリとの間の相関関係が確立される。

ウェブページから文を取得することは、取得された文を、取得された文中の句読点に基づいて、複数のより短い文に分割することを含んでもよい。さらに、取得された文を解析することは、取得された文を解析すること、または複数のより短い文を解析することを含んでもよい。

本方法は、さらに、基本データ処理層を使用して、個々の文の出現の回数を計数してもよく、データマイニング層を使用して、第１のカテゴリの第１のエントリの重み付けした値を、第１のエントリ、および第１のエントリに隣接する１つまたは複数の代表的な単語を有する、任意の文の出現の回数に基づいて、確立してもよい。

データマイニング層は、取得された文を分割するように、１つまたは複数の代表的な単語を含む、解析システムを採用してもよい。

知識ベースは、共通単語システムおよび実単語システムを含んでもよい。共通単語システムおよび実単語システムは、それぞれ異なるカテゴリを含んでもよい。代表的な単語は、実単語システムのカテゴリ対応インデックスワードおよび共通単語システムのカテゴリ対応シードワードを含んでもよい。取得された文中の一致した単語に隣接する単語の列が、第１のエントリとして第１のカテゴリに追加されると、単語の列は、第１のカテゴリを含む、共通単語システムまたは実単語システムに追加されてもよい。第１のカテゴリが、共通単語システム内に含まれるカテゴリのうちの１つである場合、第１のエントリは、第１のカテゴリに対応するシードワードとして設定されてもよい。

第１のカテゴリの第１のエントリと、第２のカテゴリの第２のエントリとの間の相関関係を確立することは、第１のエントリおよび第２のエントリを有する文の出現の頻度を得ることと、第１のエントリおよび第２のエントリを有する文の出現の頻度が、所定の閾値を超える場合、第１のエントリと第２のエントリとの間の相関関係を確立することとを含んでもよい。

データマイニング層は、各カテゴリおよび各カテゴリの下の各エントリに応じて、それぞれの結果ファイルを作成することができる。コンピューティング装置の統合層は、複数の結果ファイルを、単一の結果ファイルに統合することができる。個々の文の出現の回数は、計数される。第１のカテゴリの第１のエントリの重み付けされた値は、１つまたは複数の代表的な単語および第１のエントリを有する、任意の文の出現の回数に基づいて、確立されされてもよい。異なるカテゴリの下の個々のエントリの重み付けされた値は、比較されてもよい。エントリ対応カテゴリは、フィルタにかけることができる。

本方法は、さらに、ウェブページからテーブルを取得してもよく、第１のエントリのプロパティとして、第１のエントリと対になってテーブル内に何度も出現する単語をアトリビュートしてもよい。

ウェブページから文を取得することは、ウェブページから特殊記号を含む文を取得することを含むことができる。

別の態様では、情報検索の方法は、ウェブページ内の１つまたは複数のキーワードと、知識ベース内の１つまたは複数のキーワードに関連するエントリとに基づいて、ユーザによって入力された検索語句と一致する、ラベルを識別することと、ラベルに対応するウェブページを検索することと、ユーザに、このウェブページまたはこのウェブページへのリンクを提供することとを含む。

知識ベースは、コンピューティング装置の基本データ処理層を使用して、ウェブページから文を取得することと、取得された文を、コンピューティング装置のデータマイニング層を使用して、単語に解析することと、知識ベースの第１のカテゴリ内の、１つまたは複数の代表的な単語を、取得された文から解析された単語と照合することと、代表的な単語のうちの１つと、取得された文から解析された単語のうちの１つとの間に一致が存在する場合、取得された文中の一致した単語に隣接する単語の列を、第１のエントリとして第１のカテゴリに追加することと、取得された文から解析された単語を、知識ベースの第２のカテゴリの第２のエントリと照合するときに、第１のカテゴリと第２のカテゴリとの間に、確立された相関関係が存在するか否かを判定することと、第１のカテゴリと第２のカテゴリとの間に確立された相関関係が存在すると判定された場合、第１のカテゴリの第１のエントリと、第２のカテゴリの第２のエントリとの間の相関関係を確立することとによって、構築されてもよい。

さらなる別の態様では、情報検索の方法は、知識ベースのエントリを使用して、ユーザによって入力された検索語句を解析することと、検索語句から解析された単語を、知識ベースのエントリと照合することと、検索語句から解析された単語との一致を有するエントリに関連する、知識ベースのエントリを識別することと、検索語句を、検索語句から解析された単語との一致を有するエントリに関連する、知識ベースのエントリで更新することと、更新した検索語句に基づいて、検索を実行することとを含む。

知識ベースは、コンピューティング装置の基本データ処理層を使用して、ウェブページから文を取得することと、コンピューティング装置のデータマイニング層を使用して、取得された文を単語に解析することと、知識ベースの第１のカテゴリ内の１つまたは複数の代表的な単語を、取得された文から解析された単語と照合することと、代表的な単語のうちの１つと、取得された文から解析された単語のうちの１つとの間に一致が存在する場合、取得された文中の一致した単語に隣接する単語の列を、第１のエントリとして第１のカテゴリに追加することと、取得された文から解析された単語を、知識ベースの第２のカテゴリの第２のエントリと照合するときに、第１のカテゴリと第２のカテゴリとの間に、確立された相関関係が存在するか否かを判定することと、第１のカテゴリと第２のカテゴリとの間に、確立された相関関係が存在すると判定された場合、第１のカテゴリの第１のエントリと、第２のカテゴリの第２のエントリとの間の相関関係を確立することとによって、構築されてもよい。

一態様では、知識ベースを構築するコンピューティング装置は、ウェブページから、１つまたは複数の文を取得する、基本データ処理モジュールと、ウェブページから取得された１つまたは複数の文を解析する、データマイニングモジュールとを含む。データマイニングモジュールは、さらに、知識ベースの第１のカテゴリ内の、１つまたは複数の代表的な単語を、取得された文から解析された単語と照合し、代表的な単語のうちの１つと、取得された文から解析した単語のうちの１つとの間に一致が存在する場合、取得された文中の一致した単語に隣接する単語の列を、第１のエントリとして第１のカテゴリに追加し、取得された文から解析された単語を、知識ベースの第２のカテゴリの第２のエントリと照合するときに、第１のカテゴリと、第２のカテゴリとの間に、確立された相関関係が存在するか否かを判定し、第１のカテゴリと、第２のカテゴリとの間に、確立された相関関係が存在すると判定された場合、第１のカテゴリの第１のエントリと、第２のカテゴリの第２のエントリとの間の相関関係を確立する。

一態様では、検索エンジンは、ユーザによって入力された検索語句に対応するラベルを識別する、第１のクエリーモジュールと、ラベルに対応するウェブページを識別する、第２のクエリーモジュールと、ユーザに、ウェブページまたはウェブページへのリンクを提供する、インターフェースモジュールと、ウェブページの１つまたは複数のキーワードおよびこれらの１つまたは複数のキーワードに関連する知識ベースのエントリに基づいて、ウェブページに対応するラベルを作成する、ラベル作成モジュールとを含む。

別の態様では、検索エンジンは、知識ベースのエントリに基づいて、ユーザによって入力された検索語句を解析する、解析モジュールと、検索語句から解析された単語を、知識ベースのエントリと照合する、照合モジュールと、検索語句から解析された単語との一致を有するエントリに関連する、知識ベースのエントリを識別する、クエリーモジュールと、検索語句から解析された単語との一致を有するエントリに関連する、知識ベースのエントリで、検索語句を更新する、更新モジュールと、更新した検索語句に基づいて、検索を実施する、検索モジュールとを含む。

本開示の一実施形態による、コンピューティング装置の図である。本開示の一実施形態による、ネットワークシステムの図である。本開示の一実施形態による、知識ベースの作成の流れ図である。本開示の、別の実施形態による、知識ベースの作成の流れ図である。本開示の一実施形態による、ウェブページのスキーマを分析する場合の、情報検索の流れ図である。本開示の一実施形態による、ユーザの意図を分析する場合の、情報検索の流れ図である。本開示の、別の実施形態による、コンピューティング装置の図である。本開示の一実施形態による、検索エンジンのブロック図である。本開示の、別の実施形態による、検索エンジンのブロック図である。

本開示は、ウェブページに出現する単語を分析する技術を説明する。ウェブページからの文中の単語であり、かつ知識ベース内のカテゴリに追加される単語は、そのカテゴリ下のエントリと見なされる。カテゴリ間の相関関係に基づいて、対となって現れるエントリ間の相関関係もまた、確立される。これは、知識ベースの自動構築を可能にし、したがって、処理における手作業での資源の必要性を回避する。

一実施形態では、知識ベースは、１つまたは複数のカテゴリを含む。各カテゴリは、それぞれの対応するエントリおよび代表的な単語を有する。１つのエントリは、１つまたは複数のカテゴリに対応してもよく、異なるカテゴリに対して異なる重み付けを有してもよい。エントリもまた、対応するプロパティを有することができる。さらに、カテゴリ間およびエントリ間に相関関係が確立されてもよい。たとえば、「製品」のカテゴリは、「携帯電話」という対応するエントリ、ならびに、「販売」、「モデル」、「ブランド」、および「機能性」等の代表的な単語を有してもよい。エントリ「携帯電話」は、機能性、サイズ、バッテリータイプ、等のプロパティを有してもよい。一実施形態では、カテゴリ、各カテゴリに対応する代表的な単語、およびカテゴリ間の相関関係は、知識ベース内にあらかじめ設定される。知識ベースが増大すると、エントリ、エントリ間の相関関係、およびエントリのプロパティが追加されることになる。

表５に示される「販売」に加えて、カテゴリ「製品」に対応するかもしれない、他の代表的な単語は、たとえば、「モデル」、「ブランド」等を含む。別の例として、カテゴリ「映画とテレビ」は、「監督」、「主演男優」、「主演女優」、「リリース」等の代表的な単語を含むかもしれない。一実施形態では、各カテゴリの代表的な単語は、それぞれのカテゴリの特性に基づいて、あらかじめ設定される、すなわち既定である。

一実施形態では、表１〜表５のデータを保存するために、テキスト文書、表、データベース、または他の適切な手段を用いてもよい。表１〜表５は、例として提供されており、相関関係を変えることなく異なる方法で組み合わせられてもよいことを理解されたい。

図１Ａに示されるように、一実施形態では、開示される知識ベースを構築するコンピューティング装置は、基本データ処理層、データマイニング層、統合層、および利用層を含んでもよい。あるいは、これらの機能的な層は、異なるコンピューティング装置内に実装されてもよい。これらの異なるコンピューティング装置は、サーバおよび／またはクライアント端末装置としてもよく、図１Ｂに示されるように、ネットワークを形成することができる。たとえば、基本データ処理層は、クライアント１１内に実装されてもよく、データマイニング層は、サーバ１２内に実装されてもよく、統合層は、サーバ１２またはサーバ１３内に実装されてもよく、かつ利用層は、クライアント１４内に実装されてもよい。他の実施形態では、クライアント１１、サーバ１２、サーバ１３、およびクライアント１４に加えて、他のサーバおよびクライアントが存在してもよい。

基本データ処理層は、ウェブページから文を取得する。取得された文は、ウェブページのコンテンツからの文とすることができる。データマイニング層は、取得された文のそれぞれを、単語に解析して、知識ベース内のカテゴリ、たとえば第１のカテゴリの代表的な単語を、文から解析された単語と照合する。代表的な単語と、文から解析された単語との間に良好な一致が存在する場合、文から解析された、一致した単語に隣接する単語および／または記号の列は、第１のエントリとして、第１のカテゴリに追加される。文から解析された単語を、知識ベースの第２のカテゴリの第２のエントリと照合するとき、第１のカテゴリと、第２のカテゴリとの間に相関関係が確立されたか否かについての判定が行われる。第１のカテゴリと、第２のカテゴリとの間に相関関係が存在する事象では、第１のカテゴリの第１のエントリと、第２のカテゴリの第２のエントリとの間に、相関関係が確立される。つまり、第２のカテゴリの第２のエントリは、第１のカテゴリの第１のエントリの対応するエントリとして、追加される場合がある。同様に、第１のカテゴリの第１のエントリは、第２のカテゴリの第２のエントリの対応するエントリとして追加される場合がある。当業者は、上記に説明される第１のカテゴリおよび第２のカテゴリは、任意の２つのカテゴリとなる場合があることを理解するであろう。便宜のため、および２つのカテゴリを区別するために、それらは第１のカテゴリおよび第２のカテゴリと称される。同様に、第１のエントリおよび第２のエントリも、任意の２つのエントリとなる場合がある。

コンピューティング装置はまた、図１Ａに示されるように、統合層および利用層も含んでもよい。統合層は、データマイニング層によって作り出された、さまざまなカテゴリのための結果ファイルを、単一の結果ファイルに統合する。利用層は、データの利用を可能にする。

説明のため、および例として、データマイニング層は、カテゴリ１、カテゴリ２、およびカテゴリ３のための、以下の結果ファイルを作り出す。

統合層は、これらの３つの結果ファイルを、下の表６に示されるように単一の結果ファイルに統合する。

表６において、「０」は、エントリと、カテゴリとの間に相関関係がないことを示す。

図１Ｃは、一実施形態による、以下のステップを含む、知識ベース構築の一般的な過程１００を示す。

１０１において、コンピューティング装置内の基本データ処理層は、ウェブページから文を取得する。

１０２において、コンピューティング装置のデータマイニング層は、文を解析、すなわち分割する。

１０３において、データマイニング層は、知識ベースの第１のカテゴリに対応する代表的な単語を、文から解析された単語と照合する。

知識ベースの構築の開始において、カテゴリ、および各カテゴリに対応する代表的な単語は、定義され、かつ確立される必要がある。知識ベースの構築が継続すると、新たなエントリが知識ベースに追加されるにつれて、代表的な単語は更新される。

１０４において、代表的な単語と、文から解析された単語との間に良好な一致が存在する場合、データマイニング層は、文中の一致した単語に隣接する単語および／または記号の列を、第１のエントリとして、第１のカテゴリに追加する。

１０５において、文から解析された単語を、知識ベースの第２のカテゴリの第２のエントリと照合するとき、データマイニング層は、第１のカテゴリと、第２のカテゴリとの間に相関関係が確立されたか否かを判定する。第１のカテゴリと、第２のカテゴリとの間に相関関係が存在する事象において、データマイニング層は、第１のカテゴリの第１のエントリと、第２のカテゴリの第２のエントリとの間に、相関関係を確立する。

知識ベースを構築するための、本明細書に説明される過程は、知識ベースを更新するために使用することができ、かつ定期的に繰り返すことができる。

図２は、一実施形態による、以下のステップを含む、知識ベース構築の詳細な過程２００を示す。

２０１において、データ処理層は、ウェブページから文を取得する。具体的には、データ処理層は、単文および句、ならびに文の出現の頻度、すなわち、ウェブページ上の同じ文の出現率を取得する。ウェブページ上のテキストメッセージは、テキストメッセージから得られる文中の句読点によって、前もって保存して、後に収集することができる。

文は、単文、句、または長文である可能性がある。単文は、終止符、疑問符、または感嘆符の前の文であって、文の単語間に他の句読点を有さない文を意味する。句は、コンマまたはセミコロンを末尾に使用するものであって、句の単語間に他の句読点を有さないものを意味する。長文は、その間に１つまたは複数のコンマまたはセミコロンを有する、終止符、疑問符、または感嘆符の前の文を意味する。長文が検索される場合、句読点にしたがって、多くの短い句に分割される。文がより長く、内容がより複雑になるにつれて、より容易に分析するために、多くの句に分割され、したがって、さらにより正確な結果を得ることになる。たとえば、検索される文は、「本店出售ＡＡ牌ＢＢ１型号的手机」であってもよい。

２０２において、データマイニング層は、解析システムを使用して、取得された文を解析する。たとえば、文「本店出售ＡＡ牌ＢＢ１型号的手机」は解析後、「本店、出售、ＡＡ、牌、ＢＢ１、型号、手机」となる。このカテゴリに対応する単語は、解析システムに追加することができ、これは、文を分割するために使用される。

２０３において、データマイニング層は、第１のカテゴリの代表的な単語を、解析された単語と照合する。代表的な単語と、文から解析された単語とが、一貫して一致する場合、この一致は、この文について良好であると考えられ、良好に一致した単語は、保持される。第１のカテゴリでは、不一致の文は、落とされる。不一致の文は、他のカテゴリの代表的な単語と照合するために再利用することができる。

２０４において、マイニング層は、良好な一致が、知識ベースにまだ含まれていない未知の単語を有するかどうかを判断する。（下記に説明されるステップ２０５に続くが）良好な一致が知識ベースにまだ含まれていない未知の単語を有しない場合には、文の終わりに、過程２００は、他の良好な一致が知識ベース内にまだ含まれていない未知の単語を有するかどうかを判断するために、さらに継続することができる。未知の単語が含まれていない場合、過程２００は、それでもなお、他のカテゴリの代表的な単語を、それぞれの文からそれらを解析した後で得られる単語と照合することができる。次いで、ステップ２０３が繰り返される。

２０７において、データマイニング層は、第１のエントリの出現の頻度と、それらがその中に配置された文中の隣接する代表的な単語とに基づいて、第１のカテゴリにおける第１のエントリの重み付けを提供する。たとえば、取得した文の出現の頻度の計数で、文１において出現する、第１のエントリＢＢ１および代表的な単語「型号」の回数は、１０００である。それらが文２内で出現する回数は１００であり、文３内では、出現の回数は１０である。したがって、重み付けは、ｆ（１０００）＋ｆ（１００）＋ｆ（１０）である。これらのそれぞれは、たとえば、１０を底とする対数関数などの、重み付けの関数としての、それぞれの文における出現の頻度である。

２０８において、データマイニング層は、文における、第１のカテゴリの第１のエントリおよび第２のカテゴリの第２のエントリの出現頻度を取得する。それにより、第１のカテゴリと、第２のカテゴリとの間の相関関係が確立される。

２０９において、この頻度がデフォルトの相関関係の閾値を超えると、データマイニング層は、第１のエントリと第２のエントリとの間の関係を確立する。一実施形態では、第１のエントリに対する追加の相関関係を確立するように、ステップ２０８を繰り返すことができる。相関関係の閾値を通して、過程２００は、誤記による相関関係内のエラーを、フィルタにかけて除去することができる。たとえば、既に確立された、カテゴリ「モデル」と、カテゴリ「ブランド」との間の相関関係では、「ＢＢ１」と「ＡＡ」との間の相関関係を確立することができる。

一実施形態では、ステップ２０６、２０７、および２０８は、３つの個別の過程であり、完全に連続的な実装を有せず、また同時に実装することもできる。

一実施形態では、知識ベースは、共通単語システムおよび実単語システムを含む。実単語システムに含まれる単語は、インデックスワードに対応し、共通単語システムに含まれる単語は、シードワードに対応する。共通単語システムに含まれるエントリは、主に、場所の名前等のように変化することの少ない、決まった単語である。実単語システムに含まれるエントリは、個人の名前および映画の題名等のように、高い頻度で更新される単語である。共通単語システムと、実単語システムとの間の違いは、それぞれのシステムに含まれるカテゴリに依存する。実単語システム内のインデックスワードは、対応するカテゴリの下のエントリに含まれない。共通単語システム内のシードワードは、対応するカテゴリの下のエントリに属する。共通単語システム下および実単語システム下のカテゴリは、異なる更新の周期を使用することができる。共通単語システムの更新の周期は、実単語システムの更新の周期よりも長い周期とすることができる。

表７および表８は、それぞれ、共通単語システムの実例および実単語システムの実例を示す。

未知の列が、第１のエントリとして、第１のカテゴリに追加されると、第１のエントリとしての未知の列は、第１のカテゴリが属する（共通単語システムまたは実単語システムのいずれにおいても）システムに追加される。第１のカテゴリが、共通単語システム内のカテゴリである場合、第１のエントリは、第１のカテゴリに対応するシードワードである可能性がある。

マイニング層はまた、特徴的な記号に基づいて、未知の列が、第１のカテゴリ内のエントリに対応するかどうかも判断することができる。特徴的な記号は、所与のカテゴリに関連する、句読点等の、たとえば、角括弧、コンマ、著作記号およびその他を含む。たとえば、カテゴリが映画またはテレビである場合、基本データ処理層は、著作記号を有する文を得てもよく、マイニング層は、映画のカテゴリ内の対応するインデックスワードと、著作記号を有する文中の単語とを照合するであろう。良好な一致が存在する場合、次いで、著作記号で引用された単語（すなわち、未知の列）は、映画（またはテレビ）のカテゴリの下でのエントリとなる。丸括弧内の単語は、通常、英語の固有名詞（括弧の前の単語）であり、コンマの前および後の単語は、通常、同じカテゴリに属する。

データマイニング層はまた、第１のエントリのためのプロパティを設定することもできる。一実施形態では、データ処理層は、ウェブページからテーブルを取得する。データマイニング層は、所与の単語を第１のエントリのプロパティとし、これは、そのような単語が第１のエントリと対となって何度もテーブル内に出現するときになされる。たとえば、第１のエントリは製品とすることができる。これは、通常、製品の出自、製造業者、サイズ、モデル（または仕様）を列挙するテーブルの形態である。たとえば、多くの種類および多くのタイプの製造業者が存在する場合があるが、「製造業者」という単語は、第１のエントリと対となって何度も出現する。そのような事例では、「製造業者」という単語は、第１のエントリのプロパティとされる。

データマイニング層は、カテゴリを１つずつ分析して、各カテゴリごとに、それぞれの結果ファイルを作成する。この結果ファイルは、カテゴリ、カテゴリの対応するエントリ、およびカテゴリの各エントリの重み付けを含んでもよい。知識ベースは通常１つのカテゴリのみを有することはないことを考慮すると、統合層を介して多数の結果ファイルを１つの結果ファイルに一体化することができる。

統合層は、対応するエントリのカテゴリをフィルタにかけることができる。データマイニング層は、代表的な単語を伴う未知の列の出現の結果、未知の列を、所与の代表的な単語に対応するカテゴリに追加する。フィルタリングが、代表的な単語と共に出現する未知の列の頻度のみに基づく場合、フィルタリングにおけるエラーが発生する場合がある。たとえば、少ない頻度で出現するが、それでもやはり正しい、いくつかの一般的でない単語が存在する場合がある。その一方で、高い頻度で出現するにもかかわらず、恐らく誤記に起因する、かかる一般的な単語としては特定の文中に出現するのは誤りかもしれない、いくつかの一般的な単語が存在する場合がある。そのような問題は、データマイニング層によって理解されない可能性があるため、統合層によるフィルタリングが必要である。一実施形態では、統合層は、所与のエントリの、そのエントリに対応するさまざまなカテゴリにおける、個別の重み付けを比較する。比較が特定の条件に適合する場合、このエントリがこれらのカテゴリに追加されることが正しいと見なされる。比較が特定の条件に適合しない場合、エントリと、エントリが正しくなく追加されたカテゴリとの間の相関関係は、取り消される。比較を行うための、多くの方法が存在する。一実施形態では、最も大きい重み付けと、ゼロでない最も小さい重み付けとが比較され、最小重み付けと最大重み付けとの比率が、第１の閾値よりも低い場合、最小重み付けはゼロに設定されて、それぞれのエントリと、最小重み付けに対応するカテゴリとの相関関係が取り消される。あるいは、所与のエントリに対するゼロでない最小重み付けが、エントリの総重み付け（エントリの重み付けの合計）と比較され、総重み付けに対する最小非ゼロ重み付けの比率が、第２の閾値よりも低い場合、最小非ゼロ重み付けされたはゼロに設定されて、それぞれのエントリと、最小非ゼロ重み付けに対応するカテゴリとの間の相関関係は取り消される。

知識ベースは、さまざまな分野で使用することができる。たとえば、知識ベースは、より良い検索結果を得るために、検索エンジンにサービスを提供して、ユーザの目的を分析するように使用することができる。別の例として、知識ベースは、ユーザに、連想させる情報を提供することによって、ユーザにプロンプトを提供することができる。したがって、いくつかの実施形態では、知識ベースは、アプリケーション層も含み、検索の実行が、アプリケーション層を活用する１つの方法である。

図３は、ウェブページのスキーマを分析する場合の情報検索の方法３００を示す。

３０１において、ユーザによって入力された検索語句から解析された単語に基づいて、解析された単語は、一致する単語、またはラベルを得るように、検索語句と比較される。

３０２において、一致した単語に対応するウェブページが得られる。

３０３において、得られたウェブページ、または得られたウェブページへのリンクがユーザに提供される。ここで、一致した単語、またはラベルは、ウェブページの１つまたは複数のキーワードと、その１つまたは複数のキーワードに関連する、知識ベースのエントリとに基づいて得られる、新たな検索語である。

図４は、ユーザの意図を分析する場合の情報検索の過程４００を示す。

４０２において、検索語句から解析された単語／句を、良好な一致を有するエントリまたは複数のエントリを識別するために、知識ベースのエントリと照合する。たとえば、「購入」は、「売買」のカテゴリの下のエントリであり、それに対して「ＢＢ１」は、「モデル」のカテゴリの下のエントリである。

４０３において、知識ベースに基づいて、良好な一致を有するエントリに関連するエントリが得られる。たとえば、「ＢＢ１」は、エントリ「ＡＡ」および「携帯電話」に関連し、ここで「ＡＡ」は「ブランド」のカテゴリに対応し、「携帯電話」は「製品」のカテゴリに対応する。

４０４において、検索語句は、関連エントリに基づいて更新される。たとえば、更新された語句は、ユーザの目的をより正確に反映する、「ＡＡブランドの携帯電話購入、モデルはＢＢ１」とすることができる。

４０５において、ウェブページのキーワードおよび更新された検索語句に照合される。具体的には、図３に関連して説明されたラベルと、更新された検索語句が照合されて、良好に一致したラベルに対応するウェブページが識別される。

４０６において、識別されたウェブページまたはそのようなウェブページへのリンクが、検索結果としてユーザに提供または提示され、それにより情報検索が達成される。一実施形態では、ウェブページ、またはウェブページへのリンクがユーザに提示される順序は、ウェブページのそれぞれの、ラベルとキーワードとの間の良好な一致の程度に依存する場合がある。最も一致するカテゴリおよびエントリを有するウェブページは、最も良好な一致を有するウェブページであると見なされる。

エントリは、複数のカテゴリに対応する場合がある。「アップル」を例にとると、「アップル」は、「果物」のカテゴリの下のエントリ、「衣料品」のカテゴリの下のエントリ、またはさらには「電気製品ブランド」の下のエントリとなる可能性がある。したがって、検索語句の更新およびウェブページの更新の過程において、さまざまなカテゴリに基づいて、追加の検索語句が得られる場合がある。ユーザの意図に最も近い検索語句は、さまざまな更新された検索語句の中から識別されることとなり、これを達成するための多くの方法が存在する。たとえば、カテゴリに対応する、最大の重み付けを有するエントリを判定することができる。知識ベースにおいて、最大の重み付けを有するカテゴリに対応するエントリに基づいて、良好に一致したエントリに関連するエントリが得られる。さらに、これらの関連エントリに基づいて、ユーザによって入力された検索語句が更新される。あるいは、解析後に得られる単語と、多数のカテゴリに対応する代表的な単語とが照合される。知識ベースを通して、および、良好に一致した代表的な単語（複数可）に対応するカテゴリに応じて、そのようなカテゴリに対応するエントリに関連するエントリを得ることができる。検索語句は、得られたエントリに基づいて更新することができる。

開示される知識ベースはさらに、ユーザが情報の普及を望む場合、ユーザにプロンプトを提供することができる。たとえば、ユーザが、携帯電話に関連する販売情報を公開することを望む場合において、ユーザが製品フィールド内に「携帯電話」と入力して、良好な一致が存在する場合に、ユーザに、「携帯電話」に関連するエントリならびに「携帯電話」というエントリのプロパティ等のプロンプトが提供または提示されてもよい。その後、ユーザは、プロンプトされた情報をクリックすることによって、他の入力フィールドを完了することができる。そのようにして、ユーザ体験が高まる一方で、操作プロセスは簡易化される。

上記の説明は、当業者が、開示される知識ベースを構築する手順、およびそのような知識ベースを使用して情報検索を達成する手順を理解することを可能にする。実際の実装は、一装置によって実施することができ、そのような装置の説明が下に説明される。

図５は、本開示の一実施形態による、コンピューティング装置５００を示す。開示される知識ベースを構築するために使用されるコンピューティング装置の各層は、機能モジュールを用いて実装することができる。したがって、コンピューティング装置は、基本データ処理モジュール５０１およびデータマイニングモジュール５０２を含む。

基本データ処理モジュール５０１、すなわちコンピューティング装置５００の基本データ処理層は、ウェブページから文を得るために使用される。

データマイニングモジュール５０２、すなわちコンピューティング装置５００のデータマイニング層は、得られた文を解析するために使用される。データマイニングモジュール５０２は、知識ベースの第１のカテゴリに対応する代表的な単語を、解析から得られる単語と照合する。少なくとも１つの解析された単語が良好に一致する場合、文中の一致した単語に隣接する未知の単語および／または記号の列は、第１のエントリとして扱われ、第１のカテゴリに追加されるであろう。文中の単語が、第２のカテゴリの第２のエントリと一致する場合、データマイニング層５０２は、第１のカテゴリと、第２のカテゴリとの間に相関関係が存在するか否かを判定する。相関関係が存在する場合、第１のエントリと、第２のエントリとの間の相関関係が確立される。データマイニングモジュール５０２はまた、エントリのためのプロパティ／複数のプロパティを確立することもでき、それぞれのカテゴリごとの結果ファイルを作成することもできる。

コンピューティング装置５００は、さらに、統合モジュール５０３（すなわち、統合層）および利用モジュール５０４（すなわち、利用層）を備える。統合モジュール５０３は、データマイニングモジュール５０２からの結果ファイルを、１つの結果ファイルに統合し、かつエントリに対応するカテゴリをフィルタにかける。

利用モジュール５０４は、さまざまな種類のアプリケーションを提供する。検索エンジンは、利用モジュール５０４のアプリケーションユニットのうちの１つである。

図６は、本開示の一実施形態による、検索エンジン６００を示す。検索エンジン６００は、第１のクエリーモジュール６０１、第２のクエリーモジュール６０２、インターフェースモジュール６０３、およびラベル作成モジュール６０４を含む。

第１のクエリーモジュール６０１は、ユーザによって入力された検索語句に対応するラベルを得る。第２のクエリーモジュール６０２は、ラベルに対応するウェブページを得る。インターフェースモジュール６０３は、ユーザに、ウェブページまたはウェブページへのリンクを提供する。ラベル作成モジュール６０４は、ウェブページの１つまたは複数のキーワードと、その１つまたは複数のキーワードに関連する知識ベースのエントリとに基づいて、ウェブページに対応するラベルを作成する。

図７は、本開示の別の実施形態による、検索エンジン７００を示す。検索エンジン７００は、解析モジュール７０１、照合モジュール７０２、クエリーモジュール７０３、更新モジュール７０４、および検索モジュール７０５を含む。

解析モジュール７０１は、知識ベースのエントリに基づいて、ユーザによって入力された検索語句を解析する。照合モジュール７０２は、検索語句から解析された単語を、知識ベースのエントリと照合する。クエリーモジュール７０３は、検索語句から解析された単語との一致を有するエントリに関連する、知識ベースのエントリを識別する。更新モジュール７０４は、検索語句から解析された単語との一致を有するエントリに関連する、知識ベースのエントリを有する検索語句を更新する。検索モジュール７０５は、更新された検索語句に基づいて検索を行う。さらに、検索モジュール７０５は、ウェブページの文を、更新されたキーワードと照合して、ユーザに、キーワードとの良好な一致を有するウェブページまたはウェブページへのリンクを提供する。一実施形態では、良好な一致を有する、複数のウェブページが存在する場合、検索モジュール７０５は、ユーザに一致を有するウェブページ、または、たとえば、最も良好な一致を有するウェブページから、良好の程度が最も低い一致を有するウェブページの順序である、降順で、そのようなウェブページへのリンクを提供してもよい。

検索エンジン６００および検索エンジン７００は、それぞれ、図６および図７に示される特徴および機能性を含む、単一の検索エンジンの一部とすることができる。第１のクエリーモジュール６０１および第２のクエリーモジュール６０２は、検索モジュール７０５と同等であり、これは更新された検索語句に基づいて、ウェブページを検索するために、更新された検索語句に対応するラベルを取得する。検索エンジン７００はまた、インターフェースモジュール６０３を含んでもよく、インターフェースモジュール６０３は、ユーザから検索語句を受け取り、ユーザに、検索から識別されたウェブページ（複数可）またはウェブページ（複数可）へのリンク（複数可）を提供する。

説明の便宜のため、例示的なコンピューティング装置または検索エンジンの特徴および機能は、さまざまなモジュールとして説明される。当然ながら、さまざまな実施形態において、本明細書に説明される任意のモジュールの特徴および機能は、ソフトウェアまたはハードウェアの１つまたは複数の事例に実装されてもよい。

開示されるコンピューティング装置、検索エンジン、およびそれらのモジュールは、ソフトウェアおよび／またはハードウェアを使用して実装されてもよい。ソフトウェアで実装される場合、ソフトウェアは、フロッピー（登録商標）ディスク、ハードディスク、ＣＤ−ＲＯＭ、およびフラッシュメモリ等の、１つまたは複数のコンピュータ可読媒体に格納されてもよい。開示される方法、知識ベース、および検索エンジンは、ネットワークシステムの１つまたは複数のネットワークコンピュータに実装されてもよい。

本開示の実装形態は、文中の単語と、知識ベース内の印をつけられた単語とを照合するであろう。良好に一致する単語に基づいて、知識ベース内のカテゴリに対して、未知の単語が判定され、かつそのカテゴリの下のエントリとして見なされる。また、カテゴリ内の相関関係に基づいて、知識ベースを更新するために、文中に出現するエントリ間に相関関係が構築される。本開示の実装形態はまた、未知の単語および良好に一致した印を付けられた単語の出現の頻度に基づいて、対応するカテゴリ下で未知の単語の重み付けを設定する。それはまた、知識ベースの各フィールドごとに、より多くの情報を提供するために、ウェブページのフォーム内の未知の単語の出現を通して、未知の単語のプロパティも設定する。同時に、本開示の実装形態は、ユーザの意図に関して、より正確となるために、知識ベースを通して、ユーザによって入力された検索単語を更新するために使用される。それはまた、より正確な検索結果を有するために、更新された検索語句に基づいて検索する。また、実装形態は、ウェブページがユーザの目的をより正確に示すように、知識ベースを通して、ウェブページに対して、主題のタグを設定する。それはまた、より正確な検索結果を達成するために、タグと更新された検索単語とを照合する。

当然ながら、当業者は、本開示の精神および範囲を逸脱することなく、多くの異なる方法で、本開示を変更または修正することができる。したがって、本開示が、本開示の特許請求の範囲およびそれらの等価物の範囲に含まれる、すべての修正および変形を対象とすることが意図される。

Claims

コンピューティング装置を使用する、知識ベース構築の方法であって、
前記コンピューティング装置の基本データ処理層を使用して、ウェブページから文を取得することと、
前記コンピューティング装置のデータマイニング層を使用して、前記取得された文を単語に解析することと、
知識ベースの第１のカテゴリ内の１つまたは複数の代表的な単語を、前記取得された文から解析された前記単語と照合することと、
前記代表的な単語のうちの１つと、前記取得された文から解析された前記単語のうちの１つとの間に一致が存在する場合、前記取得された文中の前記一致された単語に隣接する単語の列を、第１のエントリとして前記第１のカテゴリに追加することと、
前記取得された文から解析された前記単語を、前記知識ベースの第２のカテゴリの第２のエントリと一致するときに、前記第１のカテゴリと前記第２のカテゴリとの間に確立された相関関係が存在するか否かを判定することと、
前記第１のカテゴリと前記第２のカテゴリとの間に確立された相関関係が存在すると判定された場合、前記第１のカテゴリの前記第１のエントリと、前記第２のカテゴリの前記第２のエントリとの間の相関関係を確立することと、を含む、方法。
ウェブページから文を取得することは、前記取得された文を、前記取得された文中の句読点に基づいて、複数のより短い文に分割することを含み、かつ前記取得された文を解析することが、前記取得された文を解析すること、または前記複数のより短い文を解析することを含む、請求項１に記載の方法。
前記基本データ処理層が、個々の文の出現の回数を計数することと、
前記データマイニング層が、前記第１のエントリおよび前記第１のエントリに隣接する１つまたは複数の前記代表的な単語を有する、任意の文の出現の回数に基づいて、前記第１のカテゴリの前記第１のエントリの重み付けされた値を確立することと、をさらに含む、請求項１に記載の方法。
前記データマイニング層は、前記取得された文を分割するように、前記１つまたは複数の代表的な単語を含む、解析システムを採用する、請求項１に記載の方法。
前記知識ベースは、共通単語システムおよび実単語システムを含み、前記共通単語システムおよび前記実単語システムは、それぞれ異なるカテゴリを含み、前記代表的な単語は、前記実単語システムのカテゴリ対応インデックスワードと、前記共通単語システムのカテゴリ対応シードワードとを含み、前記取得された文中の前記一致した単語に隣接する前記単語の列が、前記第１のエントリとして前記第１のカテゴリに追加されると、前記単語の列が、前記第１のカテゴリを含む前記共通単語システムまたは前記実単語システムに追加される、請求項１に記載の方法。
前記第１のカテゴリが、前記共通単語システム内に含まれる前記カテゴリのうちの１つである場合、
前記第１のエントリを、前記第１のカテゴリに対応する前記シードワードとして設定することをさらに含む、請求項５に記載の方法。
前記第１のカテゴリの前記第１のエントリと、前記第２のカテゴリの前記第２のエントリとの間の相関関係を確立することは、
前記第１のエントリおよび前記第２のエントリの文の出現の頻度を得ることと、
前記第１のエントリおよび前記第２のエントリの文の出現の前記頻度が、所定の閾値を超える場合、前記第１のエントリと第２のエントリとの間の相関関係を確立することと、
を含む、請求項１に記載の方法。
各カテゴリおよび各カテゴリの下の各エントリに応じて、それぞれの結果ファイルを作成する、前記データマイニング層と、
複数の結果ファイルを単一の結果ファイルに統合する、前記コンピューティング装置の統合層と、をさらに含む、請求項１に記載の方法。
個々の文の出現の回数を計数することと、
１つまたは複数の代表的な単語および前記第１のエントリを有する、任意の文の出現の回数に基づいて、前記第１のカテゴリの前記第１のエントリの重み付けされた値を確立することと、
異なるカテゴリの下の個々のエントリの重み付けされた値を比較することと、
エントリ対応カテゴリを、フィルタにかけることと、をさらに含む、請求項８に記載の方法。
前記ウェブページからテーブルを取得することと、
前記第１のエントリのプロパティとして、前記第１のエントリと対になってテーブル内に複数回出現する単語を属性化することと、をさらに含む、請求項１に記載の方法。
ウェブページから文を取得することは、前記ウェブページから、特殊記号を含む文を取得することを含む、請求項１に記載の方法。
コンピュータにより実行される情報検索の方法であって、
該コンピュータが、
知識ベースにおいて、１つまたは複数のキーワードに関連するウェブページおよびエントリ内の前記１つまたは複数のキーワードに基づいて、ユーザによって入力された検索語句と関連する、ラベルを識別することと、
前記ラベルに対応する前記ウェブページを検索することと、
前記ユーザに、前記ウェブページまたは前記ウェブページへのリンクを提供することと、を含む各ステップを実行するように構成され、
前記知識ベースは、
コンピューティング装置の基本データ処理層を使用して、複数のウェブページのうちの１つから文を取得することと、
前記コンピューティング装置のデータマイニング層を使用して、前記取得された文を単語に解析することと、
前記知識ベースの第１のカテゴリ内の１つまたは複数の代表的な単語を、前記取得された文から解析された前記単語と、照合することと、
前記代表的な単語のうちの１つと、前記取得された文から解析された前記単語のうちの１つとの間に一致が存在する場合、前記取得された文中の前記一致した単語に隣接する単語の列を、第１のエントリとして前記第１のカテゴリに追加することと、
前記取得された文から解析された前記単語を、前記知識ベースの第２のカテゴリの第２のエントリと一致するときに、前記第１のカテゴリと前記第２のカテゴリとの間に、確立された相関関係が存在するか否かを判定することと、
前記第１のカテゴリと前記第２のカテゴリとの間に、確立された相関関係が存在すると判定された場合、前記第１のカテゴリの前記第１のエントリと、前記第２のカテゴリの前記第２のエントリとの間の相関関係を確立することと、によって構築されることを特徴とする方法。
コンピュータにより実行される情報検索の方法であって、
該コンピュータが、
知識ベースのエントリを使用して、ユーザによって入力された検索語句を解析することと、
前記検索語句から解析された単語を、前記知識ベースの前記エントリと照合することと、
前記検索語句から解析された単語との一致を有するエントリに関連する、前記知識ベースのエントリを識別することと、
前記検索語句を、前記検索語句から解析された単語との一致を有する前記エントリに関連する、前記知識ベースのエントリで更新することと、
前記更新された検索語句に基づいて、検索を実施することと、を含む各ステップを実行するように構成され、
前記知識ベースは、
コンピューティング装置の基本データ処理層を使用して、ウェブページから文を取得することと、
前記コンピューティング装置のデータマイニング層を使用して、前記取得された文を単語に解析することと、
前記知識ベースの第１のカテゴリ内の１つまたは複数の代表的な単語を、前記取得された文から解析された前記単語と、照合することと、
前記代表的な単語のうちの１つと、前記取得された文から解析された前記単語のうちの１つとの間に一致が存在する場合、前記取得された文中の一致した単語に隣接する単語の列を、第１のエントリとして前記第１のカテゴリに追加することと、
前記取得された文から解析された前記単語を、前記知識ベースの第２のカテゴリの第２のエントリと一致するときに、前記第１のカテゴリと前記第２のカテゴリとの間に、確立された相関関係が存在するか否かを判定することと、
前記第１のカテゴリと前記第２のカテゴリとの間に、確立された相関関係が存在すると判定された場合、前記第１のカテゴリの前記第１のエントリと、前記第２のカテゴリの前記第２のエントリとの間の相関関係を確立することと、によって構築されることを特徴とする方法。
知識ベースを構築する、コンピューティング装置であって、当該コンピューティング装置は、
ウェブページから、１つまたは複数の文を取得する、基本データ処理モジュールと、
前記ウェブページから取得された前記１つまたは複数の文を解析する、データマイニングモジュールと、を備え、
前記データマイニングモジュールは、さらに、
前記知識ベースの第１のカテゴリ内の、１つまたは複数の代表的な単語を、前記取得された文から解析された前記単語と照合し、
前記代表的な単語のうちの１つと、前記取得された文から解析された前記単語のうちの１つとの間に一致が存在する場合、前記取得された文中の一致した単語に隣接する単語の列を、第１のエントリとして前記第１のカテゴリに追加し、
前記取得された文から解析された前記単語を、前記知識ベースの第２のカテゴリの第２のエントリと一致するときに、前記第１のカテゴリと、前記第２のカテゴリとの間に、確立された相関関係が存在するか否かを判定し、
前記第１のカテゴリと前記第２のカテゴリとの間に、確立された相関関係が存在すると判定された場合、前記第１のカテゴリの前記第１のエントリと、前記第２のカテゴリの前記第２のエントリとの間の相関関係を確立する、コンピューティング装置。
検索プログラムであって、
該検索プログラムはコンピュータを、
ユーザによって入力された検索語句に対応するラベルを識別する、第１のクエリーモジュールと、
前記ラベルに対応するウェブページを識別する、第２のクエリーモジュールと、
前記ユーザに、前記ウェブページまたは前記ウェブページへのリンクを提供する、インターフェースモジュールと、
１つまたは複数のキーワードに関連する、知識ベースの前記ウェブページおよびエントリの、前記１つまたは複数のキーワードに基づいて、前記ウェブページに対応するラベルを作成する、ラベル作成モジュールと、
して機能させるように構成され、
前記知識ベースは、
コンピューティング装置の基本データ処理層を使用して、複数のウェブページのうちの１つから文を取得することと、
前記コンピューティング装置のデータマイニング層を使用して、前記取得された文を単語に解析することと、
前記知識ベースの第１のカテゴリ内の１つまたは複数の代表的な単語を、前記取得された文から解析された前記単語と、照合することと、
前記代表的な単語のうちの１つと、前記取得された文から解析された前記単語のうちの１つとの間に一致が存在する場合、前記取得された文中の前記一致した単語に隣接する単語の列を、第１のエントリとして前記第１のカテゴリに追加することと、
前記取得された文から解析された前記単語を、前記知識ベースの第２のカテゴリの第２のエントリと一致するときに、前記第１のカテゴリと前記第２のカテゴリとの間に、確立された相関関係が存在するか否かを判定することと、
前記第１のカテゴリと前記第２のカテゴリとの間に、確立された相関関係が存在すると判定された場合、前記第１のカテゴリの前記第１のエントリと、前記第２のカテゴリの前記第２のエントリとの間の相関関係を確立することと、によって構築されることを特徴とする検索プログラム。
検索プログラムであって、
該検索プログラムはコンピュータを、
ユーザ入力検索語句を、知識ベースのエントリに基づいて、単語に解析する、解析モジュールと、
前記検索語句から解析された単語を、前記知識ベースの前記エントリと照合する、照合モジュールと、
前記検索語句から解析された単語との一致を有するエントリに関連する、前記知識ベースのエントリを識別する、クエリーモジュールと、
前記検索語句から解析された単語との一致を有する前記エントリに関連する、前記知識ベースのエントリで、前記検索語句を更新する、更新モジュールと、
前記更新された検索語句に基づいて、検索を実施する、検索モジュールと、
して機能させるように構成され、
前記知識ベースは、
コンピューティング装置の基本データ処理層を使用して、ウェブページから文を取得することと、
前記コンピューティング装置のデータマイニング層を使用して、前記取得された文を単語に解析することと、
前記知識ベースの第１のカテゴリ内の１つまたは複数の代表的な単語を、前記取得された文から解析された前記単語と、照合することと、
前記代表的な単語のうちの１つと、前記取得された文から解析された前記単語のうちの１つとの間に一致が存在する場合、前記取得された文中の一致した単語に隣接する単語の列を、第１のエントリとして前記第１のカテゴリに追加することと、
前記取得された文から解析された前記単語を、前記知識ベースの第２のカテゴリの第２のエントリと一致するときに、前記第１のカテゴリと前記第２のカテゴリとの間に、確立された相関関係が存在するか否かを判定することと、
前記第１のカテゴリと前記第２のカテゴリとの間に、確立された相関関係が存在すると判定された場合、前記第１のカテゴリの前記第１のエントリと、前記第２のカテゴリの前記第２のエントリとの間の相関関係を確立することと、によって構築されることを特徴とする検索プログラム。