JP5540079B2 - 知識ベース構築の方法および装置 - Google Patents

知識ベース構築の方法および装置 Download PDF

Info

Publication number
JP5540079B2
JP5540079B2 JP2012508592A JP2012508592A JP5540079B2 JP 5540079 B2 JP5540079 B2 JP 5540079B2 JP 2012508592 A JP2012508592 A JP 2012508592A JP 2012508592 A JP2012508592 A JP 2012508592A JP 5540079 B2 JP5540079 B2 JP 5540079B2
Authority
JP
Japan
Prior art keywords
category
entry
sentence
word
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012508592A
Other languages
English (en)
Other versions
JP2012525645A (ja
Inventor
レイ ホウ
ジーシェン チン
ウェイ チェン
チン チャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of JP2012525645A publication Critical patent/JP2012525645A/ja
Application granted granted Critical
Publication of JP5540079B2 publication Critical patent/JP5540079B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

(関連出願)
本出願は、2009年4月29日に出願された、発明の名称が「METHOD AND APPARATUS OF KNOWLEDGE BASE BUILDING」である、中国特許出願第200910136206.6号の優先権の利益を主張し、参照によってその全体が本明細書に組み込まれる。
本出願は、コンピュータと通信の分野に関連し、より具体的には、知識ベースを構築するための、方法および装置に関する。
広く使用されているコンピュータおよびネットワークに関連する技術において、資料の検索は、主な特徴である。多くのユーザの間で、すべての利用可能な情報源から、どのようにユーザの探している情報を検索するかということは、共通の関心事である。したがって、さまざまな検索技術が開発されてきた。
主要な検索技術のうちの1つは、キーワード検索である。ユーザは1つまたは複数のキーワードを検索語句として入力し、検索エンジンは、その検索語句を含むウェブページを識別するように、検索語句に基づいて検索を実行する。しかし、単語が複数の意味を有する場合がしばしばあり、また、1つの単語は、異なる産業または異なる分野において、さまざまな解釈または用途を有する場合がある。単語の、考えられる意味のすべてがユーザに関係するわけではないため、無関係な意味に基づいた検索で出現したウェブページは、ユーザにとって役に立たない可能性がある。How−net等のウェブサイトの存在は、そのような問題を部分的に対処するように思われる。
How−netでは、1つの単語または句が複数の概念を含み、複数の概念のそれぞれに基づいて、複数の検索が行われる。そのような検索の結果は、より正確である傾向にある。
しかし、既存のHow−netは、手作業で構築および整理され、したがって、頻度の高い(最も一般的な)コンテンツのみを対象にする傾向がある。したがって、それは、ネットワークの限定された包含範囲を有する。さらに、ウェブの急速な発展に伴い、ウェブ上で利用可能となる情報量の速度は、How−netの手動更新の速度をはるかに上回る。そのため、How−netを使用する検索結果も、最善ではない傾向にある。
本開示は、知識ベースを構築するための方法および装置の、例示的な実装形態を提供する。本方法および装置は、知識ベースの自動作成を実装して、そのような知識ベースの精度を向上させるように、使用することができる。
一態様において、方法は、コンピューティング装置の基本データ処理層を使用して、ウェブページから文を取得する。取得された文は、コンピューティング装置のデータマイニング層を使用して、単語に解析される。知識ベースの第1のカテゴリ内の、1つまたは複数の代表的な単語は、取得された文から解析された単語と照合される。代表的な単語のうちの1つと、取得された文から解析された単語のうちの1つとの間に一致が存在する場合、取得された文中の一致した単語に隣接する単語の列が、第1のエントリとして第1のカテゴリに追加される。取得された文から解析された単語を、知識ベースの第2のカテゴリの第2のエントリと照合するときに、第1のカテゴリと第2のカテゴリとの間に、確立された相関関係が存在するか否かが判定される。第1のカテゴリと第2のカテゴリとの間に、確立された相関関係が存在すると判定された場合、第1のカテゴリの第1のエントリと、第2のカテゴリの第2のエントリとの間の相関関係が確立される。
ウェブページから文を取得することは、取得された文を、取得された文中の句読点に基づいて、複数のより短い文に分割することを含んでもよい。さらに、取得された文を解析することは、取得された文を解析すること、または複数のより短い文を解析することを含んでもよい。
本方法は、さらに、基本データ処理層を使用して、個々の文の出現の回数を計数してもよく、データマイニング層を使用して、第1のカテゴリの第1のエントリの重み付けした値を、第1のエントリ、および第1のエントリに隣接する1つまたは複数の代表的な単語を有する、任意の文の出現の回数に基づいて、確立してもよい。
データマイニング層は、取得された文を分割するように、1つまたは複数の代表的な単語を含む、解析システムを採用してもよい。
知識ベースは、共通単語システムおよび実単語システムを含んでもよい。共通単語システムおよび実単語システムは、それぞれ異なるカテゴリを含んでもよい。代表的な単語は、実単語システムのカテゴリ対応インデックスワードおよび共通単語システムのカテゴリ対応シードワードを含んでもよい。取得された文中の一致した単語に隣接する単語の列が、第1のエントリとして第1のカテゴリに追加されると、単語の列は、第1のカテゴリを含む、共通単語システムまたは実単語システムに追加されてもよい。第1のカテゴリが、共通単語システム内に含まれるカテゴリのうちの1つである場合、第1のエントリは、第1のカテゴリに対応するシードワードとして設定されてもよい。
第1のカテゴリの第1のエントリと、第2のカテゴリの第2のエントリとの間の相関関係を確立することは、第1のエントリおよび第2のエントリを有する文の出現の頻度を得ることと、第1のエントリおよび第2のエントリを有する文の出現の頻度が、所定の閾値を超える場合、第1のエントリと第2のエントリとの間の相関関係を確立することとを含んでもよい。
データマイニング層は、各カテゴリおよび各カテゴリの下の各エントリに応じて、それぞれの結果ファイルを作成することができる。コンピューティング装置の統合層は、複数の結果ファイルを、単一の結果ファイルに統合することができる。個々の文の出現の回数は、計数される。第1のカテゴリの第1のエントリの重み付けされた値は、1つまたは複数の代表的な単語および第1のエントリを有する、任意の文の出現の回数に基づいて、確立されされてもよい。異なるカテゴリの下の個々のエントリの重み付けされた値は、比較されてもよい。エントリ対応カテゴリは、フィルタにかけることができる。
本方法は、さらに、ウェブページからテーブルを取得してもよく、第1のエントリのプロパティとして、第1のエントリと対になってテーブル内に何度も出現する単語をアトリビュートしてもよい。
ウェブページから文を取得することは、ウェブページから特殊記号を含む文を取得することを含むことができる。
別の態様では、情報検索の方法は、ウェブページ内の1つまたは複数のキーワードと、知識ベース内の1つまたは複数のキーワードに関連するエントリとに基づいて、ユーザによって入力された検索語句と一致する、ラベルを識別することと、ラベルに対応するウェブページを検索することと、ユーザに、このウェブページまたはこのウェブページへのリンクを提供することとを含む。
知識ベースは、コンピューティング装置の基本データ処理層を使用して、ウェブページから文を取得することと、取得された文を、コンピューティング装置のデータマイニング層を使用して、単語に解析することと、知識ベースの第1のカテゴリ内の、1つまたは複数の代表的な単語を、取得された文から解析された単語と照合することと、代表的な単語のうちの1つと、取得された文から解析された単語のうちの1つとの間に一致が存在する場合、取得された文中の一致した単語に隣接する単語の列を、第1のエントリとして第1のカテゴリに追加することと、取得された文から解析された単語を、知識ベースの第2のカテゴリの第2のエントリと照合するときに、第1のカテゴリと第2のカテゴリとの間に、確立された相関関係が存在するか否かを判定することと、第1のカテゴリと第2のカテゴリとの間に確立された相関関係が存在すると判定された場合、第1のカテゴリの第1のエントリと、第2のカテゴリの第2のエントリとの間の相関関係を確立することとによって、構築されてもよい。
さらなる別の態様では、情報検索の方法は、知識ベースのエントリを使用して、ユーザによって入力された検索語句を解析することと、検索語句から解析された単語を、知識ベースのエントリと照合することと、検索語句から解析された単語との一致を有するエントリに関連する、知識ベースのエントリを識別することと、検索語句を、検索語句から解析された単語との一致を有するエントリに関連する、知識ベースのエントリで更新することと、更新した検索語句に基づいて、検索を実行することとを含む。
知識ベースは、コンピューティング装置の基本データ処理層を使用して、ウェブページから文を取得することと、コンピューティング装置のデータマイニング層を使用して、取得された文を単語に解析することと、知識ベースの第1のカテゴリ内の1つまたは複数の代表的な単語を、取得された文から解析された単語と照合することと、代表的な単語のうちの1つと、取得された文から解析された単語のうちの1つとの間に一致が存在する場合、取得された文中の一致した単語に隣接する単語の列を、第1のエントリとして第1のカテゴリに追加することと、取得された文から解析された単語を、知識ベースの第2のカテゴリの第2のエントリと照合するときに、第1のカテゴリと第2のカテゴリとの間に、確立された相関関係が存在するか否かを判定することと、第1のカテゴリと第2のカテゴリとの間に、確立された相関関係が存在すると判定された場合、第1のカテゴリの第1のエントリと、第2のカテゴリの第2のエントリとの間の相関関係を確立することとによって、構築されてもよい。
一態様では、知識ベースを構築するコンピューティング装置は、ウェブページから、1つまたは複数の文を取得する、基本データ処理モジュールと、ウェブページから取得された1つまたは複数の文を解析する、データマイニングモジュールとを含む。データマイニングモジュールは、さらに、知識ベースの第1のカテゴリ内の、1つまたは複数の代表的な単語を、取得された文から解析された単語と照合し、代表的な単語のうちの1つと、取得された文から解析した単語のうちの1つとの間に一致が存在する場合、取得された文中の一致した単語に隣接する単語の列を、第1のエントリとして第1のカテゴリに追加し、取得された文から解析された単語を、知識ベースの第2のカテゴリの第2のエントリと照合するときに、第1のカテゴリと、第2のカテゴリとの間に、確立された相関関係が存在するか否かを判定し、第1のカテゴリと、第2のカテゴリとの間に、確立された相関関係が存在すると判定された場合、第1のカテゴリの第1のエントリと、第2のカテゴリの第2のエントリとの間の相関関係を確立する。
一態様では、検索エンジンは、ユーザによって入力された検索語句に対応するラベルを識別する、第1のクエリーモジュールと、ラベルに対応するウェブページを識別する、第2のクエリーモジュールと、ユーザに、ウェブページまたはウェブページへのリンクを提供する、インターフェースモジュールと、ウェブページの1つまたは複数のキーワードおよびこれらの1つまたは複数のキーワードに関連する知識ベースのエントリに基づいて、ウェブページに対応するラベルを作成する、ラベル作成モジュールとを含む。
別の態様では、検索エンジンは、知識ベースのエントリに基づいて、ユーザによって入力された検索語句を解析する、解析モジュールと、検索語句から解析された単語を、知識ベースのエントリと照合する、照合モジュールと、検索語句から解析された単語との一致を有するエントリに関連する、知識ベースのエントリを識別する、クエリーモジュールと、検索語句から解析された単語との一致を有するエントリに関連する、知識ベースのエントリで、検索語句を更新する、更新モジュールと、更新した検索語句に基づいて、検索を実施する、検索モジュールとを含む。
本開示の一実施形態による、コンピューティング装置の図である。 本開示の一実施形態による、ネットワークシステムの図である。 本開示の一実施形態による、知識ベースの作成の流れ図である。 本開示の、別の実施形態による、知識ベースの作成の流れ図である。 本開示の一実施形態による、ウェブページのスキーマを分析する場合の、情報検索の流れ図である。 本開示の一実施形態による、ユーザの意図を分析する場合の、情報検索の流れ図である。 本開示の、別の実施形態による、コンピューティング装置の図である。 本開示の一実施形態による、検索エンジンのブロック図である。 本開示の、別の実施形態による、検索エンジンのブロック図である。
本開示は、ウェブページに出現する単語を分析する技術を説明する。ウェブページからの文中の単語であり、かつ知識ベース内のカテゴリに追加される単語は、そのカテゴリ下のエントリと見なされる。カテゴリ間の相関関係に基づいて、対となって現れるエントリ間の相関関係もまた、確立される。これは、知識ベースの自動構築を可能にし、したがって、処理における手作業での資源の必要性を回避する。
一実施形態では、知識ベースは、1つまたは複数のカテゴリを含む。各カテゴリは、それぞれの対応するエントリおよび代表的な単語を有する。1つのエントリは、1つまたは複数のカテゴリに対応してもよく、異なるカテゴリに対して異なる重み付けを有してもよい。エントリもまた、対応するプロパティを有することができる。さらに、カテゴリ間およびエントリ間に相関関係が確立されてもよい。たとえば、「製品」のカテゴリは、「携帯電話」という対応するエントリ、ならびに、「販売」、「モデル」、「ブランド」、および「機能性」等の代表的な単語を有してもよい。エントリ「携帯電話」は、機能性、サイズ、バッテリータイプ、等のプロパティを有してもよい。一実施形態では、カテゴリ、各カテゴリに対応する代表的な単語、およびカテゴリ間の相関関係は、知識ベース内にあらかじめ設定される。知識ベースが増大すると、エントリ、エントリ間の相関関係、およびエントリのプロパティが追加されることになる。
Figure 0005540079
Figure 0005540079
Figure 0005540079
Figure 0005540079
Figure 0005540079
表5に示される「販売」に加えて、カテゴリ「製品」に対応するかもしれない、他の代表的な単語は、たとえば、「モデル」、「ブランド」等を含む。別の例として、カテゴリ「映画とテレビ」は、「監督」、「主演男優」、「主演女優」、「リリース」等の代表的な単語を含むかもしれない。一実施形態では、各カテゴリの代表的な単語は、それぞれのカテゴリの特性に基づいて、あらかじめ設定される、すなわち既定である。
一実施形態では、表1〜表5のデータを保存するために、テキスト文書、表、データベース、または他の適切な手段を用いてもよい。表1〜表5は、例として提供されており、相関関係を変えることなく異なる方法で組み合わせられてもよいことを理解されたい。
図1Aに示されるように、一実施形態では、開示される知識ベースを構築するコンピューティング装置は、基本データ処理層、データマイニング層、統合層、および利用層を含んでもよい。あるいは、これらの機能的な層は、異なるコンピューティング装置内に実装されてもよい。これらの異なるコンピューティング装置は、サーバおよび/またはクライアント端末装置としてもよく、図1Bに示されるように、ネットワークを形成することができる。たとえば、基本データ処理層は、クライアント11内に実装されてもよく、データマイニング層は、サーバ12内に実装されてもよく、統合層は、サーバ12またはサーバ13内に実装されてもよく、かつ利用層は、クライアント14内に実装されてもよい。他の実施形態では、クライアント11、サーバ12、サーバ13、およびクライアント14に加えて、他のサーバおよびクライアントが存在してもよい。
基本データ処理層は、ウェブページから文を取得する。取得された文は、ウェブページのコンテンツからの文とすることができる。データマイニング層は、取得された文のそれぞれを、単語に解析して、知識ベース内のカテゴリ、たとえば第1のカテゴリの代表的な単語を、文から解析された単語と照合する。代表的な単語と、文から解析された単語との間に良好な一致が存在する場合、文から解析された、一致した単語に隣接する単語および/または記号の列は、第1のエントリとして、第1のカテゴリに追加される。文から解析された単語を、知識ベースの第2のカテゴリの第2のエントリと照合するとき、第1のカテゴリと、第2のカテゴリとの間に相関関係が確立されたか否かについての判定が行われる。第1のカテゴリと、第2のカテゴリとの間に相関関係が存在する事象では、第1のカテゴリの第1のエントリと、第2のカテゴリの第2のエントリとの間に、相関関係が確立される。つまり、第2のカテゴリの第2のエントリは、第1のカテゴリの第1のエントリの対応するエントリとして、追加される場合がある。同様に、第1のカテゴリの第1のエントリは、第2のカテゴリの第2のエントリの対応するエントリとして追加される場合がある。当業者は、上記に説明される第1のカテゴリおよび第2のカテゴリは、任意の2つのカテゴリとなる場合があることを理解するであろう。便宜のため、および2つのカテゴリを区別するために、それらは第1のカテゴリおよび第2のカテゴリと称される。同様に、第1のエントリおよび第2のエントリも、任意の2つのエントリとなる場合がある。
コンピューティング装置はまた、図1Aに示されるように、統合層および利用層も含んでもよい。統合層は、データマイニング層によって作り出された、さまざまなカテゴリのための結果ファイルを、単一の結果ファイルに統合する。利用層は、データの利用を可能にする。
説明のため、および例として、データマイニング層は、カテゴリ1、カテゴリ2、およびカテゴリ3のための、以下の結果ファイルを作り出す。
Figure 0005540079
統合層は、これらの3つの結果ファイルを、下の表6に示されるように単一の結果ファイルに統合する。
Figure 0005540079
表6において、「0」は、エントリと、カテゴリとの間に相関関係がないことを示す。
図1Cは、一実施形態による、以下のステップを含む、知識ベース構築の一般的な過程100を示す。
101において、コンピューティング装置内の基本データ処理層は、ウェブページから文を取得する。
102において、コンピューティング装置のデータマイニング層は、文を解析、すなわち分割する。
103において、データマイニング層は、知識ベースの第1のカテゴリに対応する代表的な単語を、文から解析された単語と照合する。
知識ベースの構築の開始において、カテゴリ、および各カテゴリに対応する代表的な単語は、定義され、かつ確立される必要がある。知識ベースの構築が継続すると、新たなエントリが知識ベースに追加されるにつれて、代表的な単語は更新される。
104において、代表的な単語と、文から解析された単語との間に良好な一致が存在する場合、データマイニング層は、文中の一致した単語に隣接する単語および/または記号の列を、第1のエントリとして、第1のカテゴリに追加する。
105において、文から解析された単語を、知識ベースの第2のカテゴリの第2のエントリと照合するとき、データマイニング層は、第1のカテゴリと、第2のカテゴリとの間に相関関係が確立されたか否かを判定する。第1のカテゴリと、第2のカテゴリとの間に相関関係が存在する事象において、データマイニング層は、第1のカテゴリの第1のエントリと、第2のカテゴリの第2のエントリとの間に、相関関係を確立する。
知識ベースを構築するための、本明細書に説明される過程は、知識ベースを更新するために使用することができ、かつ定期的に繰り返すことができる。
図2は、一実施形態による、以下のステップを含む、知識ベース構築の詳細な過程200を示す。
201において、データ処理層は、ウェブページから文を取得する。具体的には、データ処理層は、単文および句、ならびに文の出現の頻度、すなわち、ウェブページ上の同じ文の出現率を取得する。ウェブページ上のテキストメッセージは、テキストメッセージから得られる文中の句読点によって、前もって保存して、後に収集することができる。
文は、単文、句、または長文である可能性がある。単文は、終止符、疑問符、または感嘆符の前の文であって、文の単語間に他の句読点を有さない文を意味する。句は、コンマまたはセミコロンを末尾に使用するものであって、句の単語間に他の句読点を有さないものを意味する。長文は、その間に1つまたは複数のコンマまたはセミコロンを有する、終止符、疑問符、または感嘆符の前の文を意味する。長文が検索される場合、句読点にしたがって、多くの短い句に分割される。文がより長く、内容がより複雑になるにつれて、より容易に分析するために、多くの句に分割され、したがって、さらにより正確な結果を得ることになる。たとえば、検索される文は、「本店出售AA牌BB1型号的手机」であってもよい。
202において、データマイニング層は、解析システムを使用して、取得された文を解析する。たとえば、文「本店出售AA牌BB1型号的手机」は解析後、「本店、出售、AA、牌、BB1、型号、手机」となる。このカテゴリに対応する単語は、解析システムに追加することができ、これは、文を分割するために使用される。
Figure 0005540079
203において、データマイニング層は、第1のカテゴリの代表的な単語を、解析された単語と照合する。代表的な単語と、文から解析された単語とが、一貫して一致する場合、この一致は、この文について良好であると考えられ、良好に一致した単語は、保持される。第1のカテゴリでは、不一致の文は、落とされる。不一致の文は、他のカテゴリの代表的な単語と照合するために再利用することができる。
204において、マイニング層は、良好な一致が、知識ベースにまだ含まれていない未知の単語を有するかどうかを判断する。(下記に説明されるステップ205に続くが)良好な一致が知識ベースにまだ含まれていない未知の単語を有しない場合には、文の終わりに、過程200は、他の良好な一致が知識ベース内にまだ含まれていない未知の単語を有するかどうかを判断するために、さらに継続することができる。未知の単語が含まれていない場合、過程200は、それでもなお、他のカテゴリの代表的な単語を、それぞれの文からそれらを解析した後で得られる単語と照合することができる。次いで、ステップ203が繰り返される。
Figure 0005540079
Figure 0005540079
207において、データマイニング層は、第1のエントリの出現の頻度と、それらがその中に配置された文中の隣接する代表的な単語とに基づいて、第1のカテゴリにおける第1のエントリの重み付けを提供する。たとえば、取得した文の出現の頻度の計数で、文1において出現する、第1のエントリBB1および代表的な単語「型号」の回数は、1000である。それらが文2内で出現する回数は100であり、文3内では、出現の回数は10である。したがって、重み付けは、f(1000)+f(100)+f(10)である。これらのそれぞれは、たとえば、10を底とする対数関数などの、重み付けの関数としての、それぞれの文における出現の頻度である。
208において、データマイニング層は、文における、第1のカテゴリの第1のエントリおよび第2のカテゴリの第2のエントリの出現頻度を取得する。それにより、第1のカテゴリと、第2のカテゴリとの間の相関関係が確立される。
209において、この頻度がデフォルトの相関関係の閾値を超えると、データマイニング層は、第1のエントリと第2のエントリとの間の関係を確立する。一実施形態では、第1のエントリに対する追加の相関関係を確立するように、ステップ208を繰り返すことができる。相関関係の閾値を通して、過程200は、誤記による相関関係内のエラーを、フィルタにかけて除去することができる。たとえば、既に確立された、カテゴリ「モデル」と、カテゴリ「ブランド」との間の相関関係では、「BB1」と「AA」との間の相関関係を確立することができる。
一実施形態では、ステップ206、207、および208は、3つの個別の過程であり、完全に連続的な実装を有せず、また同時に実装することもできる。
一実施形態では、知識ベースは、共通単語システムおよび実単語システムを含む。実単語システムに含まれる単語は、インデックスワードに対応し、共通単語システムに含まれる単語は、シードワードに対応する。共通単語システムに含まれるエントリは、主に、場所の名前等のように変化することの少ない、決まった単語である。実単語システムに含まれるエントリは、個人の名前および映画の題名等のように、高い頻度で更新される単語である。共通単語システムと、実単語システムとの間の違いは、それぞれのシステムに含まれるカテゴリに依存する。実単語システム内のインデックスワードは、対応するカテゴリの下のエントリに含まれない。共通単語システム内のシードワードは、対応するカテゴリの下のエントリに属する。共通単語システム下および実単語システム下のカテゴリは、異なる更新の周期を使用することができる。共通単語システムの更新の周期は、実単語システムの更新の周期よりも長い周期とすることができる。
表7および表8は、それぞれ、共通単語システムの実例および実単語システムの実例を示す。
Figure 0005540079
Figure 0005540079
未知の列が、第1のエントリとして、第1のカテゴリに追加されると、第1のエントリとしての未知の列は、第1のカテゴリが属する(共通単語システムまたは実単語システムのいずれにおいても)システムに追加される。第1のカテゴリが、共通単語システム内のカテゴリである場合、第1のエントリは、第1のカテゴリに対応するシードワードである可能性がある。
マイニング層はまた、特徴的な記号に基づいて、未知の列が、第1のカテゴリ内のエントリに対応するかどうかも判断することができる。特徴的な記号は、所与のカテゴリに関連する、句読点等の、たとえば、角括弧、コンマ、著作記号およびその他を含む。たとえば、カテゴリが映画またはテレビである場合、基本データ処理層は、著作記号を有する文を得てもよく、マイニング層は、映画のカテゴリ内の対応するインデックスワードと、著作記号を有する文中の単語とを照合するであろう。良好な一致が存在する場合、次いで、著作記号で引用された単語(すなわち、未知の列)は、映画(またはテレビ)のカテゴリの下でのエントリとなる。丸括弧内の単語は、通常、英語の固有名詞(括弧の前の単語)であり、コンマの前および後の単語は、通常、同じカテゴリに属する。
データマイニング層はまた、第1のエントリのためのプロパティを設定することもできる。一実施形態では、データ処理層は、ウェブページからテーブルを取得する。データマイニング層は、所与の単語を第1のエントリのプロパティとし、これは、そのような単語が第1のエントリと対となって何度もテーブル内に出現するときになされる。たとえば、第1のエントリは製品とすることができる。これは、通常、製品の出自、製造業者、サイズ、モデル(または仕様)を列挙するテーブルの形態である。たとえば、多くの種類および多くのタイプの製造業者が存在する場合があるが、「製造業者」という単語は、第1のエントリと対となって何度も出現する。そのような事例では、「製造業者」という単語は、第1のエントリのプロパティとされる。
データマイニング層は、カテゴリを1つずつ分析して、各カテゴリごとに、それぞれの結果ファイルを作成する。この結果ファイルは、カテゴリ、カテゴリの対応するエントリ、およびカテゴリの各エントリの重み付けを含んでもよい。知識ベースは通常1つのカテゴリのみを有することはないことを考慮すると、統合層を介して多数の結果ファイルを1つの結果ファイルに一体化することができる。
統合層は、対応するエントリのカテゴリをフィルタにかけることができる。データマイニング層は、代表的な単語を伴う未知の列の出現の結果、未知の列を、所与の代表的な単語に対応するカテゴリに追加する。フィルタリングが、代表的な単語と共に出現する未知の列の頻度のみに基づく場合、フィルタリングにおけるエラーが発生する場合がある。たとえば、少ない頻度で出現するが、それでもやはり正しい、いくつかの一般的でない単語が存在する場合がある。その一方で、高い頻度で出現するにもかかわらず、恐らく誤記に起因する、かかる一般的な単語としては特定の文中に出現するのは誤りかもしれない、いくつかの一般的な単語が存在する場合がある。そのような問題は、データマイニング層によって理解されない可能性があるため、統合層によるフィルタリングが必要である。一実施形態では、統合層は、所与のエントリの、そのエントリに対応するさまざまなカテゴリにおける、個別の重み付けを比較する。比較が特定の条件に適合する場合、このエントリがこれらのカテゴリに追加されることが正しいと見なされる。比較が特定の条件に適合しない場合、エントリと、エントリが正しくなく追加されたカテゴリとの間の相関関係は、取り消される。比較を行うための、多くの方法が存在する。一実施形態では、最も大きい重み付けと、ゼロでない最も小さい重み付けとが比較され、最小重み付けと最大重み付けとの比率が、第1の閾値よりも低い場合、最小重み付けはゼロに設定されて、それぞれのエントリと、最小重み付けに対応するカテゴリとの相関関係が取り消される。あるいは、所与のエントリに対するゼロでない最小重み付けが、エントリの総重み付け(エントリの重み付けの合計)と比較され、総重み付けに対する最小非ゼロ重み付けの比率が、第2の閾値よりも低い場合、最小非ゼロ重み付けされたはゼロに設定されて、それぞれのエントリと、最小非ゼロ重み付けに対応するカテゴリとの間の相関関係は取り消される。
知識ベースは、さまざまな分野で使用することができる。たとえば、知識ベースは、より良い検索結果を得るために、検索エンジンにサービスを提供して、ユーザの目的を分析するように使用することができる。別の例として、知識ベースは、ユーザに、連想させる情報を提供することによって、ユーザにプロンプトを提供することができる。したがって、いくつかの実施形態では、知識ベースは、アプリケーション層も含み、検索の実行が、アプリケーション層を活用する1つの方法である。
図3は、ウェブページのスキーマを分析する場合の情報検索の方法300を示す。
301において、ユーザによって入力された検索語句から解析された単語に基づいて、解析された単語は、一致する単語、またはラベルを得るように、検索語句と比較される。
302において、一致した単語に対応するウェブページが得られる。
303において、得られたウェブページ、または得られたウェブページへのリンクがユーザに提供される。ここで、一致した単語、またはラベルは、ウェブページの1つまたは複数のキーワードと、その1つまたは複数のキーワードに関連する、知識ベースのエントリとに基づいて得られる、新たな検索語である。
Figure 0005540079
図4は、ユーザの意図を分析する場合の情報検索の過程400を示す。
Figure 0005540079
402において、検索語句から解析された単語/句を、良好な一致を有するエントリまたは複数のエントリを識別するために、知識ベースのエントリと照合する。たとえば、「購入」は、「売買」のカテゴリの下のエントリであり、それに対して「BB1」は、「モデル」のカテゴリの下のエントリである。
403において、知識ベースに基づいて、良好な一致を有するエントリに関連するエントリが得られる。たとえば、「BB1」は、エントリ「AA」および「携帯電話」に関連し、ここで「AA」は「ブランド」のカテゴリに対応し、「携帯電話」は「製品」のカテゴリに対応する。
404において、検索語句は、関連エントリに基づいて更新される。たとえば、更新された語句は、ユーザの目的をより正確に反映する、「AAブランドの携帯電話購入、モデルはBB1」とすることができる。
405において、ウェブページのキーワードおよび更新された検索語句に照合される。具体的には、図3に関連して説明されたラベルと、更新された検索語句が照合されて、良好に一致したラベルに対応するウェブページが識別される。
406において、識別されたウェブページまたはそのようなウェブページへのリンクが、検索結果としてユーザに提供または提示され、それにより情報検索が達成される。一実施形態では、ウェブページ、またはウェブページへのリンクがユーザに提示される順序は、ウェブページのそれぞれの、ラベルとキーワードとの間の良好な一致の程度に依存する場合がある。最も一致するカテゴリおよびエントリを有するウェブページは、最も良好な一致を有するウェブページであると見なされる。
エントリは、複数のカテゴリに対応する場合がある。「アップル」を例にとると、「アップル」は、「果物」のカテゴリの下のエントリ、「衣料品」のカテゴリの下のエントリ、またはさらには「電気製品ブランド」の下のエントリとなる可能性がある。したがって、検索語句の更新およびウェブページの更新の過程において、さまざまなカテゴリに基づいて、追加の検索語句が得られる場合がある。ユーザの意図に最も近い検索語句は、さまざまな更新された検索語句の中から識別されることとなり、これを達成するための多くの方法が存在する。たとえば、カテゴリに対応する、最大の重み付けを有するエントリを判定することができる。知識ベースにおいて、最大の重み付けを有するカテゴリに対応するエントリに基づいて、良好に一致したエントリに関連するエントリが得られる。さらに、これらの関連エントリに基づいて、ユーザによって入力された検索語句が更新される。あるいは、解析後に得られる単語と、多数のカテゴリに対応する代表的な単語とが照合される。知識ベースを通して、および、良好に一致した代表的な単語(複数可)に対応するカテゴリに応じて、そのようなカテゴリに対応するエントリに関連するエントリを得ることができる。検索語句は、得られたエントリに基づいて更新することができる。
開示される知識ベースはさらに、ユーザが情報の普及を望む場合、ユーザにプロンプトを提供することができる。たとえば、ユーザが、携帯電話に関連する販売情報を公開することを望む場合において、ユーザが製品フィールド内に「携帯電話」と入力して、良好な一致が存在する場合に、ユーザに、「携帯電話」に関連するエントリならびに「携帯電話」というエントリのプロパティ等のプロンプトが提供または提示されてもよい。その後、ユーザは、プロンプトされた情報をクリックすることによって、他の入力フィールドを完了することができる。そのようにして、ユーザ体験が高まる一方で、操作プロセスは簡易化される。
上記の説明は、当業者が、開示される知識ベースを構築する手順、およびそのような知識ベースを使用して情報検索を達成する手順を理解することを可能にする。実際の実装は、一装置によって実施することができ、そのような装置の説明が下に説明される。
図5は、本開示の一実施形態による、コンピューティング装置500を示す。開示される知識ベースを構築するために使用されるコンピューティング装置の各層は、機能モジュールを用いて実装することができる。したがって、コンピューティング装置は、基本データ処理モジュール501およびデータマイニングモジュール502を含む。
基本データ処理モジュール501、すなわちコンピューティング装置500の基本データ処理層は、ウェブページから文を得るために使用される。
データマイニングモジュール502、すなわちコンピューティング装置500のデータマイニング層は、得られた文を解析するために使用される。データマイニングモジュール502は、知識ベースの第1のカテゴリに対応する代表的な単語を、解析から得られる単語と照合する。少なくとも1つの解析された単語が良好に一致する場合、文中の一致した単語に隣接する未知の単語および/または記号の列は、第1のエントリとして扱われ、第1のカテゴリに追加されるであろう。文中の単語が、第2のカテゴリの第2のエントリと一致する場合、データマイニング層502は、第1のカテゴリと、第2のカテゴリとの間に相関関係が存在するか否かを判定する。相関関係が存在する場合、第1のエントリと、第2のエントリとの間の相関関係が確立される。データマイニングモジュール502はまた、エントリのためのプロパティ/複数のプロパティを確立することもでき、それぞれのカテゴリごとの結果ファイルを作成することもできる。
コンピューティング装置500は、さらに、統合モジュール503(すなわち、統合層)および利用モジュール504(すなわち、利用層)を備える。統合モジュール503は、データマイニングモジュール502からの結果ファイルを、1つの結果ファイルに統合し、かつエントリに対応するカテゴリをフィルタにかける。
利用モジュール504は、さまざまな種類のアプリケーションを提供する。検索エンジンは、利用モジュール504のアプリケーションユニットのうちの1つである。
図6は、本開示の一実施形態による、検索エンジン600を示す。検索エンジン600は、第1のクエリーモジュール601、第2のクエリーモジュール602、インターフェースモジュール603、およびラベル作成モジュール604を含む。
第1のクエリーモジュール601は、ユーザによって入力された検索語句に対応するラベルを得る。第2のクエリーモジュール602は、ラベルに対応するウェブページを得る。インターフェースモジュール603は、ユーザに、ウェブページまたはウェブページへのリンクを提供する。ラベル作成モジュール604は、ウェブページの1つまたは複数のキーワードと、その1つまたは複数のキーワードに関連する知識ベースのエントリとに基づいて、ウェブページに対応するラベルを作成する。
図7は、本開示の別の実施形態による、検索エンジン700を示す。検索エンジン700は、解析モジュール701、照合モジュール702、クエリーモジュール703、更新モジュール704、および検索モジュール705を含む。
解析モジュール701は、知識ベースのエントリに基づいて、ユーザによって入力された検索語句を解析する。照合モジュール702は、検索語句から解析された単語を、知識ベースのエントリと照合する。クエリーモジュール703は、検索語句から解析された単語との一致を有するエントリに関連する、知識ベースのエントリを識別する。更新モジュール704は、検索語句から解析された単語との一致を有するエントリに関連する、知識ベースのエントリを有する検索語句を更新する。検索モジュール705は、更新された検索語句に基づいて検索を行う。さらに、検索モジュール705は、ウェブページの文を、更新されたキーワードと照合して、ユーザに、キーワードとの良好な一致を有するウェブページまたはウェブページへのリンクを提供する。一実施形態では、良好な一致を有する、複数のウェブページが存在する場合、検索モジュール705は、ユーザに一致を有するウェブページ、または、たとえば、最も良好な一致を有するウェブページから、良好の程度が最も低い一致を有するウェブページの順序である、降順で、そのようなウェブページへのリンクを提供してもよい。
検索エンジン600および検索エンジン700は、それぞれ、図6および図7に示される特徴および機能性を含む、単一の検索エンジンの一部とすることができる。第1のクエリーモジュール601および第2のクエリーモジュール602は、検索モジュール705と同等であり、これは更新された検索語句に基づいて、ウェブページを検索するために、更新された検索語句に対応するラベルを取得する。検索エンジン700はまた、インターフェースモジュール603を含んでもよく、インターフェースモジュール603は、ユーザから検索語句を受け取り、ユーザに、検索から識別されたウェブページ(複数可)またはウェブページ(複数可)へのリンク(複数可)を提供する。
説明の便宜のため、例示的なコンピューティング装置または検索エンジンの特徴および機能は、さまざまなモジュールとして説明される。当然ながら、さまざまな実施形態において、本明細書に説明される任意のモジュールの特徴および機能は、ソフトウェアまたはハードウェアの1つまたは複数の事例に実装されてもよい。
開示されるコンピューティング装置、検索エンジン、およびそれらのモジュールは、ソフトウェアおよび/またはハードウェアを使用して実装されてもよい。ソフトウェアで実装される場合、ソフトウェアは、フロッピー(登録商標)ディスク、ハードディスク、CD−ROM、およびフラッシュメモリ等の、1つまたは複数のコンピュータ可読媒体に格納されてもよい。開示される方法、知識ベース、および検索エンジンは、ネットワークシステムの1つまたは複数のネットワークコンピュータに実装されてもよい。
本開示の実装形態は、文中の単語と、知識ベース内の印をつけられた単語とを照合するであろう。良好に一致する単語に基づいて、知識ベース内のカテゴリに対して、未知の単語が判定され、かつそのカテゴリの下のエントリとして見なされる。また、カテゴリ内の相関関係に基づいて、知識ベースを更新するために、文中に出現するエントリ間に相関関係が構築される。本開示の実装形態はまた、未知の単語および良好に一致した印を付けられた単語の出現の頻度に基づいて、対応するカテゴリ下で未知の単語の重み付けを設定する。それはまた、知識ベースの各フィールドごとに、より多くの情報を提供するために、ウェブページのフォーム内の未知の単語の出現を通して、未知の単語のプロパティも設定する。同時に、本開示の実装形態は、ユーザの意図に関して、より正確となるために、知識ベースを通して、ユーザによって入力された検索単語を更新するために使用される。それはまた、より正確な検索結果を有するために、更新された検索語句に基づいて検索する。また、実装形態は、ウェブページがユーザの目的をより正確に示すように、知識ベースを通して、ウェブページに対して、主題のタグを設定する。それはまた、より正確な検索結果を達成するために、タグと更新された検索単語とを照合する。
当然ながら、当業者は、本開示の精神および範囲を逸脱することなく、多くの異なる方法で、本開示を変更または修正することができる。したがって、本開示が、本開示の特許請求の範囲およびそれらの等価物の範囲に含まれる、すべての修正および変形を対象とすることが意図される。

Claims (16)

  1. コンピューティング装置を使用する、知識ベース構築の方法であって、
    前記コンピューティング装置の基本データ処理層を使用して、ウェブページから文を取得することと、
    前記コンピューティング装置のデータマイニング層を使用して、前記取得された文を単語に解析することと、
    知識ベースの第1のカテゴリ内の1つまたは複数の代表的な単語を、前記取得された文から解析された前記単語と照合することと、
    前記代表的な単語のうちの1つと、前記取得された文から解析された前記単語のうちの1つとの間に一致が存在する場合、前記取得された文中の前記一致された単語に隣接する単語の列を、第1のエントリとして前記第1のカテゴリに追加することと、
    前記取得された文から解析された前記単語を、前記知識ベースの第2のカテゴリの第2のエントリと一致するときに、前記第1のカテゴリと前記第2のカテゴリとの間に確立された相関関係が存在するか否かを判定することと、
    前記第1のカテゴリと前記第2のカテゴリとの間に確立された相関関係が存在すると判定された場合、前記第1のカテゴリの前記第1のエントリと、前記第2のカテゴリの前記第2のエントリとの間の相関関係を確立することと、を含む、方法。
  2. ウェブページから文を取得することは、前記取得された文を、前記取得された文中の句読点に基づいて、複数のより短い文に分割することを含み、かつ前記取得された文を解析することが、前記取得された文を解析すること、または前記複数のより短い文を解析することを含む、請求項1に記載の方法。
  3. 前記基本データ処理層が、個々の文の出現の回数を計数することと、
    前記データマイニング層が、前記第1のエントリおよび前記第1のエントリに隣接する1つまたは複数の前記代表的な単語を有する、任意の文の出現の回数に基づいて、前記第1のカテゴリの前記第1のエントリの重み付けされた値を確立することと、をさらに含む、請求項1に記載の方法。
  4. 前記データマイニング層は、前記取得された文を分割するように、前記1つまたは複数の代表的な単語を含む、解析システムを採用する、請求項1に記載の方法。
  5. 前記知識ベースは、共通単語システムおよび実単語システムを含み、前記共通単語システムおよび前記実単語システムは、それぞれ異なるカテゴリを含み、前記代表的な単語は、前記実単語システムのカテゴリ対応インデックスワードと、前記共通単語システムのカテゴリ対応シードワードとを含み、前記取得された文中の前記一致した単語に隣接する前記単語の列が、前記第1のエントリとして前記第1のカテゴリに追加されると、前記単語の列が、前記第1のカテゴリを含む前記共通単語システムまたは前記実単語システムに追加される、請求項1に記載の方法。
  6. 前記第1のカテゴリが、前記共通単語システム内に含まれる前記カテゴリのうちの1つである場合、
    前記第1のエントリを、前記第1のカテゴリに対応する前記シードワードとして設定することをさらに含む、請求項5に記載の方法。
  7. 前記第1のカテゴリの前記第1のエントリと、前記第2のカテゴリの前記第2のエントリとの間の相関関係を確立することは、
    前記第1のエントリおよび前記第2のエントリの文の出現の頻度を得ることと、
    前記第1のエントリおよび前記第2のエントリの文の出現の前記頻度が、所定の閾値を超える場合、前記第1のエントリと第2のエントリとの間の相関関係を確立することと、
    を含む、請求項1に記載の方法。
  8. 各カテゴリおよび各カテゴリの下の各エントリに応じて、それぞれの結果ファイルを作成する、前記データマイニング層と、
    複数の結果ファイルを単一の結果ファイルに統合する、前記コンピューティング装置の統合層と、をさらに含む、請求項1に記載の方法。
  9. 個々の文の出現の回数を計数することと、
    1つまたは複数の代表的な単語および前記第1のエントリを有する、任意の文の出現の回数に基づいて、前記第1のカテゴリの前記第1のエントリの重み付けされた値を確立することと、
    異なるカテゴリの下の個々のエントリの重み付けされた値を比較することと、
    エントリ対応カテゴリを、フィルタにかけることと、をさらに含む、請求項8に記載の方法。
  10. 前記ウェブページからテーブルを取得することと、
    前記第1のエントリのプロパティとして、前記第1のエントリと対になってテーブル内に複数回出現する単語を属性化することと、をさらに含む、請求項1に記載の方法。
  11. ウェブページから文を取得することは、前記ウェブページから、特殊記号を含む文を取得することを含む、請求項1に記載の方法。
  12. コンピュータにより実行される情報検索の方法であって、
    該コンピュータが、
    知識ベースにおいて、1つまたは複数のキーワードに関連するウェブページおよびエントリ内の前記1つまたは複数のキーワードに基づいて、ユーザによって入力された検索語句と関連する、ラベルを識別することと、
    前記ラベルに対応する前記ウェブページを検索することと、
    前記ユーザに、前記ウェブページまたは前記ウェブページへのリンクを提供することと、を含む各ステップを実行するように構成され、
    前記知識ベースは、
    コンピューティング装置の基本データ処理層を使用して、複数のウェブページのうちの1つから文を取得することと、
    前記コンピューティング装置のデータマイニング層を使用して、前記取得された文を単語に解析することと、
    前記知識ベースの第1のカテゴリ内の1つまたは複数の代表的な単語を、前記取得された文から解析された前記単語と、照合することと、
    前記代表的な単語のうちの1つと、前記取得された文から解析された前記単語のうちの1つとの間に一致が存在する場合、前記取得された文中の前記一致した単語に隣接する単語の列を、第1のエントリとして前記第1のカテゴリに追加することと、
    前記取得された文から解析された前記単語を、前記知識ベースの第2のカテゴリの第2のエントリと一致するときに、前記第1のカテゴリと前記第2のカテゴリとの間に、確立された相関関係が存在するか否かを判定することと、
    前記第1のカテゴリと前記第2のカテゴリとの間に、確立された相関関係が存在すると判定された場合、前記第1のカテゴリの前記第1のエントリと、前記第2のカテゴリの前記第2のエントリとの間の相関関係を確立することと、によって構築されることを特徴とする方法。
  13. コンピュータにより実行される情報検索の方法であって、
    該コンピュータが、
    知識ベースのエントリを使用して、ユーザによって入力された検索語句を解析することと、
    前記検索語句から解析された単語を、前記知識ベースの前記エントリと照合することと、
    前記検索語句から解析された単語との一致を有するエントリに関連する、前記知識ベースのエントリを識別することと、
    前記検索語句を、前記検索語句から解析された単語との一致を有する前記エントリに関連する、前記知識ベースのエントリで更新することと、
    前記更新された検索語句に基づいて、検索を実施することと、を含む各ステップを実行するように構成され、
    前記知識ベースは、
    コンピューティング装置の基本データ処理層を使用して、ウェブページから文を取得することと、
    前記コンピューティング装置のデータマイニング層を使用して、前記取得された文を単語に解析することと、
    前記知識ベースの第1のカテゴリ内の1つまたは複数の代表的な単語を、前記取得された文から解析された前記単語と、照合することと、
    前記代表的な単語のうちの1つと、前記取得された文から解析された前記単語のうちの1つとの間に一致が存在する場合、前記取得された文中の一致した単語に隣接する単語の列を、第1のエントリとして前記第1のカテゴリに追加することと、
    前記取得された文から解析された前記単語を、前記知識ベースの第2のカテゴリの第2のエントリと一致するときに、前記第1のカテゴリと前記第2のカテゴリとの間に、確立された相関関係が存在するか否かを判定することと、
    前記第1のカテゴリと前記第2のカテゴリとの間に、確立された相関関係が存在すると判定された場合、前記第1のカテゴリの前記第1のエントリと、前記第2のカテゴリの前記第2のエントリとの間の相関関係を確立することと、によって構築されることを特徴とする方法。
  14. 知識ベースを構築する、コンピューティング装置であって、当該コンピューティング装置は、
    ウェブページから、1つまたは複数の文を取得する、基本データ処理モジュールと、
    前記ウェブページから取得された前記1つまたは複数の文を解析する、データマイニングモジュールと、を備え、
    前記データマイニングモジュールは、さらに、
    前記知識ベースの第1のカテゴリ内の、1つまたは複数の代表的な単語を、前記取得された文から解析された前記単語と照合し、
    前記代表的な単語のうちの1つと、前記取得された文から解析された前記単語のうちの1つとの間に一致が存在する場合、前記取得された文中の一致した単語に隣接する単語の列を、第1のエントリとして前記第1のカテゴリに追加し、
    前記取得された文から解析された前記単語を、前記知識ベースの第2のカテゴリの第2のエントリと一致するときに、前記第1のカテゴリと、前記第2のカテゴリとの間に、確立された相関関係が存在するか否かを判定し、
    前記第1のカテゴリと前記第2のカテゴリとの間に、確立された相関関係が存在すると判定された場合、前記第1のカテゴリの前記第1のエントリと、前記第2のカテゴリの前記第2のエントリとの間の相関関係を確立する、コンピューティング装置。
  15. 検索プログラムであって、
    該検索プログラムはコンピュータを、
    ユーザによって入力された検索語句に対応するラベルを識別する、第1のクエリーモジュールと、
    前記ラベルに対応するウェブページを識別する、第2のクエリーモジュールと、
    前記ユーザに、前記ウェブページまたは前記ウェブページへのリンクを提供する、インターフェースモジュールと、
    1つまたは複数のキーワードに関連する、知識ベースの前記ウェブページおよびエントリの、前記1つまたは複数のキーワードに基づいて、前記ウェブページに対応するラベルを作成する、ラベル作成モジュールと、
    して機能させるように構成され、
    前記知識ベースは、
    コンピューティング装置の基本データ処理層を使用して、複数のウェブページのうちの1つから文を取得することと、
    前記コンピューティング装置のデータマイニング層を使用して、前記取得された文を単語に解析することと、
    前記知識ベースの第1のカテゴリ内の1つまたは複数の代表的な単語を、前記取得された文から解析された前記単語と、照合することと、
    前記代表的な単語のうちの1つと、前記取得された文から解析された前記単語のうちの1つとの間に一致が存在する場合、前記取得された文中の前記一致した単語に隣接する単語の列を、第1のエントリとして前記第1のカテゴリに追加することと、
    前記取得された文から解析された前記単語を、前記知識ベースの第2のカテゴリの第2のエントリと一致するときに、前記第1のカテゴリと前記第2のカテゴリとの間に、確立された相関関係が存在するか否かを判定することと、
    前記第1のカテゴリと前記第2のカテゴリとの間に、確立された相関関係が存在すると判定された場合、前記第1のカテゴリの前記第1のエントリと、前記第2のカテゴリの前記第2のエントリとの間の相関関係を確立することと、によって構築されることを特徴とする検索プログラム。
  16. 検索プログラムであって、
    該検索プログラムはコンピュータを、
    ユーザ入力検索語句を、知識ベースのエントリに基づいて、単語に解析する、解析モジュールと、
    前記検索語句から解析された単語を、前記知識ベースの前記エントリと照合する、照合モジュールと、
    前記検索語句から解析された単語との一致を有するエントリに関連する、前記知識ベースのエントリを識別する、クエリーモジュールと、
    前記検索語句から解析された単語との一致を有する前記エントリに関連する、前記知識ベースのエントリで、前記検索語句を更新する、更新モジュールと、
    前記更新された検索語句に基づいて、検索を実施する、検索モジュールと、
    して機能させるように構成され、
    前記知識ベースは、
    コンピューティング装置の基本データ処理層を使用して、ウェブページから文を取得することと、
    前記コンピューティング装置のデータマイニング層を使用して、前記取得された文を単語に解析することと、
    前記知識ベースの第1のカテゴリ内の1つまたは複数の代表的な単語を、前記取得された文から解析された前記単語と、照合することと、
    前記代表的な単語のうちの1つと、前記取得された文から解析された前記単語のうちの1つとの間に一致が存在する場合、前記取得された文中の一致した単語に隣接する単語の列を、第1のエントリとして前記第1のカテゴリに追加することと、
    前記取得された文から解析された前記単語を、前記知識ベースの第2のカテゴリの第2のエントリと一致するときに、前記第1のカテゴリと前記第2のカテゴリとの間に、確立された相関関係が存在するか否かを判定することと、
    前記第1のカテゴリと前記第2のカテゴリとの間に、確立された相関関係が存在すると判定された場合、前記第1のカテゴリの前記第1のエントリと、前記第2のカテゴリの前記第2のエントリとの間の相関関係を確立することと、によって構築されることを特徴とする検索プログラム。
JP2012508592A 2009-04-29 2010-04-27 知識ベース構築の方法および装置 Active JP5540079B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN200910136206.6 2009-04-29
CN200910136206.6A CN101876981B (zh) 2009-04-29 2009-04-29 一种构建知识库的方法及装置
PCT/US2010/032581 WO2010126892A1 (en) 2009-04-29 2010-04-27 Method and apparatus of knowledge base building

Publications (2)

Publication Number Publication Date
JP2012525645A JP2012525645A (ja) 2012-10-22
JP5540079B2 true JP5540079B2 (ja) 2014-07-02

Family

ID=43019539

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012508592A Active JP5540079B2 (ja) 2009-04-29 2010-04-27 知識ベース構築の方法および装置

Country Status (6)

Country Link
US (1) US20110060734A1 (ja)
EP (1) EP2425355A4 (ja)
JP (1) JP5540079B2 (ja)
CN (1) CN101876981B (ja)
HK (1) HK1148090A1 (ja)
WO (1) WO2010126892A1 (ja)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102780724B (zh) * 2011-05-12 2016-02-10 阿里巴巴集团控股有限公司 一种类目信息的发送方法、系统及设备
US9633109B2 (en) 2011-05-17 2017-04-25 Etsy, Inc. Systems and methods for guided construction of a search query in an electronic commerce environment
CN102722515B (zh) * 2011-12-30 2017-12-29 新奥特(北京)视频技术有限公司 一种比赛现场信息数据挖掘的方法
CN103793440B (zh) * 2012-11-02 2018-03-27 阿里巴巴集团控股有限公司 信息显示方法和装置
US9754046B2 (en) 2012-11-09 2017-09-05 Microsoft Technology Licensing, Llc Taxonomy driven commerce site
US9146994B2 (en) 2013-03-15 2015-09-29 International Business Machines Corporation Pivot facets for text mining and search
CN104077295A (zh) * 2013-03-27 2014-10-01 百度在线网络技术(北京)有限公司 一种数据标签的挖掘方法及系统
CN103353894A (zh) * 2013-07-19 2013-10-16 武汉睿数信息技术有限公司 一种基于语义分析的数据搜索方法和系统
CN103440343B (zh) * 2013-09-11 2014-11-05 武汉大学 一种面向领域服务目标的知识库构建方法
CN103646025B (zh) * 2013-10-24 2016-08-17 三星电子(中国)研发中心 一种基于推理的层级知识库构建系统和方法
CN103593690B (zh) * 2013-11-25 2017-08-08 北京光年无限科技有限公司 用户智能标签系统
CN104679783B (zh) * 2013-11-29 2019-08-02 北京搜狗信息服务有限公司 一种网络搜索方法和装置
CN104008186B (zh) * 2014-06-11 2018-10-16 北京京东尚科信息技术有限公司 从目标文本中确定关键词的方法和装置
CN104102739B (zh) * 2014-07-28 2018-03-06 百度在线网络技术(北京)有限公司 一种扩充实体库的方法及装置
US20160078038A1 (en) * 2014-09-11 2016-03-17 Sameep Navin Solanki Extraction of snippet descriptions using classification taxonomies
WO2016089110A1 (ko) * 2014-12-02 2016-06-09 주식회사 솔트룩스 엔트리 기반 지식자원 생성 장치 및 방법
CN106202105A (zh) * 2015-05-06 2016-12-07 阿里巴巴集团控股有限公司 一种电子商务网站导航方法及装置
CN104991920A (zh) * 2015-06-25 2015-10-21 走遍世界(北京)信息技术有限公司 标签的生成方法及装置
CN105468780B (zh) * 2015-12-18 2019-01-29 北京理工大学 一种微博文本中产品名实体的规范化方法及装置
US10394956B2 (en) 2015-12-31 2019-08-27 Shanghai Xiaoi Robot Technology Co., Ltd. Methods, devices, and systems for constructing intelligent knowledge base
US10754914B2 (en) * 2016-08-24 2020-08-25 Robert Bosch Gmbh Method and device for unsupervised information extraction
CN106294186A (zh) * 2016-08-30 2017-01-04 深圳市悲画软件自动化技术有限公司 智能软件自动化测试方法
CN108121722A (zh) * 2016-11-28 2018-06-05 渡鸦科技(北京)有限责任公司 知识库的构建方法及装置
CN106649661A (zh) * 2016-12-13 2017-05-10 税云网络科技服务有限公司 知识库构建方法和装置
CN106649813B (zh) * 2016-12-29 2020-02-21 中南大学 一种基于环境感知与用户反馈的垂直领域知识库构建方法
WO2020010931A1 (zh) * 2018-07-09 2020-01-16 深圳追一科技有限公司 生成相似问句的方法、装置、计算机设备和存储介质
CN110727786A (zh) * 2019-09-12 2020-01-24 武汉儒松科技有限公司 自学习的知识库管理方法、装置、终端设备及存储介质
CN112783889A (zh) * 2019-11-07 2021-05-11 中国石油化工股份有限公司 用于建立变更风险控制措施库的方法和装置
CN111061884B (zh) * 2019-11-14 2023-11-21 临沂市拓普网络股份有限公司 一种基于DeepDive技术构建K12教育知识图谱的方法
CN111159350B (zh) * 2019-12-30 2022-12-06 科大讯飞股份有限公司 用户说法挖掘扩增方法、装置、终端及存储介质
CN112860866B (zh) * 2021-02-09 2023-09-19 北京百度网讯科技有限公司 语义检索方法、装置、设备以及存储介质
CN113158688B (zh) * 2021-05-11 2023-12-01 科大讯飞股份有限公司 一种领域知识库构建方法、装置、设备及存储介质
CN113255610B (zh) * 2021-07-02 2022-02-18 浙江大华技术股份有限公司 特征底库构建、特征检索方法以及相关装置
CN117891851B (zh) * 2024-03-18 2024-06-11 青岛创新奇智科技集团股份有限公司 一种基于人工智能的知识库分析方法及系统

Family Cites Families (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3266246B2 (ja) * 1990-06-15 2002-03-18 インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
US5371807A (en) * 1992-03-20 1994-12-06 Digital Equipment Corporation Method and apparatus for text classification
JP3350556B2 (ja) * 1992-04-20 2002-11-25 株式会社リコー 検索システム
US5717913A (en) * 1995-01-03 1998-02-10 University Of Central Florida Method for detecting and extracting text data using database schemas
US6006221A (en) * 1995-08-16 1999-12-21 Syracuse University Multilingual document retrieval system and method using semantic vector matching
US6038560A (en) * 1997-05-21 2000-03-14 Oracle Corporation Concept knowledge base search and retrieval system
US5940821A (en) * 1997-05-21 1999-08-17 Oracle Corporation Information presentation in a knowledge base search and retrieval system
US6269368B1 (en) * 1997-10-17 2001-07-31 Textwise Llc Information retrieval using dynamic evidence combination
US5953718A (en) * 1997-11-12 1999-09-14 Oracle Corporation Research mode for a knowledge base search and retrieval system
US20010037328A1 (en) * 2000-03-23 2001-11-01 Pustejovsky James D. Method and system for interfacing to a knowledge acquisition system
US20020123994A1 (en) * 2000-04-26 2002-09-05 Yves Schabes System for fulfilling an information need using extended matching techniques
US7007008B2 (en) * 2000-08-08 2006-02-28 America Online, Inc. Category searching
US20020065671A1 (en) * 2000-09-12 2002-05-30 Goerz David J. Method and system for project customized business to business development with indexed knowledge base
US7185001B1 (en) * 2000-10-04 2007-02-27 Torch Concepts Systems and methods for document searching and organizing
EP1346559A4 (en) * 2000-11-16 2006-02-01 Mydtv Inc SYSTEM AND METHOD FOR DETERMINING THE POPULARITY OF VIDEO PROGRAM EVENTS
US20070016563A1 (en) * 2005-05-16 2007-01-18 Nosa Omoigui Information nervous system
US6965900B2 (en) * 2001-12-19 2005-11-15 X-Labs Holdings, Llc Method and apparatus for electronically extracting application specific multidimensional information from documents selected from a set of documents electronically extracted from a library of electronically searchable documents
US20030115188A1 (en) * 2001-12-19 2003-06-19 Narayan Srinivasa Method and apparatus for electronically extracting application specific multidimensional information from a library of searchable documents and for providing the application specific information to a user application
US6834274B2 (en) * 2002-01-07 2004-12-21 Dennis W. Tafoya Building a learning organization using knowledge management
CN1389811A (zh) * 2002-02-06 2003-01-08 北京造极人工智能技术有限公司 搜索引擎的智能化搜索方法
US8015143B2 (en) * 2002-05-22 2011-09-06 Estes Timothy W Knowledge discovery agent system and method
CA2487739A1 (en) * 2002-05-28 2003-12-04 Vladimir Vladimirovich Nasypny Method for synthesising a self-learning system for knowledge acquisition for text-retrieval systems
US7131117B2 (en) * 2002-09-04 2006-10-31 Sbc Properties, L.P. Method and system for automating the analysis of word frequencies
US20040093331A1 (en) * 2002-09-20 2004-05-13 Board Of Regents, University Of Texas System Computer program products, systems and methods for information discovery and relational analyses
US7412453B2 (en) * 2002-12-30 2008-08-12 International Business Machines Corporation Document analysis and retrieval
GB0303018D0 (en) * 2003-02-10 2003-03-12 British Telecomm Information retreival
US7146361B2 (en) * 2003-05-30 2006-12-05 International Business Machines Corporation System, method and computer program product for performing unstructured information management and automatic text analysis, including a search operator functioning as a Weighted AND (WAND)
US7409336B2 (en) * 2003-06-19 2008-08-05 Siebel Systems, Inc. Method and system for searching data based on identified subset of categories and relevance-scored text representation-category combinations
TWI290687B (en) * 2003-09-19 2007-12-01 Hon Hai Prec Ind Co Ltd System and method for search information based on classifications of synonymous words
KR100533810B1 (ko) * 2003-10-16 2005-12-07 한국전자통신연구원 백과사전 질의응답 시스템의 지식베이스 반자동 구축 방법
US7558792B2 (en) * 2004-06-29 2009-07-07 Palo Alto Research Center Incorporated Automatic extraction of human-readable lists from structured documents
US7620628B2 (en) * 2004-12-06 2009-11-17 Yahoo! Inc. Search processing with automatic categorization of queries
JP2006178671A (ja) * 2004-12-21 2006-07-06 Nippon Telegr & Teleph Corp <Ntt> 同義語対抽出方法、同義語対抽出装置、同義語対抽出プログラム、及び同義語対抽出プログラム記録媒体
US20060161520A1 (en) * 2005-01-14 2006-07-20 Microsoft Corporation System and method for generating alternative search terms
US8438499B2 (en) * 2005-05-03 2013-05-07 Mcafee, Inc. Indicating website reputations during user interactions
US7562304B2 (en) * 2005-05-03 2009-07-14 Mcafee, Inc. Indicating website reputations during website manipulation of user information
US7548929B2 (en) * 2005-07-29 2009-06-16 Yahoo! Inc. System and method for determining semantically related terms
WO2007047464A2 (en) * 2005-10-14 2007-04-26 Uptodate Inc. Method and apparatus for identifying documents relevant to a search query
JP4172801B2 (ja) * 2005-12-02 2008-10-29 インターナショナル・ビジネス・マシーンズ・コーポレーション テキストからキーワードを検索する効率的なシステム、および、その方法
US7644052B1 (en) * 2006-03-03 2010-01-05 Adobe Systems Incorporated System and method of building and using hierarchical knowledge structures
CN101046809A (zh) * 2006-03-28 2007-10-03 吴风勇 基于关联规则模式的新词识别方法
CN1983255A (zh) * 2006-05-17 2007-06-20 唐红春 一种互联网搜索方法
US7752243B2 (en) * 2006-06-06 2010-07-06 University Of Regina Method and apparatus for construction and use of concept knowledge base
US7792967B2 (en) * 2006-07-14 2010-09-07 Chacha Search, Inc. Method and system for sharing and accessing resources
US20080040653A1 (en) * 2006-08-14 2008-02-14 Christopher Levine System and methods for managing presentation and behavioral use of web display content
CN100530187C (zh) * 2007-01-12 2009-08-19 宋晓伟 搜索请求转换为查询语句的方法
CN100498790C (zh) * 2007-02-06 2009-06-10 腾讯科技(深圳)有限公司 一种搜索方法和系统
JP4793931B2 (ja) * 2007-03-08 2011-10-12 日本電信電話株式会社 相互に関係する固有表現の組抽出装置及びその方法
US8122360B2 (en) * 2007-06-27 2012-02-21 Kosmix Corporation Automatic selection of user-oriented web content
WO2009005648A1 (en) * 2007-07-02 2009-01-08 Qin Zhang A system and method for information processing and motor control
CN101339551B (zh) * 2007-07-05 2013-01-30 日电(中国)有限公司 自然语言查询需求扩展设备及其方法
US8452725B2 (en) * 2008-09-03 2013-05-28 Hamid Hatami-Hanza System and method of ontological subject mapping for knowledge processing applications
US8838659B2 (en) * 2007-10-04 2014-09-16 Amazon Technologies, Inc. Enhanced knowledge repository

Also Published As

Publication number Publication date
EP2425355A4 (en) 2016-06-01
EP2425355A1 (en) 2012-03-07
WO2010126892A1 (en) 2010-11-04
JP2012525645A (ja) 2012-10-22
CN101876981B (zh) 2015-09-23
HK1148090A1 (en) 2011-08-26
CN101876981A (zh) 2010-11-03
US20110060734A1 (en) 2011-03-10

Similar Documents

Publication Publication Date Title
JP5540079B2 (ja) 知識ベース構築の方法および装置
TWI512506B (zh) Sorting method and device for search results
JP5575902B2 (ja) クエリのセマンティックパターンに基づく情報検索
CN107180093B (zh) 信息搜索方法及装置和时效性查询词识别方法及装置
CN110795627B (zh) 信息推荐方法及装置、电子设备
US20160357860A1 (en) Natural language search results for intent queries
US10169449B2 (en) Method, apparatus, and server for acquiring recommended topic
US9619571B2 (en) Method for searching related entities through entity co-occurrence
CN111061750A (zh) 一种查询处理方法、装置及计算机可读存储介质
JP6355840B2 (ja) ストップワード識別方法および装置
US9984166B2 (en) Systems and methods of de-duplicating similar news feed items
US8793120B1 (en) Behavior-driven multilingual stemming
EP2480995A1 (en) Searching for information based on generic attributes of the query
CN105389328B (zh) 一种大规模开源软件搜索排序优化方法
CN111930949B (zh) 搜索串处理方法、装置、计算机可读介质及电子设备
CN116501733A (zh) 数据产品的生成方法、装置、设备及存储介质
CN108255885B (zh) 一种歌曲的推荐方法及系统
JP5346991B2 (ja) コンテンツ出力方法、コンテンツ出力装置およびコンテンツ出力プログラム
US11507593B2 (en) System and method for generating queryeable structured document from an unstructured document using machine learning
KR102710905B1 (ko) 문서를 요약하는 장치, 방법 및 컴퓨터 프로그램
CN110909128B (zh) 一种利用词根表进行数据查询的方法、设备、及存储介质
TWI517058B (zh) Method and Device for Constructing Knowledge Base
CN108268552B (zh) 网站信息的处理方法及装置
CN114692614A (zh) 标题生成方法、装置、电子设备及可读存储介质
TW201502814A (zh) 資訊檢索系統及方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130329

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140401

R150 Certificate of patent or registration of utility model

Ref document number: 5540079

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140501

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250