JP4829789B2 - キーワードの翻訳方法及びコンピュータ読取可能媒体 - Google Patents

キーワードの翻訳方法及びコンピュータ読取可能媒体 Download PDF

Info

Publication number
JP4829789B2
JP4829789B2 JP2006521944A JP2006521944A JP4829789B2 JP 4829789 B2 JP4829789 B2 JP 4829789B2 JP 2006521944 A JP2006521944 A JP 2006521944A JP 2006521944 A JP2006521944 A JP 2006521944A JP 4829789 B2 JP4829789 B2 JP 4829789B2
Authority
JP
Japan
Prior art keywords
keyword
concept
meaning
computer
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006521944A
Other languages
English (en)
Other versions
JP2007500899A (ja
Inventor
ジラッド イスラエル エルバズ、
アダム ジェイ. ウェイスマン、
Original Assignee
グーグル・インク
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US10/690,328 external-priority patent/US7925610B2/en
Application filed by グーグル・インク filed Critical グーグル・インク
Publication of JP2007500899A publication Critical patent/JP2007500899A/ja
Application granted granted Critical
Publication of JP4829789B2 publication Critical patent/JP4829789B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)

Description

本発明は一般的に知識項目に関する。特に、本発明は知識項目に関する情報を用いてその知識項目の意味を理解する方法及びシステムに関する。
二つの知識項目が手動かもしくは自動的に関連づけられることがある。知識項目は物質的なものかもしくは非物質的なものであり、記号によって表現可能であり、それは、例えば、キーワード、ノード、カテゴリ、人、概念、製品、句、文書、その他の知識単位である。知識項目はどのような形態でもよく、例えば、単語、用語、短い句、文書、その他の構造化情報かもしくは非構造化情報である。文書には、例えば、HTML、XML、XHTML、ポータブルドキュメント書式(PDF)のファイル等の各種書式のウェブページや、ワードプロセッサとアプリケーションプログラムの文書ファイルが含まれる。例えば、文書のコンテンツ等の知識項目は、キーワードや広告等の別の知識項目と調和させることができる。同様に、文書等の知識項目を関連コンテンツを含む別の文書に関連づけることで、二つの文書が関連していることが明らかになる。
知識項目を利用した例としてはインターネット広告がある。インターネット広告には様々な形態がある。例えば、ウェブサイトの発行者は手数料をとってウェブサイトでの広告を許可してもよい。発行者がウェブページにユーザ向け広告を表示したい場合は、ファシリテータが広告を発行者に提供してウェブページに表示してもよい。ファシリテータは、様々な因子、例えば、ユーザに関する人口統計情報や、スポーツや娯楽等のウェブページのカテゴリや、ウェブページのコンテンツに基づいて広告を選択することができる。また、ファシリテータは、ウェブページのコンテンツと、キーワードリストのキーワード等の知識項目を一致させることができる。そして、一致したキーワードに関連する広告をウェブページに表示させることができる。ユーザは、マウスやその他の入力装置を操作し、広告を「クリック」して、商品やサービスを販売する広告主のウェブサイトのウェブページを見ることができる。
インターネット広告の中には、関連リンクやそれと同様のセクションの発行者のウェブページと実際に一致するキーワードを表示するものがある。上の例と同様に、一つ以上のキーワードにウェブページのコンテンツを一致させて、それらのキーワードを、例えば、関連リンクのセクションに表示させる。ユーザが特定のキーワードをクリックすると、ユーザは、広告と通常の検索結果が混在する検索結果ページに導かれる。広告主はキーワードに対して入札することによって、そのキーワードの検索結果ページに広告を出現させることができる。ユーザは、マウスやその他の入力装置を操作し、広告上を「クリック」することによって、商品やサービスを販売する広告主のウェブサイトのウェブページを見ることができる。
広告主は、ウェブページのコンテンツと広告の関係が大きいことを望んでいる。これは、提供される商品やサービスがユーザが読むウェブページの記述と大きく関連する場合には、そのウェブページを見ているユーザは広告をクリックして、その商品やサービスを購入する可能性が高いからである。また、ウェブページの発行者は、広告のコンテンツがウェブページのコンテンツと一致していることを望んでいる。これは、ユーザが広告をクリックすることで、広告主の努力が報いられることが多いからであり、機密に属するコンテンツの場合の不一致は広告主や発行者のいずれか一方にとって不快なものである。
これまで様々な方法を用いてキーワードとコンテンツを対応させてきた。これらの方法の多くでは、テキストマッチング、例えば、コンテンツに含まれる単語とキーワードを対応させる形態を必要とする。テキストマッチングでの問題は、単語が複数の概念と関連づけられて、コンテンツとキーワードが対応しない可能性があることである。
例えば、「アップル(apple)」という用語は少なくとも2つの概念と関係付けられる。アップル(apple)は、果物もしくはコンピュータ会社の名前である。例えば、ウェブページには、アップルコンピュータ社に関するニュースストーリが含まれていることがある。また、そのウェブページで最も頻繁に出現するキーワード、この場合は「アップル(apple)」を選択して、そのウェブページを代表させてもよい。この例では、果物のアップルではなく、アップルコンピュータ社に関する広告を表示することが望ましい。しかしながら、キーワード「アップル(apple)」に対する最も高い入札者がりんごの販売者であり、キーワード「apple」がウェブページと一致する場合は、果物のりんごに関する広告が、コンピュータ会社アップルを扱うウェブページ上に表示される。これは望ましくないことである。なぜなら、コンピュータ会社に関するウェブページの読者はりんごの購入には興味がないからである。
キーワード等の知識項目とコンテンツが一致しないと、コンテンツに無関係な広告が表示されることになる。従って、知識項目の意味を理解することが望まれる。
(発明の概要)
本発明の実施形態は、関連情報を用いて知識項目の意味を理解するシステム及び方法を備える。本発明の一実施形態の一態様は、知識項目を受けとる工程と、知識項目に関連する関連情報を受けとる工程を含む。この関連情報には、様々な情報、例えば、関連文書や関連データが含まれていてもよい。本発明の一実施形態の別の一態様は、関連情報に基づいて少なくとも一つの関連する意味を決定する工程と、関連情報の少なくとも一部の関連する意味に基づいて知識項目の意味を決定する工程とを含む。関連する意味を用いる様々なアルゴリズムをこれらのシステムや方法に適用することができる。本発明の別の態様は、前述の態様に関連する機能を有するコンピュータシステムとコンピュータ読み取り可能な媒体である。
添付の図面を参照して、以下の詳細な説明を読むことによって、これらとそれ以外の本発明の特徴、態様、利点をより理解することができる。
本発明は、知識項目に関連する情報だけでなく知識項目自体を用いて知識項目の意味を理解する方法及びシステムに関する。以下、本文と添付の図面に示される本発明の実施形態について詳述する。図面と以下の説明では、同じかもしくは類似の部分には同じ参照番号を用いる。
本発明に係る様々なシステムを構築することができる。図1は、本発明の実施形態が動作可能なシステムの一例を示す図である。同様に、本発明は、その他のシステムでも同様に動作するように具現化することができる。
図1に示すシステム100は、複数のクライアントデバイス102aから102n、サーバデバイス104、140、ネットワーク106を含む。図示されたネットワーク106はインターネットを含むものである。別の実施形態では、イントラネット等のネットワークを用いてもよい。また、本発明に係る方法の実行は1台のコンピュータで行うことができる。図示された本実施形態のクライアントデバイス102aから102nはそれぞれ、プロセッサ110に接続されるランダムアクセスメモリ(RAM)108等のコンピュータ読取可能媒体を備えている。プロセッサ110は、メモリ108に記憶されたコンピュータ実行可能プログラム命令セットを実行する。このプロセッサとしては、マイクロプロセッサやASICやステートマシンがある。このプロセッサは、媒体、例えば、コンピュータ読取可能媒体を備えているか、もしくは、それと通信することができる。尚、その媒体には、本願で説明する工程をプロセッサに実行させるための命令が記憶されている。コンピュータ読取可能媒体の実施形態には、これに限定されることはないが、電子記憶/送信デバイス、光記憶/送信デバイス、磁気記憶/送信デバイス、その他の記憶/送信デバイスが含まれる。尚、これらの装置は、タッチ感応型入力デバイスと通信するプロセッサ等のプロセッサにコンピュータ読取可能な命令を提供することができる。その他の適切な媒体の例としては、これに限定されることはないが、フロッピーディスク、CD−ROM、磁気ディスク、メモリチップ、ROM、RAM、ASIC、構成されているプロセッサ、全ての光媒体、全ての型の磁気テープもしくはその他の磁気媒体、コンピュータプロセッサが命令を読み出すことができるその他の媒体がある。また、その他の様々な形態のコンピュータ読取可能媒体でもコンピュータに命令を送ることができる。尚、このコンピュータは、ルータ、私用/公共ネットワーク、有線と無線のその他の送信デバイス/チャネルを備える。命令は、C、C++、C#、ビジュアルベーシック、ジャバ、ジャバスクリプト等のコンピュータプログラミング言語のコードを含んでいてもよい。
また、クライアントデバイス102aから102nは、多くの外部/内部デバイス、例えば、マウス、CD−ROM、キーボード、ディスプレイ、その他の入出力デバイスを備えていてもよい。クライアントデバイス102aから102nは、例えば、パーソナルコンピュータ、情報端末、携帯情報端末、携帯電話、自動車電話、スマートフォン、ポケベル、デジタルタブレット、ラップトップコンピュータ、プロセッサベース・デバイスやそれと同様のシステムやデバイスである。一般的に、クライアントデバイス102aから102nは、ネットワーク106に接続されたプロセッサベース・プラットフォームであり、一つ以上のアプリケーションプログラムと情報交換を行うものである。図示されたクライアントデバイス102aから102nはパーソナルコンピュータを含むものであって、ブラウザアプリケーションプログラム、例えば、マイクロソフト社のインターネットエクスプローラ6.0、ネットスケープコミュニケーションズ社のネットスケープナビゲータ7.1、アップルコンピュータ社のサファリ1.0を実行するものである。クライアントデバイス102aから102nによって、ユーザ112aから112nは、ネットワーク106を介して互いに通信したり、ネットワーク106に接続されたその他のシステムやデバイスと通信することができる。
図1に示すように、サーバデバイス104、140はネットワーク106に接続されている。図示されたサーバデバイス104は、知識項目エンジンアプリケーションプログラムを実行するサーバを備える。サーバデバイス140は、コンテンツエンジンアプリケーションプログラムを実行するサーバを備える。クライアントデバイス102aから102nと同様に、サーバデバイス104、140は、コンピュータ読取可能メモリ118、144に接続されたプロセッサ116、142をそれぞれ備える。サーバデバイス104、140は個別のコンピュータシステムとして示されているが、複数のコンピュータプロセッサを含むネットワークとして実施することもできる。サーバデバイス104、140は、例えば、サーバ、メインフレームコンピュータ、ネットワーク・コンピュータ、プロセッサベース・デバイスやそれと同様のシステムやデバイスである。クライアントプロセッサ110とサーバプロセッサ116、142は、多くの周知のコンピュータプロセッサのうちのいずれかであってもよく、例えば、カリフォルニア州サンタクララのインテル社のプロセッサやイリノイ州ショウンバーグのモトローラ社のプロセッサであってもよい。
サーバデバイス104のメモリ118は、知識項目プロセッサ124として知られる知識項目プロセッサアプリケーションプログラムを記憶するものである。知識項目プロセッサ124は知識項目の意味を決定するものである。意味は文脈を表現するもので、例えば、重み付けられた概念ベクトル、もしくは、単語のグループもしくはクラスタであってもよい。ネットワーク106に接続されたその他の装置、例えば、サーバデバイス140から知識項目を受けとることができる。
知識項目プロセッサ124は、キーワード等の知識項目と、ネットワーク106に接続された別のデバイスのウェブページ等の記事を一致させることができる。記事には様々な書式のウェブページ等の文書が含まれ、これには、例えば、HTML、XML、XHTML、ポータブルドキュメント書式(PDF)のファイルや、ワードプロセッサ、データベース、アプリケーションプログラム・ドキュメントのファイルや、オーディオ情報、ビデオ情報、その他のネットワーク(インターネット等)やパーソナルコンピュータやその他の演算/記憶手段で利用可能な各種の情報が含まれる。本願に記載の実施形態では一般的な文書に関して説明しているが、どのような種類の記事であってもよい。知識項目は、記号によって表現可能な物質的なものかもしくは非物質的なものであり、例えば、キーワード、ノード、カテゴリ、人、概念、製品、句、文書、その他の知識単位であってよい。知識項目はどのような形でもよく、例えば、単語、用語、短い句、文書、その他の構造化情報かもしくは非構造化情報であってよい。本願で記載の実施形態では一般的なキーワードに関して説明しているが、どのような種類の知識項目でもよい。
サーバデバイス140のメモリ144は、コンテンツエンジン146として知られるコンテンツエンジンアプリケーションプログラムを記憶している。一実施形態のコンテンツエンジン146は、知識項目エンジン124から一致したキーワードを受けとり、広告等の文書とそれを関連づける。そして、要求者のウェブサイトにその広告が送られ、例えば、ウェブページのフレームに配置される。一実施形態のコンテンツエンジン146はリクエストを受けとり、広告等のコンテンツを返送する。そして、対応づけは別の装置によって行われる。
図示された知識項目エンジン124は、情報ロケータ134、情報プロセッサ136、知識項目プロセッサ135、意味プロセッサ136を備える。図示された本実施形態では、各々がメモリ118内のコンピュータコードを備える。知識項目プロセッサ135はキーワードを受けとり、そのキーワードに関する既知の情報を識別する。既知の情報には、例えば、キーワードに基づいて構文解析される一つ以上の用語に関連する一つ以上の概念が含まれていてもよい。概念は、それに関連する単語や用語のクラスタもしくは集合によって定義することができる。尚、単語、用語は同義語であってもよい。例えば、「apple」という用語には関連する2つの概念、つまり、果物とコンピュータ会社という概念があるので、それぞれが関連する単語、用語をもっていてもよい。また、一つの概念はその他の様々な情報によって定義することもできる。例えば、関連概念との関係、関連概念との関係の強さ、品詞、公共的用途、使用頻度、概念の広さ、概念の言語上の使用法に関する統計データなどである。
情報ロケータ134は、キーワードに関連する関連情報を識別し、検索する。本実施形態での関連情報には関連文書やさらに関連データが含まれる。関連文書には、広告文字、キーワードに対して入札した広告主から目標となるウェブサイトが含まれる。また、関連データには、広告主が購入したその他のキーワード、検索エンジンによるキーワードの検索結果、広告主のクリック単位コストのデータ、広告の成功率に関するデータが含まれる。この情報には、例えば、サーバデバイス140から得られるものもある。情報プロセッサ136は、情報ロケータ134が突き止めた関連情報を処理することによって、その関連情報に関連する少なくとも一つの意味を決定することができる。その後、この関連する意味とキーワードに関する既知の情報が意味プロセッサ137に送られる。意味プロセッサ137は、キーワードに関する既知の情報と関連する意味を用いて、キーワードの意味を決定することができる。以下、情報ロケータ134、知識項目プロセッサ135、情報プロセッサ136、意味プロセッサ137のその他の機能や特徴について詳しく述べる。
また、サーバデバイス104は、知識項目データベース120として示されている本例における知識項目記憶素子等の記憶素子に対してアクセスを行う。知識項目データベースを用いることによって、キーワード等の知識項目やそれに関連する意味を記憶することができる。また、サーバデバイス140は、その他の記憶素子、例えば、本例ではコンテンツデータベース148として示されているコンテンツ記憶素子をアクセスする。コンテンツデータベースを用いることによって、知識項目に関連する情報、例えば、文書や知識項目に関連するその他のデータを記憶することができる。データ記憶素子には、これに限定されることはないが、配列、ハッシュテーブル、リスト、ペアを含むデータを記憶する一方法かもしくは複数の方法を組み合わせた方法を備えていてもよい。サーバデバイス104は、その他の同様なデータ記憶装置をアクセスすることができる。
尚、本発明は図1に示すアーキテクチャとは異なるアーキテクチャを有するシステムを備えていてもよいことに注目されたい。例えば、本発明に係るシステムの中には、情報ロケータ134が知識項目エンジン124の一部でなく、その動作をオフラインで実行するものもある。図1に示すシステム100は単なる一例であり、これを用いて図2から図3に示す方法の例を説明する。
本発明に係る様々な方法を実行することが可能である。本発明に係る方法の一例は、知識項目を受けとる工程と、その知識項目に関連する関連情報を受けとり、その関連情報に基づいて少なくとも一つの関連意味を決定する工程と、その関連情報に関連する意味の少なくとも一部に基づいて知識項目に関する知識項目の意味を決定する工程と、を備える。何らかの方法で関連情報と知識項目を関連づけ、また、何らかの方法で関連していることを確認することができる。関連情報には関連記事と関連データが含まれていてもよい。関連記事の例としては、知識項目に対して入札した広告主からの広告や、その広告に関連するウェブページがある。知識項目は、例えば、キーワードであってもよい。関連データの例としては、クリック単位コストのデータや、広告に関連する成功率データがある。一実施形態の知識項目の意味には、重み付けられた概念ベクトルやそれに関連する単語クラスタが含まれる。
一実施形態によれば、知識項目を受けとった後にそれを処理することにより、既知の関連概念を決定することができる。概念は、単語や用語のクラスタもしくはループによって定義することができる。また、一つの概念はその他の様々な情報によって定義することもできる。例えば、関連概念との関係、関連概念との関係の強さ、品詞、公共的な用途、使用頻度、概念の広さ、概念の言語上の使用法に関する統計データなどである。一実施形態における知識項目の意味を決定することには、知識項目の意味をどの関連概念で表現するかを決定することが含まれる。
一実施形態における知識項目には複数の概念が含まれ、関連する意味にも複数の概念が含まれ、知識項目意味を決定することには、知識項目が各知識項目概念をもつ知識項目概念確率を設定し、各知識項目の概念と各関連する意味の概念の関係の強さを調べ、その強さに基づいて各知識項目の概念の確率を調整することを備える。一実施形態の知識項目には複数の概念があり、関連する複数の意味が決定される。尚、各関連する意味には複数の概念がある。知識項目の意味の決定には、各知識項目が各知識項目概念をもつ知識項目概念確率を設定し、知識項目が関連する各意味概念をもつ関連意味概念確率を設定することが含まれる。
図2と図3に本発明に係る一例としての方法200を詳細に示す。この方法は一例として示したものであって、本発明に係る方法を実行するには多くの方法がある。図2に示す方法200は様々なシステムで実行可能であるかもしくは達成可能である。以下、図1に示されるシステム100によって実行される方法200を一例として説明し、システム100の各要素を参照して、図2と図3の方法の例を説明する。図示された方法200は、キーワードに関連する情報を用いてキーワードの意味を理解するものである。
図2と図3に示す各ブロックは、一例としての方法200において実行される一つ以上の工程を表わす。図2のブロック202から方法200が開始する。ブロック202に続くブロック204では、知識項目エンジン124がキーワードを受けとる。キーワードは、例えば、ネットワーク106を介してコンテンツデータベース148等の外部データベースから受けとってもよく、また、その他のソースから受けとってもよい。
次に、ブロック206では、知識項目プロセッサ135がキーワードを処理して、そのキーワードに関する既知の情報を確認する。例えば、キーワードはそれに関連する一つ以上の概念を有していてもよい。各概念は関連する単語クラスタもしくは単語グループを有していてもよい。また、一つの概念はその他の様々な情報によって定義することもできる。例えば、関連概念との関係、関連概念との関係の強さ、品詞、公共的用途、使用頻度、概念の広さ、概念の言語上の使用法に関する統計データなどである。
例えば、アップル(apple)という用語には2つの関連概念がある。アップル(apple)の第一の概念である果物は、関連単語や関連概念、例えば、果物、食べ物、パイ、食べるに関して定義される。アップル(apple)の第二の概念であるコンピュータ会社は、関連単語や関連概念、例えば、コンピュータ、PC、テクノロジに関して定義される。キーワードは短い句であってよい。この場合、この句は、例えば、知識項目プロセッサ135によって各用語に分けられる。この例では、知識項目プロセッサ135は、各用語に関連する概念をさらに決定することができる。実施形態の中には、キーワードがそれに関連する情報をもたないものもある。
ブロック206に続くブロック208では、情報ロケータ134がキーワードに関連する関連情報を識別して、情報プロセッサ136がそれを受けとる。関連情報には、文書、例えば、広告の文字、キーワードに対して入札した広告主から目標となるウェブサイト、キーワード自体のウェブ検索結果やその関連データ、例えば、広告主が入札したその他のキーワード、キーワードに関連づけられた広告主が支払うクリック単位のコスト、ユーザが広告主のウェブサイトの関連広告をクリックしてアイテムを購入した回数が含まれる。この関連情報は、様々なソース、例えば、サーバデバイス140、広告主のウェブサイト、検索エンジンから見つけることができる。
ブロック208に続くブロック210では、情報プロセッサ136が関連情報から少なくとも一つの関連する意味を決定する。例えば、個々の関連文書の意味が決定されるか、もしくは、全文書の全体の意味が決定される。例えば、文書がキーワードに関連する5つの広告の文字を含む場合に、各広告の関連意味が決定されるか、もしくは、5つの全広告の意味を組み合わせることで全体の関連意味が提供される。一実施形態によれば、文書を処理することによって、文書に含まれる重み付けされた概念ベクトルが決定される。重み付けされた概念ベクトルはその文書の意味を表わすことができる。例えば、広告がアップルコンピュータの販売に関する場合には、その広告の意味は、50%がコンピュータであり、30%がアップルコンピュータであり、20%が販売である。関連データを用いることによって、例えば、各文書の意味や全体の関連意味の重みを調整することができる。尚、文書の意味は関連する単語クラスタであってもよい。
ブロック210に続くブロック212では、意味プロセッサ137が関連意味に基づいてキーワードの意味を決定する。意味プロセッサ137は、関連意味を情報プロセッサ136から、処理されたキーワードを知識項目プロセッサ135からそれぞれ受けとる。例えば、ブロック212では、意味プロセッサがアップル(apple)というキーワードとそれに関連する2つの概念を知識項目プロセッサから受けとる。また、アップルコンピュータの広告の関連意味を情報プロセッサ136から受けとる。様々な方法を用いることによって、情報プロセッサ136から受けとった関連意味に基づいてキーワードの意味を決定することができる。例えば、キーワードに関連する最良の概念を決定するための手がかりとして関連意味を用いることによって、キーワードの意味を提供することができる。関連意味は、例えば、50%がコンピュータ、30%がアップルコンピュータ、20%が販売であると、重み付けられた関連意味の概念とキーワードの概念の関係からアップル(apple)というキーワードがコンピュータ会社の概念に関連づけられるべきであるということを示している。また、関連意味と関連データを用いて、キーワードの新たな意味を引きだすことができる。
様々な関連情報を一つ以上用いて、キーワードの意味を決定してもよい。キーワードの意味を決定するために用いることができる関連情報の例としては、これに限定されることはないが、以下のうち一つ以上が含まれる。
現在知識項目に対して入札した広告主に関連する広告の文字、
広告の目標となるウェブページもしくはウェブページ、
過去にキーワードに対して入札した広告主からの広告の文字、
現在キーワードに対して入札している広告主が入札したその他のキーワード、
検索エンジンによるキーワードに関する検索結果、
広告を見た後にキーワードに関連づけられた広告主のウェブサイトからアイテムを購入した人数、
その他にも様々な関連情報が含まれており、これらは単なる例にすぎない。また、この関連情報はいくつかの情報によって様々に重み付けすることができる。例えば、現在の広告主の広告の文字は、キーワードに関連する前の広告主の広告の文字に対してよりも大きな重みを付けることができる。さらに、最高のクリック単位コストを有する広告主に関連する項目には、クリック単位のコストに基づいてより大きな重みを付けることができる。
図3は、図2に示した方法200を実行するためのサブルーチン212の一例を示す。サブルーチン212は、関連意味を用いてキーワードの意味を決定する。サブルーチン212の一例を以下に示す。
ブロック300からサブルーチンが開始する。ブロック300では、キーワードに関連する各単語セットの確率が設定される。例えば、一実施形態によれば、各キーワードは一つ以上の用語を備えてもよく、また、各用語はそれに関連する一つ以上の概念を備えていてもよい。本例の目的から、キーワードは少なくとも2つの関連概念を備える1語を備える。ブロック300では、キーワードに関連する各概念には、キーワードが各概念をもつ先験確率が与えられる。この先験確率は、相互接続された概念ネットワークに含まれる情報や、その概念に決定される各用語の頻度に関する事前収集データに基づくものである。
ブロック300に続くブロック302では、キーワードの概念と、関連する意味もしくは意味の概念との関係の強さが決定される。例えば、一実施形態によれば、関連する意味は、重み付けされた概念集合を備えていてもよい。各キーワードの概念と各関連する意味の概念との関係の強さが決定される。各関連意味の概念の重みを用いることによって、関連意味の概念とキーワードの概念との関係の強さを調整することができる。この強さは、存在するデータから得られる概念間の共起確率、即ち、2つの概念の近さを反映することができる。
ブロック302に続くブロック304では、ブロック302で計算した強さを利用して、キーワードが各関連概念をもつ確率を調整する。例えば、各キーワードの概念と各関連意味の概念との関係のために決定された強さを用いて、考えられる各キーワードの概念の確率を調整する。一実施形態によれば、キーワードの概念の確率が調整された後、その確率は1で正規化される。ブロック302、304の工程を何度も繰り返して、確率に関する関係の強さのインパクトを高めることができる。
一実施形態によれば、キーワードは複数の概念を備えてもよく、また、複数の関連意味の各々は複数の概念を備えてもよい。本実施形態によれば、キーワードが各キーワード概念をもつキーワード概念確率と、キーワードが各関連意味概念をもつ関連意味概念確率を設定することによってキーワード意味を決定することができる。これらの確率は、図3に関して上で説明した方法で設定することができる。
図2に戻って、ブロック212に続くブロック214では、キーワードの意味がキーワードと関連づけられて記憶される。このキーワードとその関連意味は一緒に、例えば、知識項目データベース120に格納してもよく、もしくは、個別のデータベースに別々に格納してもよい。
上の記載には多くの仕様が含まれ、これらの仕様は本発明の範囲に限定されるものではなく、開示された実施形態の例を単に示すものである。当業者であれば、本発明の範囲内でその他の多くの変更が可能であろう。
本発明の一実施形態に係るシステムのブロック図である。 本発明の一実施形態に係る方法のフロー図である。 図2に示す方法のサブルーチンのフロー図である。
符号の説明
102a クライアント
102b クライアント
102n クライアント
104 サーバデバイス
106 ネットワーク
110 プロセッサ
114 入力
116 プロセッサ
118 メモリ
120 知識項目データベース
124 知識項目エンジン
134 情報ロケータ
135 知識項目プロセッサ
136 情報プロセッサ
137 意味プロセッサ
140 サーバデバイス
142 プロセッサ
144 メモリ
146 コンテンツエンジン
148 コンテンツデータベース

Claims (22)

  1. キーワードの意味を決定する方法であって、
    知識項目エンジンが、キーワードを受け取り、前記知識項目エンジンは、情報ロケータ、情報プロセッサ及び意味プロセッサを含む工程と、
    前記情報ロケータが、前記キーワードに関連すると事前に認定された文書をコンテンツデータベースから検索する工程と、
    前記情報プロセッサが、前記文書のそれぞれの少なくとも一部に関連した意味の表現を生成し、それぞれの関連した意味は、1以上の重み付けられた用語によって表現される工程と、
    前記意味プロセッサが、複数の概念のそれぞれの各表現を知識項目データベースから検索し、概念のそれぞれの表現は前記キーワードに関連し、それぞれの概念は1以上の重み付けられた用語によって表現される工程と、
    前記意味プロセッサが、1以上の重み付けられた用語として表現されたそれぞれの概念と1以上の重み付けられた用語として表現されたそれぞれの関連した意味との間の関係の各強さを計算する工程と、
    前記意味プロセッサが、前記関係の強さに基づいて前記複数の概念から少なくとも1つの概念を選択する工程と、
    前記意味プロセッサが、前記選択された少なくとも1つの概念を前記文書に対応する前記キーワードの意味として前記知識項目データベースに記録する工程と、
    を含むことを特徴とする方法。
  2. 前記キーワードに関連すると事前に認定された文書は、入札の行為を通じて検索される請求項1記載の方法。
  3. 前記関連した意味は、概念の重み付けられたセットを含み、前記重みは前記関係の強さに対応する請求項1記載の方法。
  4. 前記キーワードに関連すると事前に認定された文書は、関連した記事を含むことを特徴とする請求項1記載の方法。
  5. 前記関連記事は、前記キーワードに対して入札した広告主からの広告を含むことを特徴とする請求項4記載の方法。
  6. 前記関連記事は、前記広告に関連するウェブページをさらに含むことを特徴とする請求項5記載の方法。
  7. 前記キーワードに関連すると事前に認定された文書は、関連したデータをさらに含むことを特徴とする請求項6記載の方法。
  8. 前記関連したデータは、前記広告に関連するクリック単位コストのデータを含むことを特徴とする請求項7記載の方法。
  9. 複数の概念のそれぞれの各表現を検索するステップは、既知の関連概念を決定するキーワードを処理することを含む請求項1記載の方法。
  10. 前記既知の関連概念は、重み付けされた概念ベクトルを含むことを特徴とする請求項9記載の方法。
  11. 前記既知の関連概念は、関連した単語のクラスタを含むことを特徴とする請求項9記載の方法。
  12. コンピュータにキーワードの意味を決定させるためのプログラムコードを記録したコンピュータ読取可能媒体であって、前記プログラムコードは、
    知識項目エンジン、キーワードを受け取らせ、前記知識項目エンジンは、情報ロケータ、情報プロセッサ及び意味プロセッサを含むプログラムコードと、
    前記情報ロケータ、前記キーワードに関連すると事前に認定された文書をコンテンツデータベースから検索させるプログラムコードと、
    前記情報プロセッサ、前記文書のそれぞれの少なくとも一部に関連した意味の表現を生成させ、それぞれの関連した意味は、1以上の重み付けられた用語によって表現されるプログラムコードと、
    前記意味プロセッサ、複数の概念のそれぞれの各表現を知識項目データベースから検索させ、概念のそれぞれの表現は前記キーワードに関連し、それぞれの概念は1以上の重み付けられた用語によって表現されるプログラムコードと、
    前記意味プロセッサ、1以上の重み付けられた用語として表現されたそれぞれの概念と1以上の重み付けられた用語として表現されたそれぞれの関連した意味との間の関係の各強さを計算させるプログラムコードと、
    前記意味プロセッサ前記関係の強さに基づいて前記複数の概念から少なくとも1つの概念を選択させるプログラムコードと、
    前記意味プロセッサ、前記選択された少なくとも1つの概念を前記文書に対応する前記キーワードの意味として前記知識項目データベースに記録させるプログラムコードと、
    を含むことを特徴とするコンピュータ読取可能媒体。
  13. 前記キーワードに関連すると事前に認定された文書は、入札の行為を通じて検索される請求項12記載のコンピュータ読取可能媒体。
  14. 前記関連した意味は、概念の重み付けられたセットを含み、前記重みは前記関係の強さに対応する請求項12記載のコンピュータ読取可能媒体。
  15. 前記キーワードに関連すると事前に認定された文書は、関連した記事を含むことを特徴とする請求項12記載のコンピュータ読取可能媒体。
  16. 前記関連した記事は、前記キーワードに対して入札した広告主からの広告を含むことを特徴とする請求項15記載のコンピュータ読取可能媒体。
  17. 前記関連した記事は、前記広告に関連するウェブページをさらに含むことを特徴とする請求項16記載のコンピュータ読取可能媒体。
  18. 前記キーワードに関連すると事前に認定された文書は、関連したデータをさらに含むことを特徴とする請求項12記載のコンピュータ読取可能媒体。
  19. 前記関連したデータは、前記広告に関連するクリック単位コストのデータを含むことを特徴とする請求項18記載のコンピュータ読取可能媒体。
  20. 複数の概念のそれぞれの各表現を知識項目データベースから検索させるプログラムコードは、既知の関連概念を決定するキーワードを処理させプログラムコードを含む請求項12記載のコンピュータ読取可能媒体。
  21. 前記既知の関連概念は重み付けられた概念ベクトルを含むことを特徴とする請求項20記載のコンピュータ読取可能媒体。
  22. 前記既知の関連概念は、関連した単語クラスタを含むことを特徴とする請求項20記載のコンピュータ読取可能媒体。
JP2006521944A 2003-07-30 2004-07-23 キーワードの翻訳方法及びコンピュータ読取可能媒体 Active JP4829789B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US49142203P 2003-07-30 2003-07-30
US60/491,422 2003-07-30
US10/690,328 US7925610B2 (en) 1999-09-22 2003-10-21 Determining a meaning of a knowledge item using document-based information
US10/690,328 2003-10-21
PCT/US2004/023826 WO2005013149A1 (en) 2003-07-30 2004-07-23 Methods and systems for understanding a meaning of a knowledge item using information associated with the knowledge item

Publications (2)

Publication Number Publication Date
JP2007500899A JP2007500899A (ja) 2007-01-18
JP4829789B2 true JP4829789B2 (ja) 2011-12-07

Family

ID=36947555

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2006521945A Expired - Fee Related JP4825669B2 (ja) 2003-07-30 2004-07-23 文書の意味を決定して文書とコンテンツを一致させる方法及びシステム
JP2006521944A Active JP4829789B2 (ja) 2003-07-30 2004-07-23 キーワードの翻訳方法及びコンピュータ読取可能媒体

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2006521945A Expired - Fee Related JP4825669B2 (ja) 2003-07-30 2004-07-23 文書の意味を決定して文書とコンテンツを一致させる方法及びシステム

Country Status (2)

Country Link
JP (2) JP4825669B2 (ja)
CN (3) CN101482881B (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4740630B2 (ja) * 2005-04-14 2011-08-03 株式会社リコー 流行創出型広告方法及びプログラム
US7958126B2 (en) * 2006-12-19 2011-06-07 Yahoo! Inc. Techniques for including collection items in search results
CN101004753B (zh) * 2007-01-25 2010-08-11 北京搜狗科技发展有限公司 一种概念型文档的识别方法和系统
CN101404031B (zh) * 2008-11-12 2012-05-30 北京搜狗科技发展有限公司 识别概念型网页的方法与系统
JP2010237779A (ja) * 2009-03-30 2010-10-21 Mitsubishi Space Software Kk 広告選択サーバ及び広告選択方法及びプログラム
AU2010201495B2 (en) 2009-04-16 2012-04-12 Accenture Global Services Limited Touchpoint customization system
US9177057B2 (en) 2010-06-08 2015-11-03 Microsoft Technology Licensing, Llc Re-ranking search results based on lexical and ontological concepts
US9779385B2 (en) * 2011-06-24 2017-10-03 Facebook, Inc. Inferring topics from social networking system communications
CN105335163A (zh) * 2015-11-30 2016-02-17 上海斐讯数据通信技术有限公司 软件代码解读方法与系统
CN108363696A (zh) * 2018-02-24 2018-08-03 李小明 一种文本信息的处理方法及装置
CN111507813B (zh) * 2020-04-21 2023-05-12 江西省机电设备招标有限公司 一种投标人身份的认定方法及招投标方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5960383A (en) * 1997-02-25 1999-09-28 Digital Equipment Corporation Extraction of key sections from texts using automatic indexing techniques
US6473730B1 (en) * 1999-04-12 2002-10-29 The Trustees Of Columbia University In The City Of New York Method and system for topical segmentation, segment significance and segment function
JP2001337984A (ja) * 2000-05-30 2001-12-07 Sony Communication Network Corp 広告システム、広告装置及び広告方法
JP4489994B2 (ja) * 2001-05-11 2010-06-23 富士通株式会社 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体
JP4729736B2 (ja) * 2001-07-27 2011-07-20 学校法人日本大学 インターネット検索結果修飾装置及びプログラム
CN1185595C (zh) * 2001-09-05 2005-01-19 联想(北京)有限公司 主题词抗干扰提取方法

Also Published As

Publication number Publication date
JP2007500899A (ja) 2007-01-18
CN101482881A (zh) 2009-07-15
CN1829990A (zh) 2006-09-06
CN1829989A (zh) 2006-09-06
CN100470541C (zh) 2009-03-18
CN101482881B (zh) 2013-12-11
JP2007500900A (ja) 2007-01-18
JP4825669B2 (ja) 2011-11-30

Similar Documents

Publication Publication Date Title
CA2534053C (en) Methods and systems for understanding a meaning of a knowledge item using information associated with the knowledge item
AU2010241249B2 (en) Methods and systems for determining a meaning of a document to match the document to content
US10146776B1 (en) Method and system for mining image searches to associate images with concepts
JP5662961B2 (ja) レビュー処理方法およびシステム
US7849081B1 (en) Document analyzer and metadata generation and use
US8214348B2 (en) Systems and methods for finding keyword relationships using wisdoms from multiple sources
US20110131093A1 (en) System and method for optimizing selection of online advertisements
JP4829789B2 (ja) キーワードの翻訳方法及びコンピュータ読取可能媒体
US8615433B1 (en) Methods and systems for determining and utilizing selection data
US11681761B1 (en) Method and system for mining image searches to associate images with concepts
US11810148B1 (en) Content influencer scoring system and related methods
US8510289B1 (en) Systems and methods for detecting commercial queries
US8676790B1 (en) Methods and systems for improving search rankings using advertising data
AU2011235994A1 (en) Methods and systems for determining a meaning of a document to match the document to content

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070814

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071108

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080401

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20080519

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20080606

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100817

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100820

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110225

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110303

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110330

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110404

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110427

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110506

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110524

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110726

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110916

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140922

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4829789

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250