JP5501967B2 - 間接話法内の意味論的関係の識別 - Google Patents

間接話法内の意味論的関係の識別 Download PDF

Info

Publication number
JP5501967B2
JP5501967B2 JP2010523188A JP2010523188A JP5501967B2 JP 5501967 B2 JP5501967 B2 JP 5501967B2 JP 2010523188 A JP2010523188 A JP 2010523188A JP 2010523188 A JP2010523188 A JP 2010523188A JP 5501967 B2 JP5501967 B2 JP 5501967B2
Authority
JP
Japan
Prior art keywords
identified
semantic
association
elements
text portion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010523188A
Other languages
English (en)
Other versions
JP2010538375A5 (ja
JP2010538375A (ja
Inventor
クロウチ,リチャード
ヴァン・デン・ベルグ,マーティン
アーン,デーヴィッド
グレヴィッヒ,オルヤ
ペル,バーニー
ポランイ,リヴィア
プレヴォスト,スコット
ティオーン,ジョヴァンニ・ロレンゾ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Priority claimed from US12/201,675 external-priority patent/US8868562B2/en
Publication of JP2010538375A publication Critical patent/JP2010538375A/ja
Publication of JP2010538375A5 publication Critical patent/JP2010538375A5/ja
Application granted granted Critical
Publication of JP5501967B2 publication Critical patent/JP5501967B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

オンライン検索エンジンは、研究を行いまたはインターネットを介してアクセス可能な文書をナビゲートするためのますます重要なツールになってきた。しばしば、オンライン検索エンジンは、ユーザーによってサブミットされたクエリーを利用する、可能な文書またはこれらの文書内のテキストを検出するためのマッチングプロセスを実行する。当初に、GoogleまたはYahooによって維持されるものなどの従来のオンライン検索エンジンによって提供されるマッチングプロセスは、ユーザーが、そのユーザーが探している情報を記述するためにクエリー内で1つまたは複数のキーワードを指定することを可能にする。次に、従来のオンライン検索エンジンは、キーワードの正確一致を含むすべての文書を見つけ始めるが、これらの文書は、通常、クエリーに応答する関連するまたは意味のある結果を提供しない。
現在の従来のオンライン検索エンジンは、マッチングプロセスによって作られる正確一致を超えてクエリー内のキーワードに対応する検索される文書内の単語を認識しないという点で、制限されている。また、従来のオンライン検索エンジンは、ユーザーがマッチングされるクエリー内のキーワードに制限されるので制限され、したがって、所望の情報が未知の場合にユーザーがその情報を正確に表現することを可能にしない。したがって、クエリーのキーワードと検索される文書内の単語との間の意味論的関係を認識するために自然言語検索エンジンを実施することによって、検索結果の精度が独自に高められるはずである。
この「課題を解決するための手段」は、下の「発明を実施するための形態」でさらに説明される概念の選択物を単純化された形で導入するために提供される。この「課題を解決するための手段」は、請求される主題の主要な特徴または本質的な特徴を識別することを意図されたものではなく、請求される主題の範囲を判定する際の助けとして使用されることも意図されていない。
本発明の実施形態は、ウェブまたはある他のリポジトリーから取り出された文書の内容内で見つかるさまざまな単語ならびにクエリー検索語の間の関連付けを展開する、コンピューター実施される方法およびコンピューター可読媒体に関する。意味論的に表すことのできる内容は、間接話法または他のアティチュードレポート(attitude report)とすることができ、その結果、内容の意味論的表現を、受け取られた自然言語クエリーと比較して、意味があり非常に関連する結果をユーザーに与えられるようになる。「about(〜に関する)」関係などの意味論的関係を、特定の単語関連付けを形成することを可能にするために、ある種の要素または検索語の間で識別することができる。意味論的関係が形成された後に、意味論的表現を、文書内の内容について生成することができ、命題を、検索クエリーについて生成することができ、この両方が、最も関連する検索結果を判定するための1つまたは複数の意味論的関係との命題のすばやい比較を可能にする。
本発明の実施形態を、下で添付図面を参照して詳細に説明する。
本発明の実施形態を実施する際の使用に適する例示的コンピューティング環境を示すブロック図である。 本発明の実施形態を実施する際の使用に適する例示的システムアーキテクチャーを示す概略図である。 本発明の実施形態による、文書内のテキスト部分から生成される意味論的表現を示す図である。 本発明の実施形態による、文書内のテキスト部分から生成される意味論的表現を示す図である。 本発明の実施形態による、文書内のテキスト部分から生成される意味論的表現を示す図である。 本発明の実施形態による、文書内のテキスト部分から生成される意味論的表現を示す図である。 本発明の実施形態による、検索クエリーから生成される命題を示す図である。 本発明の実施形態による、文書内のテキスト部分(テキスト部分は2つの文を含む)から生成される意味論的表現を示す図である。 本発明の実施形態による、文書の内容から抽出された要素の間の意味論的関係を展開する方法を示す流れ図である。 本発明の実施形態による、クエリーの受取りに応答して、命題を生成するためにクエリーから抽出されたさまざまな用語の間の関連付けを作成する方法を示す流れ図である。 本発明の実施形態による、文書の内容から抽出された要素の間の意味論的関係を展開する方法を示す流れ図である。
本発明の主題を、法定要件を満足するために本明細書で具体的に説明する。しかし、この説明自体は、本発明の範囲を限定することを意図されたものではない。そうではなく、本発明人らは、他の現在のまたは将来のテクノロジーに関連して、本文書で説明されるものに類似する異なるステップまたはステップの組合せを含めるために、請求される主題を他の形で実施することもできることを企図した。さらに、用語「ステップ」および/または「ブロック」が、使用される方法の異なる要素を包含するために本明細書で使用される場合があるが、個々のステップの順序が明示的に説明されない限り、およびその時を除いて、これらの用語を、本明細書で開示されるさまざまなステップの中または間の特定の順序を暗示するものと解釈してはならない。
したがって、一態様では、インデクシングのために文書の内容の意味論的表現を生成するために内容から抽出された要素の間の意味論的関係を展開するコンピューター実施される方法が提供される。当初に、この方法は、インデクシングされる文書のテキスト部分を識別するステップと、テキスト部分内で識別される複数の要素の意味論的情報を判定するステップとを含む。意味論的情報は、識別された要素の意味あるいは識別された要素間の文法的関係および/または意味論的関係のうちの一方または両方を含むことができる。識別された要素のうちの少なくとも1つをスピーチレポート(speech report)またはアティチュードレポートに対応する報告する行為として識別することができる。この方法は、さらに、識別された要素の判定された意味論的情報に基づいて、識別された要素の各関連付けがある種の意味論的関係を表すようにするために、識別された要素を関連付けるステップを含む。さらに、この方法は、識別された要素の関連付けを含む意味論的表現を生成するステップを含む。
もう1つの態様では、自然言語クエリーの受取りに応答して、命題を生成するためにクエリーから抽出されたさまざまな用語の間の関連付けを作成するコンピューター実施される方法が提供される。命題は、関連する検索結果を提供するために意味論的インデックスに格納された文書から内容の意味論的表現を質問するのに使用することができる。この方法は、クエリー内で見つかる1つまたは複数の検索語の関連する意味論的情報を判定するステップをも含む。第1の報告する行為を、クエリー内で判定することができ、意味論的関係を、少なくとも1つの検索語の判定された意味論的情報に基づいて、第1の報告する行為とその検索語との間で形成することができる。第1の報告する行為と検索語との間で作成される関連付けが、意味論的関係を記述する関係要素によって作られる。最後に、形成された関連付けを含む命題を、生成することができ、さらに、非常に関連する検索結果を判定するために意味論的表現と比較することができる。
さらにもう1つの態様では、インデクシングされる文書の内容の意味論的表現を生成するために、内容から抽出された要素の間の意味論的関係を展開する方法を実行するコンピューター使用可能命令をその上に実施された1つまたは複数のコンピューター可読媒体が提供される。当初に、この方法は、文書のうちでインデクシングされるべき少なくとも一部またはテキスト部分を識別するステップを含む。次いで、そのテキスト部分を、意味論的に表現されるべき要素を識別するために解析することができる。識別された要素の間の潜在的意味および文法的関係もしくは意味論的関係が、テキスト部分内での関連付けの1つまたは複数のレベルの判定に加えて判定される。この方法は、第1の報告する行為を識別された要素の第1セットに関連付けられるようにするために、関連付けの1つまたは複数の判定されたレベルのそれぞれについてテキスト部分内で報告する行為を識別するステップをも含む。第1の報告する行為は、関連付けの第1レベルに関連するものとすることができる。同様に、第2の報告する行為を、識別された要素の第2セットに関連付けることができ、第2の報告する行為は、関連付けの第2レベルに関連する。さらに、第1の報告する行為に対する識別された要素の第1セットと第2の報告する行為に対する識別された要素の第2セットとの間の、関連付けを記述する関係要素による関連付けを含む意味論的表現を生成することができる。
本発明の実施形態の概要およびその特徴の一部を短く述べたので、本発明を実施するのに適する例示的オペレーティング環境を下で説明する。
全般的に図面を参照し、当初に特に図1を参照すると、本発明の実施形態を実施する例示的オペレーティング環境が示され、全体的にコンピューティングデバイス100と指定されている。コンピューティングデバイス100は、適切なコンピューティング環境の1つの例にすぎず、本発明の使用または機能性の範囲に関する限定を提案することは意図されていない。コンピューティングデバイス100を、図示のコンポーネントのいずれか1つまたは組合せに関する依存性または要件を有するものと解釈してもならない。
本発明を、コンピューターまたは携帯情報端末もしくは他のハンドヘルドデバイスなどの他の機械によって実行される、プログラムコンポーネントなどのコンピューター実行可能命令を含むコンピューターコードまたは機械使用可能命令の全般的文脈で説明することができる。一般に、ルーチン、プログラム、オブジェクト、コンポーネント、データー構造体、および類似物を含むプログラムコンポーネントは、特定のタスクを実行するか特定の抽象データー型を実施するコードを指す。本発明の実施形態を、ハンドヘルドデバイス、消費者エレクトロニクス、汎用コンピューター、専門コンピューティングデバイスなどを含むさまざまなシステム構成で実践することができる。本発明の実施形態を、通信ネットワークを介してリンクされたリモート処理デバイスによってタスクが実行される分散コンピューティング環境で実践することもできる。
図1の参照を続けると、コンピューティングデバイス100は、バス110を含み、バス110は、メモリー112、1つまたは複数のプロセッサー114、1つまたは複数のプレゼンテーションコンポーネント116、入出力(I/O)ポート118、I/Oコンポーネント120、および例示的な電源122を直接にまたは間接に結合する。バス110は、1つまたは複数のバス(たとえば、アドレスバス、データーバス、またはその組合せ)とすることができるものを表す。図1のさまざまなブロックは、図を明瞭にするために線を用いて図示されているが、実際には、さまざまなコンポーネントの区切りは、それほど明瞭ではなく、隠喩的に、線は、より正確には灰色で不明瞭になるはずである。たとえば、ディスプレイデバイスなどのプレゼンテーションコンポーネントをI/Oコンポーネントと考えることができる。また、プロセッサーはメモリーを有する。本発明人らは、それが当技術の性質であることを認め、図1の図が、本発明の1つまたは複数の実施形態に関連して使用できる例示的コンピューティングデバイスの単なる例示であることを繰り返す。「ワークステーション」、「サーバー」、「ラップトップ機」、「ハンドヘルドデバイス」などのカテゴリーは、すべてが「コンピューター」または「コンピューティングデバイス」に関して図1の範囲に含まれることが企図されるので、それらのカテゴリーの間での区別は行われない。
コンピューティングデバイス100は、通常、さまざまなコンピューター可読媒体を含む。限定ではなく例として、コンピューター可読媒体は、ランダムアクセスメモリー(RAM)、読取り専用メモリー(ROM)、電気的消去可能プログラマブル読取り専用メモリー(EEPROM)、フラッシュメモリー、または他のメモリーテクノロジー、CDROM、ディジタル多用途ディスク(DVD)、または他の光媒体もしくはホログラム媒体、磁気カセット、磁気テープ、磁気ディスクストレージ、または他の磁気記憶デバイス、あるいは、所望の情報を符号化するのに使用でき、コンピューティングデバイス100によってアクセスできる任意の他の媒体を含むことができる。
メモリー112は、揮発性メモリーおよび/または不揮発性メモリーの形のコンピューター記憶媒体を含む。メモリーは、リムーバブル、ノンリムーバブル、またはその組合せとすることができる。例示的なハードウェアデバイスは、ソリッドステートメモリー、ハードドライブ、光ディスクドライブなどを含む。コンピューティングデバイス100は、メモリー112またはI/Oコンポーネント120などのさまざまなエンティティーからデーターを読み取る1つまたは複数のプロセッサーを含む。プレゼンテーションコンポーネント(1つまたは複数)116は、ユーザーまたは他のデバイスにデーター表示を提示する。例示的なプレゼンテーションコンポーネントは、ディスプレイデバイス、スピーカー、印刷コンポーネント、振動コンポーネントなどを含む。I/Oポート118は、コンピューティングデバイス100を、I/Oコンポーネント120を含む他のデバイスに論理的に結合することを可能に、この他のデバイスの一部を、内蔵することができる。例示的なコンポーネントは、マイクロホン、ジョイスティック、ゲームパッド、衛星パラボラアンテナ、スキャナー、プリンター、無線デバイスなどを含む。
ここで図2に移ると、本発明の実施形態による、本発明の実施形態を実施する際の使用に適する例示的なシステムアーキテクチャー200の概略図が示されている。図2に示された例示的なシステムアーキテクチャー200が、1つの適切なコンピューティング環境の例にすぎず、本発明の使用または機能性の範囲に関する限定を示唆することが意図されていないことが、当業者によって理解され、了解されるであろう。例示的なシステムアーキテクチャー200を、図示の任意の単一のコンポーネントまたはコンポーネントの組合せに関する依存性または要件を有するものと解釈してもならない。
図示されているように、システムアーキテクチャー200は、分散コンピューティング環境を含むことができ、この分散コンピューティング環境では、クライアントデバイス215は、自然言語エンジン290に動作可能に結合され、自然言語エンジン290は、データーストア220に動作可能に結合される。分散コンピューティング環境で実践される本発明の実施形態では、動作可能な結合は、自然言語エンジン290へのクライアントデバイス215およびデーターストア220のリンクおよび適当な接続を介する他のオンラインコンポーネントを指す。これらの接続は、有線または無線とすることができる。本発明の範囲内の特定の有線実施形態の例は、ネットワーク(図示せず)を介するUSB接続およびケーブル接続、または、単一の機械の中のコンポーネントを相互接続するバスまたは他のチャネルを含む。本発明の範囲内の特定の無線実施形態の例は、ニアレンジ(near−range)無線ネットワークおよびラジオ周波数テクノロジーを含む。
「ニアレンジ無線ネットワーク」の指定が、限定的であることを意図されておらず、negotiated wireless peripheral(NWP)デバイス、短距離無線エアーインターフェレンスネットワーク(air interference network)(たとえば、無線パーソナルエリアネットワーク(wPAN)、無線ローカルエリアネットワーク(wLAN)、無線広域ネットワーク(wWAN)、Bluetooth(商標)、および類似物)、無線ピアツーピア通信(たとえば、ウルトラワイドバンド)、およびデバイスの間のデーターの無線通信をサポートするすべてのプロトコルを含むものとして広義に解釈されなければならないということが理解され、了解されるべきである。さらに、本発明の分野に精通する人は、ニアレンジ無線ネットワークを、さまざまなデーター転送方法(たとえば、衛星伝送、遠隔通信網など)によって実践できることを認めるであろう。したがって、たとえばクライアントデバイス215、データーストア220、および自然言語エンジン290の間の接続の実施形態は、説明される例によって限定されるのではなく、さまざまな通信の方法を含むことが強調される。もう1つの実施形態では、コンピューティングデバイスは、意味論的解釈コンポーネント250の機能性を内蔵することができ、これによって無線接続または有線接続に対する依存性を軽減することができる。
例示的なシステムアーキテクチャー200は、プレゼンテーションデバイス275の動作を部分的にサポートするクライアントデバイス215を含む。クライアントデバイス215がたとえばモバイルデバイスである例示的実施形態では、プレゼンテーションデバイス(たとえば、タッチスクリーンディスプレイ)を、クライアントデバイス215上に配置することができる。さらに、クライアントデバイス215は、さまざまなタイプのコンピューティングデバイスの形をとることができる。例のみとして、クライアントデバイス215を、パーソナルコンピューティングデバイス(たとえば、図1のコンピューティングデバイス100)、ハンドヘルドデバイス(たとえば、携帯情報端末)、モバイルデバイス(たとえば、ラップトップコンピューター、携帯電話機、メディアプレイヤー)、消費者エレクトロニクスデバイス、さまざまなサーバー、および類似物とすることができる。さらに、コンピューティングデバイスは、その間で情報を共有するように構成された複数の電子デバイスを含むことができる。
諸実施形態では、上で述べたように、クライアントデバイス215が、プレゼンテーションデバイス275を含むかこれに動作可能に結合され、このプレゼンテーションデバイス275は、プレゼンテーションデバイス275にUIディスプレイ295を提示するように構成される。プレゼンテーションデバイス275は、モニター、電子ディスプレイパネル、タッチスクリーン、液晶ディスプレイ(LCD)、プラズマスクリーン、1つまたは複数の発光ダイオード(LED)、白熱電球、レーザー、エレクトロルミネセンス光源、ケミカルライト、フレキシブルライトワイヤー、および/もしくは蛍光灯、または任意の他のディスプレイタイプなどのユーザーに情報を提示できるすべてのディスプレイデバイスとして構成され得、あるいは、視覚情報が投影される反射表面を含むことができる。プレゼンテーションデバイス275の複数の異なる構成を上で説明したが、情報を提示するさまざまなタイプのプレゼンテーションデバイスを、プレゼンテーションデバイス275として使用できることと、本発明の実施形態が、図示され説明されるプレゼンテーションデバイス275に限定されないこととを、当業者は理解し、了解するべきである。
1つの例示的実施形態では、プレゼンテーションデバイス275によってレンダリングされるUIディスプレイ295は、自然言語エンジン290および/またはコンテンツパブリッシャーに関連するウェブページ(図示せず)を提示するように構成される。諸実施形態では、ウェブページは、クエリーと、クエリーを用いて意味論的インデックスを検索することによって発見される検索結果とを受け取る検索入力エリアを明らかにすることができる。クエリーは、検索入力エリアでユーザーによって手動で供給されるものとすることができ、あるいは、ソフトウェアによって自動的に生成することができる。さらに、下でより完全に説明するように、クエリーは、サブミットされた時にクエリー内のキーワードに最も反応する適当な検索結果を識別するために自然言語エンジン290を呼び出す1つまたは複数のキーワードを含むことができる。
図2に示された自然言語エンジン290は、たとえば上で図1を参照して説明したコンピューティングデバイス100などのさまざまなタイプのコンピューティングデバイスの形をとることができる。限定ではなく例のみとして、自然言語エンジン290を、パーソナルコンピューター、デスクトップコンピューター、ラップトップコンピューター、消費者エレクトロニクスデバイス、ハンドヘルドデバイス(たとえば、携帯情報端末)、さまざまなリモートサーバー(たとえば、オンラインサーバークラウド)、処理機器、および類似物とすることができる。しかし、本発明が、そのようなコンピューティングデバイスでの実施態様に限定されるのではなく、本発明の実施形態の範囲に含まれるさまざまな異なるタイプのコンピューティングデバイスのいずれにおいても実施できることに留意されたい。
さらに、1つの実例で、自然言語エンジン290は、クライアントデバイス215を介するクエリーのサブミッションに応答して、インターネットおよび/またはデーターストア220の情報を検索し、検索の範囲内でその情報からの検索結果を収集するように設計された検索エンジンとして構成される。一実施形態で、検索エンジンは、インターネットを介してアクセス可能なデーター(たとえば、ニュースグループ、データーベース、オープンディレクトリー、データーストア220、および類似物)をマイニングし、意味のあるフォーマットで格納されたウェブページまたは他の文書の主題と一緒にウェブアドレスを含む意味論的インデックス260を作成する、1つまたは複数のウェブクローラーを含む。もう1つの実施形態では、検索エンジンは、サブミットされたクエリー内の検索語に関連する意味論的インデックスから検索結果(たとえば、リスティング、テーブル、ウェブアドレスのランキングされた順序、および類似物)の識別および取出を容易にするように動作可能である。この検索エンジンを、クライアントデバイス215に配置されたウェブブラウザーアプリケーションを介してインターネットユーザーによってアクセスすることができる。したがって、ユーザーは、検索入力エリア(たとえば、検索エンジンに関連するウェブブラウザーアプリケーションによって生成されるUIディスプレイ295に出される)で検索語をサブミットすることによって、インターネット検索を行うことができる。もう1つの構成では、検索を行うことができ、これによって、クエリーが、ユーザーのハードディスクなど、ローカル情報ストアからコンテンツを取り出すために1つまたは複数のシステムインデックスにサブミットされる。
データーストア220は、一般に、それに検索可能なコンテンツを関連付けられた(たとえば、Wikipediaウェブサイトを含む文書)オンラインアイテムおよび/または資料に関連する情報を格納するように構成される。さまざまな実施形態で、そのような情報は、限定なしに、文書、ウェブページ/サイトの内容、インターネット、ローカルイントラネット、もしくはユーザーの機械のメモリーまたはハードディスクを介してアクセス可能な電子資料、ならびに検索エンジンから使用可能な他の通常のリソースを含むことができる。さらに、データーストア220を、格納された情報の適切なアクセスに関して検索可能になるように構成することができる。1つの実例で、適切なアクセスを可能にすることは、データーストア内の文書のサブセットに供給される判断基準に従ってそれらのサブセットを選択するかフィルタリングすることを含む。
たとえば、データーストア220を、自然言語エンジン290による処理のために選択された1つまたは複数の文書に関して検索可能とすることができる。諸実施形態では、自然言語エンジン290は、意味論的インデックスを更新するために、最近に追加されまたは修正された文書に関するデーターストアを自由に検査することを可能にされる。検査のプロセスは、事前に定義されたインターバルで継続的に実行することができ、あるいは、データーストア220で集計される1つまたは複数の文書に対して変更が行われたことの表示の際に行うことができる。データーストア220に格納される情報は、構成可能とすることができ、オンライン検索の範囲内のすべての情報を含むことができることが、当業者によって理解され、了解されるであろう。そのような情報の内容および量は、いかなる形でも本発明の実施形態の範囲を限定することが意図されていない。さらに、単一の独立のコンポーネントとして図示されているが、データーストア220は、実際には、複数のデーターベース、たとえば、その一部がクライアントデバイス215、自然言語エンジン290、別の外部コンピューティングデバイス(図示せず)、および/またはこれらの任意の組合せに常駐できるデーターベースクラスタとすることができる。
一般に、自然言語エンジン290は、情報をオンラインで探査し、見つけることを望むユーザーを支援するツールを提供する。諸実施形態では、このツールは、データーストア220から引き出された文書など、文書のセット内の一節の意味を計算するために自然言語処理テクノロジーを適用することによって動作する。これらの意味は、検索を実行する時に参照される意味論的インデックス260に格納される。当初に、ユーザーが検索入力エリアにクエリーを入力する時に、クエリー検索パイプライン205は、ユーザーのクエリーを分析し(たとえば、文字列、完全な単語、句、英数字合成物、記号、または疑問文)、意味論的関係を利用してクエリーを構造的表現に変換する。この表現は、本明細書で「命題」と称するが、関連する検索結果に達するために意味論的インデックス260に格納される情報を問い合わせるのに利用することができる。
1つの実例では、意味論的インデックス260に格納される情報は、データーストア220で維持される文書またはオンライン検索の範囲内に含まれるすべての他の資料から抽出される表現を含む。この表現を、以下では「意味論的表現」と称するが、この表現は、共通テキストから抽出された内容の直観的意味に関し、意味論的インデックス260に格納され得る。諸実施形態では、意味論的表現は、単語再記述ルールの順序付きシーケンスまたは関連分野で既知の任意の他のヒューリスティックを利用して意味論的構造から導出される。諸実施形態では、「意味論的構造」は、文書の内容を部分的に辞書的意味論文法規則を利用する意味論的構造に変換する文書解析コンポーネントによって分析パイプラインの中間ステージで生成される。
意味論的インデックス260のアーキテクチャーは、命題に一致する意味論的表現を見つけ、サブミットされたクエリーに関連する意味論的表現にマッピングされる文書を取り出すために、導出された命題に対する格納された意味論的表現のすばやい比較を可能にする。したがって、自然言語エンジン290は、検索インターフェース(たとえば、UIディスプレイ295上に出される検索入力エリア)にサブミットされるクエリーからユーザーのクエリー要件の意味を判定することができ、その後、これらの必要を満足する対応する検索結果を見つけるために大量の情報をふるいにかけることができる。
諸実施形態では、上のプロセスを、関連する検索結果を発見する1つまたは複数のステップを実行するさまざまな機能要素によって実施することができる。これらの機能要素は、クエリー解析コンポーネント235、文書解析コンポーネント240、意味論的解釈コンポーネント245、意味論的解釈コンポーネント250、文法指定コンポーネント255、意味論的インデックス260、マッチングコンポーネント265、およびランキングコンポーネント270を含む。これらの機能コンポーネント235、240、245、250、255、260、265、および270は、一般に、個々のモジュラーソフトウェアルーチンと、動的にリンクされ、他のコンポーネントまたはデバイスと共に使用される準備ができている関連するハードウェアとを指す。
当初に、データーストア220、文書解析コンポーネント240、および意味論的解釈コンポーネント250は、インデクシングパイプライン210を構成する。動作中に、インデクシングパイプライン210は、データーストア220でアクセスされる文書230内の内容からの意味論的表現を抽出し、意味論的表現を集める時に意味論的インデックス260を構成するように働く。上で述べたように、意味論的インデックス260を形成するために集約される時に、意味論的表現は、文書230ヘのマッピングおよび/またはそれらがそこから導出された文書230内の内容の位置を保持することができる。言い換えると、意味論的インデックス260は、意味論的解釈コンポーネント250によって生成され、伝えられる意味論的表現(文書解析コンポーネント240で作成される意味論的構造から導出される)を符号化する。しかし、他の実施形態では、文書解析コンポーネント240および意味論的解釈コンポーネント250を、自然言語処理を2つのステージ(すなわち、LFG解析および意味論的解釈)に分割するのではなく、その代わりに、意味論的構造が作られる別々のステージを有することなく、単一ステップで意味論的表現を作る、単一の要素として構成することができる。
一般に、文書解析コンポーネント240は、自然言語エンジン290から使用可能なデーターを収集するように構成される。1つの実例で、データーの収集は、そこに格納された文書230または他の情報の内容をスキャンするためにデーターストア220を検査することを含む。データーストア220内の情報は、常に更新される可能性があるので、データーを収集するプロセスを、規則的なインターバルで、継続的に、または更新が文書230のうちの1つまたは複数に対して行われることの通知の際に実行することができる。
文書230および他の使用可能なソースから内容を収集する際に、文書解析コンポーネント240は、意味論的解析のために内容を準備するためにさまざまな手順を実行する。この手順は、テキスト抽出、エンティティー認識、および解析を含むことができる。テキスト抽出手順は、実質的に、文書230の内容からテーブルセクション、イメージセクション、テンプレートセクション、およびテキストセクションのデーターを抽出することと、これらを、マッピングを容易にするためにそれらが抽出された文書230へのリンクを保存しながら生のオンラインフォーマットから使用可能なフォーマット(たとえば、ハイパーテキストマークアップ言語(HTML))に変換することとを含む。次に、内容の使用可能フォーマットを、文に分割することができる。1つの実例では、文への内容の分解は、入力として文字列をアセンブルすることと、特定のプロパティーに関して文字列をテストするためにルールのセットを適用することと、特定のプロパティーに基づいて内容を文に分割することとを伴う。例のみとして、テストされる内容の特定のプロパティーは、文の始めおよび終りを判定するために句読法および大文字使用を含むことができる。一連の文が確かめられた後に、各個々の文が、その中の単語を検出し、各単語を物体(たとえば、「ヒンデンブルグ号」)、事象(たとえば、「第2次世界大戦」)、時(たとえば、「9月」)、動詞、または単語の間の区別を促進するためもしくは対象文の意味を理解するために利用できる単語の任意の他のカテゴリーとして潜在的に認識するために、調べられる。
エンティティー認識手順は、クエリーの質問関連キーワード(たとえば、誰、どこ、いつ)に対する特定の回答を提供するので、どの単語が名前であるのかの認識を助ける。実施形態では、単語の認識は、名前として単語を識別することと、意味論的インデックス260に質問する時の取出を容易にするためにタグを用いて単語に注釈を付けることとを含む。1つの実例で、名前としての単語の識別は、一致があるかどうかを判定するために名前の事前定義のリスト内で単語をルックアップすることを含む。一致が存在しない場合には、統計情報を使用して、単語が名前であるかどうかを推測することができる。たとえば、統計情報は、「USS Enterprise」など、綴りの複数の一般的な変化を有する場合がある、複雑な名前の語尾変化を認識するのを助けることができる。
解析手順は、実施される時に、上で識別された文の構造への洞察を与える。1つの実例では、これらの洞察が、文法指定コンポーネント255のフレームワーク内で維持されるルールを適用することによって提供される。適用される時に、これらのルールまたは文法は、文内の単語の間の関係の表現を抽出するために文の分析を促進する。上で述べたように、これらの表現は、意味論的構造と称し、意味論的解釈コンポーネント250が文の文法的構造に関するクリティカル情報(たとえば、動詞、主語、目的語、および類似物)を取り込むことを可能にする。
意味論的解釈コンポーネント250は、一般に、単語の間の意味論的関係を認識することによって、文書解析コンポーネント240によって生成された意味論的構造(1つまたは複数)での各単語の役割を診断するように構成される。当初に、診断は、意味論的構造の文法的編成を分析することと、これを、それぞれが別個のアイデアおよび特定の事実を表す論理的アサーションに分離することとを含むことができる。これらの論理的アサーションをさらに分析して、アサーションを含む単語のシーケンスのそれぞれの機能を判定することができる。1つの実例では、単語のシーケンスの機能の判定は、項書換え(term−rewriting)ルールの順序付きシーケンスまたは関連分野で既知の任意の他のヒューリスティックを利用することを含む。
適当な場合には、各単語の機能または役割に基づいて、単語のシーケンスのうちの1つまたは複数を、類義語(すなわち、拡張された単語の特定の意味に対応する他の単語へのリンク)または上位語(すなわち、拡張された単語の一般的な意味に全般的に関係する他の単語へのリンク)を含むように拡張することができる。意味論的解釈コンポーネント250によって認識される、単語のこの拡張、各単語が表現で果たす機能(上で述べた)、単語のシーケンスのそれぞれの文法的関係、および意味論的表現に関するすべての他の情報が、意味論的表現として意味論的インデックス260で格納できる意味論的表現を構成する。
意味論的インデックス260は、インデクシングパイプライン210の1つまたは多数のコンポーネントによって導出された意味論的表現を格納するように働き、関連分野で既知の任意の仕方で構成され得る。たとえば、意味論的インデックスを、従来の検索エンジンインデックスに構造的に類似する逆索引として構成することができる。この例示的実施形態では、逆索引は、そのエントリが、単語と、その単語が出現する文書230ヘのポインタおよびその中の位置とである、すばやく検索可能なデーターベースである。したがって、意味論的構造を意味論的インデックス260に書き込む時には、各単語および関連する機能が、意味論的単語が現れた文書内の文へのポインタと一緒にインデクシングされる。意味論的インデックス260のこのフレームワークは、マッチングコンポーネント265が、サブミットされたクエリーに対応する意味のある検索結果を回復するために、格納された情報に効率的にアクセスし、ナビゲートし、マッチングすることを可能にする。
クライアントデバイス215、クエリー解析コンポーネント235、および意味論的解釈コンポーネント245は、クエリー条件付けパイプライン205を構成する。インデクシングパイプライン210に似て、クエリー条件付けパイプライン205は、単語のシーケンスから意味のある情報を抽出する。しかし、文書230内の一節の処理とは異なって、クエリー条件付けパイプライン205は、クエリー225内でサブミットされた単語を処理する。たとえば、クエリー解析コンポーネント235は、クエリー225を受け取り、さまざまな手順を実行して、その意味論的分析のために単語を準備する。これらの手順は、テキスト抽出、エンティティー認識、および解析など、文書解析コンポーネント240によって使用される手順に類似するものとすることができる。さらに、クエリー225の構造を、文法指定コンポーネント255のフレームワーク内および意味論的解釈コンポーネント245内で維持されるルールを適用することによって、したがってクエリー225の意味のある表現すなわち命題を導出することによって、識別することができる。
諸実施形態では、意味論的解釈コンポーネント245は、意味論的解釈コンポーネント250が文書230内のテキストの一節から導出された意味論的構造を解釈するのと実質的に匹敵する形で、クエリー意味論的表現を処理することができる。他の実施形態では、意味論的解釈コンポーネント245は、クエリー225を構成するキーワードのストリング(たとえば、質問または句)内のキーワードの文法的関係および/または意味論的関係を識別することができる。たとえば、文法的関係および/または意味論的関係の識別は、単語または句がクエリー225の命題の主語(アクションの動作主)、目的語、述語、間接目的語、または時間的位置として機能するかどうかを識別することを含む。もう1つの実例では、命題は、キーワードのそれぞれに関連する論理的言語構造を識別するために評価される。たとえば、評価は、少なくとも1つのキーワードの機能を判定するステップ、機能に基づいて、キーワードを複数の意味を含む論理変数に置換するステップ(たとえば、機能を複数の意味に関連付けるステップ)、およびこれらの意味をクエリーの命題に書き込むステップのうちの1つまたは複数を含むことができる。クエリー225のこの命題、キーワード、ならびに命題および/またはキーワードから抽出された情報は、その後、文書230から抽出され、意味論的インデックス260に格納された意味論的表現との比較のためにマッチングコンポーネント265に送られる。
例示的実施形態では、マッチングコンポーネント265は、クエリー225の命題を意味論的インデックス260の意味論的表現と比較して、一致する意味論的表現を確かめる。これらの一致する意味論的表現を、それらがそこから抽出された文書230および意味論的表現がそこから導出されたその文書内の位置を関連付けることによって、その文書230および位置に戻ってマッピングすることができる。これらの文書230は、関連付けられた位置によってターゲティングされるが、ランキングコンポーネント270によって収集され、ソートされる。ソートは、関連分野で既知の任意の方法で実行でき、限定なしに、一致の良さによるランキング、返される文書230の人気に基づくリスティング、またはクエリー225をサブミットするユーザーの属性に基づくソートを含むことができる。これらのランキングされた文書230は、検索結果285を含み、適当なフォーマットでUIディスプレイ295に出すためにプレゼンテーションデバイス275に伝えられる。
図2の参照を続けると、この例示的なシステムアーキテクチャー200は、本発明の諸態様を実行するために実施できる適切な環境の一例にすぎず、本発明の使用または機能性の範囲に関する限定を提案することは意図されていない。例示的なシステムアーキテクチャー200または自然言語エンジン290を、図示のコンポーネント235、240、245、250、255、260、265、および270のいずれか1つまたは組合せに関するいかなる依存性または要件を有するものと解釈してもならない。いくつかの実施形態では、コンポーネント235、240、245、250、255、260、265、および270のうちの1つまたは複数を、独立型デバイスとして実施することができる。他の実施形態では、コンポーネント235、240、245、250、255、260、265、および270のうちの1つまたは複数を、クライアントデバイス215に直接に統合することができる。図2に示されたコンポーネント235、240、245、250、255、260、265、および270が、性質および個数において例示的であり、限定的と解釈されてはならないことが、当業者によって理解されるであろう。
したがって、任意の個数のコンポーネントを使用して、本発明の実施形態の範囲内で所望の機能性を達成することができる。図2のさまざまなコンポーネントは、図を明瞭にするために線を用いて図示されているが、実際には、さまざまなコンポーネントの区切りは、それほど明瞭ではなく、隠喩的に、線は、より正確には灰色または不明瞭になるはずである。さらに、図2の一部のコンポーネントは、単一のブロックとして図示されているが、図示は、性質および個数において例示的であり、限定的と解釈してはならない(たとえば、1つのプレゼンテーションデバイス275だけが図示されているが、より多数を、クライアントデバイス215に通信的に結合することができる)。
ここで図3に移ると、本発明の実施形態による、文書内のテキスト部分から生成される意味論的表現の図300が示されている。テキスト部分を、たとえば、1つまたは複数の文書の内容から抽出することができ、これらの文書を、インデクシング中の簡単なアクセスのためにデーターストアに格納することができる。一実施形態では、テキスト部分がそこから抽出される文書が、ウェブ文書であるが、他の実施形態の文書は、文書の任意のタイプのコレクションからの任意の種類のテキストベースの文書とすることができる。任意の文書コレクションから取り出された文書などまたはコレクションを用いる特定の文書の分析のためにさえ、任意のタイプの文書を取り出せることが、当業者に明白になるであろう。テキスト部分は、間接話法および他のアティチュードレポートを含むことができ、これらを、denounce(非難する)、say(言う)、believe(思う)、desire(望む)、deny(拒否する)などであるがもちろんこれらに限定はされない、テキスト部分内で見つかる複数の単語によって識別することができる。これらの単語は、ある種のトピックに対するある人の態度(アティチュード)を記述するので、アティチュードレポートで識別される。間接話法は、ある人からの直接の引用の形をとる場合があり、あるいは、間接的な間接話法である場合がある。次の例が図示され、説明される時に、上で述べたものを含むさまざまな形の間接話法および他のアティチュードレポートが、明白になるであろう。
意味論的表現は、一般に、さまざまな単語の意味、単語の間の関係、および文脈を含むがこれらに限定はされない3つの主要な目的を含む。意味論的表現は、たとえば文書(たとえば、ウェブ文書)内の単語とマッチングされたクエリーからのキーワードに単純に頼ることより完全なテキストの理解を可能にする。ここで、関係は、テキストのより深い分析を可能にするために判定される。図300は、テキスト部分305、関連付けの第1レベル310、関連付けの第2レベル320、および関連付けの第3レベル330を含む。関連付けの各レベル310、320、および330は、1つまたは複数の要素および1つまたは複数の関係要素を含む。関係要素は、図3の実施形態ではアイテム312、314、316、322、332、および334によって表される。要素は、単語「denounce」、「Bush(ブッシュ)」、「Washington(ワシントン)」、「calls(要求)」、「withdraw(撤退する)」、「US(米国)」、および「Iraq(イラク)」を含む。また、関連付けのレベルごとに示されているのが、報告する行為であり、この報告する行為は、ここでは、単語「denounce」、「calls」、および「withdraw」である。したがって、いくつかの実施形態では、「denounce」、「calls」、および「withdraw」など、要素であるが、報告する行為としても分類されるいくつかの単語がある場合がある。
図3の実施形態を明瞭に示すために、意味論的表現が、テキスト部分305について図示され、このテキストは、次のとおりである「In Washington,George Bush denounced calls for the US to withdraw from Iraq.」。図3が、下で再現される意味論的表現の図であることに留意されたい。この例は、例示のみのために、図フォーマットと意味論的表現との両方で提供される。いくつかの実施形態では、意味論的表現は、生成され、図2の意味論的インデックス260などの意味論的インデックスに格納されるが、図は生成されない。これらの実施形態では、図は、図示および説明のみのために再生される。
Context(top):DNC agent:B
Context(top):DNC topic:Context(3)
Context(top):DNC location:W
Context(3): CL topic:Context(5)
Context(5): WTHD agent:U
Context(5): WTHD location:I

word:B [George_Bush,person]Context(top)
word:DNC [denounce,criticize,say]Context(top)
word:W [Washington_D”,city,location]Context(top)
word:CL [call,say]Context(3)
word:WTHD [withdraw,move]Context(5)
word:U [United_States_of_America,country,location]Context(5)
word:I [Iraq,country,location]Context(5)
図示されているように、テキスト部分(すなわち、図3のアイテム305)内で識別されている、本明細書で文脈とも称する3レベルの関連付けがある。関連付けのレベルまたは文脈は、Context(top)、Context(3)、およびContext(5)である。関連付けのレベルは、報告する行為のトピックであるものとして識別され、報告する行為は、一般にアクションワード(action word)であり、いくつかの実施形態では動詞である。ここでは、「denounce」が、関連付けの第1レベル310に関連する報告する行為である。関連付けの第2レベル320は、関連付けの第1レベル310で識別された報告する行為「denounce」のトピックと考えることができる。同様に、関連付けの第3レベル330は、関連付けの第2レベル320で識別された報告する行為「calls」のトピックとすることができる。
すべてが同一の形で成り立つ関係の束を一緒に集めるために、関連付けのレベルが形成される。Context(top)などの関連付けのトップレベルは、文のすべての質問に従って成り立つレベルとすることができる。たとえば、図3の実施形態では、BushがWashingtonで声明を出したことは、彼が何を非難したかに関わりなく真とすることができる。Bushによって非難された声明は、埋め込まれた文脈であり、その埋め込まれた文脈は、この実施形態では、「calls for the US to withdraw from Iraq(米国がイラクから撤退することの要求)」である。この例によれば、イラクからの撤退は行われていないので、この声明は、関連付けの第2レベルに配置され、この第2レベルは、ここでは、仮説文脈と呼ぶことができる。上で概要を示した文脈構造すなわち関連付けのレベルを使用することによって、異なる意味論的関係を、異なる情況または異なる形で成り立つものとして識別することができる。
報告する行為を、複数の要因に基づいて判定することができ、報告する行為を、関連付けのレベルごとに識別することができる。報告する行為は、いくつかの実例では、図3の実施形態の「denounce」、「calls」、および「withdraw」などのアクションワードである。報告する行為を、たとえば、動詞、名詞、および類似物とすることができ、報告する行為は、通常、それを囲むテキストによってまたはその単語が文でどのように使用されているかによって判定される。このタイプの文法情報は、たとえば、ルールのセットを適用することによって判定することができ、このルールのセットは、たとえば図2の文法指定コンポーネント255のフレームワーク内で維持することができる。ルールのセットまたは文法を適用することによって、単語の関係が判定され、この判定は、報告する行為の識別につながる。
図3に示されているように、報告する行為は、単語または句などの要素にリンクされ、あるいは、関連付けの異なるレベルにリンクされ得る。報告する行為は、事象の役割として識別され、事象の役割は、この例では、非難事象と呼ぶことができる。たとえば、「denounce」は、関連付けの第1レベル310の報告する行為として識別される。単語「denounce」は、単語「Bush」および単語「Washington」にリンクされ、この両方の単語が、意味論的に分析されているテキスト部分に現れる。「denounce」が「Bush」にリンクされるのは、「Bush」が単語「denounce」の動作主であるからである。というのは、Bushが実際に非難(denouncing)を行っているからである。したがって、agent(動作主)312は、この2つの単語を一緒にリンクし、したがって意味論的関係を形成する関係要素である。同様に、location(位置)314は、2つの単語(「denounce」および「Washington」を含む)を一緒にリンクする関係要素である。関係要素を文脈の異なるレイヤ内の単語(1つまたは複数)とリンクするために、この2つを一緒にリンクするトピックを見つけることができる。たとえば、どの事象が非難されているのかを判定することができ、それが、報告する行為「denounce」のトピックである可能性がある。ここで、あるものの要求(calls)が「denounce」のtopic(トピック)316である可能性があり、さらに、イラクからの米国の撤退(withdrawal)を、「calls」すなわち要求事象のtopic 322として識別することができ、この「calls」は、関連付けの第2レベル内の報告する行為である。関連付けの第3レベル330内では、「US」がwithdrawalのagent 332として識別され、「Iraq」がwithdrawalのlocation 334である。
要素は、生の内容から解析され、ここでは、「denounce」、「Bush」、「Washington」、「calls」、「withdraw」、「US」、および「Iraq」などの単語を含む。これらの単語のうちの1つまたは複数は、意味論的表現内で論理変数によって表すことのできる類似する意味を有する可能性がある。この論理変数は、要素に類似する意味を有する複数の類義語、要素が収まるカテゴリーを表すことができ、また、要素が有することのできる複数の意味を表すことができる。いくつかの要素は、正しい意味を判定するのが他の要素より簡単である。意味は、1つの例では、要素がテキスト部分の文脈内でどのように使用されるかに基づいて判定することができる。上で示したように、「Bush」は、「George Bush」として識別され、これは、人として識別される。「denounce」すなわち報告する行為は、ここで例示のみのために提供される「criticize(批判する)」と「say(言う)」との両方に関連する。「denounce」に類似する意味を有する複数の他の単語がある場合があり、これに関連すると判定される場合もある。また、「Washington」は、都市を含むカテゴリーおよび位置に関連する。「withdraw」は、「move(移動する)」に関連し、「US」と「Iraq」との両方は、国および位置として分類される。
図3に示されたものなどの意味論的表現は、ユーザーのクエリーが受け取られ、分析された後に、よりよく、より正確でより関連する検索結果をユーザーに返すことを可能にする。たとえば、テキスト(たとえば、ターゲットの声明)「In Washington,George Bush denounced calls for the US to withdraw from Iraq」を解析し、上で説明した意味論的関係を展開することによって、「What did Bush say about Washington.(ブッシュがワシントンに関して何を言ったか)」ではなく「What did Bush say about Iraq(ブッシュがイラクに関して何を言ったか)」などの自然言語クエリーを受け取った時に、ユーザーにこのテキストを返すことができる。「denouncing」を「saying」の1つの形として識別できるという前提に基づく従来のキーワード検索は、ターゲット文内で用語「Washington」、「US」、および「Iraq」に等しい重要性を与え、これは、「say Bush Washington」などのキーワードクエリーによる取出につながる。用語「denounced」をその直接の引数「calls」にリンクしたがその先には進まなかった、より高度なインデクシング方式は、非難がイラクに関するものであることを検出できなかったはずである。用語「Washington」は、分析されているテキスト部分の内部に埋め込まれたものとしては識別されないので、location 314の報告する行為として以外には「denounce」にリンクされることから除外される。
図4に、本発明の実施形態による、文書内のテキスト部分から生成される意味論的表現の図400を示す。やはり、テキスト部分は、間接話法および他のアティチュードレポートを含むことができ、これらを、denounce、say、believe、desire、deny、その他などであるがもちろんこれらに限定はされない、テキスト部分内で見つかる複数の単語によって識別することができる。図3の実施形態は、単語の間の意味論的関係の分析の結果として意味論的表現を提供するが、この表現を、動詞「denounce」に対するどの引数が非難の文脈を伝えるのかに関する情報によって補足することができる。追加の辞書的情報を追加して、非難が何に関するものであるかを示すことができる。下は、図3で使用されたものと同一のテキスト、「In Washington,George Bush denounced calls for the US to withdraw from Iraq」の意味論的表現である。しかし、ここでは、「about」関係が、図3の実施形態で形成された関係に加えて形成されて、クエリーを受け取った後のさらにより関係する検索結果をもたらす。
Context(top):DNC agent:B
Context(top):DNC topic:Context(3)
Context(top):DNC location:W
Context(top):DNC about:CL
Context(top):DNC about:WTHD
Context(top):DNC about:U
Context(top):DNC about:I
Context(3): CL topic:Context(5)
Context(5): WTHD agent:U
Context(5): WTHD location:I

word:B [George_Bush,person]Context(top)
word:DNC [denounce,criticize,say]Context(top)
word:W [Washington_DC,city,location]Context(top)
word:CL [call,say]Context(3)
word:WTHD [withdraw,move]Context(5)
word:U [United_States_of_America,country,location]Context(5)
word:I [Iraq,country,location]Context(5)
「aboutness(アバウトネス)」リンキングをそれによって計算でき、記録できるさまざまな方法がある。1つの形は、トピック引数から始めて文脈および引数リンケージの推移閉包を計算し、この閉包内のすべての用語を報告が関するものとしてマークすることである。これを、上の意味論的表現に示し、図4にも示す。
図4は、意味論的に表現される、テキスト部分405を示す。図3と同様に、図4は、3レベルの関連付けを示し、この3レベルは、関連付けの第1レベル410、関連付けの第2レベル430、および関連付けの第3レベル440である。「denounce」が、関連付けの第1レベル410の報告する行為であり、「calls」が、関連付けの第2レベル430の報告する行為であり、「withdraw」が、関連付けの第3レベル440の報告する行為である。図示されているように、「denounce」は、以前の関係に加えて「about」関係が今は示されているので、今は、図3の実施形態より多数の意味論的関係を有する。意味論的関係は、意味論的関係が、「denounce」と、関係要素agent 412を伴って「Bush」、関係要素location 414を伴って「Washington」、および非難事象の関係要素topic 416を伴って関連付けの第2レイヤ430のそれぞれとの間で判定されている。さらに、関連付けの第3レイヤ440は、callsのtopic 432であり、「US」は、withdrawのagent 442であり、「Iraq」は、withdrawのlocation 444である。
これらの関係に加えて、関連付けの第3レイヤ440内の「withdraw」にリンクされたabout 418、関連付けの第2レイヤ430内の「calls」にリンクされたabout 420、関連付けの第3レイヤ440内の「US」にリンクされたabout 422、およびやはり関連付けの第3レイヤ440内の「Iraq」にリンクされたabout 424を含む、複数の「about」関係が図示されている。したがって、非難イベントは、withdrawalに関し、callsに関し、USに関し、Iraqに関する。図示されているように、非難イベントは、Bushに関するものではなく、Washingtonに関するものでもない。これらの「about」関係の判定ならびにたとえばBushおよびWashingtonとの「about」関係の回避は、ユーザーに返される関連しない検索結果を除去する。
図5を参照すると、本発明の実施形態による、文書内のテキスト部分から生成される意味論的表現の図500が示されている。この実施形態の意味論的表現を、下で、次のテキスト部分505、「In Washington,George Bush denounced calls for the US to withdraw from Iraq」について示す。
Context(top):DNC agent:B
Context(top):DNC topic:Context(3)
Context(top):DNC location:W
Context(3): CL topic:Context(5)
Context(3): CL spoken:DNC
Context(5): WTHD agent:U
Context(5): WTHD location:I
Context(5): WTHD spoken:DNC

word:B [George_Bush,person]Context(top)
word:DNC [denounce,criticize,say]Context(top)
word:W [Washington_DC,city,location]Context(top)
word:CL [call,say]Context(3)
word:WTHD [withdraw,move]Context(5)
word:U [United_States_of_America,country,location]Context(5)
word:I [Iraq,country,location]Context(5)
上で示したように、図4の事例のようにレポートが関する各要素をマークするのではなく、このインデックスは、各報告された事実の題目だけをマークする。たとえば、図5は、「denounce」が関連付けの第1レベル510の報告する行為として識別され、関係要素agent 512によって「Bush」に、関係要素location 514によって「Washington」になど、さまざまな要素にリンクされることを示す。さらに、「denounce」のtopic 516は、「calls for the US to withdraw from Iraq」として識別され、これは、部分的には関連付けの第2レベル530内、部分的には関連付けの第3レベル540内で実施される。「calls」は、関係要素topic 532によって関連付けの第3レベル540にリンクされる。関連付けの第3レベル540内では、「withdraw」が、それぞれ関係要素agent 542およびlocation 544によって、「US」と「Iraq」との両方にリンクされる。
上で定義した関係に加えて、「about」関係の代わりに、spoken(話された)と呼ばれる2つの関係要素があり、「withdraw」にリンクされたspoken 518および「calls」にリンクされたspoken 520として図示されている。このフレームワークは、それでも、「denounce」と「withdraw」の間、および「US」とさらに「Iraq」の間の接続を可能にする。相違は、図5の実施形態のこれらの関係が、直接の関係ではなく間接の関係であることである。上で説明したように、この実施形態を利用する際のトレードオフは、インデックス内での減らされたメモリー使用量と、クエリーが受け取られた後の計算に必要な増加した時間である。
図5の参照を続けると、空間−時間トレードオフの概念を実証する、たとえば図4の実施形態の代替実施形態が示されている。図4の図および図5の図の比較によって理解できるとおり、図5の図は、より単純に見える。というのは、この図が、「about」関係要素を使用することによる「about」関係を明示的には全く含まないからである。図5は、より少数の識別された関係を含むので、インデックス内でより少量の空間を占め、したがって、インデックスが格納されるデーターストア内でより少量の空間を占める。より少ないメモリーおよびストレージ空間が図5の実施形態に使用され得るが、「about」関係がまだ識別されていないので、このインデックス内の意味論的関係とクエリー命題をマッチングするには、より長い時間が必要になる可能性がある。言い換えると、「about」関係は、すばやい比較を可能にするためにこのインデックス内で明示的にコーディングされてはいない。これは、バックエンドでのはるかにより多い計算を必要とし、これは、ユーザーにとっての増えた待ち時間をもたらす可能性がある。その代わりに、図4の実施形態は、前もって「about」関係を明示的に計算し、それらの関係をインデックスに格納し、これは、意味論的表現とのクエリー命題のすばやい比較を可能にし、ユーザーがクエリーを入力した後の計算に必要なより短い時間をもたらす。
図6に、本発明の実施形態による、文書内のテキスト部分から生成される意味論的表現の図600を示す。図6の実施形態は、図3および4の実施形態に似ているが、これらより単純な例を示す。テキスト部分605は、「John believes that Mary went to Washington(ジョンはメリーがワシントンに行ったと思っている)」と述べるものである。下は、テキスト部分605の意味論的表現である。
Context(top):BEL agent:J
Context(top):BEL topic:Context(2)
Context(top):BEL about:G
Context(top):BEL about:M
Context(top):BEL about:W
Context(2): G agent:M
Context(2): G location:W

word:J [John,person]Context(top)
word:BEL [believe]Context(top)
word:W [Washington_DC,city,location]Context(2)
word:G [go,move]Context(2)
word:M [Mary,person]Context(2)
生の内容から解析された要素は、「John」、「believe」、「go」、「Mary」、および「Washington」を含む。「believe」は、関連付けの第1レベル610内の報告する行為として識別され、「go」は、関連付けの第2レベル630内の報告する行為である。上で定義した関係要素は、要素を一緒にリンクし、関連付けのタイプを記述し、agent 612、topic 614、about 616、about 618、about 620、agent 632、およびlocation 634を含む。関連付けの第2レベル630は、「believe」のトピックであり、「believe」という報告する行為に「関する(about)」3つの単語がある。「believe」は「Mary」、Maryが「行った(went)」場所(たとえば、go)、およびMaryが行った場所(たとえば、「Washington」)に関する。やはり、いくつかの実施形態では、論理変数を要素に置換することができ、論理変数を、複数の類義語、その要素または単語のさまざまな意味、または類似物に関連付けることができる。
ここで図7に移ると、本発明の実施形態による、検索クエリーから生成される命題の図700が示されている。命題は、意味論的表現(たとえば、ウェブ文書から導出される内容の表現)に似た形で生成される。ここで、クエリー705は、「Who said something about Iraq?(イラクについて何かを言ったのは誰か)」である。この命題を、下に示す。
Context(top):SY−2 agent:P−2
Context(top):SY−2 topic:E−2
Context(top):SY−2 about:I−2

word:P−2 [person]Context(top)
word:SY−2 [say]Context(top)
word:E−2 [*]Context(top)
word:I−2 [Iraq,country,location]Context(top)
クエリーに対する解析および意味論的分析の実行は、通常は、文書の内容に対する同一の分析の実行よりはるかに単純である。というのは、クエリーが、一般に長さにおいてより短く、図7に示されているように1レベルの関連付けだけを含む可能性があるからである。関連付けのレベル710は、「Person」、「say」、および「Iraq」を含む、解析されまたは識別された複数の要素を含む。追加の要素があるが、これは、1つの単語だけではなく多数のものとすることができるので、ワイルドカードに似ている。この追加要素は、クエリーからの単語「something」を表す。一実施形態では、「something」など、何にでも一致することができる要素を、命題が意味論的表現とマッチングされる時に制限を課さないようにするために、クエリーが解析されている時にクエリーから抽出することができる。
図7に示された命題は、複数の関係要素に加えて、報告する行為「say」をも含む。agent 71が、「person」を「say」にリンクする。about 714は、「say」を「Iraq」にリンクし、topic 716は、「say」をワイルドカード要素にリンクし、このワイルドカード要素は、上で述べたように、何にでもなることができる。図示されているように、単語「who」は、命題では「person」に置換される。
上で図3および4に関して示したものなどの文書(たとえば、ウェブ文書)の内容から生成される意味論的表現および上で図6に関して示したものなどのクエリーから生成される命題を、受け取られたクエリーからの最も関連する検索結果を判定するために、マッチングするかリンクすることができる。たとえば、下の意味論的表現は、意味論的表現および命題のマッチングを示す。マッチは、互いに隣接して示されている。
Context(top):DNC agent:B Context(top):SY−2 agent:P−2
Context(top):DNC topic:Context(3) Context(top):SY−2 topic:E−2
Context(top):DNC location:W
Context(top):DNC about:CL
Context(top):DNC about:WTHD
Context(top):DNC about:U
Context(top):DNC about:I Context(top):SY−2 about:I−2
Context(3):CL topic:Context(5)
Context(5):WTHD agent:U
Context(5):WTHD location:I

word:B[George_Bush,person]Context(top)
word:P−2[person]
Context(top)
word:DNC[denounce,criticize,say]Context(top) word:SY−2[say]
Context(top)
word:W[Washington_DC,city,location]Context(top)
word:CL[call,say]Context(3)
word:E−2[*]
Context(top)
word:WTHD[withdraw,move]Context(5)
word:U[United_States_of_America,country,location]Context(5)
word:I[Iraq,country,location]Context(5)
word:I−2[Iraq,country,location]
Context(top)
動作主に対する動作主の一致など、関係要素の一致がある場合には、それらの関係要素に関連する要素を検査して、単語が同一であるかどうか、または似ているかどうかを判定する。上では、検索を広げるために「denounce」が「say」に関連すると述べられ、同一の理由から「Bush」は「person」に関連する。したがって、Context(top):DNC agent:BとContext(top):SY−2 agent:P−2との間で一致が見つかる。
図8に、本発明の実施形態による、文書内のテキスト部分(テキスト部分は2つの文を含む)から生成される意味論的表現の図800を示す。図8の実施形態は、複数の文を、特にそれらの文が関係する場合に、単一の意味論的表現で表すことができることを示す。ここでは、両方の文が、同一の、人Bushによって書かれた。したがって、両方の文を単一の表現に置くことが、意味をなし、関連する。任意の個数の文または句さえ、意味論的表現を生成するために一緒にグループ化できることに留意されたい。たとえば、文書(たとえば、ウェブ文書)から抽出された内容を解析するプロセスは、使用される句読法および大文字使用など、特定の特性について文字列をテストするためにルールのセットを適用することによって実行することができる。ルールのこのセットは、これらの特性を理解することによって、テキスト部分805および810として図8に示されたものなどの、一緒に属するさまざまな文または句を判定することができる場合がある。このプロセスは、図2のコンポーネント240などの文書解析コンポーネントによって実行することができる。
第1のテキスト部分805について、関連付けの2つのレベルが図示されている。関連付けの第1レベル820(たとえば、Top context(t))および関連付けの第2レベル840(たとえば、Context(ctx−7))は、関連付けの第1レベル820内に配置された報告する行為「say」によって直接にリンクされる。「say」および関連付けの第2レベル840は、topic関係要素824によって関連付けられ、その結果、文「calls to withdraw are bad」が、ブッシュが言ったことのトピックになっている。複数の「about」関係も形成され、上で述べたように、検索結果のより高い精度を可能にする。関連付けの第1レベル820内で、「say」は、agent関係要素822を介して「Bush」にリンクされる。というのは、Bushが、これらの単語を話したか言った人または動作主であるからである。さらに、about関係要素826、828、および830は、それぞれ、「say」から「withdraw」、「calls」、および「bad」にリンクされる。これらの「about」関係または関連付けは、クエリー命題に見られる類似する関係へのこれらの関係の効率的で有効なマッチングを可能にする。さらに、関係付けの第2レイヤ840内では、報告する行為「calls」が、関係要素topic 842によって「withdraw」に直接にリンクされ、関係要素modifier(修飾子)844によって「bad」にリンクされる。
第1のテキスト部分805に関連する図を下りることのできる複数の形があることに留意されたい。たとえば、「withdraw」に達するために、1つの経路は、「aboutness」関係(たとえば、関係要素about 826)を利用することによって「say」から「withdraw」に直接に進むことである。もう1つの経路は、「withdraw」が「calls」のトピックなので、まず関係要素about 828を利用して「calls」に達し、次に関係要素topic 842によって「withdraw」にリンクすることによって、「withdraw」に間接に達する。さらに、関係要素topic 824を使用することによって、関係付けの第2レイヤ840に達することができ、ここで、「withdraw」が、その関係付けの第2レイヤ840内で見つけられる。
第2のテキスト部分810を第1のテキスト部分とは別々に見ると、報告する行為「stay」が、そのテキスト部分について識別される。このテキスト部分は、かなり単純であり、短く、したがって、関連付けの1つのレベル850だけが識別される(たとえば、Context(ctx−12))。「stay」は、関係要素agent 858によって「US」に、関係要素location 862によって「Iraq」に関連付けられ、またはリンクされる。さらに、用語「should」が、テキスト部分810内で見つかる。言語学上の目的から、「should」を叙法(modal)と呼ぶことができ、叙法は、可能性および必然性という概念に広義に関連する表現である。したがって、叙法(たとえば、should)は、この実施形態では関係要素860として使用され、「stay」に関連付けられる。2つのテキスト部分805および810を、今や、第1のテキスト部分805と第2のテキスト部分810との間の「aboutness」関係を判定するためにからみ合わせることができる。図8は、この「about」関係が、それぞれ関係要素about 852、about 854、およびabout 856を介して「say」と「US」、「stay」、および「Iraq」との間で形成されることを示す。
ここで図9を参照すると、本発明の実施形態による、内容の意味論的表現を生成するために、文書の内容から抽出された要素の間の意味論的関係を展開する方法を示す流れ図900が示されている。当初に、ステップ910で、文書のテキスト部分を識別し、これは、識別されたテキスト部分を、たとえば図2の意味論的インデックス260内でインデクシングし、格納することを可能にする。テキスト部分は、図2のデーターストア220などのデーターストアに格納できる、ウェブページなどの1つまたは複数の文書の内容から導出することができる。内容が文書から抽出される時に、内容のフォーマットは、変換を必要とする生のオンラインフォーマットとすることができる。一実施形態では、内容は、生のオンラインフォーマットからハイパーテキストマークアップ言語(HTML)に変換されて、テキスト部分が生成される。内容を、1つまたは複数の文または句、テーブル、テンプレート、あるいは複数のデーターの形で抽出することができる。テキスト部分は、間接話法およびアティチュードレポートを含む場合があり、これらを、denounce、say、believe、desire、denyその他などであるがもちろんこれらに限定はされない、テキスト部部内で見つかる複数の単語によって識別することができる。これらの単語は、あるトピックに対するある人の態度を記述するので、アティチュードレポートで識別される。間接話法は、ある人からの直接の引用の形をとる場合があり、あるいは、間接的な間接話法である場合がある。
一実施形態では、さらなるインデクシングのために意味論的に表されなければならない1つまたは複数の要素を識別するために、テキスト部分を解析することができる。解析は、テキスト抽出およびエンティティー認識をも含むことができ、エンティティーは、たとえばデーターストア220に格納された単語の事前定義のリストを検索することによって認識される。この手順は、人またはものの名前である可能性がある単語を認識するという点で助けになる。ステップ920で、識別された要素のそれぞれの意味論的情報を判定する。意味論的情報は、その中で識別された要素の1つまたは複数の意味および/または文法的機能を含むことができる。一実施形態では、類義語または下位語を判定し、意味論的情報として含めることもできる。さらに、いくつかの実施形態では、1つまたは複数の単語が類似する意味を有する場合があり、これらの単語および意味を、ある種の要素を論理変数に置換することによって、論理変数による意味論的表現で表すことができる。この論理変数は、要素に類似する意味を有する複数の類義語、要素があてはまるカテゴリーを表すことができ、その要素が有する可能性がある複数の意味を表すこともでき、これは、広げられているがより正確な検索を可能にする。論理変数を、データーストアに格納することができる。
ステップ930で、識別された要素のうちの少なくとも1つを、スピーチレポートまたはアティチュードレポートに対応する報告する行為として識別する。ステップ940は、識別された要素を互いに関連付けて意味論的関係を形成することを示し、形成される関連付けは、上のステップ920で判定された意味論的情報に基づく。一実施形態では、関連付けの1つまたは複数のレベルあるいは文脈を判定することができ、関連付けの各レベルは、識別された要素のうちの1つまたは複数を含むことができる。関連付けの異なるレベル内の要素を、互いに関連付けることができ、報告する行為によって関連付けることができる。報告する行為は、たとえば、動詞、名詞、または類似物とすることができ、通常は、周囲のテキストまたは単語が文内でどのように使用されるかによって判定される。このタイプの文法情報は、たとえば、ルールのセットを適用することによって判定することができ、このルールのセットは、たとえば図2の文法指定コンポーネント255のフレームワーク内で維持することができる。例示のみのために、テキスト部分が、「In Washington,Bush denounced calls for the US to withdraw from Iraq」と記述すると仮定する。ここで、それぞれが報告する行為を含む、3レベルの関連付けを識別することができる。関連付けの3つのめいめいのレベルの報告する行為を、「denounced」、「calls」、および「withdraw」として識別することができる。
関連付けのレベル(たとえば、文脈)および報告する行為に加えて、関係要素を判定することもでき、この関係要素は、報告する行為と要素または関連付けのレベルとの間の関係を記述する。たとえば、上の例の参照を続けると、Bushは非難を行う動作主なので、「Bush」を、関係要素agentによって「denounced」に関連付け、またはリンクすることができる。関係要素は、関係のさまざまな形をとることができるが、agent、location、topic、またはaboutなどであるがこれらに限定はされない単語である場合がある。「about」関係は、報告する行為が言及しているものまたは報告する行為が関係するものを示す。ステップ950で、上で説明した識別された要素の関連付けを含む意味論的表現を生成する。その後、この意味論的表現を、図2の意味論的インデックス260などのインデックスに格納することができる。
図10に、本発明の実施形態による、クエリーの受取りに応答して、命題を生成するためにクエリーから抽出されたさまざまな用語の間の関連付けを作成する方法を示す流れ図1000を示し、命題は、関連する検索結果を提供するためにインデックスに格納された情報を質問するのに使用される。命題は、文書から内容の意味論的表現内に含まれる意味論的関係を質問するのに使用されるクエリーの概念的意味の論理表現である。クエリーから命題を生成するプロセスは、文書の内容の意味論的表現を生成する、本明細書で説明されるプロセスに非常に似ている。当初に、クエリーが、ユーザーからの入力として受け取られ、一実施形態では、受け取られたクエリーは、クエリー内の1つまたは複数の検索語を判定するために解析される。検索語は、テキスト部分内で識別される要素に似ている。
ステップ1010で、1つまたは複数の検索語のそれぞれの意味論的情報を判定し、この意味論的情報は、その中の検索語の1つまたは複数の意味および/または文法的機能を含むことができる。意味論的情報の判定に加えて、論理変数を、識別することができ、検索語のうちの1つまたは複数に関連付けることができ、検索語のうちの1つまたは複数を置換することすらできる。論理変数は、番号、文字、一連の番号および文字、または番号と文字との両方の組合せとすることができ、検索語に類似する意味を有する複数の単語を表すことができる。これは、広げられているがより関連する検索結果をユーザーに返すことを可能にする。ステップ1020で、第1の報告する行為をクエリー内で識別する。報告する行為は、動詞、名詞、または会話の任意の他の部分とすることができ、「say」、「call」、「denounce」、「believe」、その他などの行為を含むことができる。一実施形態では、第2の報告する行為など、複数の報告する行為を1つのクエリー内で識別することができる。
意味論的関係を、各報告する行為と別の検索語との間で判定して、単語の間の関連付けを作成することができ、これが、ステップ1030に示されている。意味論的関係は、上で説明したように、判定された意味論的情報に基づくものとすることができる。関連付けは、関係要素によってリンクされ、関係要素は、agent、location、topic、またはaboutなどであるがこれらに限定はされない関連を記述する。他の関係要素が、本発明の範囲内で確かに企図されている。ステップ1040で、各報告する行為とクエリーから解析された検索語のうちの1つまたは複数との間の形成された関連付けを含む命題を生成する。命題が生成されたならば、その命題(たとえば、命題内の関連付け)を、たとえば意味論的インデックス260に格納された1つまたは複数の意味論的表現と比較するかマッチングして、命題の最も関連する一致を判定することができる。一実施形態では、クエリーは、上で説明したように関連付けの複数のレベルを含むことができ、したがって、報告する行為を、関連付けのレベルごとに識別することができる。
図11に移ると、本発明の実施形態による、文書の内容の意味論的表現を生成するため、さらには内容のインデクシングを可能にする、文書の内容から抽出された要素の間の意味論的関係を展開する方法を示す流れ図1100が示されている。ステップ1110で、インデクシングすべき文書(たとえば、ウェブ文書)の少なくとも一部を識別する。ステップ1120に示されているように、文書のテキスト部分を解析して、意味論的に表されるべき要素を識別する。ステップ1130で、データーストアにアクセスして、識別された要素の潜在的意味および文法的機能を判定する。
図11の参照を続けると、ステップ1140で、テキスト部分内の関連付けの1つまたは複数のレベルを判定する。ステップ1150に示されている、テキスト部分内の報告する行為を、関連付けの1つまたは複数の判定されたレベルごとに識別する。次に、ステップ1160で、第1の報告する行為を、識別された要素の第1セットに関連付けるが、識別された要素の第1セットは、上のステップ1120で判定された要素と判定された報告する行為との間の意味論的関係を分析することによって判定される。第1の報告する行為は、関連付けの第1レベルに関連する。ステップ1170で、第2の報告する行為を、識別された要素の第2セットに関連付け、第2の報告する行為は、関連付けの第2レベルに関連する。その後、ステップ1180で、関連付けの意味論的表現を生成することができ、その結果、上で説明したように、クエリー命題との比較を含むさらなる分析のために、この意味論的表現をたとえば意味論的インデックス260に格納できるようになる。
本発明を、特定の実施形態に関して説明したが、この特定の実施形態は、すべての点で、制限的ではなく例示的であることが意図されている。本発明がその範囲から逸脱せずに関係する代替実施形態は、当業者に明白になるであろう。
前述から、本発明が、明白であり本方法に固有の他の利益と一緒に、上で示された目標および目的のすべてを達成するために十分に適合されたものであることがわかる。ある種の特徴および副組合せが、有用であり、他の特徴および副組合せを参照せずに使用され得ることを理解されたい。これは、特許請求の範囲によって企図され、これに含まれる。

Claims (10)

  1. 文書の内容の意味論的表現を生成するために前記内容から抽出された要素の間の意味論的関係を展開するコンピューターで実施される方法であって、
    プロセッサーとメモリーとを備えたコンピューティングデバイスにより、前記文書のテキスト部分を識別するステップと、
    前記テキスト部分内で識別される複数の要素の意味論的情報を判定するステップであって、前記意味論的情報は、前記識別された要素の意味または前記識別された要素の文法的機能のうちの1つまたは複数を含む、ステップと、
    前記テキスト部分の主語として前記識別された要素のうちの少なくとも1つを識別するステップと、
    前記テキスト部分の特定のトピックに対する前記主語の態度を記述するアティチュードレポートに対応する報告する行為として前記識別された要素のうちの少なくとも1つを識別するステップと、
    前記識別された要素の前記判定された意味論的情報に基づいて、識別された要素の各関連付けがある種の意味論的関係を表すようにするために、前記報告する行為として識別された要素を、前記主語として識別された要素と、前記トピックに対応する1つまたは複数の要素からなる要素群とに関連付けるステップと、
    前記コンピューティングデバイスにより、前記識別された要素どうしの前記関連付けを示す意味論的表現を生成するステップと、
    を含み、
    前記関連付けるステップは、
    それぞれが前記識別された要素のうちの1つまたは複数を含む、前記テキスト部分内の関連付けの複数のレベルを識別するステップと、
    関連付けの第1レベルについて第1の報告する行為を識別するステップと、
    前記関連付けの第1レベルにおいて、前記第1の報告する行為として識別された要素を、前記第1の報告する行為のトピックに対応する関連付けの第2レベルの要素群に関連付けるステップと、
    前記関連付けの第2レベルについて第2の報告する行為を識別するステップと、
    前記関連付けの第2レベルにおいて、前記第2の報告する行為として識別された要素を、前記第2の報告する行為のトピックに対応する関連付けの第3レベルの要素群に関連付けるステップと、
    を含む、
    方法。
  2. 前記テキスト部分は、1つまたは複数の文、テーブル、テンプレート、または複数のデーターのうちの少なくとも1つを含む、請求項1に記載の方法。
  3. 前記文書からの前記内容の少なくとも一部を取り出すためにデーターストアにアクセスするステップ
    をさらに含む、請求項1に記載の方法。
  4. 前記意味論的表現に含めるべき前記複数の要素を識別するために前記文書の前記テキスト部分を解析するステップ
    をさらに含む、請求項1に記載の方法。
  5. 前記テキスト部分内の1つまたは複数のエンティティーを認識するステップであって、前記1つまたは複数のエンティティーは、データーストア内に格納された単語の事前定義のリストを検索することによって認識される、ステップ
    をさらに含む、請求項1に記載の方法。
  6. 類似する意味を有する複数の単語を前記識別された要素のそれぞれに関連付けるステップ
    をさらに含む、請求項1に記載の方法。
  7. 前記第1の報告する行為および識別された要素の前記第1セットのそれぞれは、前記関連付けを記述する関係要素によって関連付けられる、請求項に記載の方法。
  8. 前記意味論的表現をインデクシングするステップであって、前記識別された要素および前記関係要素を含む前記意味論的表現は、取出のためにインデックス内に格納され、前記インデックスは、検索可能である、ステップ
    をさらに含む、請求項に記載の方法。
  9. 前記インデックスは、前記意味論的表現からデーターストア内に格納されたそれに関連するテキスト部分へのポインタを含む、請求項に記載の方法。
  10. 文書の内容の意味論的表現を生成するために前記内容から抽出された要素の間の意味論的関係を展開する方法を実行するコンピューター使用可能命令がその上に格納された1つまたは複数のコンピューター記憶媒体であって、前記方法は、
    前記文書のテキスト部分を識別するステップと、
    前記テキスト部分内で識別される複数の要素の意味論的情報を判定するステップであって、前記意味論的情報は、前記識別された要素の意味または前記識別された要素の文法的機能のうちの1つまたは複数を含む、ステップと、
    前記テキスト部分の主語として前記識別された要素のうちの少なくとも1つを識別するステップと、
    前記テキスト部分の特定のトピックに対する前記主語の態度を記述するアティチュードレポートに対応する報告する行為として前記識別された要素のうちの少なくとも1つを識別するステップと、
    前記識別された要素の前記判定された意味論的情報に基づいて、識別された要素の各関連付けがある種の意味論的関係を表すようにするために、前記報告する行為として識別された要素を、前記主語として識別された要素と、前記トピックに対応する1つまたは複数の要素からなる要素群とに関連付けるステップと、
    前記識別された要素どうしの前記関連付けを示す意味論的表現を生成するステップと、
    を含
    前記関連付けるステップは、
    それぞれが前記識別された要素のうちの1つまたは複数を含む、前記テキスト部分内の関連付けの複数のレベルを識別するステップと、
    関連付けの第1レベルについて第1の報告する行為を識別するステップと、
    前記関連付けの第1レベルにおいて、前記第1の報告する行為として識別された要素を、前記第1の報告する行為のトピックに対応する関連付けの第2レベルの要素群に関連付けるステップと、
    前記関連付けの第2レベルについて第2の報告する行為を識別するステップと、
    前記関連付けの第2レベルにおいて、前記第2の報告する行為として識別された要素を、前記第2の報告する行為のトピックに対応する関連付けの第3レベルの要素群に関連付けるステップと、
    を含む、
    1つまたは複数のコンピューター記憶媒体。
JP2010523188A 2007-08-31 2008-08-29 間接話法内の意味論的関係の識別 Expired - Fee Related JP5501967B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US96943407P 2007-08-31 2007-08-31
US60/969,434 2007-08-31
PCT/US2008/074938 WO2009029905A2 (en) 2007-08-31 2008-08-29 Identification of semantic relationships within reported speech
US12/201,675 US8868562B2 (en) 2007-08-31 2008-08-29 Identification of semantic relationships within reported speech
US12/201,675 2008-08-29

Publications (3)

Publication Number Publication Date
JP2010538375A JP2010538375A (ja) 2010-12-09
JP2010538375A5 JP2010538375A5 (ja) 2011-09-22
JP5501967B2 true JP5501967B2 (ja) 2014-05-28

Family

ID=42041477

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010523188A Expired - Fee Related JP5501967B2 (ja) 2007-08-31 2008-08-29 間接話法内の意味論的関係の識別

Country Status (11)

Country Link
EP (1) EP2183686A4 (ja)
JP (1) JP5501967B2 (ja)
KR (1) KR101524889B1 (ja)
CN (1) CN101796511B (ja)
AU (1) AU2008292781B2 (ja)
BR (1) BRPI0816088A2 (ja)
CA (1) CA2698105C (ja)
IL (1) IL204108A (ja)
MX (1) MX2010002350A (ja)
RU (1) RU2488877C2 (ja)
WO (1) WO2009029905A2 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10642934B2 (en) 2011-03-31 2020-05-05 Microsoft Technology Licensing, Llc Augmented conversational understanding architecture
US9244984B2 (en) 2011-03-31 2016-01-26 Microsoft Technology Licensing, Llc Location based conversational understanding
US9760566B2 (en) 2011-03-31 2017-09-12 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
WO2012135226A1 (en) * 2011-03-31 2012-10-04 Microsoft Corporation Augmented conversational understanding architecture
US9842168B2 (en) 2011-03-31 2017-12-12 Microsoft Technology Licensing, Llc Task driven user intents
US9064006B2 (en) 2012-08-23 2015-06-23 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
JP6176017B2 (ja) * 2013-09-17 2017-08-09 富士通株式会社 検索装置、検索方法、およびプログラム
RU2544739C1 (ru) * 2014-03-25 2015-03-20 Игорь Петрович Рогачев Способ преобразования структурированного массива данных
KR20170102262A (ko) * 2014-12-10 2017-09-08 킨디 인코포레이티드 가중화된 하위기호 데이터 인코딩
US10503832B2 (en) * 2016-07-29 2019-12-10 Rovi Guides, Inc. Systems and methods for disambiguating a term based on static and temporal knowledge graphs
CN107818076B (zh) * 2016-09-12 2021-11-12 微软技术许可有限责任公司 针对自然语言的语义处理
US10798027B2 (en) * 2017-03-05 2020-10-06 Microsoft Technology Licensing, Llc Personalized communications using semantic memory
JP7176233B2 (ja) * 2018-06-04 2022-11-22 富士通株式会社 検索方法、検索プログラムおよび検索装置
CN110895657B (zh) * 2018-09-11 2023-05-26 慧捷(上海)科技股份有限公司 一种基于口语对话特征的语义逻辑表达和分析方法
WO2020079752A1 (ja) * 2018-10-16 2020-04-23 株式会社島津製作所 文献検索方法および文献検索システム
CN109871428B (zh) * 2019-01-30 2022-02-18 北京百度网讯科技有限公司 用于确定文本相关度的方法、装置、设备和介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6076051A (en) * 1997-03-07 2000-06-13 Microsoft Corporation Information retrieval utilizing semantic representation of text
EP0962873A1 (en) * 1998-06-02 1999-12-08 International Business Machines Corporation Processing of textual information and automated apprehension of information
US6901402B1 (en) 1999-06-18 2005-05-31 Microsoft Corporation System for improving the performance of information retrieval-type tasks by identifying the relations of constituents
US7120574B2 (en) * 2000-04-03 2006-10-10 Invention Machine Corporation Synonym extension of search queries with validation
US8799776B2 (en) * 2001-07-31 2014-08-05 Invention Machine Corporation Semantic processor for recognition of whole-part relations in natural language documents
CA2487739A1 (en) * 2002-05-28 2003-12-04 Vladimir Vladimirovich Nasypny Method for synthesising a self-learning system for knowledge acquisition for text-retrieval systems
RU2273879C2 (ru) * 2002-05-28 2006-04-10 Владимир Владимирович Насыпный Способ синтеза самообучающейся системы извлечения знаний из текстовых документов для поисковых систем
US7424420B2 (en) 2003-02-11 2008-09-09 Fuji Xerox Co., Ltd. System and method for dynamically determining the function of a lexical item based on context
US7593845B2 (en) * 2003-10-06 2009-09-22 Microsoflt Corporation Method and apparatus for identifying semantic structures from text
US20050182617A1 (en) * 2004-02-17 2005-08-18 Microsoft Corporation Methods and systems for providing automated actions on recognized text strings in a computer-generated document
JP2005284723A (ja) * 2004-03-30 2005-10-13 Fuji Xerox Co Ltd 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
US20070073533A1 (en) 2005-09-23 2007-03-29 Fuji Xerox Co., Ltd. Systems and methods for structural indexing of natural language text

Also Published As

Publication number Publication date
MX2010002350A (es) 2010-07-30
CA2698105A1 (en) 2009-03-05
RU2488877C2 (ru) 2013-07-27
WO2009029905A2 (en) 2009-03-05
KR20100075454A (ko) 2010-07-02
IL204108A (en) 2013-09-30
EP2183686A4 (en) 2018-03-28
BRPI0816088A2 (pt) 2015-03-03
AU2008292781A1 (en) 2009-03-05
KR101524889B1 (ko) 2015-06-01
CN101796511A (zh) 2010-08-04
CA2698105C (en) 2016-07-05
WO2009029905A3 (en) 2009-05-14
RU2010107150A (ru) 2011-09-10
EP2183686A2 (en) 2010-05-12
JP2010538375A (ja) 2010-12-09
CN101796511B (zh) 2012-11-14
AU2008292781B2 (en) 2012-08-09

Similar Documents

Publication Publication Date Title
JP5501967B2 (ja) 間接話法内の意味論的関係の識別
US9449081B2 (en) Identification of semantic relationships within reported speech
US8229730B2 (en) Indexing role hierarchies for words in a search index
US8639708B2 (en) Fact-based indexing for natural language search
US10713571B2 (en) Displaying quality of question being asked a question answering system
US9558264B2 (en) Identifying and displaying relationships between candidate answers
US20090070322A1 (en) Browsing knowledge on the basis of semantic relations
US8510328B1 (en) Implementing symbolic word and synonym English language sentence processing on computers to improve user automation
US9164962B2 (en) Document assembly systems and methods
US20170024463A1 (en) Authorship Enhanced Corpus Ingestion for Natural Language Processing
US9720962B2 (en) Answering superlative questions with a question and answer system
US9697099B2 (en) Real-time or frequent ingestion by running pipeline in order of effectiveness
KR20160124079A (ko) 인-메모리 데이터베이스 탐색을 위한 시스템 및 방법
JP2023507286A (ja) 自然言語クエリを構造化クエリ言語に変換するためのスキーマ注釈ファイルの自動作成
CA2914398A1 (en) Identification of semantic relationships within reported speech
EP2181403B1 (en) Indexing role hierarchies for words in a search index
EP2185999A2 (en) Emphasizing search results according to conceptual meaning
WO2009029922A2 (en) Fact-based indexing for natural language search
Gunanathan Supporting Domain Specific Web-based Search Using Heuristic Knowledge Extraction

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110802

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110802

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130226

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130814

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131216

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20131224

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20140214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140303

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140312

R150 Certificate of patent or registration of utility model

Ref document number: 5501967

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees