JP2014238865A - 曖昧感応自然言語処理システムにおける同一指示解決 - Google Patents

曖昧感応自然言語処理システムにおける同一指示解決 Download PDF

Info

Publication number
JP2014238865A
JP2014238865A JP2014156393A JP2014156393A JP2014238865A JP 2014238865 A JP2014238865 A JP 2014238865A JP 2014156393 A JP2014156393 A JP 2014156393A JP 2014156393 A JP2014156393 A JP 2014156393A JP 2014238865 A JP2014238865 A JP 2014238865A
Authority
JP
Japan
Prior art keywords
computer
natural language
text
information
resolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014156393A
Other languages
English (en)
Inventor
ヴァン・デン・ベルグ,マーティン
Van Den Berg Martin
クロウチ,リチャード
Crouch Richard
サルヴェッティ,フランコ
Salvetti Franco
ティオーン,ジョヴァンニ・ロレンゾ
Lorenzo Thione Giovanni
アーン,デーヴィッド
Ahn David
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US12/200,962 external-priority patent/US8712758B2/en
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2014238865A publication Critical patent/JP2014238865A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】曖昧感応自然言語処理システムにおける同一指示解決のための技術を提供する。
【解決手段】情報検索および取り出しシステム内においてインデックス化されている文書を処理し、曖昧承知機構、および曖昧さ解決機能が、同一指示解決と調和して動作する。同一指示存在の注釈、および曖昧な解釈は、テキスト・コンテンツ内における同一行上マークアップによって、または外部存在マップによってサポートする。文書内部で表現されている情報は、事実、またはテキスト内における存在間の関係に関して、規則的に編成する。拡張は、複数の別名、または曖昧さを、インデックス化された存在に適用することをサポートする。
【選択図】図3

Description

自然言語では、異なる記述によって存在に言及するのは珍しいことではない。例えば、
名詞に代わって代名詞を用いることはごく一般的である。また、ある基準の種々の別の記
述または異なる形態を用いて、ある存在に言及することもある。以下のテキスト部分を一
例として検討する。
「パブロ・ピカソはマラガで生まれた。」
「このスペイン人の画家は、彼の変化に富む様式で有名になった。」
「彼の絵画の中には、大規模なグェルニカがある。」
「彼は、スペイン市民戦争中に、このおぞましい傑作を描いた。」
「ピカソは1973年に亡くなった。」
ある範囲の言語的多様性に遭遇する。例えば、2つの異なる名前、「パブロ・ピカソ」
および「ピカソ」が用いられている。はっきりと限定した記述「そのスペイン人の画家」
、ならびに2つの代名詞「彼の」および「彼」は、ピカソに言及するために用いられてい
る。2つの異なる表現、「グェルニカ」および感情むき出しの記述「このおぞましい傑作
」が、絵に言及するために用いられている。
2つの言語的表現が同じ指示対象を有する場合、これらは同一指示であると言うことが
できる。言い換えると、これらは同じ存在に言及する。第2の句は、前方照応形であり、
第1の句に対して前方照応的である。つまり、第1の句は、第2の句の先行詞である。前
方照応形の指示対象を判断するためには、先行詞の指示対象の知識が必要となる場合があ
る。文書内において同一指示表現、前方照応形、およびそれらの先行詞を発見する一般的
な作業を、同一指示解決(coreference resolution)と呼ぶことができる。同一指示解決は
、2つの表現が同じ指示対象に言及することを、その指示対象が何であるかを必ずしも確
定することなく、確定するプロセスである。指示解決(reference resolution)とは、指示
対象が何であるか確定するプロセスである。
同一指示的である表現の集合について、その前方照応関係には関係なく、これらの表現
は互いの別名(aliase)であると言うことができる。上の例によれば、表現「パブロ・ピカ
ソ」、「スペイン人の画家」、「彼の」、「彼」、および「ピカソ」が、ピカソに言及す
る別名集合を形成する。
自然言語表現は、曖昧さを表示することが多い。曖昧さが発生するのは、表現が2つよ
りも多い意味で解釈できるときである。例えば、「アヒルは食べる準備ができている」と
いう文章は、アヒルがしかるべく料理されていること、またはアヒルが空腹で給餌する必
要があることのいずれかを主張するように解釈することができる。
同一指示解決および曖昧さ解決は、人間のユーザーが当たり前に表現する言語を機械的
にサポートするために用いることができる自然言語処理動作の2つの例である。情報検索
のサポートにおけるテキスト・インデックス化および問い合せ処理(querying)のような情
報処理システムは、増大しつつある自然言語処理システムのアプリケーションを有効利用
することもできる。
本明細書において行う開示は、これらの考慮事項およびその他について提案するもので
ある。
本明細書では、曖昧感応自然言語処理システムにおける同一指示解決のための技術につ
いて記載する。即ち、同一指示解決機能を文書処理システムに統合し、情報検索および取
り出し(retrieval)システムにインデックス化する技法について記載する。この統合は、
自然言語文書における同一指示解決、および曖昧な意味をサポートする情報によって、イ
ンデックス化を強化することができる。
本明細書において紹介する一形態によれば、同一指示解決システムによって提供する情
報を自然言語処理システムに統合することができ、その性能を向上させることができる。
このようなシステムの一例に、文書インデックス化および取り出しシステムがある。
本明細書において紹介する別の形態によれば、自然言語処理システム内において、曖昧
承知機構、および曖昧さ解決機能が、同一指示解決と調和して動作することができる。同
一指示存在の注釈、および曖昧な解釈は、テキスト・コンテンツ内における同一行上マー
クアップによって、または外部存在マップによってサポートすることができる。
本明細書において紹介する更に別の形態によれば、インデックス化するために、事実を
テキストから抽出することができる。文書内部で表現されている情報は、事実に関して規
則的に編成することができる。この意味で用いる場合、事実とは、テキストに収容されて
いる任意の情報とすることができ、必ずしも真実である必要はない。事実は、存在間の関
係として表現することができる。事実は、インデックスの中に格納されている存在間にお
ける関係として、意味インデックス(semantic index)に格納することができる。事実に
基づく取り出しシステムでは、問い合せの分析によって判断された事実と一致する事実を
文書が収容している場合、その文書を取り出すことができる。
本明細書において紹介する更に別の形態によれば、拡張のプロセスは、複数の別名、また
は曖昧さを、インデックス化された存在に適用することをサポートすることができる。こ
のような拡張は、意味インデックスに取り出される所与の存在について、追加の可能な参
照または解釈をサポートすることができる。代わりに格納する記述は、元の記述または同
一指示記述のいずれかによって、事実の取り出しをサポートすることができる。
前述の主題は、コンピューター制御装置、コンピューター・プロセス、計算システムと
して、またはコンピューター読み取り可能媒体のような製造品目としても実現できること
も認められてしかるべきである。これらおよび種々のその他の特徴は、以下の詳細な説明
を読み、添付図面を検討することから明白となろう。
この摘要は、詳細な説明において以下で更に説明する概念から選択したものを、簡略化
した形態で紹介するために設けられている。この摘要は、特許請求する主題の主要な特徴
や必須の特徴を特定することを意図するのではなく、特許請求する主題の範囲を限定する
ために用いることも意図していない。更に、特許請求する主題は、本開示の任意の部分に
記されている任意の欠点または全ての欠点を解決する実現例に限定されるのでもない。
図1は、本明細書において紹介する一実施形態の態様による情報検索システムを示すネットワーク・アーキテクチャ図である。 図2は、本明細書において紹介する一実施形態の態様による自然言語インデックスおよび問い合せシステムの種々のコンポーネントを示す機能ブロック図である。 図3は、本明細書において紹介する一実施形態の態様による自然言語処理システム内における同一指示解決および曖昧さ解決を示す機能ブロック図である。 図4は、本明細書において紹介する一実施形態の態様による、曖昧感応インデックス化および同一指示解決のプロセスの態様を示す論理流れ図である。 図5は、本明細書において紹介する一実施形態の態様を実現することができる計算システムについて、例示的なコンピューター・ハードウェアおよびソフトウェア・アーキテクチャを示す、コンピューター・アーキテクチャ図である。
以下の詳細な説明は、曖昧感応自然言語処理システムにおける同時指示解決のための技
術を対象とする。本明細書において紹介する技術および概念の使用によって、同一指示解
決機能を、自然言語処理システムに統合することができる。自然言語処理システムは、文
書を処理して、情報検索および取り出しシステムにおいて用いるためにインデックス化す
る。この統合によって、インデックス化される自然言語文書に対する同一指示解決をサポ
ートする情報によって、インデックスを強化することができる。
本明細書において記載する主題は、コンピューター・システム上におけるオペレーティ
ング・システムおよびアプリケーション・プログラムの実行と共に実行するプログラム・
モジュールという一般的なコンテキストにおいて紹介するが、他の種類のプログラム・モ
ジュールと組み合わせて他の実現例も実行可能であることは、当業者には認められよう。
一般に、プログラム・モジュールは、ルーチン、プログラム、コンポーネント、データー
構造、および特定のタスクを実行するかまたは特定の抽象データー・タイプを実装するそ
の他の種類の構造を含む。更に、本明細書において記載する主題は、他のコンピューター
・システム構成でも実用化できることは、当業者には認められよう。他のコンピューター
・システム構成は、ハンド・ヘルド・デバイス、マルチプロセッサ・システム、マイクロ
プロセッサベースまたはプログラマブル消費者電子機器、ミニコンピューター、メインフ
レーム・コンピューター等を含む。
以下の詳細な説明では、その一部をなし、具体的な実施形態または例を一例として示す
添付図面を参照する。ここで図面を参照すると、同様の参照番号は、様々な図全体を通じ
て同様の要素を表し、曖昧感応自然言語処理システムにおける同一指示解決のための計算
システムおよび方法の態様について記載する。
これより図1に移り、本明細書において紹介する実施形態の動作環境例に関する詳細を
示す。即ち、ネットワーク・アーキテクチャ図100は、本明細書において紹介する一実
施形態の態様による情報検索システムを示す。クライアント・コンピューター110A〜
110Dは、ネットワーク140を通じてサーバー120にインターフェースして、自然
言語エンジン130と関連のある情報を入手することができる。4つのクライアント・コ
ンピューター110A〜110Dが示されているが、任意の数のクライアント・コンピュ
ーター110A〜110Dを用いてもよいことは認められてしかるべきである。クライア
ント・コンピューター110A〜110Dは、地理的にネットワーク140全域に分散さ
れていてもよく、または同じ場所に位置していてもよく、またはその任意の組み合わせで
もよい。1つのサーバー120が示されているが、サーバー120の機能を任意数の複数
のサーバー120に分散してもよいことは認められてしかるべきである。このような複数
のサーバー120は、同じ場所に位置してもよく、またはネットワーク140全域に分散
されていてもよく、またはその任意の組み合わせでもよい。
1つ以上の実施形態によれば、自然言語エンジン130は検索エンジン機能をサポート
することができる。検索エンジンの想定場面では、ユーザー問い合せをクライアント・コ
ンピューター110A〜110Dからネットワーク140を通じてサーバー120に発行
することができる。ユーザー問い合せは、自然言語フォーマットでよい。サーバーにおい
て、自然言語エンジン130はこの自然言語問い合せを処理し、自然言語問い合せから抽
出した統語および意味(semantics)に基づいて、検索をサポートする。このような検索の
結果は、サーバー120から逆にネットワーク140を通じてクライアント・コンピュー
ター110A〜110Dに供給することができる。
1つ以上の検索インデックスを、サーバー120に、またはサーバー120と関連付け
て格納することができる。検索インデックスにおける情報は、1組のソース情報、または
コーパスから持ち込む(populate)ことができる。例えば、ウェブ検索の実現例では、ネッ
トワーク140全域におおける種々のウェブ・サーバー(図示せず)上にある種々のウェ
ブ・サイトからコンテンツを収集し、インデックス化することができる。このような収集
およびインデックス化は、サーバー120またはその他のコンピューター(図示せず)上
で実行するソフトウェアによって行うことができる。収集は、ウェブ・クローワーまたは
スパイダー・アプリケーションによって行うこともできる。自然言語エンジン130を、
収集した情報に適用して、コーパスから収集した自然言語コンテンツに、自然言語エンジ
ン130が抽出した統語および意味に基づいて、インデックス化するようにしてもよい。
インデックス化および検索については、図2に関して更に詳しく論ずることにする。
クライアント・コンピューター110A〜110Dは、端末クライアント、ハイパーテ
キスト・ブラウザ・クライアント、グラフィック・ディスプレイ・クライアント、または
サーバー120に対するその他のネットワーク接続クライアントとして活動することがで
きる。例えば、クライアント・コンピューター110A〜110Dにおけるウェブ・ブラ
ウザ・アプリケーションは、サーバー120におけるウェブ・サーバー・アプリケーショ
ンとのインターフェース処理をサポートすることができる。このようなブラウザは、サー
バー120に対するインターフェース処理をサポートするために、制御部、プラグイン、
またはアプレットを用いることができる。また、クライアント・コンピューター110A
〜110Dは、他のカスタム化したプログラム、アプリケーション、またはモジュールを
用いて、サーバー120とインターフェースすることもできる。クライアント・コンピュ
ーター110A〜110Dは、デスクトップ・コンピューター、ラップトップ、ハンドヘ
ルド、移動体端末、移動体電話機、テレビジョン・セット・トップ・ボックス、キオスク
、サーバー、端末、シン・クライアント、または任意のその他のコンピューター化デバイ
スとすることができる。
ネットワーク140は、クライアント・コンピューター110A〜110Dとサーバー
120との間における通信をサポートすることができる任意の通信ネットワークとするこ
とができる。ネットワーク140は、有線、ワイヤレス、光、無線、パケット交換、回線
交換、またはその任意の組み合わせとすることができる。ネットワーク140は、任意の
トポロジーを用いることができ、ネットワーク140のリンクは、イーサネット(登録商
標)、DSL、ケーブル・モデム、ATM、SONET、MPLS、PSTN、POTS
モデム、PONS、HFC、衛星、ISDN、WiFi、WiMaX、移動体セルラ、そ
の任意の組み合わせ、あるいは任意のその他のデーター相互接続またはネットワーキング
・メカニズムのような、任意のネットワーキング技術、プロトコル、または帯域幅をサポ
ートすることができる。ネットワーク140は、内部ネット(intranet)、相互ネット(int
ernet)、インターネット、ワールド・ワイド・ウェブ、LAN、WAN、MAN、または
相互接続コンピューター・システム用の任意のその他のネットワークとすることができる
尚、図示したネットワーク環境に加えて、自然言語エンジン130をローカルに動作さ
せることもできることは認められてしかるべきである。例えば、サーバー120およびク
ライアント・コンピューター110A〜110Dを1つの計算デバイス上に組み合わせる
こともできる。このような組み合わせシステムは、ローカルまたはリモートに格納されて
いる検索インデックスをサポートすることができる。
これより図2を参照すると、機能ブロック図が、一実施形態例による自然言語エンジン
130の種々のコンポーネントを示す。先に論じたように、自然言語エンジン130は情
報検索をサポートすることができる。このような検索をサポートするために、コンテンツ
取得プロセス200を実行する。コンテンツ取得200に関係する動作は、テキスト・コ
ンテンツ210として提供される文書から情報を抽出する。この情報は、検索のために用
いることができる意味インデックス250に格納することができる。ユーザー検索205
に関係する動作は、ユーザーが入力する検索問い合せの処理をサポートすることができる
。ユーザー問い合せは、自然言語質問260の形態をなすことができる。自然言語エンジ
ン130は、ユーザー入力を分析して、問い合せを、意味インデックス250において表
されている情報と比較するための表現に変換することができる。意味インデックス250
における情報の内容および構造は、問い合せまたは自然言語質問260の意味に関連があ
る文書、または文書の一部の素早い照合および取り出しをサポートすることができる。
テキスト・コンテンツ210は、非常に一般的な意味の文書を含むことができる。この
ような文書の例は、ウェブ・ページ、テキスト文書、走査文書、データーベース、情報の
リスト、その他のインターネット・コンテンツ、または任意のその他の情報源を含むこと
ができる。このテキスト・コンテンツ210は、検索する情報のコーパスを提供すること
ができる。テキスト・コンテンツ210の処理は、2段階で、統語解析215および意味
マッピング(semantic mapping)225として行うことができる。解析215の前またはそ
の開始時に、暫定的言語処理ステップを実行することができる。例えば、文章の境界でテ
キスト・コンテンツ210を分離することができる。適正な名詞を個々の人物、場所、物
体、または出来事の名称として特定することができる。また、有意な単語の尾部(ending)
の文法的特性を判断することもできる。例えば、英語では「s」で終わる名詞は恐らく複
数名詞であり、一方「s」で終わる動詞は三人称単数動詞であると考えられる。
解析215は、Xerox Linguistic Environment(XLE:ゼロックス言語環境)のよう
な、統語分析システムによって実行することができるが、ここでは一般例として提示する
に過ぎず、この記載の可能な実現例を限定するのではない。解析部215は、文章を、単
語間における統語関係を明らかにする表現に変換することができる。解析215は、使用
中の特定の言語と関連のある文法220を適用することができる。例えば、解析部215
は英語に文法220を適用することができる。文法220は、例えば、lexical function
al grammar(LFG:語彙機能文法)、あるいはHead-Driven Phrase Structure Grammar
(HPSG:主辞駆動句構造文法)、Combinatory Categorial Grammar(CCG:組合せ
範疇文法)、Probabilistic Context-free Grammar(PCFG:確率文脈自由文法)、ま
たはその他の文法形式主義に基づくというような、その他の適した解析メカニズムとして
定式化することができる。文法220は、所与の言語で有意な文章を作り上げるために可
能な方法を指定することができる。解析部215は、文法220の規則をテキスト・コン
テンツ210の文字列に適用することができる。
文法220は、種々の言語に合わせて規定することができる。例えば、LFG文法は、
英語、フランス語、ドイツ語、中国語、および日本語に合わせて作成されている。他の文
法を規定することもできる。文法220は、手作業の取得によって発展させることができ
、文法規則は言語学者または辞書編纂者によって定められる。あるいは、機械学習取得で
は、大きなコーパスからのテキストの多くの例の自動観察および分析を伴い、文法規則を
自動的に決定することができる。手作業の定義および機械学習の組み合わせも、文法22
0の規則を取得する際に用いることができる。
解析部215は、文法220をテキスト・コンテンツ210に適用して、統語構造を判
断することができる。LFGベースの解析の場合、統語構造は、成分構造(c−構造)お
よび機能構造(f−構造)から成る。c−構造は構成要素である句および単語の階層を表
すことができる。f−構造は、c−構造の種々の成分間における役割および関係を表すこ
とができる。また、f−構造は、単語の形態から得られる情報を表すこともできる。例え
ば、名詞の複数形、または動詞の時制をf−構造において指定することができる。
解析プロセス215に続く意味マッピング・プロセス225の間、統語構造から情報を
抽出し、文章の中にある単語の意味についての情報と組み合わせることができる。文章の
意味マップまたは意味表現(semantic representation)を、コンテンツ意味(content sema
ntics)240として与えることができる。意味マッピング225は、解析部215によっ
て規定された統語関係を、個々の単語の概念的特性で増強することができる。その結果を
、テキスト・コンテンツ210からの文章の意味の表現に変換することができる。意味マ
ッピング225は、文章において単語が担う役割を判断することができる。例えば、ある
行為を実行する主体、その行為を実行するために用いられる何か、またはその行為によっ
て影響を受ける何かである。検索インデックス化の目的で、単語を、その役割と共に、意
味インデックス250に格納することができる。つまり、意味インデックス250からの
取り出しは、単に離別された単語だけに依存するのではなく、テキスト・コンテンツ21
0の中でその単語が出てくる文章における単語の意味にも依存する可能性がある。意味マ
ッピング225は、用語の一義化、先行詞関係の判断、および同義語、上位語、または下
位語による用語の拡張をサポートすることができる。
意味マッピング225は、知識源230を、文章から意味を抽出するための規則および
技法として適用することができる。知識源は、文法220の取得に関して論じたように、
手作業の定義および機械学習双方を通じて取得することができる。意味マッピング225
は、意味拡張可能マークアップ言語(意味XMLまたはsemxml)表現でコンテンツ意味2
40を規定することができる。PROLOG、LISP、JSON、YAML、またはそ
の他で書かれた表現のような、任意の適した表現言語を用いることもできる。コンテンツ
意味240は、テキスト・コンテンツ210の文章における単語が担う役割を指定するこ
とができる。コンテンツ意味240をインデックス化プロセス245に供給することがで
きる。
インデックスは、単語や句の位置が当該インデックス内において素早く特定できるよう
に、大きな情報コーパスを表現することをサポートすることができる。従前からの検索エ
ンジンは、ユーザーが指定したキーワードから、これらのキーワードが現れる記事または
文書にインデックスをマッピングするように、キーワードを検索タームとして用いること
ができる。意味インデックス250は、単語自体に加えて、その単語の意味論的意味(sem
antic meanings)を表すことができる。コンテンツ取得200およびユーザー検索205
の双方において、意味関係を単語に割り当てることができる。意味インデックス250に
対する問い合せは、単語だけでなく、特定の役割における単語にも基づくことができる。
これらの役割は、意味インデックス250に格納されている文章または句において当該単
語によって果たされる。意味インデックス250は、エントリーが意味単語(semantic wo
rds)(即ち、所与の役割における単語)であり、これらの単語が現れる文書またはウェブ
・ページへのポインタを有し、素早く検索可能なデーターベースである逆インデックスと
見なすことができる。意味インデックス250は、混成インデックス化をサポートするこ
とができる。このような混成インデックス化は、キーワード・インデックス化および意味
インデックス化双方の特徴および機能を組み合わせることができる。
問い合せのユーザー・エントリーは、自然言語質問260の形態でサポートすることが
できる。問い合せは、コンテンツ取得200において用いられるものと同様または同一の
自然言語パイプラインによって分析することができる。即ち、自然言語質問260を解析
部265によって処理して、統語構造を抽出することができる。統語解析265に続いて
、自然言語質問260を処理して、意味マッピング270を求めることができる。意味マ
ッピング270は、先に論じたように、意味インデックス250に対する取り出しプロセ
ス280において用いられる質問意味275を供給する。取り出しプロセスは、混成イン
デックス問い合せをサポートすることができ、キーワード・インデックス取り出しおよび
意味インデックス取り出しの双方を、単独でまたは組み合わせて備えることができる。
ユーザー問い合せに応答して、意味インデックス250からの取り出し280結果が、
質問意味275と共に、格付けプロセス285に情報提供することができる。格付けは、
キーワードおよび意味情報双方を利用することができる。格付け285の間、取り出し2
80によって得られた結果を種々のメトリックで順序付けし、最も望ましい結果を、ユー
ザーに結果表現290として提示する、取り出し情報の最上位に位置付けようとすること
ができる。
これより図3に移ると、機能ブロック図が、本明細書において紹介する一実施形態の態
様による自然言語処理システム300内における同一指示解決および曖昧さ解決を示す。
アプリケーションの一例として、自然言語処理システム300は、文書インデックス化お
よび取り出し用の情報検索エンジンをサポートすることができる。このような自然言語対
応検索エンジンは、言語学的分析に基づいて、そのインデックスの中に格納されている情
報を拡張することができる。また、本システムは、ユーザー問い合せを言語学的に分析す
ることによって、この問い合せ内に潜む意図の発見もサポートすることができる。本明細
書において論ずる同一指示解決および曖昧さ解決機構は、図2に関して論じたような統語
解析215、意味マッピング225、および意味インデックス化245に関して動作する
ことができる。同一指示解決は、テキスト・コンテンツ210上において直接実行するこ
とができ、あるいは解析215またはセマティック・マッピング225の動作からの情報
を用いることができる。
図示のように、同一指示解決320、370は、区分した部署に対して直接、そして意
味マッピング225の一部として実行することができる。2回行われるこれらの同一指示
解決320、370を併合することもでき、あるいはこれらの情報出力を併合することも
できる。尚、同一指示解決は、統語解析215と意味マッピング225との間で行っても
よいことは認められてしかるべきである。また、同一指示解決は自然言語処理パイプライ
ン内における他の任意の段階において行うこともできる。自然言語処理システム内におけ
る種々の位置に、1つ、2つ、あるいはそれ以上の同一指示解決コンポーネントまたは段
階があってもよい。テキスト・コンテンツ210を分析して、意味インデックス250に
格納すべき情報を求めることができる。検索は、意味インデックス250に照会して所望
の情報を求めることを伴うことができる。
コンテンツ区分310は、テキスト・コンテンツ210を構成する文書について実行す
ることができる。これらの文書を区分すると、一層効率的かつ潜在的に一層精度が高い同
一指示解決320を求めることができる。同一指示解決320は、文書全体にわたる潜在
的な参照関係を考慮することができる。長い文書については、隔たった表現を比較するの
に、大量の時間が費やされる可能性がある。処理速度を考慮するとき、同一指示解決32
0に先立つ文書のコンテンツ区分310によって、処理に用いられる時間を大幅に短縮す
ることができる。コンテンツ区分310は、同一指示解決320における試行に利用され
るコンテンツ・テキスト210の量を効果的に削減することができる。
コンテンツ区分310は、情報を意味同一指示解決370に提供して、いつ新たな文書
区間が始まるのかを示すことができる。このような情報は、区分信号312として、また
はマークアップをコンテンツ文書区間に挿入することによって提供することができる。メ
タ情報またはその他のメカニズムを収容する外部ファイルを用いることもできる。
文書の構造を用いて、参照関係が交差する可能性が低い区間境界を特定することができ
る。文書構造は、節の境界、章のような明示的なマークアップ、または段落の見出しのい
ずれかから推論することができる。また、文書の構造は言語学的処理によって発見するこ
ともできる。指定した長さを超過する区間は、更に細分化することもできる。所望の細分
化長は、例えば、文章の数または単語の数に関して表現することができる。
信頼性のある文書構造分析(structuring)が入手できない場合、経験的または統計的判
断基準を適用することもできる。このような判断基準は、区間のサイズを所定の最大値に
制限しつつ、同一指示を一緒に保持し易くするように指定するとよい。テキスト・コンテ
ンツ210の文書を区分するには、種々のその他の手法も適用することができる。また、
コンテンツ区分310は、文書全体を1つの区間として指定する場合もある。
同一指示解決320、370は、コンテンツ・テキスト210内において同一指示およ
びエリアスを特定するために用いることができる。例えば、文章「彼はグェルニカを描い
た」をインデックス化する場合、「彼」がピカソに言及すると判断することは、極めて重
大であり得る。これは、特に、事実に基づく取り出しが用いられる場合に、そうなる。こ
の代名詞の別名がピカソであると解決すると、ある一人の男性である「彼」がグェルニカ
を描いたという役に立たない事実ではなく、ピカソがグェルニカを描いたという事実をイ
ンデックス化することをサポートすることができる。この代名詞の指示対象を特定しイン
デックス化することができないと、事実に基づく取り出し方法を用いて、問い合せ「ピカ
ソが描いた」に応答して文書を取り出しすることは困難となる可能性がある。この問い合
せに関連する文書が、他の方法では戻されなかったかもしれないが、本システムではその
文書が戻された場合、本システムの呼び出し能力(recall)が勝っている(improved)と言う
ことができる。
注釈330をテキスト・コンテンツ210に適用し、存在および可能な同一指示関係の
追跡をサポートすることもできる。解決判断における信頼度の値も、テキスト・コンテン
ツ210の中に注釈として入れる、即ち、書き込むことができる。解決判断は、明示的な
注釈マークをテキストに追加することによって記録することができる。例えば、「ジョン
はメリーを訪問した。彼は彼女に2003において会った。」というテキストが与えられ
たとする。注釈330は、「[E1:09ジョン]が[E2:08メリー]に会った。[
E1:09彼]は[E2:08彼女]に2003において会った。」といように適用する
ことができる。ここで、「ジョン」および「彼」という単語は、信頼度の値が0.9であ
る存在1 E1として関係付けることができる。同様に、「メリー」および「彼女の」と
いう単語は、信頼度の値が0.8である存在2 E2として関係付けることができる。信
頼度の値は、同一指示解決320の判断における信頼度の尺度を示すことができる。注釈
は、同一指示判断を直接エンコードすることができ、あるいは注釈は、注釈を付けたテキ
ストにおいて関連する用語を、スタンドアサイド注釈(stand aside annotation)325に
おける追加情報に接続する識別子として機能することができる。
同一指示解決320判断は、意味マッピング225を構築するプロセスの一部として用
いることができる。同一指示解決320において用いた参照元表現を、テキスト・コンテ
ンツ210内にある同一行注釈によって、意味マッピング225の入力表現に統合するこ
ともできる。また、参照は、外部の別個存在マップ325の中に別々に設けることもでき
る。
ワールド・ワイド・ウェブのような、大きなテキスト・コンテンツ210の文書集合体
において、同じ文章が異なる文脈で複数回現れる場合がある。これらの異なる文脈のため
に、同一指示解決320に対して異なる候補が得られることもあり得る。統語解析215
は計算上集約的となる可能性があるので、文章に対する解析結果をキャッシュに保存する
ことが有用な場合がある。このようなキャッシング・メカニズム350は、今後文章に遭
遇したときに、解析情報の迅速な取り出しをサポートすることができる。
同一指示解決320を、異なる文脈に現れる1つの文章に適用すると、同一指示は文脈
に左右される可能性があるので、同じ参照元表現に対して、異なる同一指示関係が特定さ
れることがあり得る。このため、異なる存在識別子をテキストの同一行に挿入するとよい
。例えば、2つの異なる文書に「彼は頭がいい」というテキストが現れる場合、2つの異
なる識別子を注釈として付けるとよい。即ち、「[E21彼]は頭がいい。」および「[
E78彼]は頭がいい。」となる。この場合、第1文書における単語「彼」は、第2文書
における単語「彼」とは異なる人に言及する。
浅い同一指示解決320には、異なる情報源がある場合もある。例えば、同一指示解決
320の間に行われる表現検出に加えて、テキスト・コンテンツ210において適正な名
称を発見することを専門とするシステムがある場合もあり得る。これら異なる情報源は、
矛盾する解決情報を識別することができる。例えば、境界が交差する場合に、矛盾する解
が生ずる可能性がある。例えば、2つのシステムが以下の矛盾する参照元表現を識別して
いたということもあり得る。
「[ジョン]は[ジョージ・ワシントン]に[アーヴィング]は偉大な作家だと言った
。」
「[ジョン]は[ジョージ]に[ワシントン・アーヴィング]は偉大な作家だと言った
。」
以下の交差境界の矛盾について検討する。最初の文字列における[ジョージ・ワシント
ン]は、2番目の文字列における[ジョージ]と矛盾する。また、最初の文字列における
[ジョージ・ワシントン]は、2番目の文字列における[ワシントン・アーヴィング]と
矛盾する。信頼度情報または文脈素因に基づいて、この矛盾を解決するためまたはそれを
保存するために、異なる策を繰り返し適用するとよい。「欠落」策では、信頼度が最も低
いものを欠落させることによって、2つ以上の矛盾する境界を解決する。「融合」策は、
2つ以上の境界が両立できる文脈において等しくもっともらしい場合、これらの境界をし
かるべく移動させることができる。例えば、「[Mr. John]Smith」および「Mr.[John S
mith]」は、融合して「[Mr. John Smith]」を求めることができる。「保存」策では、
複数の境界の構成およびそれらの信頼度の値が、融合も欠落もサポートしない場合、これ
らを曖昧な出力として維持することによって、これらを保存することができる。例えば、
「[Alexander the Great]」および「[Alexander][the Great]」は、二者択一の曖
昧な解として提示することができる。
解析コンポーネント215は、曖昧な入力の直接解析をサポートする曖昧承知解析部と
することができ、統語解析355は曖昧さを保存することができる。あるいは、曖昧入力
解決を別個に解析しなければならない場合もあり、複数の出力構造を別々に意味処理コン
ポーネント225に受け渡すこともあり得る。意味処理225については以下で更に詳し
く論ずるが、統語解析部215の各出力に複数回適用することができる。この結果、異な
る統語入力毎に異なる意味出力が得られる場合もある。あるいは、意味マッピング225
が種々の入力を組み合わせて、これらを一斉に処理することもできる。
意味マッピング225は、意味正規化360と共に開始することができる。統語解析3
55が出力する文章の複数の曖昧さは、異なる形態を有しつつ、意味を共有することがで
きる。例えば、これは受動的言語(passive language)の正規化において生ずる場合がある
。「ジョンはメリーに贈り物をあげた。」を検討すると、「ジョン」という単語は主語で
あり、「メリー」は間接目的語である。「贈り物がジョンによってメリーに与えられた。
」を検討すると、主語は「メリー」であり、「ジョン」は目的語である。正規化360で
は、これら2つの例が、「ジョン」が意味−主語であり「メリー」が意味−間接−目的語
であるとして同一に表された出力を得ることができる。あるいは、「ジョン」を動作主と
して識別し、「メリー」を受納者として識別することもできる。同様に、「ローマのカル
タゴ破壊」および「ローマはカルタゴを破壊した」について、全く同じ表現を提示するこ
ともできる。
また、意味正規化は、解析した文章の異なる単語についての情報を追加することもでき
る。例えば、語彙においてこれらの単語を特定し、それらの同義語、上位語、可能な別名
、およびその他の語彙的情報と関連付けることができる。
意味に基づく同一指示解決370は、統語情報および意味情報に基づいて表現を解決す
ることができる。例えば、「ジョンはビルに会った。彼は彼に挨拶した。(He greeted hi
m)」では、「he」は「ジョン」であり、「him」は「ビル」であると解決することができ
る。この解を特定することができるのは、「he」および「ジョン」は両方共主語であり、
一方「him」および「ビル」は双方共目的語であるからである。
浅い同一指示解決320は、用語が現れる文書区間を検査することによって機能するこ
とができる。対照的に、意味同一指示解決370、または深い同一指示解決は、一度に1
文章を処理することができる。文章の可能な先行詞(antecedent)を先行詞記憶部375に
入力し、後の文章の意味同一指示解決370が、以前に導入した要素にアクセスできるよ
うにすることができる。先行詞は、文章におけるそれらの文法的機能および役割、テキス
トにおけるそれらの距離、他の先行詞とのそれらの関係に関する情報、および種々のその
他の情報と共に格納することができる。
表現融合380は、浅い同一指示解決320からの表現、付帯注釈325、および意味
同一指示解決370からの情報を組み合わせることができる。組み合わせるべき用語につ
いての情報は、文字列整合または注釈330を用いて特定することができる。同じテキス
ト上にある2つの注釈を組み合わせるためのその他のメカニズムを用いることもできる。
統語解析215は、任意に検出した参照元表現についての自然な統合点とすることがで
きる。解析部は、構成要素のような文章における構造、または主語および目的語のような
文法的関係を推論することをサポートすることができる。曖昧対応統語解析部215は、
文章の複数の代替構造表現を識別することができる。一例において、各参照元表現の左境
界が、解析からの両立部分の開始と一致する表現のみを保持することによって、同一指示
解決320からの情報を用いて、統語解析部215の出力をフィルタリングすることがで
きる。例えば、同一指示解決は、「[E0ジョン]は[E1ジョージ]に[E2ワシント
ン・アーヴィング]は偉大な作家だと言った。」におけるように、同一指示を確立するこ
とができる。統語解析部215は4つの解析可能性を別個に提示することができる。
1.[ジョン]および[ジョージ]および[ワシントン・アーヴィング]
2.[ジョン]および[ジョージ]および[ワシントン]および[アーヴィング]
3.[ジョン]および[ジョージ・ワシントン]および[アーヴィング]
4.[ジョン]および[ジョージ・ワシントン・アーヴィング]
解析部可能性の3番および4番は、指示解決320によって提示された存在E2「ワシ
ントン・アーヴィング」の左境界と両立しないので、除外するとよい。
拡張385のプロセスは、追加情報を表現に追加することができる。例えば、「ジョン
はビルから車を売った」(John sold a car from Bill)について、拡張385は「ビルは
ジョンから車を買った」という表現を追加して出力することができる。同様に、「ジョン
はビルを殺した」について、拡張385は「ビルは死んだ」という表現を追加して出力す
ることができる。
従前からの検索エンジンは、ユーザー問い合せに応答して、一致するキーワードまたは
タームに基づいて、文書を取り出しすることができる。これら従前からのシステムでは、
問い合せからのタームの内、文書において出てくるタームの数、それらのタームが出てく
る頻度、またはタームが一緒に出てくる緊密さというような要因に応じて、文書を格付け
することができる。
前述の問い合せの一例「ピカソは描いた」について、「ピカソはマラガで生まれた。彼
はグェルニカを描いた」を収容する第1文書例および「ピカソの友人マチスは大量に描い
た」を収容する第2文書例と共に検討する。これらが全て等しいとすると、従前のシステ
ムは、第2文書を第1文書よりも高く格付けする可能性がある。何故なら、「ピカソ」お
よび「描いた」という単語が第2文書における方が互いに近接しているからである。対照
的に、第1文書における「彼」という単語がピカソに言及すると解決できるシステムは、
この知識に基づいて正しく、第1文書の方を高く格付けすることができる。「ピカソは描
いた」という問い合せが、ピカソが何を描いたか知ろうとするユーザーの意思を反映する
と仮定すると、第1文書の方が関連が深い結果であることは明らかである。
自然言語処理システム300は、異なるアーキテクチャを有することができる。一実施
形態では、パイプラインを備えることができ、言語処理の1つ段階からの情報を、後の段
階に入力として受け渡す。尚、これらの手法は、自然言語テキスト・コンテンツ210か
ら、インデックス化する事実を抽出するように動作可能な任意のその他のアーキテクチャ
によっても実現できることは認められてしかるべきである。
これより図4を参照して、曖昧感応自然言語処理システムにおける同一指示解決のため
に、本明細書において紹介する実施形態に関する更なる詳細について示す。即ち、図4は
、本明細書において紹介する一実施形態の態様による同一指示解決による、曖昧感応イン
デックス化のプロセス400の態様を示す流れ図である。
尚、ここで説明する論理動作は、(1)計算システム上で走る一連のコンピューター実施
行為(act)またはプログラム・モジュールとして、および/または(2)計算システム内
部において相互接続された機械論理回路または回路モジュールとして実現されていること
は、認められてしかるべきである。この実現例は、計算システムの性能およびその他の要
件に応じた選択事項である。したがって、ここで説明する論理動作は、状態動作、構造的
デバイス、行為、またはモジュールというように、様々な呼称がある。これらの動作、構
造的デバイス、行為、およびモジュールは、ソフトウェア、ファームウェア、特殊目的デ
ィジタル・ロジック、およびその任意の組み合わせにおいて実現することができる。また
、図に示しここで説明する動作よりも多い動作または少ない動作でも実行できることも認
められてしかるべきである。また、これらの動作は、順次実行しても、並列に実行しても
、またはここに説明する順序とは異なる順序で実行してもよい。
ルーチン400は動作410において開始し、ここでは、テキスト・コンテンツ410
の一部を、分析およびインデックス化のために取り出すことができる。動作420におい
て、テキスト・コンテンツ210を区分し、解決処理が多く検索し分析するテキストの区
域を制限することができる。この区分は、文章、句、ページ、章、または節のような、テ
キスト内における構造に基づくことができる。また、この区分は、単語数、文章数、ある
いは空間または複雑度のその他の計量に基づくこともできる。
動作430において、テキスト・コンテンツ210内において同一指示を解決すること
ができる。動作430内において確定した境界で作業することによって、同一指示を特定
し照合することができる。別名集合も確立することができる。表面構造を用いて、「浅い
」解決を行うこともできる。同一指示解決の間に発生する曖昧さに注釈を付けることもで
きる。このような注釈340は、テキスト・コンテンツ210内において、または外部存
在マップの使用によって、マークアップとして提示することもできる。また、同様の注釈
を用いて参照および指示対象に存在番号を付することもできる。また、注釈は、確定した
同一指示解決の信頼度のレベルを示すために提示することもできる。
動作440において、統語解析によって、文章を、単語間の統語関係を明示させる表現
に変換することができる。解析部215は、特定の言語と関連のある文法220を適用し
て、統語解析355の情報を提供することができる。
動作450において、意味表現をテキスト・コンテンツ210から抽出することができ
る。テキスト・コンテンツ210の内部にある文書において表現されている情報は、テキ
ストの中にある存在間における関係の表現に関して、規則的に編成することができる。こ
れらの関係は、一般的な意味では事実と呼ぶこともできる。
動作455において、統語解析215から出力された統語解析355の情報を用いて、
深い同一指示解決370をサポートすることができる。動作450の間に得られる意味表
現も利用することができる。
動作460において、浅い同一指示解決動作430からの表現を、深い同一指示解決動
作455からの情報と統合することができる。曖昧対応統語解析部215は、文章の複数
の代替構造表現を識別することができる。同一指示解決からの情報は、統語解析部215
の出力をフィルタリングするために用いることができる。
動作470において、テキスト・コンテンツ210の意味を拡張して、選択した暗示表
現を含ませることができる。動作475において、コンテンツ・テキスト内における事柄
(affair)、存在、イベント、および状態間における関係を表現する意味表現から事実を抽
出することができる。動作480において、事実および存在を意味インデックス250に
格納することができる。
ルーチン400は、動作480の後に終了することができる。しかしながら、ルーチン
400を繰り返しまたは連続的に適用して、意味インデックス250に適用するテキスト
・コンテンツ210の部分を取り出すこともできることは認められてしかるべきである。
これより図5に移ると、コンピューター・アーキテクチャ500の一例が、曖昧感応自
然言語処理システムにおける同一指示解決のために、本明細書において記載したソフトウ
ェア・コンポーネントを実行することができる。図5に示すコンピューター・アーキテク
チャは、従来のデスクトップ、ラップトップ、またはサーバー・コンピューターを示し、
本明細書に記載したように、本明細書において紹介したソフトウェア・コンポーネントの
任意の態様を実行するために利用することができる。しかしながら、記載したソフトウェ
ア・コンポーネントは、移動体デバイス、テレビジョン、セット・トップ・ボックス、キ
オスク、車両情報システム、移動体電話機、埋め込みシステム、またはそれ以外というよ
うな、その他の計算環境例においても実行できることは認められてしかるべきである。ク
ライアント・コンピューター110A〜110Dまたはサーバー・コンピューター120
の内任意の1つ以上は、実施形態によるコンピューター・システム500として実現する
ことができる。
図5に示すコンピューター・アーキテクチャは、中央処理ユニット10(「CPU」)
、ランダム・アクセス・メモリー14(「RAM」)およびリード・オンリ・メモリー(
「ROM」)16を含むシステム・メモリー13、ならびにこれらのメモリー13をCP
U10に結合するシステム・バス11を含む。基本入出力システムは、起動中のように、
コンピューター500内のエレメント間において情報を転送するのに役立つ基本的なルー
チンを含み、ROM16に格納されている。更に、コンピューター500は、オペレーテ
ィング・システム18、ソフトウェア、データー、および自然言語エンジン130と関連
のあるプログラム・モジュールのような、種々のプログラム・モジュールを格納する大容
量記憶装置15も含む。自然言語エンジン130は、本明細書において記載したソフトウ
ェア・コンポーネントの部分を実行することができる。自然言語エンジン130と関連の
ある意味インデックス250は、大容量記憶装置15内に格納することができる。
大容量記憶装置15は、CPU10に、バス11に接続されている大容量記憶コントロ
ーラ(図示せず)を介して接続されている。大容量記憶装置15およびそれに関連するコ
ンピューター読み取り可能媒体は、コンピューター500に不揮発性ストレージを備えて
いる。本明細書に収蔵するコンピューター読み取り可能媒体の記述は、ハード・ディスク
またはCD−ROMドライブのような大容量記憶デバイスに言及するが、コンピューター
読み取り可能媒体は、コンピューター500によってアクセスすることができる、任意の
入手可能なコンピューター記憶媒体とすることができることは、当業者には認められてし
かるべきであろう。
一例として、そして限定ではなく、コンピューター読み取り可能媒体は、コンピュータ
ー読み取り可能命令、データー構造、プログラム・モジュール、またはその他のデーター
というような情報の格納のために、任意の方法または技術で実施される、揮発性および不
揮発性、リムーバブル、および非リムーバブル媒体を含む。例えば、コンピューター読み
取り可能媒体は、RAM、ROM、EPROM、EEPROM、フラッシュ・メモリーま
たはその他のソリッド・ステート・メモリー技術、CD−ROM、ディジタル・バーサタ
イル・ディスク(DVD)、HD−DVD、BLU−RAY、またはその他の光ストレー
ジ、磁気カセット、磁気テープ、磁気ディスク・ストレージまたはその他の磁気記憶デバ
イス、あるいは所望の情報を格納するために用いることができしかもコンピューター50
0がアクセス可能なその他のいずれの媒体も含むが、これらに限定されるのではない。
種々の実施形態によれば、コンピューター500は、ネットワーク140のようなネッ
トワークを通じて、リモート・コンピューターへの論理接続を用いて、ネットワーク型環
境において動作することもできる。コンピューター500は、バス11に接続されている
ネットワーク・インターフェース・ユニット19を通じてネットワーク140に接続する
ことができる。尚、ネットワーク・インターフェース・ユニット19は、他のタイプのネ
ットワークおよびリモート・コンピューター・システムに接続するためにも利用すること
ができることは、認められてしかるべきである。また、コンピューター500は、キーボ
ード、マウス、または電子スタイラス(図示せず)を含む、多数のその他のデバイスから
入力を受け取り処理するために、入力/出力コントローラ12も含むことができる。同様
に、入力/出力コントローラは、表示画面、プリンター、またはその他の種類の出力デバ
イス(これも示されていない)に出力を供給することができる。
先に端的に述べたように、ネットワーク型デスクトップ、ラップトップ、サーバー・コ
ンピューター、またはその他の計算環境の動作を制御するのに適したオペレーティング・
システム18を含む、多数のプログラム・モジュールおよびデーター・ファイルをコンピ
ューター500の大容量記憶デバイス15およびRAM14に格納することができる。大
容量記憶デバイス15、ROM16、およびRAM14は、1つ以上のプログラム・モジ
ュールも格納することができる。即ち、大容量記憶デバイス15、ROM16、およびR
AM14は、CPU10による実行のために、自然言語エンジン130を格納することが
できる。自然言語エンジン130は、図2から図4に関して詳細に論じたプロセスの部分
を実現するソフトウェア・コンポーネントを含むことができる。また、大容量記憶デバイ
ス15、ROM16、およびRAM14は、その他の種類のプログラム・モジュールを格
納することもできる。また、大容量記憶デバイス15、ROM16、およびRAM14は
、自然言語エンジン130と関連のある意味インデックス250も格納することができる
以上の説明に基づいて、曖昧感応自然言語処理システムにおける同一指示解決のための
技術が、本明細書において紹介されたことが認められてしかるべきである。本明細書にお
いて紹介した主題は、コンピューターの構造的特徴、方法論的行為、およびコンピュータ
ー読み取り可能媒体に特定した文言で記載したが、添付する特許請求の範囲において定め
る発明は、本明細書において記載した具体的な特徴、行為、または媒体のいずれにも必ず
しも限定されないことは言うまでもない。むしろ、これら具体的な特徴、行為、および媒
体は、特許請求の範囲を実現する形態例として開示したに過ぎない。
以上に記載した主題は、例示のために提示したのであって、限定と解釈してはならない
。本明細書に記載した主題には、図示および記載した実施形態例およびアプリケーション
例に従わなくとも、そして以下の特許請求の範囲に明記する本発明の真の主旨および範囲
から逸脱することなく、種々の修正や変更が可能である。

Claims (7)

  1. 同一指示解決メカニズムを統合する方法であって、
    サーバー・コンピューターの自然言語エンジンが、テキスト・コンテンツからその一部を取り出しテキストの一部とするステップと、
    前記サーバー・コンピューターの前記自然言語エンジンが、前記テキストの一部の同一指示に対して浅い同一指示解決を行うステップと、
    前記サーバー・コンピューターの前記自然言語エンジンが、前記テキスト・コンテンツに対して統語解析を行うステップと、
    前記サーバー・コンピューターの前記自然言語エンジンが、前記テキスト・コンテンツから意味を抽出するステップと、
    前記サーバー・コンピューターの前記自然言語エンジンが、前記統語解析を行うステップで得られた情報と、前記意味を抽出するステップで得られた情報を用いて、前記テキストの一部の同一指示に対して意味同一指示解決を行うステップと、
    前記サーバー・コンピューターの前記自然言語エンジンが、前記浅い同一指示解決を行うステップによる情報と、前記意味同一指示解決を行うステップによる情報を統合するステップと、
    前記サーバー・コンピューターの前記自然言語エンジンが、前記統合するステップで統合された情報を用いて、前記意味を抽出するステップで得られた情報を拡張し、拡張した事実とするステップと、
    を含む、方法。
  2. 請求項1記載の方法であって、更に、前記サーバー・コンピューターの前記自然言語エンジンが前記統語解析を行うステップで得られた情報をキャッシュするステップを含む、方法。
  3. 請求項1から2のいずれかに記載の方法であって、更に、前記サーバー・コンピューターの前記自然言語エンジンが、前記拡張した事実を、情報取り出しをサポートするように動作可能なインデックスに格納するステップを含む、方法。
  4. 請求項3記載の方法であって、更に、前記サーバー・コンピューターの前記自然言語エンジンが、検索問い合せに応答して、前記インデックスから前記拡張した事実を取り出すステップを含む、方法。
  5. コンピューター実行可能命令が格納されたコンピューター記憶媒体であって、前記コンピューター実行可能命令は、コンピューターによって実行されると、該コンピューターに、
    テキスト・コンテンツからその一部を取り出しテキストの一部とし、
    前記テキストの一部の同一指示に対して浅い同一指示解決を行い、
    前記テキスト・コンテンツに対して統語解析を行い、
    前記テキスト・コンテンツから意味を抽出し、
    前記統語解析を行って得られた情報と、前記意味を抽出することによって得られた情報を用いて、前記テキストの一部の同一指示に対して意味同一指示解決を行い、
    前記浅い同一指示解決を行って得られた情報と、前記意味同一指示解決を行って得られた情報を統合し、
    前記統合ことによって得られた情報を用いて、前記意味を抽出することによって得られた情報を拡張し、拡張した事実とする、
    コンピューター記憶媒体。
  6. 請求項5記載のコンピューター記憶媒体であって、更に、前記コンピューターによって実行されると該コンピューターに、前記拡張した事実を、情報取り出しをサポートするように動作可能なインデックスに格納させるコンピューター実行可能命令を格納した、コンピューター記憶媒体。
  7. 請求項6記載のコンピューター記憶媒体であって、更に、前記コンピューターによって実行されると該コンピューターに、検索問い合せに応答して、前記インデックスから前記拡張した事実を取り出させるコンピューター実行可能命令を格納した、コンピューター記憶媒体。
JP2014156393A 2007-08-31 2014-07-31 曖昧感応自然言語処理システムにおける同一指示解決 Pending JP2014238865A (ja)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US96948307P 2007-08-31 2007-08-31
US96942607P 2007-08-31 2007-08-31
US60/969,426 2007-08-31
US60/969,483 2007-08-31
US12/200,962 2008-08-29
US12/200,962 US8712758B2 (en) 2007-08-31 2008-08-29 Coreference resolution in an ambiguity-sensitive natural language processing system

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2010523185A Division JP2010538374A (ja) 2007-08-31 2008-08-29 曖昧感応自然言語処理システムにおける同一指示解決

Publications (1)

Publication Number Publication Date
JP2014238865A true JP2014238865A (ja) 2014-12-18

Family

ID=42041476

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2010523185A Pending JP2010538374A (ja) 2007-08-31 2008-08-29 曖昧感応自然言語処理システムにおける同一指示解決
JP2014156393A Pending JP2014238865A (ja) 2007-08-31 2014-07-31 曖昧感応自然言語処理システムにおける同一指示解決

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2010523185A Pending JP2010538374A (ja) 2007-08-31 2008-08-29 曖昧感応自然言語処理システムにおける同一指示解決

Country Status (11)

Country Link
EP (1) EP2183684A4 (ja)
JP (2) JP2010538374A (ja)
KR (1) KR101522049B1 (ja)
CN (1) CN101796508B (ja)
AU (1) AU2008292779B2 (ja)
BR (1) BRPI0815826A2 (ja)
CA (1) CA2698054C (ja)
MX (1) MX2010002349A (ja)
RU (1) RU2480822C2 (ja)
WO (1) WO2009029903A2 (ja)
ZA (1) ZA201001259B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019185491A (ja) * 2018-04-12 2019-10-24 富士通株式会社 特定プログラム、生成プログラム、特定方法、生成方法および情報処理装置

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2563148C2 (ru) * 2013-07-15 2015-09-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Система и метод семантического поиска
RU2643438C2 (ru) * 2013-12-25 2018-02-01 Общество с ограниченной ответственностью "Аби Продакшн" Обнаружение языковой неоднозначности в тексте
JP5699789B2 (ja) * 2011-05-10 2015-04-15 ソニー株式会社 情報処理装置、情報処理方法、プログラム及び情報処理システム
US9286291B2 (en) * 2013-02-15 2016-03-15 International Business Machines Corporation Disambiguation of dependent referring expression in natural language processing
CN104462053B (zh) * 2013-09-22 2018-10-12 江苏金鸽网络科技有限公司 一种文本内的基于语义特征的人称代词指代消解方法
US9606977B2 (en) * 2014-01-22 2017-03-28 Google Inc. Identifying tasks in messages
US9497153B2 (en) * 2014-01-30 2016-11-15 Google Inc. Associating a segment of an electronic message with one or more segment addressees
WO2015175443A1 (en) * 2014-05-12 2015-11-19 Google Inc. Automated reading comprehension
WO2016036940A1 (en) * 2014-09-03 2016-03-10 The Dun & Bradstreet Corporation System and process for analyzing, qualifying and ingesting sources of unstructured data via empirical attribution
RU2591175C1 (ru) * 2015-03-19 2016-07-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Способ и система для глобальной идентификации в коллекции документов
CN106815215B (zh) * 2015-11-30 2019-11-26 华为技术有限公司 生成标注库的方法和装置
CN107515851B (zh) * 2016-06-16 2021-09-10 佳能株式会社 用于共指消解、信息提取以及相似文档检索的装置和方法
WO2020005986A1 (en) * 2018-06-25 2020-01-02 Diffeo, Inc. Systems and method for investigating relationships among entities
US20200074322A1 (en) * 2018-09-04 2020-03-05 Rovi Guides, Inc. Methods and systems for using machine-learning extracts and semantic graphs to create structured data to drive search, recommendation, and discovery
CN109815482B (zh) * 2018-12-17 2023-05-23 北京百度网讯科技有限公司 一种新闻交互的方法、装置、设备和计算机存储介质
CN112740200B (zh) * 2019-07-25 2024-05-03 百度时代网络技术(北京)有限公司 用于基于共指消解的端到端深度强化学习的系统和方法
US11151321B2 (en) * 2019-12-10 2021-10-19 International Business Machines Corporation Anaphora resolution

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1040260A (ja) * 1996-07-25 1998-02-13 Nippon Telegr & Teleph Corp <Ntt> 映像検索方法
JP2003256420A (ja) * 2002-02-20 2003-09-12 Xerox Corp 語彙機能文法を用いる構文生成方法および装置
JP2006344102A (ja) * 2005-06-10 2006-12-21 Fuji Xerox Co Ltd 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US20070179776A1 (en) * 2006-01-27 2007-08-02 Xerox Corporation Linguistic user interface

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0268661A (ja) * 1988-09-05 1990-03-08 Agency Of Ind Science & Technol 文脈理解装置
EP0897158B1 (en) * 1996-04-29 2004-06-30 Scientific Research Institut of Different Branches "Integral" Method for automatic processing of information materials for personified use
JPH1011462A (ja) * 1996-06-26 1998-01-16 Fuji Xerox Co Ltd 類似関係展開辞書、類似度評価装置、検索装置
US6185592B1 (en) * 1997-11-18 2001-02-06 Apple Computer, Inc. Summarizing text documents by resolving co-referentiality among actors or objects around which a story unfolds
JPH11282844A (ja) * 1998-03-26 1999-10-15 Toshiba Corp 文書作成方法および情報処理装置および記録媒体
US20050108630A1 (en) * 2003-11-19 2005-05-19 Wasson Mark D. Extraction of facts from text
US20050149499A1 (en) * 2003-12-30 2005-07-07 Google Inc., A Delaware Corporation Systems and methods for improving search quality
US7401077B2 (en) * 2004-12-21 2008-07-15 Palo Alto Research Center Incorporated Systems and methods for using and constructing user-interest sensitive indicators of search results
JP4439431B2 (ja) * 2005-05-25 2010-03-24 株式会社東芝 コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1040260A (ja) * 1996-07-25 1998-02-13 Nippon Telegr & Teleph Corp <Ntt> 映像検索方法
JP2003256420A (ja) * 2002-02-20 2003-09-12 Xerox Corp 語彙機能文法を用いる構文生成方法および装置
JP2006344102A (ja) * 2005-06-10 2006-12-21 Fuji Xerox Co Ltd 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US20070179776A1 (en) * 2006-01-27 2007-08-02 Xerox Corporation Linguistic user interface

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019185491A (ja) * 2018-04-12 2019-10-24 富士通株式会社 特定プログラム、生成プログラム、特定方法、生成方法および情報処理装置
JP7135399B2 (ja) 2018-04-12 2022-09-13 富士通株式会社 特定プログラム、特定方法および情報処理装置

Also Published As

Publication number Publication date
MX2010002349A (es) 2010-07-30
CA2698054A1 (en) 2009-03-05
KR101522049B1 (ko) 2015-05-20
WO2009029903A2 (en) 2009-03-05
BRPI0815826A2 (pt) 2015-02-18
AU2008292779B2 (en) 2012-09-06
CN101796508B (zh) 2013-03-06
ZA201001259B (en) 2012-05-30
WO2009029903A3 (en) 2009-05-07
EP2183684A2 (en) 2010-05-12
CN101796508A (zh) 2010-08-04
RU2010107148A (ru) 2011-09-10
EP2183684A4 (en) 2017-10-18
RU2480822C2 (ru) 2013-04-27
JP2010538374A (ja) 2010-12-09
AU2008292779A1 (en) 2009-03-05
CA2698054C (en) 2015-12-22
KR20100075451A (ko) 2010-07-02

Similar Documents

Publication Publication Date Title
US8712758B2 (en) Coreference resolution in an ambiguity-sensitive natural language processing system
CA2698054C (en) Coreference resolution in an ambiguity-sensitive natural language processing system
US10025819B2 (en) Generating a query statement based on unstructured input
US9760570B2 (en) Finding and disambiguating references to entities on web pages
Kowalski et al. Information storage and retrieval systems: theory and implementation
CN103136352B (zh) 基于双层语义分析的全文检索系统
US8073877B2 (en) Scalable semi-structured named entity detection
US20140114942A1 (en) Dynamic Pruning of a Search Index Based on Search Results
US20160292153A1 (en) Identification of examples in documents
KR20050026902A (ko) 펜-기반 컴퓨팅 시스템에서의 주석 관리
KR20210097347A (ko) 인공지능 기반 이미지 검색 방법 및 장치
Moncla et al. Automated geoparsing of paris street names in 19th century novels
US8229970B2 (en) Efficient storage and retrieval of posting lists
Dumitru et al. Garbage in, garbage out: An analysis of HTML text extractors and their impact on NLP performance
Garrido et al. GEO-NASS: A semantic tagging experience from geographical data on the media
Yunus et al. Semantic method for query translation.
Klang et al. Linking, searching, and visualizing entities in wikipedia
Hazman et al. An ontology based approach for automatically annotating document segments
Vidya et al. Web Page Ranking Using Multilingual Information Search Algorithm-A Novel Approach
Tran et al. A model of vietnamese person named entity question answering system
CN113918804A (zh) 商品信息检索系统及方法
Alam et al. Improving accessibility of archived raster dictionaries of complex script languages
Amer et al. Can wikipedia be a reliable source for translation? testing wikipedia cross lingual coverage of medical domain
Singh et al. Intelligent Bilingual Data Extraction and Rebuilding Using Data Mining for Big Data
JP2001034630A (ja) 文書ベース検索システム、およびその方法

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20150512

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150612

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150701

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20151125