JP2003308320A - 文実現システム - Google Patents

文実現システム

Info

Publication number
JP2003308320A
JP2003308320A JP2003074472A JP2003074472A JP2003308320A JP 2003308320 A JP2003308320 A JP 2003308320A JP 2003074472 A JP2003074472 A JP 2003074472A JP 2003074472 A JP2003074472 A JP 2003074472A JP 2003308320 A JP2003308320 A JP 2003308320A
Authority
JP
Japan
Prior art keywords
component
node
tree
punctuation
verb
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003074472A
Other languages
English (en)
Other versions
JP2003308320A5 (ja
Inventor
Simon Corston-Oliver
コーストン−オリバー サイモン
Michael Gamon
ガモン マイケル
Eric Ringger
リンガー エリック
Robert C Moore
シー.ムーア ロバート
Zhu Zhang
シャン シュ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2003308320A publication Critical patent/JP2003308320A/ja
Publication of JP2003308320A5 publication Critical patent/JP2003308320A5/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 文の抽象的言語表現(ALR)を処理して、
完全に実現可能な構造にする文実現システムを提供す
る。 【解決手段】 このシステムは、ALRを受け取り、A
LRから基本となる構文ツリーを生成するツリー変換コ
ンポーネント206を含む。次いでグローバル移動コン
ポーネント208が基本的な構文ツリーを受け取り、そ
の構文ツリー中の子ノードを祖先ノードに対して階層的
に順序づける。次いで構成素間順序付けコンポーネント
210が、構文ツリーを完全に順序付けるようにノード
間に線形順序を確立する。表層クリーンアップコンポー
ネント212が完全に順序付けられたツリーを受け取
り、いくつかの実現操作を行って、完全に順序付けた構
文ツリー中でなお抽象的に表されている構成素の表層実
現を生成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は文実現システムに関
する。より詳細には、本発明は自然言語生成システムに
おける文実現に係る、文実現システム、文実現のための
順序付けシステム句読点コンポーネント、文の抽象的言
語表現(ALR;abstract linguistic representatio
n)を補足するシステム、及び順序付けられた構文ツリ
ーを補足するシステムに関する。
【0002】
【従来の技術】自然言語生成システムは、文の言語表現
からテキストを生成する。このようなシステムは通例、
テキストプランナーまたは内容選択部、文プランナー
部、及び文実現部を含む。
【0003】テキストプランナーまたは内容選択コンポ
ーネントは、実現されるテキストの基礎を形成する内容
を入力として得る。文プランニング部分は内容をどのよ
うに構成して文にするかを判定し、文実現コンポーネン
トは実際の出力文を生成する。
【0004】例えば、テキストプランナーが「Litt
le Red Riding Hood」、「walk
ing」、及び「grandmother’s hou
se」などの内容語を提供すると想定する。文プランナ
ーは、「Little Red Riding Hoo
d」が動作主であり、動作が「walking」であ
り、目的地が「grandmother’s hous
e」であると判断する。文プランナーは、この抽象的言
語表現を入力として文実現コンポーネントに提供する。
文実現コンポーネントは、抽象的言語表現を、その表現
に対応する単語と句読点からなる実際の文に対応付ける
複雑な作業を行う。単語と句読点からなる実際の文が、
システムによって出力される実現された文(表層文字列
とも称する)である。
【0005】文実現を試みた従来のシステムは、2つの
異なるタイプのシステムのいずれかである傾向にある。
第1のタイプのシステムは、連続的に言語表現を操作し
て単に表層文字列をそこから読み出せる表現を生成す
る、ハンドコーディングによる規則に基づくシステムで
ある。そのようなシステムでは、通例はコンピュータを
利用する言語学者が、テキストをプランニングし内容を
単一の文にまとめる段階から、表現を引用する適切な形
式を選択し、形態的な屈折(語形変化;inflect
ion)を行い、出力の形式を整えるに至るまでの段階
の方針を明示的にコード化する。通例このようなシステ
ムは非常に大量の手書きのコードを含み、コードを生成
するのにきわめて時間がかかる。またこのようなハンド
コーディングシステムは、新しい領域に適合させる際に
大きな困難が生じ、異なる言語に適合させる際にはさら
に多くの困難が伴う。
【0006】過去に一般的に用いられた第2のタイプの
文実現システムは、入力された言語表現から候補文を直
接生成することを試みるものである。このようなシステ
ムは例えば高度に領域固有の利用例(飛行機の予約な
ど)で用いられるが、この場合には有限数のテンプレー
トがあり、単にテンプレート中の各種の枠(slot)
に内容語を割り当てる。埋められたテンプレートを使用
して出力を直接生成する。
【0007】他の類似システムでは、文の抽象的な言語
表現から生成できる可能な候補文をすべて挙げる。この
場合には、単語の組合せが実際のテキストに見られる組
合せに最も近く一致する文を優先する統計的手法を使用
して候補文を評価する。しかし、所与の言語表現につい
ては、調べる候補文の数が極端に多くなる可能性があ
る。この結果、それぞれの候補を評価しなければならな
いため計算時間がかかる。さらに、候補文を評価するの
に使用される手法はしばしば、長距離の言語的現象に対
して良好に機能しないことがある。これによりこのよう
なシステムは、長距離の現象が一般的に見られる言語分
野には適さない。
【0008】上述のシステムの例が記載されているがあ
る(例えば、非特許文献1参照)。
【0009】上記の第1のシステムでは、深い記号的知
識の代わりに単語のバイグラムを使用して可能な出力文
の中から決定する。ナレッジエンジニアによる2つの規
則セットが、入力された指定に作用して候補の出力文を
生成する。規則の1セットでは、未指定の(under
−specified)意味と可能な構文形成(for
mulation)との1対多数のマッピングを行い、
日本語から英語への機械翻訳システムなど実際的な生成
文脈で欠落する可能性のある限定性や数などの情報を付
加する。対象領域に対する考慮を含んだ規則の第2のセ
ットは、第1のモジュールで生成された表現を変形し
て、単語の格子(lattice)として表されるさら
に多くの候補文を生成する。単語のバイグラムを使用し
て格子の最適な横断線を見つけ、最も順位の高い出力文
を得る。単純なテーブルルックアップによって形態的な
屈折を行う。
【0010】このシステムは、処理しなければならない
候補文を非常に多数生成するシステムである。例えば、
Langkilde,I及びK.Knightによる技
術例の1つでは(非特許文献1参照)、入力された意味
的形態は、動作主、目的地、及び受動者などの関係にあ
る5つの語彙ノードを含む。この意味的入力から得られ
る単語の格子は、千百万を超える可能なパスを含み、最
も順位の高い候補は「Visitors who ca
me in Japan admire Mount
Fuji」である。(意味的入力の表現が与えられな
い)別のこのような例は、2つの内容語しか含まず、そ
れを変形すると155,000以上のパスを含む格子に
なり、最も順位の高い候補は「I can not b
etraytheir trust」となると考えられ
る。
【0011】このシステムでバイグラムを使用すると他
の不都合点も生じる。バイグラムは、連続していない単
語間の依存関係を取り込むことができない。項の数をト
ライグラム、あるいはより高次のnグラムに増すと、デ
ータの希薄という周知の問題が生じる。
【0012】下記で順序モデルと称する本開示の部分に
関連する、他の従来の技術には、「生成的な」構文解析
モデルが含まれる。そのようなモデルを文法解析(すな
わち構文分析)プロセスで用いて、可能な構文ツリーに
確率を割り当てる。用語「生成的」とは、モデルを無作
為にサンプリングして、モデル中の分布に従って文構造
を生成することもできることを意味する。このようなモ
デルでは、生成プロセス中に関連する特徴を与えられる
と、構文解析プロセスと同様に可能な構成素構造に確率
を割り振ることができる。
【0013】このような構文解析モデルの例が記載され
ている文献がある(例えば、非特許文献2及び3参
照)。これらの文献に記載される技術では、構成素の確
率の判定は、構成素の主要部などの文脈情報を条件とす
る。
【0014】
【非特許文献1】Langkilde, I及びK. Knight, 1998, "
The Practical Value of N-Grams in Generation", Pro
ceedings of the 9th International Workshop on Natu
ral Language Generation, Niagara-on-the-Lake, Cana
da, pp. 248-255、及びLangkilde, I及びK. Knight, 19
98 "Generation that Exploits Corpus-Based Statisti
cal Knowledge", Proceedings of the 36th Annual Mee
ting of the Association for Computational Linguist
ics and 17th International Conferenceon Computatio
nal Linguistics (COLING-ACL 1998), Montreal, Quebe
c, Canada, pp. 704-710
【0015】
【非特許文献2】Eugene Charniak "A Maximum-Entropy
-Inspired Parser", Proceedings of NAACL-2000, Seat
tle, Washington, pp. 132-139
【0016】
【非特許文献3】Eugene Charniak "Immediate-Head Pa
rsing for Language Models",Proceedings of the 39th
Annual Meeting of the Association for Computation
al Linguistics (2001), Toulouse, France, pp. 116-1
23
【0017】
【発明が解決しようとする課題】従来のシステムには上
述したような種々の問題があり、さらなる改善が望まれ
ている。
【0018】本発明は、このような状況に鑑みてなされ
たもので、その目的とするところは、文の抽象的言語表
現(ALR)を処理して、完全に実現可能な構造にする
文実現システムを提供することにある。
【0019】
【課題を解決するための手段】本明細書に開示する技術
をCharniakモデル(非特許文献3)及び従来の
生成的構文解析モデルと区別する本発明の順序モデルの
一態様は、生成タスクで利用できる意味的関係を使用す
ることである。
【0020】本発明は、文の抽象的言語表現(ALR)
を処理して、完全に実現可能な構造にする文実現システ
ムである。
【0021】このシステムは、ALRを受け取り、AL
Rから基本的な構文ツリーを生成するツリー変換コンポ
ーネントを含む。そしてグローバル移動コンポーネント
が基本的な構文ツリーを受け取り、その構文ツリーの子
ノードを祖先ノードに対して階層的に順序付ける。次い
で構成素間順序付けコンポーネントが、構文ツリーを完
全に順序付けるようにノード間に線形の順序を確立す
る。表層クリーンアップコンポーネントが、完全に順序
付けられたツリーを受け取り、いくつかの実現操作を行
って、完全に順序付けられた構文ツリーの中でまだ抽象
的に表されている構成素の表層実現を生成する。
【0022】一実施形態では、次いで句読点挿入コンポ
ーネントが構文ツリーに句読点を挿入して、完全に順序
付け、句読点をつけた構文ツリーを得る。単にこのツリ
ーを読み取って実現された文を得ることができる。
【0023】各種の実施形態では、システムは、パイプ
ライン中で句読点挿入コンポーネントの後に位置する屈
折生成コンポーネントも含む。屈折生成コンポーネント
は、構文ツリー中の属性に基づいて正しい屈折を反映す
るように構文ツリーを修正する。
【0024】別の実施形態では、ALRは、基本的な構
文ツリーに変換する前に肉付けする必要があるあいまい
な表現である。この実施形態では、肉付けコンポーネン
トがALR中のノードに構文ラベルを加える。他の実施
形態では、肉付けコンポーネントは、機能語を挿入し、
ALR中の論理的主語及び論理的目的語に実現の確率を
割り当てることもできる。同様に肉付けコンポーネント
は、名詞句の格を識別することができ、ALR中の動詞
に動詞位置を割り当てることもできる。
【0025】さらに別の実施形態では、ALRを論理形
式グラフとして、あるいはその他のタイプのグラフ構造
として受け取る。初めに、さらなる処理のためにALR
をグラフ構造からツリー様の構造にする。このためにA
LRを非グラフ構造にする前処理コンポーネントが含ま
れる。
【0026】
【発明の実施の形態】以下、図面を参照して本発明の実
施形態を詳細に説明する。
【0027】文実現システムに関して本発明を説明す
る。本発明は、文実現システム全体と、そのシステムに
関連する方法を含む。ただし、本発明は、文実現システ
ム全体の個々のサブコンポーネントまたはモジュールも
それ自体で含む。ただし、より深い理解のためにそのモ
ジュールまたはサブコンポーネントについては文実現と
の関連で説明する。
【0028】下記の本発明の説明では、例としてドイツ
語の文を用いることにも留意されたい。ドイツ語は、文
実現システムが克服しなければならない多少多くの障害
を呈し、したがってそのような状況に対処する際のこの
システムの汎用性を示すのに用いる。ただし、本発明は
実質的にその他のどの言語にも使用することができ、ド
イツ語に限定されない。
【0029】言うまでもなく、本明細書に記載する複数
のコンポーネントやモジュールはドイツ語に固有のもの
であり、他の言語で処理を行う場合には単に除去する
か、使用不可にすることができる。同様に、所与の目標
言語のある不規則性または現象に対応するために、他の
言語に固有の複数のモジュールを容易に本発明のシステ
ム全体に追加することもできる。
【0030】図1は、本発明を実装することができる適
切なコンピューティングシステム環境100の一例であ
る。コンピューティングシステム環境100は適切なコ
ンピューティング環境の一例に過ぎず、本発明の使用ま
たは機能性の範囲について何らの制限を示唆するもので
はない。またコンピューティングシステム環境100
は、その例示的動作環境に示す構成要素の任意の1つま
たは組合せに関連する依存関係または必要性を有するも
のとも解釈すべきでない。
【0031】本発明は、数多くの他の汎用または特殊目
的のコンピューティングシステム環境または構成で動作
することができる。本発明に使用するのに適している可
能性があるよく知られるコンピューティングシステム、
環境、及び/または構成の例には、これらに限定しない
が、パーソナルコンピュータ(PC)、サーバコンピュ
ータ、ハンドヘルドまたはラップトップデバイス、マル
チプロセッサシステム、マイクロプロセッサベースのシ
ステム、セットトップボックス、プログラマブル家庭用
電化製品、ネットワークPC、ミニコンピュータ、メイ
ンフレームコンピュータ、上述のシステムまたはデバイ
スのいずれを含む分散コンピューティング環境などがあ
る。
【0032】本発明は、コンピュータによって実行され
るプログラムモジュールなどのコンピュータ実行可能命
令の一般的な状況で説明することができる。一般に、プ
ログラムモジュールには、特定タスクを行うか、あるい
は特定の抽象データ型を実装するルーチン、プログラ
ム、オブジェクト、コンポーネント、データ構造などが
含まれる。本発明は、通信ネットワークを通じてリンク
されたリモートの処理装置によってタスクを行う分散コ
ンピューティング環境で実施することもできる。分散コ
ンピューティング環境では、メモリ記憶装置を含むロー
カル及びリモート両方のコンピュータ記憶媒体にプログ
ラムモジュールを置くことができる。
【0033】図1を参照すると、本発明を実施する例示
的システムは、コンピュータ110の形態の汎用コンピ
ューティングデバイスを含む。コンピュータ110の構
成要素には、これらに限定しないが、プロセッサ12
0、システムメモリ130、及びシステムメモリを含む
各種のシステムコンポーネントをプロセッサ120に結
合するシステムバス121が含まれる。システムバス1
21は、各種のバスアーキテクチャの任意のものを使用
したメモリバスまたはメモリコントローラ、ペリフェラ
ルバス、及びローカルバスを含む数タイプのバス構造の
いずれでもよい。例として、このようなアーキテクチャ
には、ISA(Industry Standard
Architecture)バス、MCA(Micro
Channel Architecture)バス、
EISA(Enhanced ISA)バス、VESA
(Video Electronics Standa
rds Association)ローカルバス、及び
メザニンバスとも称されるPCI(Periphera
l Component Interconnect
s)バスが含まれるが、これらに限定しない。
【0034】コンピュータ110は通例各種のコンピュ
ータ可読媒体を含む。コンピュータ可読媒体は、コンピ
ュータ110がアクセスすることができる任意の利用可
能媒体でよく、揮発性及び不揮発性の媒体、リムーバル
及びノンリムーバル媒体を含む。これに限定しないが、
例としてコンピュータ可読媒体は、コンピュータ記憶媒
体及び通信媒体を含むことができる。コンピュータ記憶
媒体は、コンピュータ可読命令、データ構造、プログラ
ムモジュール、またはその他のデータなどの情報を記憶
するための任意の方法または技術に実装された揮発性及
び不揮発性の媒体、リムーバル及びノンリムーバルの媒
体を含む。コンピュータ記憶媒体には、これらに限定し
ないが、RAM(random access memory)、ROM(re
ad onlymemory)、EPROM(electrically erasable
PROM)、フラッシュメモリまたは他のメモリ技術、C
D(compact disc [disk])−ROM、デジタル多用途
ディスク(DVD)または他の光ディスクストレージ、
磁気カセット、磁気テープ、磁気ディスクストレージま
たは他の磁気記憶装置、あるいは、所望の情報の記憶に
用いることができ、コンピュータ110によるアクセス
が可能な任意の他の媒体が含まれる。通信媒体は、通
例、搬送波などの変調データ信号または他の搬送機構
に、コンピュータ可読命令、データ構造、プログラムモ
ジュール、または他のデータを統合し、任意の情報伝達
媒体を含む。用語「変調データ信号」とは、信号中に情
報を符号化するような方式でその特性の1つまたは複数
を設定または変化させた信号を意味する。例として、通
信媒体は、有線ネットワークまたは直接配線接続などの
有線媒体と、音響、RF(radio frequencies)、赤外
線、及び他の無線媒体などの無線媒体とを含むが、これ
らに限定しない。上記の媒体のいずれの組合せもコンピ
ュータ可読媒体の範囲に含めるべきである。
【0035】システムメモリ130は、読み取り専用メ
モリ(ROM)131及びランダムアクセスメモリ(R
AM)132など、揮発性及び/または不揮発性メモリ
の形態のコンピュータ記憶媒体を含む。起動時などにコ
ンピュータ110内の要素間の情報伝達を助ける基本ル
ーチンを含むBIOS(基本入出力システム)133
は、通例ROM131に記憶される。RAM132は通
例、プロセッサ120から即座にアクセス可能な、かつ
/または現在プロセッサ120によって操作中のデータ
及び/またはプログラムモジュールを含む。これらに限
定しないが、例として、図1にはオペレーティングシス
テム134、アプリケーションプログラム135、他の
プログラムモジュール136、及びプログラムデータ1
37を示している。
【0036】コンピュータ110は、他のリムーバル/
ノンリムーバル、揮発性/不揮発性のコンピュータ記憶
媒体も含むことができる。単なる例として、図1には、
ノンリムーバル、不揮発性の磁気媒体の読み取りまたは
書き込みを行うハードディスクドライブ141、リムー
バル、不揮発性の磁気ディスク152の読み取りまたは
書き込みを行う磁気ディスクドライブ151、及びCD
−ROMや他の光媒体などのリムーバル、不揮発性の光
ディスク156の読み取りまたは書き込みを行う光ディ
スクドライブ155を示す。例示的動作環境で使用でき
るこの他のリムーバル/ノンリムーバル、揮発性/不揮
発性のコンピュータ記憶媒体には、これらに限定しない
が、磁気テープカセット、フラッシュメモリカード、デ
ジタル多用途ディスク、デジタルビデオテープ、ソリッ
ドステートRAM、ソリッドステートROMなどが含ま
れる。ハードディスクドライブ141は通例、インタフ
ェース140などのノンリムーバルのメモリインタフェ
ースを通じてシステムバス121に接続され、磁気ディ
スクドライブ151及び光ディスクドライブ155は通
例、インタフェース150などリムーバルなメモリイン
タフェースによってシステムバス121に接続される。
【0037】上記で説明し、図1に示したドライブとそ
れに関連付けられたコンピュータ記憶媒体は、コンピュ
ータ可読命令、データ構造、プログラムモジュール、及
びコンピュータ110のその他のデータの記憶を提供す
る。例えば図1では、ハードディスクドライブ141に
オペレーティングシステム144、アプリケーションプ
ログラム145、他のプログラムモジュール146、及
びプログラムデータ147を記憶している。これらのコ
ンポーネントは、オペレーティングシステム134、ア
プリケーションプログラム135、他のプログラムモジ
ュール136、及びプログラムデータ137と同じもの
でも、異なるものでもよいことに留意されたい。ここで
はオペレーティングシステム144、アプリケーション
プログラム145、他のプログラムモジュール146、
及びプログラムデータ147には、それらが少なくとも
異なるコピーであることを表すために異なる参照符号を
つけている。
【0038】ユーザは、キーボード162、マイクロフ
ォン163、及びマウス、トラックボール、タッチパッ
ドなどのポインティングデバイス161などの入力装置
を通じてコンピュータ110にコマンドと情報を入力す
ることができる。他の入力装置(図示せず)には、ジョ
イスティック、ゲームパッド、衛星放送受信アンテナ、
スキャナなどがある。これら及び他の入力装置は、シス
テムバスに結合されたユーザ入力インタフェース160
を通じてプロセッサ120に接続することが多いが、パ
ラレルポート、ゲームポート、あるいはユニバーサルシ
リアルポート(USB)など他のインタフェース及びバ
ス構造によって接続することも可能である。モニタ19
1または他タイプの表示装置も、ビデオインタフェース
190などのインタフェースを介してシステムバス12
1に結合される。コンピュータは、モニタに加えて、ス
ピーカ197やプリンタ196など他の周辺出力装置も
含むことができ、それらは出力周辺インタフェース19
5を通じて接続することができる。
【0039】コンピュータ110は、リモートコンピュ
ータ180など1つまたは複数のリモートコンピュータ
への論理接続を使用するネットワーク環境で動作するこ
とができる。リモートコンピュータ180はパーソナル
コンピュータ、ハンドヘルドデバイス、サーバ、ルー
タ、ネットワークPC、ピアデバイス、あるいはその他
の一般的なネットワークノードでよく、通例はコンピュ
ータ110との関連で上記で挙げた要素の多くまたはす
べてを含む。図1に示す論理接続には、構内ネットワー
ク(LAN)171と広域ネットワーク(WAN)17
3が含まれるが、他のネットワークを含むことも可能で
ある。このようなネットワーキング環境は、オフィス、
企業内のコンピュータネットワーク、イントラネット、
及びインターネットに一般的に見られる。
【0040】LANネットワーキング環境で使用する場
合、コンピュータ110はネットワークインタフェース
またはアダプタ170を通じてLAN171に接続され
る。WANネットワーキング環境で使用する場合、コン
ピュータ110は通例、インターネットなどのWAN1
73を通じて通信を確立するためのモデム172または
その他の手段を含む。モデム172は内蔵型でも外付け
型でもよく、ユーザ入力インタフェース160または他
の適切な機構を介してシステムバス121に接続するこ
とができる。ネットワーク環境では、コンピュータ11
0との関連で図示したプログラムモジュール、またはそ
の一部はリモートのメモリ記憶装置に格納することがで
きる。これに限定しないが、例として図1ではリモート
アプリケーションプログラム185がリモートコンピュ
ータ180に常駐している。図のネットワーク接続は例
示的なものであり、コンピュータ間に通信リンクを確立
する他の手段を使用できることは理解されよう。
【0041】図2は、本発明の一実施形態による文実現
コンポーネント200の(データフローも示す)ブロッ
ク図である。文実現コンポーネント200は、前処理コ
ンポーネント202、肉付けコンポーネント204、基
本ツリー変換コンポーネント206、グローバル移動コ
ンポーネント208、構成素間順序付けコンポーネント
210、表層クリーンアップコンポーネント212、句
読点挿入コンポーネント214、屈折生成コンポーネン
ト216、及びツリーリーダコンポーネント218を含
む。以下で後の図に対して示したシステム200のコン
ポーネントについて詳細に述べることにより、システム
200の動作全体について説明する。
【0042】システム200は、入力として入力文の抽
象的言語表現を受け取る。ここで述べる実施形態では、
入力は論理形式である。ただし、実質的にいずれの他の
文の構文的または意味的表現も入力として受け取れるこ
とは理解されよう。論理形式構造については、Heid
orn他による「METHOD AND SYSTEM FOR COMPUTINGSEM
ANTIC LOGICAL FORMS FROM SYNTAX TREES」という名称
の米国特許第5,966,686号明細書に、より詳細
に述べられている。
【0043】前処理コンポーネント202は、入力を非
グラフ構造にすることにより抽象的言語表現を処理す
る。例えば、入力が論理形式である場合、入力はツリー
構造ではなくグラフ構造である。そのため、入力構造を
非グラフ構造にして、よりツリー様の構造に変換する。
前処理コンポーネント202は、辞書検索動作などによ
り入力構造に語彙情報も追加する。前処理コンポーネン
ト202は複合語の単純化も行う。前処理コンポーネン
ト202の出力は、追加情報が付加された非グラフ構造
220である。
【0044】肉付けコンポーネント204は、データ構
造220を受け取り、そのデータ構造に構文情報を付加
する。肉付けコンポーネント204は、限定詞、助動
詞、意味的に空の前置詞、関係代名詞などの機能語も挿
入する。コンポーネント204は、格の特徴及び動詞位
置の特徴も割り当て、また主語または目的語の位置に名
詞句が来る確率を求める。肉付けコンポーネント204
は、出力として、構文情報及びその他の情報が付加され
た非グラフ構造の構造222を提供する。
【0045】基本ツリー変換コンポーネント206は、
データ構造222を受け取り、そのデータ構造を基本的
な構文ツリーに変換する。コンポーネント206は、非
グラフ構造のデータ構造222から構文ツリー構造を読
み取り、その語幹から分離可能な接頭辞を分離する。コ
ンポーネント206は、等位の構文表現を取り込み、特
定の構文上の支配関係を逆転することもできる。コンポ
ーネント206は、出力として、基礎となる順序付けさ
れていない構文ツリー224を提供する。
【0046】グローバル移動コンポーネント208は、
構造224を受け取り、グローバルな移動またはグロー
バルな順序付けを行う。グローバルな移動には、疑問語
(Wh語)、関係代名詞の移動、及び言語理論で繰り上
げとして知られるプロセスが伴う。コンポーネント20
8は、外置変形の処理も行う。コンポーネント208
は、出力として、各構成素が正しい親を有する構造22
6を出力するが、構造226の構成素は順序付けられて
いない。
【0047】構成素間順序付けコンポーネント210
は、入力として構造226を受け取り、構文ツリーのノ
ードを完全に順序付けて、出力として完全に順序付けら
れた構文ツリー228を提供する。
【0048】表層クリーンアップコンポーネント212
は構造228を受け取り、限定詞、関係代名詞、及び再
帰代名詞の表層実現などの表層クリーンアップ操作を行
う。コンポーネント212は、等位の中で重複した成分
(material)の削除も行う。コンポーネント2
12は、出力として形が整い(clean)完全に順序
付けられた構文ツリー230を提供する。
【0049】句読点コンポーネント214は構造230
を受け取り、構文ツリーに句読点を挿入する。コンポー
ネント214は、出力として、符号232で示すように
句読点を挿入した、形が整い完全に順序付けられた構文
ツリーを提供する。
【0050】屈折生成コンポーネント216は、構造2
32を受け取り、最終的な屈折を生成し、屈折をつけた
最終的なツリー234を出力する。ツリー読み取りコン
ポーネント218は単にツリー234を読み取り、単に
最終的な屈折をつけたツリー234中のすべての情報を
適用することにより表層文字列236(すなわち実現さ
れた文236)を出力として提供する。
【0051】以下で、例を参照して図2の各コンポーネ
ントについてさらに詳しく説明する。ここで考察する文
例は次のようなドイツ語である。「Hans isst die Kart
offeln auf,die er gestern geernet hat」この文を翻
訳すると、「Hans eats up the potatoes which he has
harvestedyesterday.」となる。このシステムの動作後
には、この文が、システムへのこの文の入力の言語表現
に基づいて生成された表層文字列236となる。この文
例は、本発明によって行うことが可能なすべての動作を
例証するものではなく、単に例証的な一例として選択し
たものであることに留意されたい。
【0052】図3は、システム200への抽象的言語表
現の入力を表す。図3から、この例では抽象的言語表現
が論理形式として実施されていることが分かるが、この
言語表現は、内容語と、生成する文を表す構文的または
意味的情報とを含む、実質的にいずれの他の抽象的言語
学的表現でもよい。
【0053】前処理コンポーネント202は、図3に示
す言語表現を受け取り、いくつかの操作を行う。図4
は、前処理コンポーネント204の動作をより詳細に説
明する流れ図である。図4は、まずブロック280で論
理形式を非グラフ構造にすることを示している。すなわ
ち、各ノードが多くとも1つの親ノードを有するような
構造を生成する。この操作により、続く段階における構
文ツリーへの変換を容易にするツリー構造が生成され
る。グラフからツリー構造を生成するには一部のノード
を複製する必要がある。そのノードを生成する場合に
は、それらのノードをその対応物と結びつける索引を付
け加え、それらのノードが本来はグラフ中で単一のノー
ドであったという情報を保持する。この索引を「CoI
ndex」と呼ぶ。
【0054】非グラフ構造にする操作の際には、ある論
理形式属性を無視する。そのような属性には、次があ
る。 1.言語的に重要でないシステム内部のブックキーピン
グ属性 2.非グラフ構造化を行うコード中のいずれか他の個所
で特殊な処理を受ける属性(ParentAttr(親
ノードへのアークにラベルを記憶する)、Parent
s(親ノードへのポインタ、及びCoIndexを記憶
する)など) 3.高度な意味的処理のみに使用されるが、生成にはま
だ信頼できる、あるいは有用であると考えられていない
属性。
【0055】本明細書の付録1に示すテーブルA、B、
及びCに、この例で用いられる非グラフ構造化アルゴリ
ズムの擬似コードを示す。これは非グラフ構造化アルゴ
リズムの一例に過ぎず、構造をグラフからツリー様の構
造に変える実質的にいずれの他の非グラフ構造化アルゴ
リズムでも使用できることに留意されたい。テーブルA
は、DeepDegraphLFと称する関数の擬似コ
ードである。この関数は、テーブルBに示すDeepD
egraphLFSubgraph関数を呼び出す。D
eepDegraphLF関数では、論理形式をトラバ
ース(traverse)し、2つ以上の親をもつノードを複製
する。後続の処理でノードの識別を判定できるように、
索引を割り当てる。テーブルBに示す関数では、述部の
項構造の範囲外にある属性のリストであるFunc_L
F_Attrのリストを参照する。その属性は、Cle
ftFOC(残った構造の焦点)、Ltopic及びL
_top(話題)、及びCoCoords(等位の兄弟
ノード)である。テーブルBの関数はCopyLFSt
ruct関数を呼び出し、CopyLFStruct関
数は、適宜深いコピーまたは浅いコピーの動作を行い、
CoIndex属性を維持する。CopyLFStru
ct関数の擬似コードをテーブルCに示す。
【0056】論理形式を非グラフ構造にすると、ブロッ
ク282に示すようにノードを語彙化する。すなわち、
グラフに存在する各語彙項目について語彙データベース
(電子辞書など)で語彙的なルックアップを行う。辞書
情報はグラフ中のレコードの属性に格納される。最後
に、このドイツ語の例ではブロック284に示すように
複合名詞を単純化する。
【0057】図5は、前処理コンポーネント202によ
って出力される、語彙化した非グラフ構造220の図で
ある。この構造を肉付けコンポーネント204に入力す
る。図6は、肉付けコンポーネント204の動作をより
詳細に説明する流れ図である。
【0058】肉付けの処理中に、図5に示す非グラフ構
造に情報を追加する。通例、この情報は、より抽象的な
論理形式レベルの表現で正規化された、構文的な実現の
詳細に関連する。図6に示すように、まず図5に示す非
グラフ構造の論理形式のノードに構文ラベルを割り当て
る。これを図6のブロック290に示し、例証的には決
定ツリークラシファイア(classifier)によって行う。
構文ラベルは属性としてノードに付加される。ここで参
照する決定ツリークラシファイア各々のより完全な記述
を本明細書の付録2に示しており、読者はさらなる詳細
についてはこの付録を参照されたい。
【0059】ノードに構文ラベルを付加すると、非グラ
フ構造に機能語を挿入する。機能語は意味的情報をほと
んど持たないのでシステムへの論理形式グラフの入力の
中には存在せず、したがって加えなければならない。こ
こで述べる例では、この機能語の挿入には、限定詞、助
動詞、前置詞、不定詞標識、否定語、従属接続詞、及び
虚辞主語の挿入が含まれる。これらの機能語それぞれを
例証的には決定ツリークラシファイアによって挿入し、
これら機能語の挿入を図6の符号292〜304に示
す。
【0060】ここで適切な決定ツリークラシファイアの
説明には再び付録2を参照する。ただし簡単に述べる
と、抽象的な限定詞には、例えば限定的な限定詞(De
fDet)、不定限定詞(InDefDet)、Wh限
定詞(WhDet)、及び指示限定詞(ProxlDe
t及びDistlDet)が含まれる。これら限定詞の
表層形態は、後の処理段階(表層クリーンアップコンポ
ーネント212)で確定される。
【0061】前置詞の挿入には、純粋に構文的な機能を
持つ前置詞の挿入が含まれる。例えばドイツ語では、受
動態構造で用いられる前置詞「von」及び「durc
h」は純粋に構文的な機能を持ち、挿入される。
【0062】不定詞標識の挿入には、例えば「zu」の
挿入が含まれる。挿入される従属接続詞には「das
s」及び「ob」などの接続詞が含まれる。虚辞主語に
は、意味的に空の文法的主語「es」などの主語が含ま
れる。
【0063】機能語を挿入すると、例証的には決定ツリ
ークラシファイアによって論理的主語及び目的語に「ス
ペルアウト」の確率を割り当てる。これを図6のブロッ
ク306に示す。より具体的には、論理的主語または目
的語が表層文字列に実現される確率を割り当てる。例え
ば不定詞節の論理的主語は、表層文字列には明白に表す
べきでない。
【0064】次いで、「dadurch」や「dami
t」など前置詞の代用形の論理形式ノードを各自の表層
文字列に縮約する。これは規則に基づく単純な機能によ
って行い、図6のブロック308に示す。このモジュー
ルは、実質的にはいくつかのゲルマン系言語だけに関連
する。ドイツ語では、このような形態は、この例では
「mit」または
【0065】
【外1】
【0066】などの前置詞と、代名詞要素「da」を含
む。論理形式では、これらの語を分解して前置詞句「m
it das」(with that)や
【0067】
【外2】
【0068】(for that)などの完全な前置詞
句の表現と同様の表現にする。
【0069】次いで抽象的な関係代名詞(RelPr
o)を挿入する。これをブロック310に示す。関係代
名詞は、後に図2のブロック212に示す表層クリーン
アッププロセスの際に表層実現にスペルアウトされる。
例えば、論理形式では、関係代名詞はそれらが参照する
意味ノードのコピーに置き換えられている。したがっ
て、表層実現を得るにはこのコピーを関係代名詞に置き
換えなければならない。これを行うのに必要な情報は肉
付けされた論理形式に含まれており、この操作は規則に
基づく単純な機能によって行われる。
【0070】次いで再帰代名詞を挿入する。これをブロ
ック312に示し、これも規則に基づく機能によって行
われる。再帰代名詞はドイツ語では通例2つの状況で用
いられる。すなわち、再帰代名詞が意味的役割を持たな
い本質的に再帰的な動詞と、再帰的に用いられる通常の
他動詞とがある。第1の状況では、再帰代名詞は、論理
形式には全く現れない(ただし動詞は特別な特徴Ref
lexSensでマークされる)。第2の状況では、再
帰代名詞はそれが参照するノードのコピーとして現れ
る。再帰代名詞の挿入はこれら2つの異なる状況を識別
し、第1の状況では再帰代名詞を挿入し、第2の状況で
はコピーを再帰代名詞に置き換える。
【0071】ブロック314に示すように、次いで疑問
副詞「wie」を挿入する。「wie」は、それに相当
する英語「how」と同様の疑問副詞である。その唯一
の機能は疑問の特徴を伝えることなので、「wie」は
この例の論理形式にはノードとして表されない。「wi
e」の挿入は、あるノードに「疑問」の特徴があるが、
他の疑問を伝える要素がまだ挿入されていない場合にト
リガされる単純な操作である。
【0072】次いで決定ツリークラシファイアにより格
特徴及び動詞位置の特徴を割り当てる。これを図6のブ
ロック316及び318に示す。ここで再度、この決定
ツリークラシファイアについてより完全な説明には、本
明細書の付録2を参照する。ただし、簡単に述べると格
はドイツ語文法では重要な特徴である。ドイツ語では構
成素の順序は比較的自由であり、しばしば、名詞句を文
の主語として解釈すべきか、あるいは目的語、間接主語
として解釈すべきかがその名詞句の格マーキングだけに
よって示される。文実現の際に格は文法的な主語性など
の代理として機能する。したがって、表層実現には、理
解可能な出力を生成するために所与の名詞句の格を正し
く識別することが望ましい。
【0073】ドイツ語の顕著な特性の1つは、動詞を主
節と従属節に分散するパターンである。ドイツ語構文の
記述的な叙述(account)の大半は、動詞の位置
を固定された枠として扱い、その周囲に他の構文構成素
を比較的自由な順序で配置するドイツ語の文のトポロジ
に基づく。
【0074】周知のように、一般的な形態のドイツ語の
文は、左と右のブラケット動詞位置を含み、それらの位
置により前領域、中間領域、及び後領域の3つの領域に
分かれる。前領域は通例多くとも1つの構成素を含む。
左ブラケット動詞位置は、定動詞、従属接続詞、または
関係代名詞/関係表現を含む。中間領域は任意数の構成
素を含むことができ、右の動詞ブラケットは、左のブラ
ケットにないすべての動詞要素を含む。後領域は通例、
節の補語、従属節、外置された成分(例えば中間領域か
ら外置された関係節)、またはその他の構成素を含む。
【0075】定動詞の位置に応じて、ドイツ語の文と動
詞句はしばしば、「動詞が最初」、「動詞が2番目」、
または「動詞が最後」に分類される。動詞が最初に来る
節では、定動詞が最初の位置に来る。動詞が2番目に来
る文は、前領域の成分、及び左ブラケット位置に定動詞
を含み、動詞が最後に来る文は左ブラケットの動詞要素
を含まない。これは通例、左ブラケットが従属接続詞ま
たは関係代名詞によって占められるために起こる。
【0076】本発明の一実施形態によれば、決定ツリー
クラシファイアを使用して構成素中の動詞配置パターン
を示す特徴を割り当てる。そして下流のコンポーネント
と機能は、それらの特徴内にある情報を利用する。
【0077】動詞配置の特徴を割り振ると肉付け操作は
完了し、構文情報及びその他の情報を付加した非グラフ
構造が図2の出力222として提供される。図7に、肉
付けを行った後のここで説明中の例による非グラフ構造
の論理形式を示す。
【0078】次いで、肉付けを行った非グラフ構造の論
理形式222を基本ツリー変換コンポーネント206
(図2)に提供し、基本となる構文ツリー構造に変換す
る。図8は、基本ツリー変換コンポーネント206の動
作をより詳細に説明する流れ図である。変換は、非グラ
フ構造の論理形式の反復的な読み取りを行ってツリー構
造にすることによって行う。この変換を行う際の最初の
操作は、ブロック350に示すように、明白な実現の確
率が低い論理的主語及び論理的目的語を除去することで
ある。この確率は肉付け操作中に決定ツリークラシファ
イアによって割り当てられていることを思い出された
い。
【0079】次いで、図8のブロック352に示すよう
に非グラフ構造の論理形式をツリー構造にマッピングま
たはコピーする。これを行う際に、非グラフ構造の論理
形式のノードからツリーの非終端ノードにラベルをコピ
ーする(肉付けの際にこれらのラベルが割り当てられた
ことを思い出されたい)。これを図8のブロック354
に示す。
【0080】次いで、特にドイツ語では、肉付け段階で
割り当てられた動詞位置の特徴と、接頭辞と語幹の境界
についての語彙情報(前処理の際に挿入された辞書に含
まれるものなど)とに基づいて、分離可能な接頭辞をそ
の語幹から分離する。分離可能な接頭辞の分離を図8の
ブロック356に示す。
【0081】語幹と分離可能な接頭辞への動詞の分割
は、次の条件でトリガされる。 1.動詞が実際に接頭辞の分離が可能な動詞である(語
彙特徴によって示される)、かつ 2.語幹を分離すべき文脈に動詞がある(動詞が最初に
来る構造か、または動詞が2番目に来る構造で、定形の
特徴を伝える助動詞または法助動詞がない場合)。
【0082】これらの条件に当てはまる場合は、動詞の
語彙情報により語幹と接頭辞の分割をどこで行うべきか
が決まる。ノードはSTEMノードとPREFIXノー
ドに分割され、動詞の屈折特徴が語幹にコピーされる。
【0083】次いで、図8の先行するステップに基づい
て各ノードのParent属性を更新する。これを図8
のブロック358に示す。
【0084】次の2ステップ360及び362で、等位
の表現を、抽象的な入力(論理形式)中でそれを扱う方
式からより表層指向の構造にマッピングする。等位は自
然言語の難解な性質であり、論理形式のレベル(抽象表
現レベル)と構文解析の際とでは異なる方式で表され
る。構文的には、接続詞は、等位構造の主要部として扱
うことができ、等位構造は、等位の句とその主要部の前
置修飾語及び後置修飾語の中の追加的な接続詞とを含
む。意味的には、等位の句に対しては1つもノードがな
い可能性がある。むしろ、各等位句はそれ自体のノード
を有し、単独で意味的関係に入る。さらに、各等位ノー
ドは、それが等位関係にある他の句の意味ノードへのポ
インタを、本明細書で「CoCoords」と称する属
性中に保持する。この特有の論理形式表現をステップ3
60及び362に示す2つの機能で単純化する。
【0085】ステップ360で等位の非語根を導入し、
ステップ362では等位の語根を導入する。これら2つ
の機能は、非グラフ構造の論理形式表現から直接構築さ
れたツリー構造を構文表現の方針に合わせて適合するこ
とにより表現を単純化する。基本的にこれらの機能は、
CoCoords属性を等位の構文ノードに変換し、接
続詞を主要部とする。
【0086】図8の最後のステップ364を「主要部切
り替え」操作と呼び、例証的には決定ツリークラシファ
イアによって行う。このステップでは基本ツリーへの変
換を実施し、決定ツリークラシファイアが、構文と意味
の支配関係が一致していないそれら文脈の構文的な支配
関係を逆転する。ドイツ語では通例、これは、「vie
le der Leute」のように、「viele」
が構文上の主要部であるが「Leute」が意味上の主
要部であるような種の量化的な(quantificational)例
で生じる。
【0087】図9は、基本ツリー変換コンポーネント2
06による処理後のこの文例の基本ツリー構造を示す。
この構造を次いでグローバル移動コンポーネント208
に提供する。図10は、図2のグローバル移動コンポー
ネント208の動作をより詳細に説明する流れ図であ
る。
【0088】グローバルな移動の間に、非局所的な移動
の操作を行う。この状況における非局所的とは、直接の
親の制限を超えた移動を意味する。本発明の一実施形態
によるすべての「局所的な」移動は、純粋な移動として
ではなく、一構成素内の順序付け現象として扱う。この
例では繰り上げ、Wh移動、及び関係代名詞/関係表現
の移動を規則に基づく単純な機能によって処理するが、
決定ツリークラシファイアなどの機械学習システムで処
置することもできる。
【0089】いずれの場合も、グローバル移動コンポー
ネント208は、構造224を受け取ると、図10のブ
ロック366に示すようにまず繰り上げによる移動を行
う。一実施形態によれば、2つの異なる繰り上げ機能を
実行する。1つの機能では、形容詞句(AJP)及び名
詞句(NP)のノードを述部文脈中の連結動詞のレベル
に繰り上げる。もう1つの機能は、繰り上げ動詞の主語
を繰り上げる。
【0090】繰り上げ機能を行うと、図10のブロック
368に示すようにWh移動の機能を実行する。Wh移
動は、別の「Wh」または「WhQ」句(直接または間
接のWh疑問)によって支配されていない「Wh」特徴
によってマークされる句を構造が含み、かつその句が
「WhQ」とマークされた祖先ノードをツリーの上方に
有する場合にトリガされる。この文脈が検出されると、
Wh句をWhQノードまで移動する。
【0091】図10のブロック370に関係代名詞また
は関係表現の移動を示すが、これは、トリガする状況
が、関係節に支配されていない関係代名詞の存在である
ことを除いてはWh移動と同様に行われる。その状況で
は、関係代名詞をその親チェーン中の最初の関係節まで
移動する。
【0092】次いで外置変形の処理を行う。これを図1
0のブロック372に示す。各種の言語では、節の成分
を文の右側周辺に外置することが可能である。例えばド
イツ語及び英語ではこれは関係節の場合に行うことがで
きる。そうした節の一例を次に挙げる。
【0093】「The man entered the room who usually
causes trouble right away.」 「Der Mann hat den Raum betreten, der ublicherweis
e immer Arger macht.」 「the man」を修飾する関係節が文の右端に移動
されている。これは特にドイツ語などの言語に一般的で
あり、技術文書では関係節のほぼ3分の1が外置される
ことが認められている。
【0094】同じことは例えば不定詞節にも当てはま
る。 「The possibility was considered to leave the coun
try.」 「Man hat die Moglichkeit erwogen, das Land zu ver
lassen.」 同じことは次のような補語節にも認められる。
【0095】「A rumor has been circulating that he
is ill.」 「Ein Gerucht ging um, dass er krank ist.」 本発明のこの実施形態では、外置変形が可能な各ノード
(Infcl、Compcl、Relcl)について、
そのノードをその現在の帰属(すなわちその親ノード)
から次に高いノード(すなわちその祖父母ノード)へと
1段階上に移動すべきかどうかを判定する。その新しい
位置から、次の可能な移動ステップについての査定をも
う1回行う。さらなる移動の確率が0.5など所定の閾
値未満である位置が見つかるまで各移動を評価する。外
置された節へのポインタとともに、元の位置に軌跡が残
される。さらに、外置された節には、その元の位置に戻
るポインタが提供される。
【0096】図10の符号374及び376によって表
す最後の2ステップは、ツリーノードにある情報に基づ
いて、動詞の形態的な特徴を割り当てる機能である。第
1の機能(動詞形態の特徴の割り当て)は、(挿入され
た助動詞または法助動詞である可能性がある)定動詞を
識別し、その動詞に合わせて時制、法、及び定型性の特
徴を変える。この機能は、構造が完了形または受動態と
マークされている場合には非助動詞を過去分詞としてマ
ークし、法助動詞があり、受動態または完了形の文脈が
ない場合には動詞を不定詞とマークする。
【0097】第2の機能(一致(agreement)
ビットをセット)は、文法的な主語を、動詞の領域内に
ある主格の名詞句として識別する。次いで、その名詞句
の人称と数の特徴を定動詞にコピーする。文法的な主語
が見つからない場合は、デフォルトの3人称単数の割り
当てを行う。
【0098】図11は、グローバル移動コンポーネント
208の出力を表す。図の例では、関係節の外置変形が
生じていることが明確に見て取れる。
【0099】次いで図11の出力を構成素間順序付けコ
ンポーネント210(図2)に入力する。図12は、構
成素間順序付けコンポーネント210の動作をより詳細
に示す流れ図である。
【0100】単語及び構成素の順序付けは、基準となる
順序に従うべき厳密度が異なるのと同様に、言語によっ
て異なる。英語とドイツ語には個々の単語をそれらが属
する直接の構成素の外側で自由に順序付けられる例が見
られないので、この例については英語及びドイツ語との
関連で述べる。
【0101】英語は構成素の順序が比較的厳格である
が、いくつかの前置操作及び外置操作でその順序を変え
ることができる。したがって、英語が「固定された」構
成素の順序を有すると述べるのは単純化しすぎである。
【0102】一方ドイツ語では、多くの主要な構成素を
前領域及び中間領域にかなり自由に分散させることがで
き、それに比べてやや低い程度で後領域に分散させるこ
とができる。同時に、動詞の位置は上述の2つのブラケ
ット位置に固定される。したがって、文のなめらかさと
理解可能性を確立する際には単語の順序が決定的な役割
を果たすことが分かる。
【0103】ある文に対して構成素が順序付けされてい
ない構文ツリーを与えられた場合、本発明の一態様で
は、各構成素内に線形の順序を確立し、各修飾語を各自
の適切な位置に置く。したがって構成素間順序付けコン
ポーネント210は各構成素を他と関係なく分離して扱
うことができるが、最終的な効果は、ツリーのすべての
葉に線形の順序を確立することである。
【0104】図12Aは、説明のために階層的に順序付
けたツリーの1つのノードを示す。このノードは、名詞
句(NP)であり、3つの子ノード、すなわち限定詞句
(DetP)、アスタリスクで示す主要部である名詞
(Noun)、及び形容詞句(AJP)を有する。さら
に、Nounは意味的関係によって次のようにその各修
飾語に連結されている。 Noun→〜DefDet→DetP 及び Noun→〜Attrib→AJP
【0105】構成素間順序付けコンポーネントは、各子
ノードを互いに対して順序付ける。したがって、3つの
ノードには次のように6つの可能な順序付けがあること
が分かる。 DetP AJP Noun* AJP Noun* DetP Noun* AJP DetP Noun* DetP AJP DetP Noun* AJP AJP DetP Noun*
【0106】3つの子ノードの適正な順序付けを判定す
るために(すなわち上記の最良の可能性を選択するため
に)、構成素間順序付けコンポーネント210は、主要
部ノード(この例ではNoun)について開始してすべ
ての可能性に段階的な探索を行う。M個の子ノードがあ
る場合、探索の段階の数はM−1になる。
【0107】図12Bは、図12Aの例の場合のこの探
索を表す。3つの子ノードがあるので、探索は2段階で
ある。段階1で、コンポーネント210は、主要部ノー
ド(名詞)について始め、主要部ノードに対する残りの
子ノードについてすべての可能性を列挙する。したがっ
て、主要部ノードと残りの子ノードの順序付けには4つ
の可能性があることが分かる。言語モデル(一実施形態
ではノードタイプ及び意味的関係についてのバイグラム
の言語モデル)を用いてこれらの仮定される順序付けそ
れぞれにスコアをつけ、ランク付けした順序で配置す
る。
【0108】例のために、図12Bに示す4つの可能性
がそのスコアに従ってランク付けされた順序になってい
るとする。次の段階で、コンポーネント210は残りの
ノードのセットから追加的な子ノードを導入することに
より、前段階の各仮定をすべての可能な形で拡張する。
この例では、段階1の仮定1は段階2で3つの異なる仮
定を生み、段階1の仮定2も段階2で異なる3つの仮定
を生むことが分かる。段階1の仮定3及び4から生じる
段階2の仮定はすべて、段階1の仮定1及び2を段階2
に拡張することによって生成される仮定の複製である。
例証的実施形態では、一意の項目だけを含む段階ごとの
リストが優先順位キューに保持される。したがって、一
意の順序付けのリストがランク順序で重複なしに保持さ
れる。
【0109】コンポーネント210は、段階2で生じた
各仮定について、拡張したシーケンスに言語モデルを適
用することによってスコアを計算する。スコアをつけた
仮定を再度ランク順序で配置し、閾値レベルを上回る
(ビームを上回る)スコアの仮定があれば次の段階に渡
す。コンポーネント210は例証的に、言語モデルを一
度に1つの構成素ずつ主要部ノードから外側の各方向に
適用する。先行する段階の仮定は後続の段階で複数の追
加的な仮定を生むので、探索空間はかなり急に大きくな
りうることが分かる。しかし、このビーム探索技術を使
用すると、探索空間を望ましい低さのレベルに維持しな
がら最良の仮定を探すことができる。
【0110】一例証的実施形態では、コンポーネント2
10は、生成的な統計言語モデルを用いて上述の主要部
及びその修飾語の可能な順序にスコアをつける。
【0111】この生成的モデルは、所与の構成素に対し
て、いくつかの関連性のある特徴との関連で修飾語のn
グラムに確率を割り当てる。特に主要部の親のノードタ
イプ(すなわち構成素のタイプ)、主要部のノードタイ
プ(すなわち品詞)、主要部の親の動詞位置ビット、主
要部の見出し語、及び主要部の祖父母のノードタイプな
どの多くの特徴を関連性のある文脈として使用すること
ができる。さらに、順序付ける構成素の多くの特徴を使
用することができ、これにはノードタイプ(品詞)、主
要部構成素に対する意味的関係、見出し語、及びその他
の語彙的、構文的、意味的な特徴が含まれる。
【0112】一例証的実施形態では、モデルは、まず各
修飾語の意味的関係を(論理形式から)予測する。これ
は、構成素の関連において、及び先行するn−1個の隣
接する要素の関連において行われる。モデルは次いで修
飾語のノードタイプ(構文カテゴリ)を予測する。
【0113】図12Cは、モデルの動作を示す別の図で
ある。このモデルは、主要部−前置修飾語の順序のモデ
ル(図12CではHead(主要部)の左に前置修飾語
がある)と、主要部−後置修飾語の順序(図12Cでは
headの右に後置修飾語がある)のモデルに分けられ
る。隣接する要素の概念に含まれるのは、前置修飾語の
始めと終わりをマークする明示的な擬似修飾語(それぞ
れ<Pr>と</Pr>)と、後置修飾語の終点をマー
クする明示的な擬似修飾語(<Ps>と</Ps>)で
ある。したがって、任意のParent(親)/Hea
dの文脈について、モデルは前置修飾語のnグラムの分
散と、後置修飾語のnグラムの分散を含むことになる。
【0114】前の例をさらに詳しく述べるために、シー
ケンス「DetP AJP Noun*」からなる仮定
H1を考えてみたい。主要部から始めることにより、こ
の仮定にスコアをつける(この場合には前置修飾語しか
ない)。上述のように、このモデルのために、前置修飾
語の始め(<Pr>)と、前置修飾語の終わり(</P
r>)をマークする。同じことを後置修飾語にも行う
(<Ps>及び</Ps>による)。この結果得られる
シーケンスは(<Pr> DetP AJP </Pr
> Noun* <Ps> </Ps>)となる。空の
後置修飾語シーケンスには意味があり、仮定の総スコア
に寄与することに留意されたい。スコアP(H1)を次
のように計算する。
【0115】 P(H1) = P(</Pr> | Noun, NP) X P(</Pr> | </Pr>, Noun, NP) X P(Attrib | </Pr>, </Pr>, Noun, NP) X P(AJP | Attrib, </Pr>, </Pr>, Noun, NP) X P(〜DefDet | AJP, Attrib, </Pr>, </Pr>, Noun, NP) X P(DetP | 〜DefDet, AJP, Attrib, </Pr>, </Pr>, Noun, NP) X P(<Pr> | DetP, 〜DesDet, AJP, Attrib, </Pr>, </Pr>, Noun, NP) X P(<pr> | <Pr>, DetP, 〜DefDet, AJP, Attrib, </Pr>, </Pr>, Noun, NP) X P(<Ps> | Noun, NP) X P(<Ps> | <Ps>, Noun, NP) X P(</Ps> | <Ps>, <Ps>, Noun, NP) X P(</Ps> | </Ps>, <Ps>, <Ps>, Noun, NP)
【0116】これらの確率はそれぞれ、右(前置修飾語
のシーケンスの場合)または左(後置修飾語のシーケン
スの場合)にある限られた数の祖先ノードを調べること
によって推定することができる。例証的実施形態では、
この数を1つに制限してバイグラムモデルを得るか、2
つに制限してトライグラムモデルを得ることができる。
さらに、これらの確率の分布は、当業者に知られる任意
の利用可能な平滑化の手法を使用して平滑化することが
できる。
【0117】順序付けの段階ではすべての可能な順序
か、または少なくとも最も見込みのある順序の中から探
索を行う。上述のように、この探索は、長さ1のすべて
の可能な不完全な順序付けを考慮し、次いで長さ2の順
序付けを考慮し、以下同様に長さnのすべての可能な完
全な順序付けを考慮することにより進行する。探索の各
段階は、モデルが十分に高いスコアを割り振る不完全な
順序付けの仮定だけを考慮するように簡潔にすることが
できる。この探索では、スコアをつけた順序の仮定を必
要な数だけ生成する。構成素中の要素の数(主要部とそ
の修飾語を数に入れる)がnに等しい場合は、n!個の
可能な順序付けがあることになる。したがって、比較的
大きな構成素の場合には、探索空間が膨大になる可能性
がある。このためビーム探索では、完全な探索の複雑性
に実際的な制限をつける。
【0118】この構成素間順序付けモデルを図12のブ
ロック380に表す。必要な場合には、ステップ380
の順序付け段階の出力を修正するのに使用できる何らか
の追加的な言語的制約がある。制約の1つは等位中の順
序付けに関するもので、接続詞と等位句が交互の順序に
なることを保証する。これを図12のブロック382に
示す。第2の制約では、肉付け段階で決定ツリークラシ
ファイアによって割り当てられた動詞位置の特徴に従っ
て動詞の配置を調整する。動詞配置の機能は、動詞が2
番目に来る構造と動詞が最初に来る構造では定動詞を左
ブラケット位置に移動し、すべての非定型動詞が確実に
右ブラケット位置に並ぶようにする。動詞順序の固定を
図12のブロック384に示す。第3の制約では、ブロ
ック386に示すように関係代名詞の順序を調整する。
この機能は、関係代名詞を関係節の最初に移動する。最
後にWh句の順序を決定することができる。これを図1
2のブロック388に示す。
【0119】ここで例として使用する文について、構成
素間順序付けコンポーネント210によって出力される
順序付けされたツリーを図13に示す。図13の構造は
次いで表層クリーンアップコンポーネント212に提供
される。
【0120】図14は、表層クリーンアップコンポーネ
ント212の動作をより詳細に説明する流れ図である。
図13の構造から、正しい表層文字列に到達するために
はなおいくつかの事柄を行わなければならないことが分
かる。例えば、限定詞の表層実現を行わなければならな
い。これは、(ここで述べる実施形態では)図14のブ
ロック400に示すように決定ツリークラシファイアに
よって行われる。ドイツ語のトレーニングデータでは5
5の異なる限定詞の形が認められている。限定詞の実現
は規則によって指定することができるが、本明細書の付
録2で述べるように決定ツリークラシファイアによって
決定することもできる。したがって、ここで考察中の例
では、抽象的な限定詞「Defdet」がその表層実
現、すなわち「die」に変換される。
【0121】また、関係代名詞「RelPro」もその
表層実現に変換しなければならない。一実施形態ではこ
れも決定ツリークラシファイアを用いて行うが、手作業
の(hand−crafted)選択プロセスを用いて
行うこともできる。関係代名詞の表層実現を図14のブ
ロック410に示す。
【0122】肉付け段階の挿入の際に同じく抽象的な形
態を受け取った再帰代名詞は、規則に基づく機能によっ
て各自の表層実現に変換する。これを図14のブロック
412に示す。ここで例とする文に対するこれらの操作
の結果を図15に示すが、これは形が整い完全に順序付
けられた構文ツリー230を示している。
【0123】図14から、段階212の表層クリーンア
ップは、ここで説明する例では説明しない追加的機能を
含むことができることが分かる。この機能は、例えば、
図14のブロック414に示すように等位の構成素中の
重複の低減を含むことができる。この機能を説明するた
めに、次のような文を考えてみたい。 「Hans hat die Kartoffeln gekocht und gegessen.」 (Hans has cooked and eaten the potatoes.) この文の論理形式は、動詞「kochen」(coo
k)と「essen」(eat)、主語「Hans」及
び目的語「die Kartoffeln」(the
potatoes)それぞれの間の意味的関係を正しく
確立する。しかし本発明によりツリー構造に対応付ける
と、表層文字列は入力論理形式にあったすべての関係を
符号化してしまい、次のように重複が生じる。
【0124】「Hans hat die Kartoffeln gekocht und
Hans hat die Kartoffeln gegessen.」(Hans has cook
ed the potatoes and Hans has eaten the potatoes.) これは、文法的には完全に正しいドイツ語の文である
が、求められるなめらかな出力ではない。このため、表
層クリーンアップコンポーネント212は例証的に、等
位中の重複の削除に関連する2つの操作を含む。図14
の符号414に示す第1の操作は、等位構造中の重複し
たノードそれぞれに明白に実現される確率を確立する決
定ツリークラシファイアに基づく。ブロック416に示
す第2の操作では重複した機能語(前置詞や助動詞な
ど)を削除する。これらの操作は、機械学習技術を使用
してまたは規則に基づく手順を使用して実現することが
できる。
【0125】例えば一実施形態では、第1の目的語と第
2の主語、及びそれらに関連付けられた機能語を削除す
る。この結果、最初の「die Kartoffel
n」(the potatoes)の出現と、2番目の
「Hans hat」(Hashas)の出現が削除さ
れる。したがって、文は「Hans hat gekocht und dieKa
rtoffeln gegessen.」(Hans has cooked and eaten th
e potatoes.)となる。
【0126】順序付けられた構文ツリーにコンポーネン
ト212で表層クリーンアップを行うと、それが図2の
句読点挿入コンポーネント214に提供される。句読点
が挿入されると、ツリーは屈折生成コンポーネント21
6に提供される。図16は、句読点挿入コンポーネント
214と屈折生成コンポーネント216の動作をより詳
細に説明する流れ図である。
【0127】ドイツ語の句読規則は難しく、スペリング
改良でより多くの平易化が実現されたものの、コンマの
正しい配置だけをとってもなお26個の異なる規則があ
る。句読法の規則は通例「yの後に句読点xを挿入す
る」形か、または「yの前に句読点xを挿入する」形な
ので、前に来る句読点と後に来る句読点について異なる
2つの決定ツリークラシファイアを使用する。一例証的
実施形態では、これらのモデルは文内部の句読点にのみ
適用する。というのは、文の最後の句読点は規則に基づ
く比較的単純な関数によって挿入することができるから
である。
【0128】一実施形態では、句読点挿入コンポーネン
ト214に提供されるツリー230の各終端ノードで、
その終端ノードの左端とその前のノードの右端をそれぞ
れ、前に来る句読点と後に来る句読点のクライファイア
に渡す。両クラシファイアの判断を集め、句読点の挿入
について強い予測(例えば0.5を超える)がある場合
には、その予測のうち最も強いものが勝ち、予測される
句読点がツリーに挿入される。句読点のラベリングを図
16のブロック420に示し、この例の完全に句読点を
つけた構文ツリー232を図17に示す。
【0129】屈折をつけた最終的なツリー234(図
2)を得る前の最後の段階は、屈折生成コンポーネント
216による屈折生成処理である。ドイツ語は、非常に
豊かな屈折形態構造の体系を持つ。ドイツ語の文実現な
らびに構文解析に特に重要なのは、名詞句の格マーキン
グである。ドイツ語には、主格、対格、与格、及び属格
の4種類の格がある。語彙項目の形態クラス、限定詞の
選択、数、及び性などいくつかの要因に応じて、名詞句
の各種の要素、すなわち名詞自体、限定詞、及び(存在
する場合は)形容詞に形態的に格を実現することができ
る。ドイツ語の文実現における格マーキングの重要性
は、その構成素の順序が比較的自由なので節中の名詞句
の意味的役割を判定する際に格がしばしば重要なツール
になるという事実から生じている。ある(例えば能動態
の)節が主格と対格の名詞句を含む場合、文の文字列中
の各自の線形順序に関係なく主格の句が主語であると確
実にみなすことができ、対格の句が目的語であるとみな
すことができる。
【0130】パイプラインのこの時点(屈折生成コンポ
ーネント216の直前)におけるツリー構造中のレコー
ドは、コンポーネント216に渡すべきすべての必要な
情報を含んでいる。ドイツ語の場合に屈折生成コンポー
ネント216に渡される特徴には、格、性、数、人称な
どが含まれる。一例として、図17のツリーのノードS
TEM1のレコードを図18に示す。特徴 Pers2
SingPresIndicatに基づいて、見出し
語「essen」から「isst」の動詞を生成するこ
とができる。構文ツリーの終端ノードをその屈折ビット
及び名詞の格情報と共に生成機能に渡す。
【0131】一実施形態では、屈折生成機能は、ワシン
トン州レドモンドのマイクロソフト社から提供される
「MICROSOFT(登録商標)」Office製品
の文法チェッカのために開発された機能である。これは
一例に過ぎず、このタイプの形態的な生成を行うには任
意の他の機能を使用することができる。この屈折生成機
能は有限状態の形態構造を利用する。屈折生成の実行を
図16のブロック422に示す。コンピュータ216に
よって提供される、ここで検討中の例の屈折させた最終
的な構文ツリー234を図19に示す。
【0132】最後に、ツリー読み取りコンポーネント2
18は単に屈折をつけた最終的なツリー234の文字列
を読み取って表層文字列236を提供する。本発明によ
れば、表層文字列は抽象的な言語入力によって表される
文に正確に対応し、「Hans isst die Kartoffeln auf,
die er gestern geerntet hat.」(Hans eats up the p
otatoes which he has harvested yesterday.)とな
る。
【0133】このように、本発明の一実施形態では文実
現のプロセス全体をいくつかの決定点に分解する。この
決定点の一部には機械学習法を使用し、他の決定点には
規則に基づく方法を使用する。言うまでもなく、大半の
決定点は、機械学習コンポーネントまたは規則に基づく
コンポーネントによって実装することができる。
【0134】一例証的実施形態では、パイプラインの各
決定点で閾値数の仮定だけを次の決定点に渡す。したが
ってこのシステムでは、文のあらゆる可能な実現を列挙
しない。代わりに各段階で仮定に順位をつけ、各段階が
所定の閾値を満たす順位づけした仮定を次に送る。
【0135】次の段階に送られる各仮定は、次の段階で
複数の追加的な仮定を生む可能性がある。したがって、
この段階的なプロセスでも探索空間が望ましくないほど
大きくなる可能性がある。しかし、本発明はビーム探索
技術を使用して、探索空間を管理可能な大きさに維持す
る。
【0136】言うまでもなく、このシステム200全体
の個々の処理段階はそれ自体で独立できる本発明の特徴
であることにも留意されたい。
【0137】同様に、文実現システムは、その抽象的な
言語入力として論理形式ではなく何らかの他のグラフま
たは依存構造を受け取ってもよい。その場合には、構造
は、パイプラインの様々に異なる時点で図2に示すプロ
セスに入ることができる。このように本発明の発明概念
はすべての処理段階を使用しない場合にも使用すること
ができる。
【0138】同様に、本発明との関連で述べたいくつか
の機能及び処理段階は英語またはドイツ語に固有のもの
であるに気付かれよう。別の言語を処理する場合には、
単に英語またはドイツ語に固有のモジュールを使用不可
にするか、またはそれはまったく存在する必要がない。
同様に、ここに述べる本発明の概念から逸脱することな
く、本発明にしたがって、他の所望の言語に固有の他の
モジュールまたは処理段階または機能をパイプラインに
追加することができる。
【0139】本発明について特定の実施形態を参照して
説明したが、当業者は、本発明の趣旨及び範囲から逸脱
することなく形態及び詳細事項を変更できることを理解
されよう。
【0140】 (付録1) テーブルA Function DeepDegraphLF Parameters: Root: the root of a logical form graph Returns: The root of the degraphed logical form Begin Function laIgnore ←{Original Clones ParentAttrs CopyLFCopiedTo CopyOf Rules Co nstits BoxCodeChecks WeightedPaths LexNode MatchPaths Topicl Parents Sim ples AmbRecs ExpandSCs AmbGCs Counts Masses Coordnode HypSynLems Emph No rninf Colndex RefOf Refs} Call DeepDegraphLFSubgraph (Root, laIgnore) Set Parents attribute of Root to NULL Set ParentAttrs attribute of Root to the empty set Return Root End Function テーブルB Function DeepDegraphLFSubgraph Parameters: CurrentNode: the current logical form node SkipAttrs: list of attributes that should be skipped during degraphing Returns: A degraphed logical form. Begin Function laShallowOnly ← {Pred SynNode} For each attribute attr in the logical form attributes If attr is not in the list SkipAttrs Then For each record rec connected to CurrentNode by the relation attr If node rec has been visited already or if attr is a member of func_If_attrs Then If rec is an ancestor of CurrentNode or attr is "CoCoords" Then // Perform a shallow copy only AttrsToSkip ← union of SkipAttrs and sem_rel_rels rec2 = CopyLFStruct(rec, AttrsToSkip, laShallowOnly) Else rec2 = CopyLFStruct(rec, SkipAttrs, laShallowOnly) End If If attr is not "CoCoords" Set the Parents attribute of rec2 to point to CurrentNode Set the ParentAttrs attribute of rec2 to attr End If Add rec2 as a child of CurrentNode With the relation attr Else not previously visited and/ attr is not in func_If_ attrs DeepDegraphLFSubgraph(rec, Skip Attrs) Set the Parents attribute of rec to point to CurrentNode Set the parentAttrs attribute of rec to attr Add rec as a child of CurrentNode with the relation attr End If End If // attr is not in the list SkipAttrs End For Each End for each attr in the logical form attributes End Function テーブルC Function CopyLFStruct Parameters: CurrentNode: The current logical form node SkipAttrs: A list of attributes to skip lstShallowCopy Only: A list of attributes to shallow copy only Returns: A copy of a logical form subgraph, with some elements shallow copied a nd some elements deep copied. Begin Function If CurrentNode has been visited before Return the copy that we made previously End If Create a new empty record called NewNode iIndex ← absolute value of the CoIndex attribute of CurrentNode If iIndex is not zero Set the CoIndex attribute of NewNode to -iIndex Else iTempIndex ← New unique index Set the CoIndex attribute of CurrentNode to iTempIndex Set the CoIndex attribute of NewNode to -iTempIndex End If On NewNode, set all bits that are set on CurrentNode For each attribute attr present on CurrentNode If attr is in the list lstShallowCopyOnly Shallow copy all values of attribute attr from NewNode to Current Node Else If attr is not in the list SkipAttrs Then For each record rec in the relationship attr to CurrentNode Val = CopyLFStruct(rec, SkipAttrs, lstShallowCopyOnly) Set the Parents attribute of Val to point to NewNode Set the ParentAttrs attribute of Val to attr Add Val to NewNode with relationship attr End for each record rec in the relationship attr to CurrentNode End If End for each attribute attr present on CurrentNode Return NewNode End Function
【0141】
【発明の効果】以上説明したように本発明によれば、文
の抽象的言語表現(ALR)を処理して、完全に実現可
能な構造にすることができる。
【図面の簡単な説明】
【図1】本発明の実施形態の一例示的環境のブロック図
である。
【図2】本発明の実施形態のデータフローを表したブロ
ック図である。
【図3】本発明の実施形態の、論理形式として実施され
た、入力として用いられる文の例示的な意味的表現の図
である。
【図4】本発明の実施形態の入力の前処理をより完全に
説明する流れ図である。
【図5】本発明の実施形態の前処理コンポーネントの出
力を表すデータ構造の図である。
【図6】本発明の実施形態の肉付けコンポーネントの動
作をより完全に説明する流れ図である。
【図7】本発明の実施形態の肉付けコンポーネントの出
力の図である。
【図8】本発明の実施形態の基本ツリー変換コンポーネ
ントの動作を説明する流れ図である。
【図9】本発明の実施形態の基本ツリー変換コンポーネ
ントの基本的なツリーの出力の図である。
【図10】本発明の実施形態のグローバル移動コンポー
ネントをより完全に説明する流れ図である。
【図11】本発明の実施形態のグローバル移動コンポー
ネントの出力の図である。
【図12】本発明の実施形態の構成素間順序付けコンポ
ーネントの動作をより完全に説明する流れ図である。
【図12A】本発明の実施形態の構成素間順序付けコン
ポーネントの動作を表す図である。
【図12B】本発明の実施形態の構成素間順序付けコン
ポーネントの動作を表す図である。
【図12C】本発明の実施形態の構成素間順序付けコン
ポーネントの動作をさらに表す図である。
【図13】本発明の実施形態の構成素間順序付けコンポ
ーネントの出力の図である。
【図14】本発明の実施形態の表層クリーンアップコン
ポーネントの動作を説明する流れ図である。
【図15】本発明の実施形態の表層クリーンアップコン
ポーネントの出力の図である。
【図16】本発明の実施形態の句読点挿入コンポーネン
ト及び屈折生成コンポーネントの動作を説明する流れ図
である。
【図17】本発明の実施形態の句読点挿入コンポーネン
トの出力の図である。
【図18】本発明の実施形態の屈折生成コンポーネント
に入力されるノードのレコードの例証的実施形態の図で
ある。
【図19】本発明の実施形態の屈折生成コンポーネント
の出力の図である。
【符号の説明】
100 コンピューティング環境 110、180 コンピュータ 120 プロセッサ 121 システムバス 130 システムメモリ 131 ROM 132 RAM 133 BIOS 134、144 オペレーティングシステム 135、145、185 アプリケーションプログラム 136、146 プログラムモジュール 137、147 プログラムデータ 140、150、160 インタフェース 141 ハードディスクドライブ 151 磁気ディスクドライブ 152 磁気ディスク 155 光ディスクドライブ 156 光ディスク 161 ポインティングデバイス 162 キーボード 163 マイクロフォン 170 アダプタ 171 LAN 172 モデム 173 WAN 190 ビデオインタフェース 191 モニタ 195 出力周辺インタフェース 196 プリンタ 197 スピーカ 200 文実現コンポーネント 202 前処理コンポーネント 204 肉付けコンポーネント 206 基本ツリー変換コンポーネント 208 グローバル移動コンポーネント 210 構成素間順序付けコンポーネント 212 表層クリーンアップコンポーネント 214 句読点挿入コンポーネント 216 屈折生成コンポーネント 218 ツリーリーダコンポーネント 220 非グラフ構造 222 構文情報を付加した非グラフ構造 224 順序付けられていない基本構文ツリー 226 階層的に順序付けた構文ツリー 228 完全に順序付けた構文ツリー 230 形が整い、順序付けられた構文ツリー 232 句読点を挿入した完全なツリー 234 屈折をつけた最終的なツリー 236 表層文字列
───────────────────────────────────────────────────── フロントページの続き (72)発明者 サイモン コーストン−オリバー アメリカ合衆国 98103 ワシントン州 シアトル ウォーリンフォード アベニュ ー ノース 4610 (72)発明者 マイケル ガモン アメリカ合衆国 98107 ワシントン州 シアトル サード アベニュー ノースウ エスト 5918 (72)発明者 エリック リンガー アメリカ合衆国 98027 ワシントン州 イサコア 187 プレイス サウスイース ト 4568 (72)発明者 ロバート シー.ムーア アメリカ合衆国 98040 ワシントン州 マーサー アイランド ファーンクロフト ロード 4509 (72)発明者 シュ シャン アメリカ合衆国 48105 ミシガン州 ア ン アーバー マーフィン アベニュー 1678 アパートメント 12 Fターム(参考) 5B091 AA15 BA19 CA05 CA21

Claims (106)

    【特許請求の範囲】
  1. 【請求項1】 文の抽象的言語表現(ALR)を処理し
    て、完全に実現可能な構造にする文実現システムであっ
    て、 前記ALRを受け取り、該ALRから基本的な構文ツリ
    ーを生成するツリー変換コンポーネントであって、該基
    本構文ツリーは親ノード及び子ノードを含み、該親ノー
    ドは該子ノードの祖先ノードであるツリー変換コンポー
    ネントと、 前記基本構文ツリーを受け取り、祖先ノードに対して子
    ノードを階層的に順序付けて階層的に順序付けられたツ
    リーを得るグローバル移動コンポーネントと、 前記階層的に順序付けられたツリーを受け取り、前記階
    層的に順序付けられたツリーのノードに線形の順序を確
    立して完全に順序付けられたツリーを得る構成素間順序
    付けコンポーネントと、 前記完全に順序付けられたツリーを受け取り、実現すべ
    きであるがなお抽象的である、前記完全に順序付けられ
    たツリー中の構成素の表層実現を生成して形の整ったツ
    リーを得る表層クリーンアップコンポーネントとを備え
    たことを特徴とするシステム。
  2. 【請求項2】 前記形の整ったツリーに句読点を挿入し
    て、句読点が挿入されたツリーを得る句読点挿入コンポ
    ーネントをさらに備えたことを特徴とする請求項1に記
    載のシステム。
  3. 【請求項3】 前記句読点をつけたツリーを受け取り、
    正しい屈折を反映するように前記句読点をつけたツリー
    を修正する屈折生成コンポーネントをさらに備えたこと
    を特徴とする請求項2に記載のシステム。
  4. 【請求項4】 前記ツリー変換コンポーネントの前に前
    記ALRを受け取り、該ALRのノードに構文ラベルを
    付加する肉付けコンポーネントをさらに備えたことを特
    徴とする請求項1に記載のシステム。
  5. 【請求項5】 前記肉付けコンポーネントは、前記AL
    Rに機能語を挿入するように構成されることを特徴とす
    る請求項4に記載のシステム。
  6. 【請求項6】 前記肉付けコンポーネントは、前記AL
    R中の論理的主語及び論理的目的語に実現の確率を割り
    当てることを特徴とする請求項4に記載のシステム。
  7. 【請求項7】 前記肉付けコンポーネントは、前記AL
    R中の名詞句の格を識別することを特徴とする請求項4
    に記載のシステム。
  8. 【請求項8】 前記肉付けコンポーネントは、前記AL
    R中の動詞に動詞位置を割り当てることを特徴とする請
    求項4に記載のシステム。
  9. 【請求項9】 前記肉付けコンポーネントは抽象的な限
    定詞を挿入することを特徴とする請求項4に記載のシス
    テム。
  10. 【請求項10】 前記肉付けコンポーネントは助動詞を
    挿入することを特徴とする請求項5に記載のシステム。
  11. 【請求項11】 前記肉付けコンポーネントは前置詞を
    挿入することを特徴とする請求項5に記載のシステム。
  12. 【請求項12】 前記肉付けコンポーネントは否定語を
    挿入することを特徴とする請求項5に記載のシステム。
  13. 【請求項13】 前記肉付けコンポーネントは不定詞標
    識を挿入することを特徴とする請求項5に記載のシステ
    ム。
  14. 【請求項14】 前記肉付けコンポーネントは従属接続
    詞を挿入することを特徴とする請求項5に記載のシステ
    ム。
  15. 【請求項15】 前記肉付けコンポーネントは虚辞主語
    を挿入することを特徴とする請求項5に記載のシステ
    ム。
  16. 【請求項16】 前記肉付けコンポーネントは抽象的な
    関係代名詞を挿入することを特徴とする請求項5に記載
    のシステム。
  17. 【請求項17】 前記肉付けコンポーネントは抽象的な
    再帰代名詞を挿入することを特徴とする請求項5に記載
    のシステム。
  18. 【請求項18】 前記肉付けコンポーネントは副詞のW
    h語を挿入することを特徴とする請求項5に記載のシス
    テム。
  19. 【請求項19】 前記ALRはグラフであり、 前記ALRを受け取り、該ALRを該ALR中の各ノー
    ドが多くとも1つの親ノードを有するツリー構造に変換
    する前処理コンポーネントをさらに備えたことを特徴と
    する請求項1に記載のシステム。
  20. 【請求項20】 前記前処理コンポーネントは、前記A
    LR中の語彙項目について語彙データベースでルックア
    ップ動作を行い、該ルックアップ動作による語彙情報を
    表す属性で前記ツリー構造を補足するように構成される
    ことを特徴とする請求項19に記載のシステム。
  21. 【請求項21】 前記構成素間順序付けコンポーネント
    は、親ノードを選択し、前記階層的に順序付けられたツ
    リーの各子ノードを、選択された前記親ノードを有する
    他の子ノードに関連して線形に順序付けることにより、
    前記階層的に順序付けられたツリーをトラバースするよ
    うに構成されたことを特徴とする請求項1に記載のシス
    テム。
  22. 【請求項22】 選択された各親ノードはそれに対応す
    る主要部の子ノードを有し、前記構成素間順序付けコン
    ポーネントは、子ノードの順序を互いに関連して仮定す
    る順序の仮定を生成し、各順序の仮定にスコアをつける
    ように構成されたことを特徴とする請求項21に記載の
    システム。
  23. 【請求項23】 前記構成素間順序付けコンポーネント
    は、第1の処理段階で、前記主要部の子ノードの修飾語
    として順序付けられた子ノードそれぞれに順序の仮定を
    生成することにより前記順序の仮定それぞれを生成する
    ように構成されたことを特徴とする請求項22に記載の
    システム。
  24. 【請求項24】 前記構成素間順序付けコンポーネント
    は、各順序の仮定と関連付けられたスコアを計算するよ
    うに構成されたことを特徴とする請求項23に記載のシ
    ステム。
  25. 【請求項25】 前記構成素間順序付けコンポーネント
    は、後続の処理段階で、前記第1の処理段階で生成され
    た所望の順序の仮定それぞれに前記子ノードのうち別の
    ものを修飾語として付加することにより、拡張された順
    序の仮定を生成するように構成されたことを特徴とする
    請求項24に記載のシステム。
  26. 【請求項26】 前記所望の順序の仮定は、閾値レベル
    を満たすスコアを有する仮定であることを特徴とする請
    求項25に記載のシステム。
  27. 【請求項27】 前記構成素間順序付けコンポーネント
    は、拡張された順序の仮定それぞれのスコアを生成する
    ように構成されたことを特徴とする請求項26に記載の
    システム。
  28. 【請求項28】 選択された前記親ノードはm個の子ノ
    ードを有し、前記構成素間順序付けコンポーネントは、
    所望の閾値を満たすスコアを有する拡張された各仮定に
    前記後続の処理段階をm−2回繰り返すように構成され
    たことを特徴とする請求項27に記載のシステム。
  29. 【請求項29】 前記構成素間順序付けコンポーネント
    は、前記順序の仮定及び前記拡張された順序の仮定と関
    連付けられたスコアを生成するnグラムの言語モデルを
    含むことを特徴とする請求項27に記載のシステム。
  30. 【請求項30】 前記nグラムの言語モデルは、各修飾
    語と前記主要部の子ノードとの意味的関係に基づいて前
    記順序の仮定及び前記拡張された順序の仮定に確率を割
    り当てることにより前記スコアを生成することを特徴と
    する請求項29に記載のシステム。
  31. 【請求項31】 前記基本ツリー変換コンポーネント
    は、実現の確率が閾値未満の論理的主語及び論理的目的
    語を除去するように構成されたことを特徴とする請求項
    6に記載のシステム。
  32. 【請求項32】 前記基本ツリー変換コンポーネント
    は、前記ALR中のノードから前記基本構文ツリーの非
    終端ノードにラベルをコピーするように構成されたこと
    を特徴とする請求項31に記載のシステム。
  33. 【請求項33】 前記基本ツリー変換コンポーネント
    は、動詞が語幹及び分離可能な接頭辞を有することを表
    す動詞の語彙特徴を含む前記ALR中のノードを識別
    し、該動詞が分離可能な文脈にあることを識別し、識別
    された前記ノードを語幹ノードと接頭辞ノードに分割す
    るように構成されたことを特徴とする請求項32に記載
    のシステム。
  34. 【請求項34】 前記基本ツリー変換コンポーネント
    は、前記ALR中の等位構造を識別し、前記等位構造を
    表す等位の構文ノードを導入するように構成されたこと
    を特徴とする請求項31に記載のシステム。
  35. 【請求項35】 各等位構造は、等位の構成素間で交互
    に現れる接続詞を含むように構成されたことを特徴とす
    る請求項34に記載のシステム。
  36. 【請求項36】 前記基本ツリー変換コンポーネント
    は、構文及び意味の支配関係が矛盾する文脈を前記AL
    R中で識別し、前記識別された文脈中の構文的な支配関
    係を逆転するように構成されたことを特徴とする請求項
    31に記載のシステム。
  37. 【請求項37】 前記表層クリーンアップコンポーネン
    トは、前記完全に順序付けられたツリーの抽象的な関係
    代名詞を表層実現に変換するように構成されたことを特
    徴とする請求項1に記載のシステム。
  38. 【請求項38】 前記表層クリーンアップコンポーネン
    トは、前記完全に順序付けられたツリーの抽象的な限定
    詞を表層実現に変換するように構成されたことを特徴と
    する請求項1に記載のシステム。
  39. 【請求項39】 前記表層クリーンアップコンポーネン
    トは、前記完全に順序付けられたツリーの抽象的な再帰
    代名詞を表層実現に変換するように構成されたことを特
    徴とする請求項1に記載のシステム。
  40. 【請求項40】 前記表層クリーンアップコンポーネン
    トは、前記完全に順序付けられたツリーで等位関係にあ
    る重複した構成素のインスタンスを識別し、前記識別さ
    れたインスタンス中の重複を低減するように構成された
    ことを特徴とする請求項1に記載のシステム。
  41. 【請求項41】 前記句読点コンポーネントは、 前に来る句読点をモデル化する第1の句読点モデルを備
    えたことを特徴とする請求項2に記載のシステム。
  42. 【請求項42】 前記句読点コンポーネントは、 後に来る句読点をモデル化する第2の句読点モデルを備
    えたことを特徴とする請求項41に記載のシステム。
  43. 【請求項43】 前記第1及び第2の句読点モデルを文
    内部の句読点に適用することを特徴とする請求項42に
    記載のシステム。
  44. 【請求項44】 前記句読点コンポーネントは、文の最
    後の句読機能を実施して、文の最後の句読点を識別する
    ように構成されたことを特徴とする請求項43に記載の
    システム。
  45. 【請求項45】 前記グローバル移動コンポーネント
    は、各子ノードを異なる祖先ノードから垂れ下がるよう
    に移動すべきかどうかを判定し、移動すべき場合は、前
    記異なる祖先ノードから垂れ下がるように前記子ノード
    の順序を変更するように構成されたことを特徴とする請
    求項1に記載のシステム。
  46. 【請求項46】 前記グローバル移動コンポーネント
    は、外置可能なノードを識別し、識別された前記ノード
    を異なる祖先ノードから垂れ下がるように移動すべきか
    どうかを判定し、移動すべき場合は、前記異なる祖先ノ
    ードから垂れ下がるように識別された前記ノードを移動
    するように構成されたことを特徴とする請求項45に記
    載のシステム。
  47. 【請求項47】 前記グローバル移動コンポーネント
    は、前記基本構文ツリー中で述部の文脈及び連結動詞を
    識別し、形容詞句及び名詞句のノードを識別された前記
    文脈中の前記連結動詞のレベルに繰り上げるように構成
    されたことを特徴とする請求項47に記載のシステム。
  48. 【請求項48】 前記グローバル移動コンポーネント
    は、繰り上げ動詞を識別し、識別された前記繰り上げ動
    詞の主語を繰り上げるように構成されたことを特徴とす
    る請求項45に記載のシステム。
  49. 【請求項49】 前記グローバル移動コンポーネント
    は、別のWh句またはWh疑問句によって支配されてい
    ない前記基本構文ツリー中のWh句を表すノードを識別
    し、識別された前記ノードがWh疑問句を表す祖先ノー
    ドを有するかどうかを判定し、有する場合は前記祖先ノ
    ードから垂れ下がるように識別された前記ノードを移動
    するように構成されたことを特徴とする請求項45に記
    載のシステム。
  50. 【請求項50】 前記グローバル移動コンポーネント
    は、関係節によって支配されていない関係代名詞を表す
    前記基本構文ツリー中のノードを識別し、識別された前
    記ノードが関係節を表す祖先ノードを有するかどうかを
    判定し、有する場合は前記祖先ノードから垂れ下がるよ
    うに識別された前記ノードを移動するように構成された
    ことを特徴とする請求項45に記載のシステム。
  51. 【請求項51】 前記グローバル移動コンポーネント
    は、前記基本構文ツリー中の動詞ターゲットに屈折の特
    徴を分配するように構成されたことを特徴とする請求項
    45に記載のシステム。
  52. 【請求項52】 前記グローバル移動コンポーネント
    は、前記基本構文ツリー中の定動詞を識別し、識別され
    た動詞に合わせて時制、法、及び定形性の特徴を変える
    ことにより、前記基本構文ツリー中の動詞ターゲットに
    屈折の特徴を分配するように構成されたことを特徴とす
    る請求項51に記載のシステム。
  53. 【請求項53】 前記グローバル移動コンポーネント
    は、前記動詞ターゲットの領域中で文法的主語が主格の
    名詞句であると識別し、前記名詞句の人称及び数の特徴
    を定動詞にコピーすることにより、前記基本構文ツリー
    中の動詞ターゲットに屈折の特徴を分配するように構成
    されたことを特徴とする請求項51に記載のシステム。
  54. 【請求項54】 前記グローバル移動コンポーネント
    は、文法的主語が識別されない場合は3人称単数の特徴
    を前記動詞ターゲットに割り当てるように構成されたこ
    とを特徴とする請求項53に記載のシステム。
  55. 【請求項55】 実現する文を表すツリー構造の構成素
    を順序付け、該ツリー構造は子ノード及び祖先ノードを
    有する、文実現のための順序付けシステムであって、 前記ツリー構造のノードに線形の順序を確立して完全に
    順序付けられたツリーを得る構成素間順序付けコンポー
    ネントを備えたことを特徴とするシステム。
  56. 【請求項56】 前記構成素間順序付けコンポーネント
    は、親ノードを選択し、選択された前記親ノードを有す
    る他の子ノードに関連して前記ツリーの各子ノードを線
    形に順序付けることにより前記ツリー構造をトラバース
    するように構成されたことを特徴とする請求項55に記
    載のシステム。
  57. 【請求項57】 選択された各親ノードはそれに対応す
    る主要部の子ノードを有し、前記構成素間順序付けコン
    ポーネントは、子ノードの順序を互いに関連して仮定す
    る順序の仮定を生成するように構成されたことを特徴と
    する請求項56に記載のシステム。
  58. 【請求項58】 前記構成素間順序付けコンポーネント
    は、第1の処理段階で、前記主要部の子ノードの修飾語
    として順序付けられた子ノードそれぞれに順序の仮定を
    生成することにより前記順序の仮定それぞれを生成する
    ように構成されたことを特徴とする請求項57に記載の
    システム。
  59. 【請求項59】 前記構成素間順序付けコンポーネント
    は、各順序の仮定と関連付けられたスコアを計算するよ
    うに構成されたことを特徴とする請求項58に記載のシ
    ステム。
  60. 【請求項60】 前記構成素間順序付けコンポーネント
    は、後続の処理段階で、前記第1の処理段階で生成され
    た所望の順序の仮定それぞれに子ノードのうち別のもの
    を修飾語として付加することにより、拡張された順序の
    仮定を生成するように構成されたことを特徴とする請求
    項59に記載のシステム。
  61. 【請求項61】 前記所望の順序の仮定は、閾値レベル
    を満たすスコアを有する仮定であることを特徴とする請
    求項60に記載のシステム。
  62. 【請求項62】 前記構成素間順序付けコンポーネント
    は、拡張された順序の仮定それぞれのスコアを生成する
    ように構成されたことを特徴とする請求項61に記載の
    システム。
  63. 【請求項63】 選択された前記親ノードはm個の子ノ
    ードを有し、前記構成素間順序付けコンポーネントは、
    所望の閾値を満たすスコアを有する拡張された各仮定に
    前記後続の処理段階をm−2回繰り返すように構成され
    たことを特徴とする請求項62に記載のシステム。
  64. 【請求項64】 前記構成素間順序付けコンポーネント
    は、前記順序の仮定及び前記拡張された順序の仮定と関
    連付けられた前記スコアを生成するnグラムの言語モデ
    ルを含むことを特徴とする請求項62に記載のシステ
    ム。
  65. 【請求項65】 実現する文を表すツリー構造を順序付
    け、該ツリー構造は子ノード及び祖先ノードを有する、
    文実現のための順序付けシステムであって、 前記ツリー構造を受け取り、祖先ノードに対して子ノー
    ドを階層的に順序付けて階層的に順序付けられたツリー
    を得、該階層的に順序付けられたツリーを出力として提
    供するグローバル移動コンポーネントを備えたことを特
    徴とするシステム。
  66. 【請求項66】 前記グローバル移動コンポーネント
    は、各子ノードを異なる祖先ノードから垂れ下がるよう
    に移動すべきかどうかを判定し、移動すべき場合は、前
    記異なる祖先ノードから垂れ下がるように前記子ノード
    の順序を変更するように構成されたことを特徴とする請
    求項65に記載のシステム。
  67. 【請求項67】 前記グローバル移動コンポーネント
    は、前記ツリー構造中で述部の文脈及び連結動詞を識別
    し、形容詞句及び名詞句のノードを識別された前記文脈
    中の前記連結動詞のレベルに繰り上げるように構成され
    ることを特徴とする請求項66に記載のシステム。
  68. 【請求項68】 前記グローバル移動コンポーネント
    は、繰り上げ動詞を識別し、識別された前記繰り上げ動
    詞の主語を繰り上げるように構成されることを特徴とす
    る請求項66に記載のシステム。
  69. 【請求項69】 前記グローバル移動コンポーネント
    は、別のWh句またはWh疑問句によって支配されてい
    ない前記ツリー構造中のWh句を表すノードを識別し、
    識別された前記ノードがWh疑問句を表す祖先ノードを
    有するかどうかを判定し、有する場合は前記祖先ノード
    から垂れ下がるように識別された前記ノードを移動する
    ように構成されたことを特徴とする請求項66に記載の
    システム。
  70. 【請求項70】 前記グローバル移動コンポーネント
    は、別の関係節によって支配されていない関係代名詞を
    表す前記ツリー構造中のノードを識別し、識別された前
    記ノードが関係節を表す祖先ノードを有するかどうかを
    判定し、有する場合は前記祖先ノードから垂れ下がるよ
    うに識別された前記ノードを移動するように構成された
    ことを特徴とする請求項66に記載のシステム。
  71. 【請求項71】 前記グローバル移動コンポーネント
    は、前記基本構文ツリー中の動詞ターゲットに屈折の特
    徴を分配するように構成されたことを特徴とする請求項
    66に記載のシステム。
  72. 【請求項72】 前記グローバル移動コンポーネント
    は、前記ツリー構造中の定動詞を識別し、識別された前
    記動詞に合わせて時制、法、及び定形性の特徴を変える
    ことにより、前記ツリー構造の動詞ターゲットに屈折の
    特徴を分配するように構成されたことを特徴とする請求
    項71に記載のシステム。
  73. 【請求項73】 前記グローバル移動コンポーネント
    は、前記動詞ターゲットの領域中で文法的主語が主格の
    名詞句であると識別し、前記名詞句の人称及び数の特徴
    を定動詞にコピーすることにより、前記ツリー構造中の
    動詞ターゲットに屈折の特徴を分配するように構成され
    たことを特徴とする請求項71に記載のシステム。
  74. 【請求項74】 前記グローバル移動コンポーネント
    は、文法的主語が識別されない場合は3人称単数の特徴
    を前記動詞ターゲットに割り当てるように構成されたこ
    とを特徴とする請求項73に記載のシステム。
  75. 【請求項75】 テキスト入力に句読点を挿入する句読
    点コンポーネントであって、 前記テキスト入力を受け取り、前に来る句読点をモデル
    化し、該テキスト入力に挿入するために仮定される前に
    来る句読点を表す、前に来る句読点の仮定を提供する第
    1の句読点モデルを備えたことを特徴とするコンポーネ
    ント。
  76. 【請求項76】 後に来る句読点をモデル化し、前記テ
    キスト入力に挿入するために仮定される後に来る句読点
    を表す、後に来る句読点の仮定を提供する第2の句読点
    モデルをさらに備えたことを特徴とする請求項75に記
    載のコンポーネント。
  77. 【請求項77】 前記前に来る句読点及び前記後に来る
    句読点の仮定にスコアをつけ、最もスコアの高い仮定を
    前記テキスト入力に挿入することを特徴とする請求項7
    6に記載のコンポーネント。
  78. 【請求項78】 前記第1の句読点モデル及び前記第2
    の句読点モデルを前記テキスト入力の文内部の句読点に
    適用することを特徴とする請求項77に記載のコンポー
    ネント。
  79. 【請求項79】 前記テキスト入力は構文ツリーからな
    ることを特徴とする請求項75に記載のコンポーネン
    ト。
  80. 【請求項80】 前記句読点コンポーネントはさらに、
    文の最後の句読点機能を実装して前記テキスト入力に挿
    入する文最後の句読点を識別するように構成されたこと
    を特徴とする請求項78に記載のコンポーネント。
  81. 【請求項81】 文実現のために文の抽象的言語表現
    (ALR)を補足するシステムであって、 前記ALRを受け取り、該ALRのノードに構文ラベル
    を付加して補足されたALRを得る肉付けコンポーネン
    トと、 前記補足されたALRを基本構文ツリーに変換するツリ
    ー変換コンポーネントとを備えたことを特徴とするシス
    テム。
  82. 【請求項82】 前記肉付けコンポーネントは、前記A
    LRに機能語を挿入するように構成されたことを特徴と
    する請求項81に記載のシステム。
  83. 【請求項83】 前記肉付けコンポーネントは、前記A
    LR中の論理的主語及び論理的目的語に実現の確率を割
    り当てることを特徴とする請求項82に記載のシステ
    ム。
  84. 【請求項84】 前記肉付けコンポーネントは、前記A
    LR中の名詞句の格を識別することを特徴とする請求項
    82に記載のシステム。
  85. 【請求項85】 前記肉付けコンポーネントは、前記A
    LR中の動詞に動詞位置を割り当てることを特徴とする
    請求項82に記載のシステム。
  86. 【請求項86】 前記肉付けコンポーネントは抽象的な
    限定詞を挿入することを特徴とする請求項82に記載の
    システム。
  87. 【請求項87】 前記肉付けコンポーネントは助動詞を
    挿入することを特徴とする請求項82に記載のシステ
    ム。
  88. 【請求項88】 前記肉付けコンポーネントは前置詞を
    挿入することを特徴とする請求項82に記載のシステ
    ム。
  89. 【請求項89】 前記肉付けコンポーネントは否定語を
    挿入することを特徴とする請求項82に記載のシステ
    ム。
  90. 【請求項90】 前記肉付けコンポーネントは不定詞標
    識を挿入することを特徴とする請求項82に記載のシス
    テム。
  91. 【請求項91】 前記肉付けコンポーネントは従属接続
    詞を挿入することを特徴とする請求項82に記載のシス
    テム。
  92. 【請求項92】 前記肉付けコンポーネントは虚辞主語
    を挿入することを特徴とする請求項82に記載のシステ
    ム。
  93. 【請求項93】 前記肉付けコンポーネントは抽象的な
    関係代名詞を挿入することを特徴とする請求項82に記
    載のシステム。
  94. 【請求項94】 前記肉付けコンポーネントは抽象的な
    再帰代名詞を挿入することを特徴とする請求項82に記
    載のシステム。
  95. 【請求項95】 前記肉付けコンポーネントは副詞のW
    h語を挿入することを特徴とする請求項82に記載のシ
    ステム。
  96. 【請求項96】 前記基本ツリー変換コンポーネント
    は、実現の確率が閾値未満の論理的主語及び論理的目的
    語を除去するように構成されたことを特徴とする請求項
    81に記載のシステム。
  97. 【請求項97】 前記基本構文ツリーは親ノード及び子
    ノードを含み、該親ノードは該子ノードの祖先ノードで
    あり、前記基本ツリー変換コンポーネントは、前記AL
    R中のノードのラベルを前記基本構文ツリーの非終端ノ
    ードにコピーするように構成されたことを特徴とする請
    求項96に記載のシステム。
  98. 【請求項98】 前記基本ツリー変換コンポーネント
    は、動詞が語幹及び分離可能な接頭辞を有することを表
    す動詞の語彙特徴を含む前記ALR中のノードを識別
    し、前記動詞が分離可能な文脈にあることを識別し、識
    別された前記ノードを語幹ノードと接頭辞ノードに分割
    するように構成されることを特徴とする請求項97に記
    載のシステム。
  99. 【請求項99】 前記基本ツリー変換コンポーネント
    は、前記ALR中の等位構造を識別し、前記等位構造を
    表す等位の構文ノードを導入するように構成されること
    を特徴とする請求項97に記載のシステム。
  100. 【請求項100】 各等位構造は、等位の構成素間で交
    互に現れる接続詞を含むように構成されたことを特徴と
    する請求項99に記載のシステム。
  101. 【請求項101】 前記基本ツリー変換コンポーネント
    は、構文及び意味の支配関係が矛盾する文脈を前記AL
    R中で識別し、識別された前記文脈中の構文的な支配関
    係を逆転するように構成されたことを特徴とする請求項
    100に記載のシステム。
  102. 【請求項102】 文実現のために順序付けられた構文
    ツリーを補足するシステムであって、 前記順序付けられた構文ツリーを受け取り、実現すべき
    であるがなお抽象的である、該順序付けられた構文ツリ
    ー中の構成素の表層実現を生成する表層クリーンアップ
    コンポーネントを備えたことを特徴とするシステム。
  103. 【請求項103】 前記表層クリーンアップコンポーネ
    ントは、前記順序付けられた構文ツリーの抽象的な関係
    代名詞を表層実現に変換するように構成されることを特
    徴とする請求項102に記載のシステム。
  104. 【請求項104】 前記表層クリーンアップコンポーネ
    ントは、前記順序付けられた構文ツリーの抽象的な限定
    詞を表層実現に変換するように構成されたことを特徴と
    する請求項102に記載のシステム。
  105. 【請求項105】 前記表層クリーンアップコンポーネ
    ントは、前記順序付けられた構文ツリーの抽象的な再帰
    代名詞を表層実現に変換するように構成されたことを特
    徴とする請求項102に記載のシステム。
  106. 【請求項106】 前記表層クリーンアップコンポーネ
    ントは、前記順序付けられた構文ツリーで等位関係にあ
    る重複した構成素のインスタンスを識別し、識別された
    前記インスタンス中の重複を低減するように構成された
    ことを特徴とする請求項102に記載のシステム。
JP2003074472A 2002-03-20 2003-03-18 文実現システム Pending JP2003308320A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/103,163 US7526424B2 (en) 2002-03-20 2002-03-20 Sentence realization model for a natural language generation system
US10/103,163 2002-03-20

Publications (2)

Publication Number Publication Date
JP2003308320A true JP2003308320A (ja) 2003-10-31
JP2003308320A5 JP2003308320A5 (ja) 2006-05-25

Family

ID=28040326

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003074472A Pending JP2003308320A (ja) 2002-03-20 2003-03-18 文実現システム

Country Status (3)

Country Link
US (1) US7526424B2 (ja)
EP (1) EP1351157A3 (ja)
JP (1) JP2003308320A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014142975A (ja) * 2004-11-04 2014-08-07 Microsoft Corp ツリーレット翻訳対の抽出
JP2021119451A (ja) * 2020-01-08 2021-08-12 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 対話型インタラクションの方法、装置、機器及び記憶媒体

Families Citing this family (167)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003005166A2 (en) * 2001-07-03 2003-01-16 University Of Southern California A syntax-based statistical translation model
US7526424B2 (en) 2002-03-20 2009-04-28 Microsoft Corporation Sentence realization model for a natural language generation system
US7620538B2 (en) 2002-03-26 2009-11-17 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
US20040122661A1 (en) * 2002-12-23 2004-06-24 Gensym Corporation Method, system, and computer program product for storing, managing and using knowledge expressible as, and organized in accordance with, a natural language
US7346493B2 (en) * 2003-03-25 2008-03-18 Microsoft Corporation Linguistically informed statistical models of constituent structure for ordering in sentence realization for a natural language generation system
US8548794B2 (en) 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
US8296127B2 (en) * 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US8666725B2 (en) 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
DE202005022113U1 (de) * 2004-10-12 2014-02-05 University Of Southern California Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet
US7970600B2 (en) * 2004-11-03 2011-06-28 Microsoft Corporation Using a first natural language parser to train a second parser
US20060277028A1 (en) * 2005-06-01 2006-12-07 Microsoft Corporation Training a statistical parser on noisy data by filtering
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US8700404B1 (en) 2005-08-27 2014-04-15 At&T Intellectual Property Ii, L.P. System and method for using semantic and syntactic graphs for utterance classification
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US8943080B2 (en) 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US8082144B1 (en) * 2006-05-22 2011-12-20 Intuit Inc. Tax calculation explanation generator
US8032822B1 (en) * 2006-07-28 2011-10-04 Intuit Inc. Method and system for explaining dependencies on a document
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US8195447B2 (en) * 2006-10-10 2012-06-05 Abbyy Software Ltd. Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US9235573B2 (en) 2006-10-10 2016-01-12 Abbyy Infopoisk Llc Universal difference measure
US8214199B2 (en) * 2006-10-10 2012-07-03 Abbyy Software, Ltd. Systems for translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US9645993B2 (en) 2006-10-10 2017-05-09 Abbyy Infopoisk Llc Method and system for semantic searching
US9984071B2 (en) 2006-10-10 2018-05-29 Abbyy Production Llc Language ambiguity detection of text
US8548795B2 (en) * 2006-10-10 2013-10-01 Abbyy Software Ltd. Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system
US9047275B2 (en) 2006-10-10 2015-06-02 Abbyy Infopoisk Llc Methods and systems for alignment of parallel text corpora
US9633005B2 (en) 2006-10-10 2017-04-25 Abbyy Infopoisk Llc Exhaustive automatic processing of textual information
US8145473B2 (en) 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
US20080086298A1 (en) * 2006-10-10 2008-04-10 Anisimovich Konstantin Method and system for translating sentences between langauges
US8433556B2 (en) * 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US20080208566A1 (en) * 2007-02-23 2008-08-28 Microsoft Corporation Automated word-form transformation and part of speech tag assignment
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8959011B2 (en) 2007-03-22 2015-02-17 Abbyy Infopoisk Llc Indicating and correcting errors in machine translation systems
US8831928B2 (en) 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
US9779079B2 (en) * 2007-06-01 2017-10-03 Xerox Corporation Authoring system
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
US8452585B2 (en) * 2007-06-21 2013-05-28 Microsoft Corporation Discriminative syntactic word order model for machine translation
US8527262B2 (en) * 2007-06-22 2013-09-03 International Business Machines Corporation Systems and methods for automatic semantic role labeling of high morphological text for natural language processing applications
US8812296B2 (en) 2007-06-27 2014-08-19 Abbyy Infopoisk Llc Method and system for natural language dictionary generation
US8744891B1 (en) * 2007-07-26 2014-06-03 United Services Automobile Association (Usaa) Systems and methods for dynamic business decision making
US8473279B2 (en) * 2008-05-30 2013-06-25 Eiman Al-Shammari Lemmatizing, stemming, and query expansion method and system
US20100017293A1 (en) * 2008-07-17 2010-01-21 Language Weaver, Inc. System, method, and computer program for providing multilingual text advertisments
US9047285B1 (en) 2008-07-21 2015-06-02 NetBase Solutions, Inc. Method and apparatus for frame-based search
US9262409B2 (en) 2008-08-06 2016-02-16 Abbyy Infopoisk Llc Translation of a selected text fragment of a screen
CA2680304C (en) * 2008-09-25 2017-08-22 Multimodal Technologies, Inc. Decoding-time prediction of non-verbalized tokens
US8849650B2 (en) * 2008-10-22 2014-09-30 Sankhya Technologies Private Limited System and method for automatically generating sentences of a language
US8374881B2 (en) * 2008-11-26 2013-02-12 At&T Intellectual Property I, L.P. System and method for enriching spoken language translation with dialog acts
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
US20110112823A1 (en) * 2009-11-06 2011-05-12 Tatu Ylonen Oy Ltd Ellipsis and movable constituent handling via synthetic token insertion
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US9069755B2 (en) 2010-03-11 2015-06-30 Microsoft Technology Licensing, Llc N-gram model smoothing with independently controllable parameters
US11989659B2 (en) 2010-05-13 2024-05-21 Salesforce, Inc. Method and apparatus for triggering the automatic generation of narratives
US9208147B1 (en) 2011-01-07 2015-12-08 Narrative Science Inc. Method and apparatus for triggering the automatic generation of narratives
US8355903B1 (en) 2010-05-13 2013-01-15 Northwestern University System and method for using data and angles to automatically generate a narrative story
US10657201B1 (en) 2011-01-07 2020-05-19 Narrative Science Inc. Configurable and portable system for generating narratives
US9720899B1 (en) 2011-01-07 2017-08-01 Narrative Science, Inc. Automatic generation of narratives from data using communication goals and narrative analytics
US10185477B1 (en) 2013-03-15 2019-01-22 Narrative Science Inc. Method and system for configuring automatic generation of narratives from data
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US10872082B1 (en) * 2011-10-24 2020-12-22 NetBase Solutions, Inc. Methods and apparatuses for clustered storage of information
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US8989485B2 (en) 2012-04-27 2015-03-24 Abbyy Development Llc Detecting a junction in a text line of CJK characters
US8971630B2 (en) 2012-04-27 2015-03-03 Abbyy Development Llc Fast CJK character recognition
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US9336297B2 (en) 2012-08-02 2016-05-10 Paypal, Inc. Content inversion for user searches and product recommendations systems and methods
GB2505218A (en) * 2012-08-23 2014-02-26 Ibm Logical contingency analysis for domain-specific languages
US9135244B2 (en) 2012-08-30 2015-09-15 Arria Data2Text Limited Method and apparatus for configurable microplanning
US8762133B2 (en) 2012-08-30 2014-06-24 Arria Data2Text Limited Method and apparatus for alert validation
US9405448B2 (en) 2012-08-30 2016-08-02 Arria Data2Text Limited Method and apparatus for annotating a graphical output
US9336193B2 (en) 2012-08-30 2016-05-10 Arria Data2Text Limited Method and apparatus for updating a previously generated text
US8762134B2 (en) 2012-08-30 2014-06-24 Arria Data2Text Limited Method and apparatus for situational analysis text generation
US9355093B2 (en) 2012-08-30 2016-05-31 Arria Data2Text Limited Method and apparatus for referring expression generation
GB2523028A (en) * 2012-10-25 2015-08-12 Walker Reading Technologies Inc Sentence parsing correction system
US10650089B1 (en) * 2012-10-25 2020-05-12 Walker Reading Technologies Sentence parsing correction system
US9600471B2 (en) 2012-11-02 2017-03-21 Arria Data2Text Limited Method and apparatus for aggregating with information generalization
WO2014071330A2 (en) * 2012-11-02 2014-05-08 Fido Labs Inc. Natural language processing system and method
WO2014076524A1 (en) 2012-11-16 2014-05-22 Data2Text Limited Method and apparatus for spatial descriptions in an output text
WO2014076525A1 (en) 2012-11-16 2014-05-22 Data2Text Limited Method and apparatus for expressing time in an output text
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
WO2014102568A1 (en) 2012-12-27 2014-07-03 Arria Data2Text Limited Method and apparatus for motion detection
WO2014102569A1 (en) 2012-12-27 2014-07-03 Arria Data2Text Limited Method and apparatus for motion description
WO2014111753A1 (en) 2013-01-15 2014-07-24 Arria Data2Text Limited Method and apparatus for document planning
US9594745B2 (en) 2013-03-01 2017-03-14 The Software Shop, Inc. Systems and methods for improving the efficiency of syntactic and semantic analysis in automated processes for natural language understanding using general composition
WO2015028844A1 (en) 2013-08-29 2015-03-05 Arria Data2Text Limited Text generation from correlated alerts
US9886950B2 (en) * 2013-09-08 2018-02-06 Intel Corporation Automatic generation of domain models for virtual personal assistants
US9396181B1 (en) 2013-09-16 2016-07-19 Arria Data2Text Limited Method, apparatus, and computer program product for user-directed reporting
US9244894B1 (en) 2013-09-16 2016-01-26 Arria Data2Text Limited Method and apparatus for interactive reports
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
RU2592395C2 (ru) 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Разрешение семантической неоднозначности при помощи статистического анализа
RU2586577C2 (ru) 2014-01-15 2016-06-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Фильтрация дуг в синтаксическом графе
US10915970B1 (en) 2014-03-12 2021-02-09 Intuit Inc. Computer implemented methods systems and articles of manufacture for communicating and resolving electronic tax return errors and inconsistent data
US9760953B1 (en) 2014-03-12 2017-09-12 Intuit Inc. Computer implemented methods systems and articles of manufacture for identifying tax return preparation application questions based on semantic dependency
US10387969B1 (en) 2014-03-12 2019-08-20 Intuit Inc. Computer implemented methods systems and articles of manufacture for suggestion-based interview engine for tax return preparation application
US10664558B2 (en) 2014-04-18 2020-05-26 Arria Data2Text Limited Method and apparatus for document planning
US9659005B2 (en) * 2014-05-16 2017-05-23 Semantix Technologies Corporation System for semantic interpretation
US9916628B1 (en) 2014-07-31 2018-03-13 Intuit Inc. Interview question modification during preparation of electronic tax return
US11430072B1 (en) 2014-07-31 2022-08-30 Intuit Inc. System and method of generating estimates used to calculate taxes
US10867355B1 (en) 2014-07-31 2020-12-15 Intuit Inc. Computer implemented methods systems and articles of manufacture for preparing electronic tax return with assumption data
US11861734B1 (en) 2014-08-18 2024-01-02 Intuit Inc. Methods systems and articles of manufacture for efficiently calculating a tax return in a tax return preparation application
US10977743B1 (en) 2014-08-18 2021-04-13 Intuit Inc. Computer implemented methods systems and articles of manufacture for instance and suggestion differentiation during preparation of electronic tax return
US10970793B1 (en) 2014-08-18 2021-04-06 Intuit Inc. Methods systems and articles of manufacture for tailoring a user experience in preparing an electronic tax return
US10540725B1 (en) 2014-08-18 2020-01-21 Intuit Inc. Methods systems and articles of manufacture for handling non-standard screen changes in preparing an electronic tax return
RU2596600C2 (ru) 2014-09-02 2016-09-10 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы обработки изображений математических выражений
US11475076B2 (en) 2014-10-22 2022-10-18 Narrative Science Inc. Interactive and conversational data exploration
US11238090B1 (en) 2015-11-02 2022-02-01 Narrative Science Inc. Applied artificial intelligence technology for using narrative analytics to automatically generate narratives from visualization data
US11922344B2 (en) 2014-10-22 2024-03-05 Narrative Science Llc Automatic generation of narratives from data using communication goals and narrative analytics
US10169826B1 (en) 2014-10-31 2019-01-01 Intuit Inc. System and method for generating explanations for tax calculations
US10796381B1 (en) 2014-10-31 2020-10-06 Intuit Inc. Systems and methods for determining impact correlations from a tax calculation graph of a tax preparation system
US9922376B1 (en) 2014-10-31 2018-03-20 Intuit Inc. Systems and methods for determining impact chains from a tax calculation graph of a tax preparation system
US10387970B1 (en) 2014-11-25 2019-08-20 Intuit Inc. Systems and methods for analyzing and generating explanations for changes in tax return results
US10235721B1 (en) 2014-11-26 2019-03-19 Intuit Inc. System and method for automated data gathering for tax preparation
US10296984B1 (en) 2014-11-26 2019-05-21 Intuit Inc. Systems, methods and articles of manufacture for determining relevancy of tax topics in a tax preparation system
US10235722B1 (en) 2014-11-26 2019-03-19 Intuit Inc. Systems and methods for analyzing and determining estimated taxes
US11222384B1 (en) 2014-11-26 2022-01-11 Intuit Inc. System and method for automated data estimation for tax preparation
US9626358B2 (en) 2014-11-26 2017-04-18 Abbyy Infopoisk Llc Creating ontologies by analyzing natural language texts
US10157426B1 (en) 2014-11-28 2018-12-18 Intuit Inc. Dynamic pagination of tax return questions during preparation of electronic tax return
US10572952B1 (en) 2014-12-01 2020-02-25 Intuit Inc. Computer implemented methods systems and articles of manufacture for cross-field validation during preparation of electronic tax return
US10872384B1 (en) * 2015-03-30 2020-12-22 Intuit Inc. System and method for generating explanations for year-over-year tax changes
US10140666B1 (en) 2015-03-30 2018-11-27 Intuit Inc. System and method for targeted data gathering for tax preparation
US10796382B1 (en) 2015-03-30 2020-10-06 Intuit Inc. Computer-implemented method for generating a customized tax preparation experience
US9990678B1 (en) 2015-03-31 2018-06-05 Intuit Inc. Systems methods and articles of manufacture for assessing trustworthiness of electronic tax return data
US11113771B1 (en) 2015-04-28 2021-09-07 Intuit Inc. Systems, methods and articles for generating sub-graphs of a tax calculation graph of a tax preparation system
US10685407B1 (en) 2015-04-30 2020-06-16 Intuit Inc. Computer-implemented methods, systems and articles of manufacture for tax topic prediction utilizing prior tax returns
US10664924B1 (en) 2015-04-30 2020-05-26 Intuit Inc. Computer-implemented methods, systems and articles of manufacture for processing sensitive electronic tax return data
US10664925B2 (en) 2015-06-30 2020-05-26 Intuit Inc. Systems, methods and articles for determining tax recommendations
US10402913B2 (en) 2015-07-30 2019-09-03 Intuit Inc. Generation of personalized and hybrid responses to queries submitted from within tax return preparation system during preparation of electronic tax return
US10607298B1 (en) 2015-07-30 2020-03-31 Intuit Inc. System and method for indicating sections of electronic tax forms for which narrative explanations can be presented
US11170038B1 (en) 2015-11-02 2021-11-09 Narrative Science Inc. Applied artificial intelligence technology for using narrative analytics to automatically generate narratives from multiple visualizations
US11232268B1 (en) 2015-11-02 2022-01-25 Narrative Science Inc. Applied artificial intelligence technology for using narrative analytics to automatically generate narratives from line charts
US11222184B1 (en) 2015-11-02 2022-01-11 Narrative Science Inc. Applied artificial intelligence technology for using narrative analytics to automatically generate narratives from bar charts
US11176620B1 (en) 2016-06-28 2021-11-16 Intuit Inc. Systems and methods for generating an error report listing errors in the preparation of a payroll tax form
WO2018000272A1 (zh) * 2016-06-29 2018-01-04 深圳狗尾草智能科技有限公司 一种语料生成装置和方法
US10796231B2 (en) 2016-07-26 2020-10-06 Intuit Inc. Computer-implemented systems and methods for preparing compliance forms to meet regulatory requirements
US11055794B1 (en) 2016-07-27 2021-07-06 Intuit Inc. Methods, systems and computer program products for estimating likelihood of qualifying for benefit
US11087411B2 (en) 2016-07-27 2021-08-10 Intuit Inc. Computerized tax return preparation system and computer generated user interfaces for tax topic completion status modifications
US10872315B1 (en) 2016-07-27 2020-12-22 Intuit Inc. Methods, systems and computer program products for prioritization of benefit qualification questions
US10762472B1 (en) 2016-07-27 2020-09-01 Intuit Inc. Methods, systems and computer program products for generating notifications of benefit qualification change
US10769592B1 (en) 2016-07-27 2020-09-08 Intuit Inc. Methods, systems and computer program products for generating explanations for a benefit qualification change
US10445432B1 (en) 2016-08-31 2019-10-15 Arria Data2Text Limited Method and apparatus for lightweight multilingual natural language realizer
US11144838B1 (en) 2016-08-31 2021-10-12 Narrative Science Inc. Applied artificial intelligence technology for evaluating drivers of data presented in visualizations
US10664926B2 (en) 2016-10-26 2020-05-26 Intuit Inc. Methods, systems and computer program products for generating and presenting explanations for tax questions
US12020334B2 (en) 2016-10-26 2024-06-25 Intuit Inc. Methods, systems and computer program products for generating and presenting explanations for tax questions
US10467347B1 (en) 2016-10-31 2019-11-05 Arria Data2Text Limited Method and apparatus for natural language document orchestrator
US10402499B2 (en) * 2016-11-17 2019-09-03 Goldman Sachs & Co. LLC System and method for coupled detection of syntax and semantics for natural language understanding and generation
US11138676B2 (en) 2016-11-29 2021-10-05 Intuit Inc. Methods, systems and computer program products for collecting tax data
US11954445B2 (en) 2017-02-17 2024-04-09 Narrative Science Llc Applied artificial intelligence technology for narrative generation based on explanation communication goals
US11568148B1 (en) 2017-02-17 2023-01-31 Narrative Science Inc. Applied artificial intelligence technology for narrative generation based on explanation communication goals
US11068661B1 (en) 2017-02-17 2021-07-20 Narrative Science Inc. Applied artificial intelligence technology for narrative generation based on smart attributes
US10445423B2 (en) 2017-08-17 2019-10-15 International Business Machines Corporation Domain-specific lexically-driven pre-parser
US10769375B2 (en) * 2017-08-17 2020-09-08 International Business Machines Corporation Domain-specific lexical analysis
WO2019049068A1 (en) 2017-09-07 2019-03-14 Studeo Realty Marketing Inc. GENERATION OF SEQUENTIAL VISUAL NARRATIONS
US11042709B1 (en) * 2018-01-02 2021-06-22 Narrative Science Inc. Context saliency-based deictic parser for natural language processing
US10963649B1 (en) 2018-01-17 2021-03-30 Narrative Science Inc. Applied artificial intelligence technology for narrative generation using an invocable analysis service and configuration-driven analytics
US11816435B1 (en) 2018-02-19 2023-11-14 Narrative Science Inc. Applied artificial intelligence technology for contextualizing words to a knowledge base using natural language processing
US10956670B2 (en) 2018-03-03 2021-03-23 Samurai Labs Sp. Z O.O. System and method for detecting undesirable and potentially harmful online behavior
US11334726B1 (en) 2018-06-28 2022-05-17 Narrative Science Inc. Applied artificial intelligence technology for using natural language processing to train a natural language generation system with respect to date and number textual features
US10802891B2 (en) * 2018-10-30 2020-10-13 Stoplight, Inc. Application interface governance platform to harmonize, validate, and replicate data-driven definitions to execute application interface functionality
US10902219B2 (en) * 2018-11-21 2021-01-26 Accenture Global Solutions Limited Natural language processing based sign language generation
CA3085033C (en) * 2019-07-30 2023-01-03 Imrsv Data Labs Inc. Methods and systems for multi-label classification of text data
CN113011186B (zh) * 2021-01-25 2024-04-26 腾讯科技(深圳)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN113095062A (zh) * 2021-04-12 2021-07-09 阿里巴巴新加坡控股有限公司 数据处理方法、装置、电子设备及计算机存储介质
US11954606B2 (en) * 2021-04-26 2024-04-09 Sap Se Knowledge-guided system for automated event monitoring
US11790885B2 (en) * 2021-05-06 2023-10-17 International Business Machines Corporation Semi-structured content aware bi-directional transformer

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4887212A (en) 1986-10-29 1989-12-12 International Business Machines Corporation Parser for natural language text
US5111398A (en) * 1988-11-21 1992-05-05 Xerox Corporation Processing natural language text using autonomous punctuational structure
JPH02240769A (ja) 1989-03-14 1990-09-25 Canon Inc 自然言語文生成装置
US5146406A (en) 1989-08-16 1992-09-08 International Business Machines Corporation Computer method for identifying predicate-argument structures in natural language text
JP2810750B2 (ja) 1990-01-31 1998-10-15 株式会社沖テクノシステムズラボラトリ 語学訓練用装置
JPH0424767A (ja) 1990-05-15 1992-01-28 Fujitsu Ltd 機械翻訳システム
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
US6760695B1 (en) * 1992-08-31 2004-07-06 Logovista Corporation Automated natural language processing
US6278967B1 (en) * 1992-08-31 2001-08-21 Logovista Corporation Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis
US5467425A (en) * 1993-02-26 1995-11-14 International Business Machines Corporation Building scalable N-gram language models using maximum likelihood maximum entropy N-gram models
SG49804A1 (en) 1996-03-20 1998-06-15 Government Of Singapore Repres Parsing and translating natural language sentences automatically
US6470306B1 (en) * 1996-04-23 2002-10-22 Logovista Corporation Automated translation of annotated text based on the determination of locations for inserting annotation tokens and linked ending, end-of-sentence or language tokens
US5995922A (en) * 1996-05-02 1999-11-30 Microsoft Corporation Identifying information related to an input word in an electronic dictionary
US6374220B1 (en) 1998-08-05 2002-04-16 Texas Instruments Incorporated N-best search for continuous speech recognition using viterbi pruning for non-output differentiation states
WO2000025299A1 (de) * 1998-10-27 2000-05-04 Siemens Aktiengesellschaft Verfahren und anordnung zur klassenbildung für ein sprachmodell basierend auf linguistischen klassen
JP3879321B2 (ja) * 1998-12-17 2007-02-14 富士ゼロックス株式会社 文書要約装置、文書要約方法及び文書要約プログラムを記録した記録媒体
DE60031664T2 (de) * 1999-04-21 2007-08-30 SPSS, Inc., Chicago Computerverfahren und vorrichtung zum schaffen von sichtbarer graphik unter verwendung von graph algebra
US7275029B1 (en) 1999-11-05 2007-09-25 Microsoft Corporation System and method for joint optimization of language model performance and size
US6947885B2 (en) 2000-01-18 2005-09-20 At&T Corp. Probabilistic model for natural language generation
US6757646B2 (en) * 2000-03-22 2004-06-29 Insightful Corporation Extended functionality for an inverse inference engine based web search
US6490549B1 (en) * 2000-03-30 2002-12-03 Scansoft, Inc. Automatic orthographic transformation of a text stream
US6606597B1 (en) * 2000-09-08 2003-08-12 Microsoft Corporation Augmented-word language model
US7003445B2 (en) 2001-07-20 2006-02-21 Microsoft Corporation Statistically driven sentence realizing method and apparatus
US7526424B2 (en) 2002-03-20 2009-04-28 Microsoft Corporation Sentence realization model for a natural language generation system
EP1351158A1 (en) * 2002-03-28 2003-10-08 BRITISH TELECOMMUNICATIONS public limited company Machine translation
US7346493B2 (en) 2003-03-25 2008-03-18 Microsoft Corporation Linguistically informed statistical models of constituent structure for ordering in sentence realization for a natural language generation system

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014142975A (ja) * 2004-11-04 2014-08-07 Microsoft Corp ツリーレット翻訳対の抽出
JP2021119451A (ja) * 2020-01-08 2021-08-12 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 対話型インタラクションの方法、装置、機器及び記憶媒体
US11556719B2 (en) 2020-01-08 2023-01-17 Baidu Online Network Technology (Beijing) Co., Ltd. Dialogue interaction method and apparatus, device, and storage medium

Also Published As

Publication number Publication date
US20030182102A1 (en) 2003-09-25
EP1351157A2 (en) 2003-10-08
EP1351157A3 (en) 2006-01-25
US7526424B2 (en) 2009-04-28

Similar Documents

Publication Publication Date Title
JP2003308320A (ja) 文実現システム
JP4714400B2 (ja) スケーラブル機械翻訳システム
US8548795B2 (en) Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system
JP5538820B2 (ja) 2カ国語コーパスからの変換マッピングの自動抽出プログラム
US9323747B2 (en) Deep model statistics method for machine translation
EP0907923B1 (en) Method and system for computing semantic logical forms from syntax trees
US8892418B2 (en) Translating sentences between languages
EP1422634B1 (en) Statistical method and apparatus for statistical learning of translation relationships among phrases
KR101084786B1 (ko) 트리 서열화 컴포넌트를 저장하는 컴퓨터 판독가능 기록매체
US8214199B2 (en) Systems for translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US9053090B2 (en) Translating texts between languages
US20080086298A1 (en) Method and system for translating sentences between langauges
JP2006164293A (ja) 自動自然言語翻訳
Rana et al. Example based machine translation using fuzzy logic from English to Hindi
Konstas et al. Semantic role labeling improves incremental parsing
JP4033093B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
Novák A model of computational morphology and its application to Uralic languages
KR20020003574A (ko) 기계번역 시스템에서의 어휘 중의성 해소 장치 및 그 방법
JP3892227B2 (ja) 機械翻訳システム
CN115618879A (zh) 一种面向自然语言的组块句法依存图表示和数据标注方法
Hall et al. Generation in machine translation from deep syntactic trees
Min et al. Integrated correction of ill-formed sentences
Tse Wide-coverage efficient parsing with multi-modal combinatory categorial grammar

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060317

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060317

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071113

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080213

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080229