JP4649207B2

JP4649207B2 - 生成変形句構造文法に基づいて自然言語認識をする方法

Info

Publication number: JP4649207B2
Application number: JP2004516499A
Authority: JP
Inventors: ディーターリエトケ，クラウス; マルケフカ，グントベルト
Original assignee: テー−モービレドイチェランドゲーエムベーハー
Priority date: 2002-06-28
Filing date: 2003-06-26
Publication date: 2011-03-09
Anticipated expiration: 2023-06-26
Also published as: US7548857B2; CN1666254A; CA2493429C; IL165957A; AU2003250272A1; JP2005539249A; DE10229207B3; EP1518221A1; CN1315109C; WO2004003888B1; CA2493429A1; PL373306A1; IL165957A0; US20060161436A1; WO2004003888A1

Description

本発明は、生成変形句構造文法（ＧＴ／ＰＳ文法）に基づいて自然言語認識をする方法に関する。

自然言語認識（ＮＬＵ＝ＮａｔｕｒａｌＬａｎｇｕａｇｅＵｎｄｅｒｓｔａｎｄｉｎｇ）を行う最新の言語認識システムは、考えられる多数の発声を理解して、たとえばコンピュータ等の言語認識システムに特定のアクションを起こさせる複雑な命令構造へとこれを変換することができる。このような言語認識システムは、アプリケーション開発者やいわゆるダイアログデザイナによって決められた、事前に定義された意味のあるサンプル文に基づいてこうした作業を行う。このようなサンプル文の集積（「グラマー」とも呼ばれる）は、個々のコマンド語だけでなく、対話の特定の場所で意味をもつ複雑な箱入り文も含んでいる。ユーザーがこのような文を発声すると、システムによって高い確実性で理解され、その発声と結びついた行為指図が実行される。

このように、たとえばＮＬＵ電話アプリケーション等の認識アプリケーションのプログラミングではグラマーが欠かせない基礎となる。グラマーは、文法仕様言語（ＧＳＬ）と呼ばれる専用のツールを用いて生成される。それより理解されるべき単語やその結びつきが事前に再現され、音声認識装置のために規定される。この場合、所定の文は、相互に交換可能（パラディグマ軸）かつ互いに組み合わせ可能（シンタグマ軸）な単語の組み合わせで形成される。その一例を図７に示す。

考えられる発声は、パラディグマ的な単語の組み合わせをシンタグマ的に結合させることによって得られる。このとき、たとえば「Ｔｅｌｌｙ料金表を交換していただけますか？」といった文法的に誤った文も考えられるが、応答の幅をできるだけ広く保つためにはそれに目をつぶらざるを得ない。しかしながら、こうしたいわゆる「過剰生成」、すなわち、たとえば同じ意味内容をもつ無意味なサンプル文や表現の保存ないし認識は、少なく抑えるほうがよい。というのも過剰生成はかなりのシステム資源を消費すると同時に、ほとんど発声されることのあり得ないユーザーの発声をシステムがいちいち所定の大量の文の組み合わせと比較しなくてはならないので、認識性能を低下させるからである。

これまでに通常行われている実用化方法では、パラディグマ的な単語の組み合わせは、補完関係にあると思われるもの同士を結びつける仕方で規定されている。この場合、意味を担う単語の品質が前提とされている。推定上の成果文を前提とするこのような方法は、単純なアプリケーションの必要性には十分に適っており、その場合には満足のいく結果につながる。それに対して、意味のある大量の応答可能性がある複雑な用途では、このような従来式の文法は、現在の高性能サーバーの計算容量にさえ限界近くまで負担をかけるほど膨大になる。その結果は次のとおりである。
著しく増加する過剰生成。
認識時の明らかな遅延（待ち時間）。
認識の確実性の低下（精度）。
システム安定性の低下（ロバスト性）。

上記のような手法の主な欠点は、作られる個々の文が表層的な組み合わせ方法にしか従っていないという点にある。実際には、補完関係にあると思われる各要素は言語学で以前から知られている別の組み合わせ規則に従っているので、発生する過剰生成が非常に多くなる。

以上を要約して言うと、どの文がＡＳＲシステムで認識されるかを規定する現在普及しているグラマーは、自然言語の発声を不十分にしか構造化しないで表現する伝統的な文法慣習に従っている。この場合、「表層構造」と「深層構造」を区別することはこれまで考えられていない。言語学の仮説が述べているところによれば、シンタクス的な深層構造とその「生成変換」が具体的な表層構造に至るまでが、言語システムの能力の本質をなしている。複雑さが増しているのに、従来用いられている表層構造だけを適用すれば、その役割を果たすためには表層構造の規模が非常に大きくならざるを得ず、作動時に合理的に扱うことがほとんどできなくなり、サーバーの能力の限界にまで負担がかかることになる。
米国特許出願公開第６１８２０３９号明細書によって自然言語認識をする方法が開示されており、この方法は、話された句の、その中に含まれるトリフォンへの解析と、この句に含まれる単語の形成と、文法規則集を用いての話された句のシンタクス的な再構成とを有している。
この発明は、話された句をシンタクス的に再構成するための文法規則集の厳密な記載が存在しておらず、特に、音声の辞書に関する示唆を何ら読み取ることができないという欠点を有している。

本発明の課題は、従来の認識方法に比べて少ないシステム資源しか必要とせず、それによって確実かつ迅速な言語の認識を、同時に過剰生成を削減しながら可能にするような、生成変形句構造文法に基づいて言語認識をする方法を提供することである。

この課題は、本発明により請求項１の構成要件によって解決される。

本発明によれば、話された句をその中に含まれるトリフォンに解析し、音声単語データベース（ディクショナリー）によって、認識されたトリフォンから、話された句に含まれている単語を形成し、文法規則集（グラマー）を使って、認識された単語から、話された句をシンタクス的に再構成する。

本発明の有利な実施形態および発展例は、従属請求項の構成要件から明らかである。

小規模なアプリケーションの場合にはシンタクス的な表層すなわち成果文の具体的表現によって良好な結果が得られていた伝統的文法である仕様言語と、本発明の方法との対照性は格別に顕著である。

本発明によれば、文法的な文の組み合わせ規則が表層で再生されるのではなく、あらゆるインドゲルマン語族の言語のシンタグマ的な組み合わせが従っている深層構造が明示される。各々の文が、いわゆる構造樹形図の形態のシンタクスモデルを用いて記述される。

ＧＴ／ＰＳ文法は、固有のアプリケーションの潜在的な発声に準拠するのではなく、インドゲルマン語族の言語のシンタクス的な深層構造（文の構成規則）に準拠するものである。さまざまな単語で充填することができ、これまで実用化されている「ミメティック」法よりも話された言葉のリアリティを良好に反映する骨格を、ＧＴ／ＰＳ文法は提供する。

構造樹形図によって記述された深層構造の内部では、特定の句が文の内部で繰り返されている様子を認めることができる。このような繰り返しをＧＳＬによって再生し、捕捉することができる。それによってグラマーの範囲が大幅に狭まるだけでなく、文法的に正しくない文の過剰生成も著しく減る。

伝統的なＧＳＬ文法では、たとえばおよそ５００種類のサブグラマーが７つの階層レベルで互いに絡み合っているのに対して、ＧＴ／ＰＳモデルのサブグラマーの数は、たとえばわずか２つの階層レベルの３０種類のサブグラマーにまで減らすことができる。

この新たな種類のグラマーは自然言語の発声を構造化された形態で反映するものであり、その際に、従来のグラマーのサイズのたとえばおよそ２５％しか有していない。このグラマーはサイズが小さいので比較的容易に扱うことができ、コンパイルのための時間が急速に低減される。サイズが小さいので認識の確実性（精度）が向上し、認識の遅延（待ち時間）が減る。現在の計算容量がいっそう有効に活用され、サーバーのパフォーマンスが向上する。そのうえ、この新たなグラマーは特定のアプリケーションを対象とするのではなく、基本構造に関してさまざまなアプリケーションで利用することができるので、システムの均質性が向上し、開発時間が短くなる。

深層構造の汎用的なコードは、これまで実現されていなかった次元でのマルチリンガル言語システム用の用途と価値創出を可能にし、特に、西ヨーロッパの標準言語を比較的少ないコストで処理することができる。

自然言語のダイアログアプリケーションのための従来のグラマーとは異なり、この新たなＧＴ／ＰＳ文法は最新の言語学モデルに依拠しており、自然言語の発声を表層構造と深層構造の枠内で反映するものである。抽象的な構造パターンが、文法仕様言語（ＧＳＬ）により、階層的に入れ子構造になっていてネットワーク化された規則集に翻訳される。この規則集の構造は両方の装置で反映されている。

以上のとおり、ＧＴ／ＰＳ文法の技術的な利点には次のようなものがある。
ＧＴ／ＰＳ文法は、これまでの最大７つのサブグラマーレベルの代わりに２つのレベルですむので、従来のグラマーに比べてはるかに小規模である。
グラマーによってカバーされているが文法的には誤っている文の数（過剰生成）が劇的に減る。
従来使用されていたスロットのおよそ３分の１しか必要ない。
現在の言語認識装置の理念とは異なり、上位のグラマーレベルにではなく下位のグラマーレベルにスロットが充填される。
ＧＳＬ（文法仕様言語）によってすでに設定されている、スロット値を上位のグラマーレベルへ引き上げるためのインストルメントを一貫して活用する。
ＧＥＴおよびＫＩＬＬの値でしか充填することができないＡＣＴＩＯＮという名称の新たなスロットを有している。
高度な多重タスク処理能力がある互いに入れ子構造になったスロットで作業を進める。
認識性能の向上につながる。
多言語アプリケーションを導入するための簡素化されたオプションを可能にする。
ニュアンステクノロジーへのシームレスな統合能力を有している。

ＰＳＧの経済的な利点は次のとおりである。
システム資源の活用性向上によるハードウェアコストの削減。
認識の性能向上による翻訳時間の低減。
いっそう容易な取扱性による人的資源の削減。
顧客満足度の向上。
あらゆる世界言語に応用可能（英語から中国語まで）。

次に、図面を参照しながら、簡略化した実施例を用いて本発明を詳しく説明する。図面とその説明から、本発明の上記以外の構成要件、利点、および利用可能性が明らかとなる。

図１は、認識プロセスの第１のステップとしてのトリフォン解析を示す説明図である。
図２は、認識プロセスの第２のステップとしての、認識されたトリフォンに基づく単語認識を示す説明図である。
図３は、認識プロセスの第３のステップとしての、認識された単語のシンタクス的再構成を示す説明図である。
図４は、認識された単語の品詞カテゴリーへの分類、および名詞句と動詞句への分類の一例を示す説明図である。
図５は、考えられる文法のプログラム例の説明図である。
図６は、ＰＳＧ文法の構造を示す概略図である。
図７は、従来技術に基づく文法での単語組み合わせの形成を示す一例を示す説明図である。

図１は、言語認識の第１のステップであるトリフォン解析を示している。人物１の連続的な言葉の流れがたとえば電話のマイクロホンによって採取され、アナログ信号として言語認識装置２へ送られる。ここでアナログ音声信号がデジタル音声信号３へ変換される。この音声信号は多数のトリフォンすなわち音声セグメントを含んでおり、これらが言語認識装置２で既存すなわち所定のトリフォン組み合わせ規則と対照される。既存のトリフォンは、１つまたは複数の音声辞書を含むデータベースに保存されている。そこには認識されたトリフォンがたとえば「ｐｒｏ」、「ｒｏｔ」、「ｏｔｅ」、「ｔｅｌ」といったトリフォン連鎖４として存在している。

図２に示す第２のステップでは、認識されたトリフォンから意味のある単語が形成される。そのために、既存のトリフォン連鎖４が、別の音声辞書５に保存されている所定の単語６、たとえば「ｐｒｏｆｉ」、「ｐｏｒｔａｌ」、「ｐｒｏｔｅ」、「ｈｏｔｅｌ」などと比較される。音声辞書５は、日常語の特定の語彙と、その都度の用途に合わせた特殊な語彙とを含むことができる。たとえば認識された「ｐｒｏ」と「ｔｅｌ」というトリフォンが、たとえば「ｐｒｏｔｅｌ」という単語に含まれるトリフォンと一致すれば、この単語７は「ｐｒｏｔｅｌ」という単語であるとして認識される。

図３に示す次のステップでは、グラマー８を用いて、認識された単語７のシンタクス的再構成が行われる。そのために、図６に示すように、認識された単語が名詞、動詞、副詞、冠詞、形容詞などの品詞カテゴリーに分類される。このことは、品詞カテゴリーに下位区分されたデータベースによって行われる。図５に見られるように、データベース９−１５は上に挙げた従来式の品詞カテゴリーだけでなく、たとえば、はい／いいえ文法９、電話番号１４、１５などの特殊な品詞カテゴリーも含んでいてよい。さらに、ＤＴＭＦ入力１６の認識が意図されていてもよい。

以上に述べたような、認識された単語への品詞カテゴリーの振り分けは、すでに単語認識プロセスの進行中に行うこともできる。

次のステップ（ステップ１７）では、認識された単語がその品詞カテゴリーに応じて、動詞句すなわち動詞に基づく句と、名詞句すなわち名詞に基づく句とに振り分けられる（図６参照）。
次いで、名詞句と動詞句が句構造の観点からオブジェクトにまとめられる。

ステップ１８で、多重タスク処理のためにオブジェクトが音声制御式の相応のアプリケーションと組み合される。

各々のオブジェクト１９はグラマー８に格納された目標文を含んでおり、厳密に言えば文型を含んでいる。図４から明らかなように、このような文型はたとえば「主語、動詞、目的語」や「目的語、動詞、主語」といった語順によって定義されていてよい。それ以外にも多くの文構成の構造が、このような一般的な形でグラマー８に格納されている。認識された単語７の品詞が所定の文型の順序に対応していれば、これらの単語はこれに付属するオブジェクトに振り分けられ、その文が認識されたものとみなされる。換言すると、各々の文型は異なる品詞に割り当てられた複数の変数を含んでおり、この変数が、認識された単語７の相応の品詞で充填される。

この方法は伝統的な文法仕様言語（ＧＳＬ）を使っているが、格納されている文を革新的なやり方で構造化するものである。この方法は句構造文法と生成変形文法の思想に準拠している。

文の深層構造を首尾一貫して適用することにより、特に名詞句と動詞句を区別することにより、この方法はこれまで支配的であった直感的な文法概念よりもはるかに自然言語の文構成に近いものとなっている。

このようにＧＴ／ＰＳ文法は、自然言語の発声の抽象的な原則を調べるのに適した理論的なモデル作成に依拠している。この文法は、現代の音声認識システムの分野で初めて、文構成規則の抽象作用をいわば逆転させ、アプリケーションユーザーの発声の予測としてこれを具体化することを可能にするものである。それにより、これまでは常に例文の直感的な蓄積に依拠していた音声認識文法への体系的なアクセスが可能となる。

ＧＴ／ＰＳ文法の中心的な特徴は、たとえば変数のような最高レベルの個々の単語を１つの完全な文にまとめる、いわゆるサブグラマーへの階層的な入れ子構造になっていることである。ＧＴ／ＰＳ文法はこの点で従来公知のグラマーよりもはるかに小規模であり、かつ階層的にはるかにわかりやすい。従来のグラマーとは異なり、この新たなグラマーにはほぼ「意味のある」文だけが格納されているので、過剰生成すなわち自然言語の意味では誤っている格納された文の量が減る。このことは、格納された少数の候補の中からアプリケーションが選択をするだけでよくなるので、ひいては認識性能向上のための前提条件となる。

認識プロセスの第１のステップとしてのトリフォン解析を示す説明図である。認識プロセスの第２のステップとしての、認識されたトリフォンに基づく単語認識を示す説明図である。認識プロセスの第３のステップとしての、認識された単語のシンタクス的再構成を示す説明図である。認識された単語の品詞カテゴリーへの分類、および名詞句と動詞句への分類の一例を示す説明図である。考えられる文法のプログラム例の説明図である。ＰＳＧ文法の構造を示す概略図である。従来技術に基づく文法での単語組み合わせの形成を示す一例を示す説明図である。

Claims

生成変形句構造文法に基づいて自然言語認識をする方法であって、
−話された句をその中に含まれるトリフォンへと解析するステップと、
−音声単語データベース（ディクショナリー）により、認識されたトリフォンから、話された句に含まれている単語を形成するステップと、
−文法規則集（グラマー）を用いて、認識された単語から、話された句をシンタクス的に再構成するステップとを備える方法において、
話された句のシンタクス的な再構成が、
−認識された単語を品詞カテゴリー（動詞、名詞など）に振り分けるステップと、
−品詞カテゴリーを名詞句と動詞句に振り分けるステップと、
−シンタクス規則に基づいて名詞句と動詞句をまとめ、品詞カテゴリーを含むオブジェクトとするステップと、
−その品詞カテゴリーを含むオブジェクトと、設定されている文型に含まれる複数の品詞カテゴリーとを比較し（設定されている文型は、それぞれ、品詞カテゴリーに振り分けられた複数の変数を有している）、一致している場合にはその文を認識されたものとみなし、音声制御アプリケーションのアクションが惹起され、文が認識された場合、認識された文の品詞カテゴリーに振り分けられた変数が、認識された単語の相応の品詞で充填されるステップとを含んでいることを特徴とする、生成変形句構造文法に基づいて自然言語認識をする方法。
認識されるべき単語がさまざまな品詞カテゴリーに分類されてデータベースに保存される、請求項１に記載の方法。
オブジェクトまたはその一部が音声制御アプリケーションの相応のアクションパラメータと組み合わされる、請求項１または２に記載の方法。