JP2007513407A - 文法生成のための句への意味標識の付与 - Google Patents

文法生成のための句への意味標識の付与 Download PDF

Info

Publication number
JP2007513407A
JP2007513407A JP2006539050A JP2006539050A JP2007513407A JP 2007513407 A JP2007513407 A JP 2007513407A JP 2006539050 A JP2006539050 A JP 2006539050A JP 2006539050 A JP2006539050 A JP 2006539050A JP 2007513407 A JP2007513407 A JP 2007513407A
Authority
JP
Japan
Prior art keywords
mapping
phrase
semantic
probability
phrases
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006539050A
Other languages
English (en)
Inventor
セー マルティン,スフェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2007513407A publication Critical patent/JP2007513407A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Character Input (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本発明は、弱く注釈付けされた文のトレーニングコーパス内の句に意味標識をマッピングし、それにより言語理解の目的のために未知の文に適用できる文法を生成するための方法、システムおよびコンピュータプログラムプロダクトに関する。本方法は、所与の句が候補となる意味標識の集合のうちのある意味標識にマッピングされる確率的推定に基づいている。マッピングおよび文法生成は、所与の句と候補となる意味標識の集合とのマッピング確率の集合の最大マッピング確率に従って実行される。特に、マッピング確率の決定は期待値最大化アルゴリズムを利用する。

Description

本発明は対話アプリケーションのための自動化された言語理解の分野に関する。
自動対話システムおよび電話ベースの機械質問システムは、今日、列車や飛行機の時刻表などのような情報を提供したり、あるいは銀行取引もしくは旅行予約などのようなユーザーからの問い合わせを受けたりするために幅広く広まっている。自動対話システムの決定的な務めは、典型的には発話によって提供されるユーザー入力から、当該対話システムにとって必要な情報を抽出することにある。
発話からの情報抽出は、一方での音声認識と、他方での認識された音声の意味論的な意味へのマッピングという二つのステップに分割できる。音声認識ステップはユーザーから受け取った発話の機械処理できる形への変換を提供する。その際、認識された発話が自動対話システムによって正しい仕方で解釈されることが本質的に重要である。したがって、自動対話システムは認識された発話の意味論的な意味への割り当てまたはマッピングを実行する必要がある。たとえば、列車時刻表対話システムにとっては、「ハンブルクからミュンヘンまでの接続便を必要としています」という問い合わせにおける二つの都市「ハンブルク」および「ミュンヘン」が、その列車の旅の出発地と目的地であると正しく同定することが必要である。
自動対話システムは、上記の文の本質的な断片「ハンブルクから」や「ミュンヘンまで」を抽出し、句「ハンブルクから」が出発地の意味標識にマッピングされ、一方で句「ミュンヘンまで」が目的地の意味標識にマッピングされる程度に理解しなければならない。出発地、目的地、時刻、日付またはその他の旅の細目がユーザーの問い合わせの句にマッピングされたとき、対話システムは要求される動作を実行することができる。
認識された句の意味標識へのマッピングの割り当ては典型的には何らかの種類の文法によって提供される。文法は意味標識の句へのマッピングを定義する規則を含んでいる。そのような規則をベースとした文法は自然言語理解の分野において最も調査がされている研究テーマであり続けてきたもので、しばしば実際の対話システムに組み込まれる。自動対話システムの例は自動対話システムの一般的な説明とともに、論文H. Aust, M. Oerder, F. Seide, V. Steinbiss “the Philips Automatic Train Timetable Information System”, Speech Communication 17 (1995) 249-262で与えられている。
自動対話システムは典型的には、時刻表情報または問い合わせ処理システムなどのような明確に区別された目的に指定されるので、基礎となる文法はそれら明確に区別される目的のために個別に設計される。従来技術において知られている文法のほとんどは、該文法を構成する規則が、対話に現れうる句および句のさまざまな組み合わせの膨大な集合をカバーするという意味において、手作業で書かれたものである。
句と意味標識との間のマッピングを実行するためには、前記の句または句の組み合わせが手作業で書かれた文法の規則の少なくとも一つに一致しなければならない。句のあらゆる可能な組み合わせまたは対話の変形を個別の規則によって明示的に取り入れなければならないため、そのような手作業で書かれた文法の生成はきわめて時間がかかり、リソースを浪費するプロセスである。さらに、基礎となる規則の集合は自動対話システムの運用の間に典型的に生じるあらゆる対話の種類および句の種類をカバーしていない可能性があるので、手作業で作成された文法は常にメンテナンスの対象である。
一般に、自動対話システムのための文法は用途に関係している。これはすなわち、自動対話システムのある明確に区別される種類には常に、明確に区別される文法が指定されるということを意味している。したがって、自動対話システムの各種類について、特別な文法が手作業で構築されなければならない。多数の異なる文法のそのような生成が、最小限にすべきコストのかなりの要因を表していることは明らかである。
文法の生成、メンテナンスおよび適応のためのかなり高価な手作業の努力の量を減らすべく、近年、文法の自動生成または文法の自動学習のための方法が導入された。文法の自動構築は典型的には弱く注釈付けされたトレーニング文のコーパスに基づいている。そのようなトレーニングコーパスはたとえば、既存のアプリケーションの対話のログを取ることによって導出できる。しかし、自動学習はさらに、トレーニングコーパスのどの句がどの既知の標識に割り当てられるかを示す注釈の集合を必要とする。典型的には、この注釈付けは手作業で実行しなければならないが、一般には文法全体を生成するよりは時間がかからない。
論文K. Macherey, F. J. Och and H. Ney; “Natural Language Understanding using Statistical Machine Translation”, presented at the 7th European Conference on Speech Communication and Technology, Aalborg, Denmark, September 2001はURL“http://wasserstoff.informatik.rwth-aachen.de/Colleagues/och/eurospeech2001.ps”からも入手可能であるが、この論文が文法の自動学習を記載している。
実は前記文書は自然言語理解へのアプローチを開示しているが、これは統計的機械翻訳の分野から導かれるものである。自然言語理解の問題は、起点文から形式言語の目標文への翻訳として記述される。したがって、この方法は文法の利用を減らし、単語とその意味との間の依存関係を自動的に学習することに重きを置くことをねらいとしている。この限りにおいて、前述した方法が扱っているのは、文法の自動生成というよりは翻訳の問題である。
これに対し、米国特許出願US2003/0061024A1は明示的に文法の学習に集中している。この方法は、文のトレーニングコーパスにおいてある文法の、非終端記号に結び付けられた、終端記号または終端記号とワイルドカードのシーケンスを決定することに基づいている。終端記号または終端記号とワイルドカードのシーケンスが決定されたのち、それらは分類手順によってある非終端記号に割り当てられるか、あるいはどの非終端記号にも割り当てられないかする。この分類は今度は交換アルゴリズムに基づく交換手順を使う。交換アルゴリズムは、目標関数の効率的な最適化を保証する。これは、正しくないすべての分類を考慮に入れ、終端記号または終端記号とワイルドカードのシーケンスの分類において逐次的に最適化される。したがって、トレーニング文における非終端記号の順序は手作業で注釈付けする必要がない。目標関数が使うのは、トレーニング文の中に、終端記号または終端記号とワイルドカードのシーケンスのどれが、および非終端記号のどれが存在するかについての情報だけだからである。さらに、前記交換手順は目標関数の効率的な(局所的)最適化を保証する。交換実行に際して目標関数における変化を計算するためには若干の演算しか必要でないからである。
本発明は、意味標識を句にマッピングするための別の方法を提供し、それにより自動対話システムのための文法の生成を提供することをねらいとする。
本発明は、弱く注釈付けされたコーパスの文からの意味論的に有用な語句の自動学習を提供する。それにより語句と意味論的概念または意味標識との間の確率的な依存関係が推定される。確率的依存関係は、所与の句がある明確に区別される意味標識にマッピングされる、または割り当てられる尤度を記述する。このコンテキストでは、句というのは、文の断片、語のシーケンスあるいは最小の場合には単一の語を表す一般的な用語として使われている。
句と標識との間の確率的依存関係はさらにマッピング確率として表され、その決定はトレーニング文のコーパスに基づいて行われる。最初は、当該方法は標識とトレーニングコーパスの句との間の注釈について何らの情報ももっていない。マッピング確率の計算を実行するためには、句と意味標識との間の弱い注釈をどうにかして提供してやる必要がある。そのような弱い注釈はたとえば、一つの句にいくつかの候補となる意味標識を割り当てることによって実現できる。代替的に、IEL(inclusion/exclusion list[包含/除外リスト])を使うこともできる。IELというのは、ある句にマッピングできる、あるいはマッピングしてはならないさまざまな意味標識を含めたり、除外したりするリストを表す。
本発明のある好ましい実施形態によれば、トレーニングコーパスのそれぞれの句について、句とそれに対応する候補となる意味標識の集合との間のマッピング確率の全体集合が決定される。このようにして、所与の句がある意味標識に割り当てられる確率が、前記の句と候補となる意味標識の前記全体集合との間の可能な各組み合わせについて計算され、これが文法の自動学習または自動生成を与える。
本発明のあるさらなる好ましい実施形態によれば、トレーニングコーパスの句へのある意味標識のマッピングが、マッピング確率の集合の最高のマッピング確率に基づいて行われる。これは、トレーニングコーパスの所与の句へのある標識のマッピングまたは割り当てが前記所与の句についてのマッピング確率の集合の最高確率によって決定されるということを意味している。
句に意味標識をマッピングするための前記方法は、したがって、マッピング確率の決定を明示的に利用する。そのようなマッピング確率はたとえば、トレーニングコーパスの句と意味標識との間の前記所与の弱い注釈から決定できる。一般に、そのようなマッピング確率を生成するための複数の確率的手段が存在する。
本発明のあるさらなる好ましい実施形態によれば、統計的手順、よってマッピング確率の計算は、期待値最大化(expectation maximization)(EMアルゴリズム)によって実行される。EMアルゴリズムは一般に、隠れマルコフモデル(HMM: Hidden Markov Models)についての前向き・後ろ向きトレーニング(forward backward training)から知られる。マッピング確率の計算のためのEMアルゴリズムの具体的な実装は数学的補遺で与えてある。
本発明のあるさらなる好ましい実施形態によれば、文法は、候補となる意味標識と句との間の実行されたマッピングから導き出すことができる。好ましくは、計算上の努力を定レベルに保つため、計算され、実行されたマッピングは何らかの種類の保存手段によって保存される。最後に、導き出された文法は新規の未知の文に適応されることができる。
本発明の方法の全体としてのパフォーマンスは、EMアルゴリズムが反復的に適用されるときに向上させられる。この場合、EMアルゴリズムのある反復工程の結果は次の反復工程のための入力として使われる。たとえば、ある句がある標識にマッピングされる推定確率が何らかの種類の保存手段によって保存され、次いでEMアルゴリズムの次の適用において再利用されうる。同様な仕方で、句と標識との間の弱い注釈の形の、あるいはIELの形の初期条件は、EMアルゴリズムに基づいて以前に実行されたマッピング手順に従って修正されうる。
文法学習のためのEMベースのアルゴリズムの効率および信頼性を試験するため、EMベースのアルゴリズムを、いわゆるボストンレストランガイド・コーパスを使って実装した。この実装に基づく実験により、EMベースの手順が米国特許第2003/0061024A1号において示されているような交換アルゴリズムに基づく手順よりも良好な結果に導くことが立証された。特に、大きなトレーニングコーパスを使った場合はそうである。さらに、EMベースの手順の反復適用は、生成される文法の連続的な改善につながることが立証された。誤ってマッピングされた標識と標識総数の比として定義される標識誤り率は、反復回数に対する関数として記述したとき単調減少を示す。標識誤り率の主要な改善は、反復工程2回、あるいは1回後でさえすでに到達されている。
以下では、図面を参照しながら本発明の好ましい実施形態についてより詳細に述べる。
図1は、EMアルゴリズムに基づいて意味標識を句にマッピングするためのフローチャートを示している。第一のステップ100では、トレーニングコーパスの文から句 ̄wが抽出される。続くステップ102は、無順序の標識リストκからの各標識kについて確率p(k,w)をマッピングするステップである。
ひとたび句 ̄wについてマッピング確率の集合が計算されたら、マッピング確率p(k,w)の集合の最高確率が次のステップ104で決定される。次のステップ106では、句 ̄wと意味標識kとの間のマッピングが実行される。句 ̄wは、ステップ104で決定されたマッピング確率の集合の最高確率p(k,w)に従って単一の標識kにマッピングされる。このようにして、意味標識kと句 ̄wとの間のマッピングが、トレーニングコーパスに基づく確率的推定を使用することによって実行される。確率的推定は、意味標識kがトレーニングコーパス中の句 ̄wにマッピングされる尤度を決定する。ステップ106でマッピングが実行されたとき、該実行されたマッピングを当該アルゴリズムのその後の適用に提供するため、ステップ108で何らかの種類の保存手段によって実行されたマッピングが保存される。このようにして、当該手順は反復的に実行でき、標識誤り率の低下に、したがって文法学習手順全体の信頼性および効率の向上につながる。
ステップ102で実行されるマッピング確率の計算はEMアルゴリズムに基づいている。これは数学的補遺において図2および図3を参照することによって明示的に説明される。
EMアルゴリズムによるマッピング確率の計算は、L(i,κ′)およびR(i,κ′)と記される二つの追加的な確率に基づいている。これはそれぞれあるトレーニングコーパス文の、左の部分文にわたる長さi−1の無順序の標識部分リストκ′と、位置i+1からの右の部分文にわたる相補的な無順序の標識部分リストとのあらゆる順列についての確率を表している。
図2は、確率L(i,κ′)を計算するためのフローチャートを示している。
第一のステップ200では、i=0についての初期確率は1にセットされ、それから次のステップ202で標識部分リストの添え字iがi=1に初期化される。続くステップ204では、長さiの各部分リストが無順序の標識部分リストκ′から選択される。各部分リストを選択したのち、計算手順はステップ206に続き、ここである順列についての確率がL(i,κ′)=0と0にセットされる。次いで、ステップ208では、無順序の部分リストからの各標識kがステップ208で選択され、逐次的にステップ210に与えられる。そこで順列確率が次式に従って計算される。
L(i,κ′)=L(i,κ′)+L(i−1,κ′\{k})・p(k| ̄wi)
L(i,κ′)の計算後、ステップ212で添え字iが句 ̄W中の語数と比較される。iが| ̄W|以下であれば、手順はiを1インクリメントしてステップ204に戻る。その他の場合、iが| ̄W|より大きい場合には、順列確率を計算するための手順はステップ214で終了する。
ひとたび図2に記載されている手順によって順列確率が計算されたら、右の部分文の相補的な部分リストについての順列確率Rを得るために類似の計算が実行される。
最後に図3が、上記した順列確率を使うことによってマッピング確率~p(k, ̄w)を計算するためのEMアルゴリズムの実装を示している。
第一のステップ300では、すべての標識kおよび句wについて確率p(k| ̄w)が、~q=0とセットし、~q(k, ̄w)=0とセットすることによって初期化される。それからステップ302においてトレーニングコーパスの文の一つが選択される。トレーニングコーパスのあらゆる文が文法学習のために考慮に入れられるので、続くステップ304はトレーニングコーパスのすべての文に適用されなければならない。
トレーニングコーパスの文がステップ302で選択されたのち、それはステップ304でさらに処理される。ステップ304の中ではステップ306、308、310、312が逐次的に実行される。ステップ306では無順序の標識リストκ′が順序付けられた句リスト ̄Wとともに選択される。次のステップ308では、前記テーブルLの動的プログラミング(dynamic programming)構築が図2で記載されたように実行される。その後、ステップ310で反転したテーブルRを用いて同様の手順が実行される。
計算されたテーブルLおよびRならびに初期化された確率はさらにステップ312において処理される。ステップ312は、添え字i=1、i≦|W|についてのネストされたループとして解釈できる。各iについてステップ314が実行され、長さi−1の無順序の部分リストκのそれぞれについて別のループを初期化する。無順序の各部分リストについてステップ316が実行され、κ′の要素でない各標識kを選択し、ステップ318で次の計算を実行する:
Figure 2007513407
ここで、左辺はステップ320でさらに次式によって処理される:
Figure 2007513407
ステップ316においてステップ318と320がκ′の要素でない各標識kについて実行されたときで、ステップ314において長さi−1の無順序の各部分リストについてステップ316が実行されたときで、ステップ312において各添え字i≦| ̄W|についてステップ314が実行されたときで、最後にトレーニングコーパスのそれぞれの文についてステップ312によって与えられる手順全体が実行されたとき、ステップ322においてマッピング確率が次式に従って決定される。
Figure 2007513407
ひとたびマッピング確率が決定されたら、それは好ましくは何らかの保存手段によって保存される。文法学習の目的のため、および所与の句に標識をマッピングするため、句および候補となる意味標識のあらゆる可能な組み合わせのあらゆる確率が計算され、保存される。最後に、所与の句への意味標識のマッピングが、該所与の句についてのあらゆる計算された確率の最大確率に従って実行される。
前記の複数の実行されたマッピングに基づき、文法が最終的に演繹され、自動化された対話システムの枠組みにおいて生起しうる他の、よって未知の文に適用されることができる。
EMアルゴリズムが反復して文のトレーニングコーパスに適用されるときには特に、文法学習手順の全体としての効率は上昇し、標識誤り率は低下する。

数学的補遺
本発明の好ましい実施形態によれば、所与の句 ̄wが意味標識kにマッピングされるマッピング確率~p(k, ̄w)は期待値最大化(EM)アルゴリズムによって計算される。このセクションではEMアルゴリズムの実装および適応について述べる。
ここで、HMMの前向き・後ろ向きトレーニングと同様のアプローチがとられる。EMに基づく文法学習のための一般的な式は次式によって与えられる:
Figure 2007513407
ここで、Wは句のシーケンス、Kは標識のシーケンス、 ̄w〔バー付きのw〕は句、kは意味標識、NK(k, ̄w)は所与のWおよびKについてkと ̄wとが生起する生起数であり、p(K|W)は句のシーケンスWが標識のシーケンスKにマッピングされる確率を与える。
このアプローチは、標識の数sが句の数に等しいことを前提としている。式(1)の分子
Figure 2007513407
は、標識シーケンスKそれぞれについて、該標識シーケンス中の句 ̄wに標識kがマッピングされるのと同じ回数だけ確率p(K|W)を加算するものである。これは次のように書き直すことができる:
Figure 2007513407
ここで、δ(x,y)は通常のデルタ関数で、
δ(x,y)=1 x=yの場合
δ(x,y)=0 その他の場合
であり、p(ki=k|W)は句のシーケンスWの中で位置iにある句 ̄wが標識kにマッピングされる全体としての確率である。同様に、式(1)の分母については、次式が成り立つ:
Figure 2007513407
この結果、次の推定公式が得られる。
Figure 2007513407
コーパス全体にわたる推定のため、分子と分母は別々に計算され、各コーパス文について合計される。
式(1)の中心である確率p(ki=k|W)は、位置iの句に対して標識kをもつあらゆる標識シーケンスの確率を計算する。位置iの前および後では、残りのあらゆる標識の順列が可能である。κが無順序の標識のリストであり、π(κ)がκ上でのあらゆる可能な順列の集合であるとすると、次のようになる:
Figure 2007513407
L(i−1,κ′)は、位置i−1までの左の部分文にわたる長さi−1の無順序の標識部分リストκ′のあらゆる順列の確率であり、R(i+1,(κ\κ′)\{k})は、位置i+1からの右の部分文にわたる長さs−iの無順序の相補的な標識部分リスト(κ\κ′)\{k}のあらゆる順列の確率である。これらの値は再帰的に計算できる:
Figure 2007513407
同様に、
Figure 2007513407
式(3)および(4)の値L(i,κ′)およびR(i,κ′)を保存して再利用することにより計算コストが削減される。所与のiについて、無順序の標識リストκ′は|κ|Ci通りあり、よって、テーブルLを完全に計算するには実行すべき演算はΣ|κ|Ci・i〔和はi=1から|κ|−1まで〕回である(同じことがテーブルRについても成り立つ)。しかし、これについての閉じた形またはよい推定は見つかっておらず、そのためこの計算が、多項式計算時間であるという意味で効率的でないかどうかははっきりしない。
前記EMアルゴリズムの実装は、上述した表式からの直接の帰結である。その実装について、図2および図3によって1反復工程についてさらに説明する。その実装についていくつかの注記がある。
技術的な理由で、無順序の標識リストκの各要素は1から|κ|の範囲の一意的な添え字を与えられる。長さiの無順序の部分リストκ′はi次元ベクトルとして表現されるが、そのスカラー要素はκ′を構成するκの要素の添え字である。このベクトルは、長さiの無順序の部分リストκ′のすべてを順次得るために、次のようにインクリメントされる。
Figure 2007513407
長さiの何らかの無順序の部分リストκ′についてのL(i, κ′)を取り出すのは、L(i, κ′)=L(α)となる添え字αをκ′のベクトル表現から
Figure 2007513407
によって計算することによって実現される。ここで、ajはκ′のベクトル表現のj番目の要素である。κ′への標識の追加やκ′からの標識の除去はその標識の添え字に反映される。R(i,(κ\κ′)\{k})=R(β)を取り出すために必要とされる相補的な無順序の標識リストの添え字βは
Figure 2007513407
によって容易に計算される。
より高速な計算のため、j番目の項目が2jの値を含んでいるテーブルがある。
リストRの動的プログラミング計算は、リストLを計算するための動的プログラミングを使ったサブルーチンを、句の順序を反転させた、すなわち
Figure 2007513407
となる句のシーケンス ̄W′を用いて呼び出すことによって実行される。
標識と句の数が等しくない文は破棄される。
初期確率p(k, ̄w)はファイルから読み込まれ、p( ̄w)はp(k| ̄w)についての境界値として計算される。前記ファイルは単にk、 ̄w、p(k, ̄w)をアスキー行1行にリストするだけのものである。推定された確率~p(k, ̄w)は同じフォーマットで書き込まれ、こうして次の反復工程のための入力としてはたらくことになる。
図2は、位置iまでの左の部分文にわたる長さiの無順序の標識部分リストκ′のあらゆる順列について確率L(i−1,κ′)を逐次的に計算するためのフローチャートを示している。
最初に、ステップ200で確率L(0,{})が1にセットされ、それからステップ202で添え字iがi=1にセットされる。
ステップ204では、ループが開始され、長さiの無順序の各部分リストκ′が選択される。続くステップ206では、選択された無順序の各部分リストについての確率がL(i,κ′)=0と0にセットされる。それから次のステップ208では、前記無順序の部分リストの要素である各標識kが選択される。ステップ210で最終的に、確率L(i,κ′)が次式に従って計算される。
L(i,κ′)=L(i,κ′)+L(i−1,κ′\{k})・p(k| ̄wi)
ステップ212では、添え字iが句の中の語数以下であるかどうかが調べられる。ステップ212でi≦| ̄W|であれば、iを1インクリメントして手順はステップ204に戻る。これに対し、i>| ̄W|であれば、手順はステップ214で停止する。
位置i+1からの右の部分文の無順序の相補的な部分リストのあらゆる順列についての確率も、同様にして計算が実行される。
図3は、EMアルゴリズムに基づいてマッピング確率~p(k, ̄w)を計算するためのフローチャートを示している。ステップ300では、すべての標識kおよび句wについて確率p(k| ̄w)が、~q=0とセットし、~q(k, ̄w)=0とセットすることによって初期化される。それからステップ302においてトレーニングコーパスの文の一つが選択される。トレーニングコーパスのあらゆる文が文法学習のために考慮に入れられるので、続くステップ304はトレーニングコーパスのすべての文に適用されなければならない。
トレーニングコーパスの文がステップ302で選択されたのち、それはステップ304でさらに処理される。ステップ304の中ではステップ306、308、310、312が逐次的に適用される。ステップ306では無順序の標識リストκ′が順序付けられた句リスト ̄Wとともに選択される。次のステップ308では、前記テーブルLの動的プログラミング(dynamic programming)構築が図2で記載されたように実行される。その後、ステップ310で反転したテーブルRを用いて同様の手順が実行される。
計算されたテーブルおよび初期化された確率はさらにステップ312において処理される。ステップ312は、添え字i=1、i≦|W|についてのネストされたループとして解釈できる。各iについてステップ314が実行され、長さi−1の無順序の部分リストκ′のそれぞれについて別のループを初期化する。無順序の各部分リストについてステップ316が実行され、κ′の要素でない各標識kを選択し、ステップ318で次の計算を実行する:
Figure 2007513407
ここで、左辺はステップ320でさらに次式によって処理される:
Figure 2007513407
ステップ316においてステップ318と320がκ′の要素でない各標識kについて実行されたときで、ステップ314において長さi−1の無順序の各部分リストについてステップ316が実行されたときで、ステップ312において各添え字i≦| ̄W|についてステップ314が実行されたときで、最後にトレーニングコーパスのそれぞれの文についてステップ312によって与えられる手順全体が実行されたとき、ステップ322においてマッピング確率が次式に従って決定される。
Figure 2007513407
EMに基づくアルゴリズムによる句と標識のマッピングのためのフローチャートを示す図である。 EMアルゴリズムのためのサブルーチンであるテーブルLの動的プログラミング構築を示すフローチャートを示す図である。 EMアルゴリズムの実装を記述するフローチャートを示す図である。

Claims (15)

  1. 句に対して候補となる意味標識の集合のうちのある意味標識が割り当てられるマッピング確率を計算する方法であって、マッピング確率の前記計算が文のコーパスをなす句の集合に基づく統計的手順によって実行され、それぞれの句が候補となる意味標識の集合を割り当てられていることを特徴とする方法。
  2. それぞれの句について、マッピング確率の集合を計算し、その句に割り当てられている前記候補となる意味標識の集合の各意味標識についての確率を与えることをさらに有することを特徴とする、請求項1記載の方法。
  3. 前記候補となる意味標識の集合のうち、マッピング確率の集合のうちで最高のマッピング確率をもつ一つの意味標識を決定し、その一つの意味標識を前記の句にマッピングすることをさらに有することを特徴とする、請求項2記載の方法。
  4. 前記統計的手順が期待値最大化アルゴリズムを含むことを特徴とする、請求項1ないし3のうちいずれか一項記載の方法。
  5. 未知の文または未知の句に適用可能な文法を導出するために、候補となる意味標識と句との間の実行されたマッピングをマッピングテーブルの形で保存することをさらに有することを特徴とする、請求項3または4記載の方法。
  6. 句に対して候補となる意味標識の集合のうちのある意味標識が割り当てられるマッピング確率を計算するためのコンピュータプログラムであって、マッピング確率の前記計算が文のコーパスをなす句の集合に基づく統計的手順によって実行され、それぞれの句が候補となる意味標識の集合を割り当てられていることを特徴とするコンピュータプログラム。
  7. それぞれの句について、マッピング確率の集合を計算し、その句に割り当てられている前記候補となる意味標識の集合の各意味標識についての確率を与えるためのプログラム手段をさらに有することを特徴とする、請求項6記載のコンピュータプログラム。
  8. 前記候補となる意味標識の集合のうち、マッピング確率の集合のうちで最高のマッピング確率をもつ一つの意味標識を決定し、その一つの意味標識を前記の句にマッピングするためのプログラム手段をさらに有することを特徴とする、請求項7記載のコンピュータプログラム。
  9. 前記統計的手順が期待値最大化アルゴリズムを含むことを特徴とする、請求項6ないし8のうちいずれか一項記載のコンピュータプログラム。
  10. 未知の文または未知の句または未知の句のシーケンスに適用可能な文法を導出するために、意味標識と句または句のシーケンスとの間の実行されたマッピングをマッピングテーブルの形で保存するためのプログラム手段をさらに有することを特徴とする、請求項8または9記載のコンピュータプログラム。
  11. 句に意味標識をマッピングするためのシステムであって、句に対して候補となる意味標識の集合のうちのある意味標識が割り当てられるマッピング確率を計算するための手段を有しており、マッピング確率の前記計算が文のコーパスをなす句の集合に基づく統計的手順によって実行され、それぞれの句が候補となる意味標識の集合を割り当てられていることを特徴とするシステム。
  12. それぞれの句について、マッピング確率の集合を計算し、その句に割り当てられている前記候補となる意味標識の集合の各意味標識についての確率を与える手段をさらに有することを特徴とする、請求項11記載のシステム。
  13. 前記候補となる意味標識の集合のうち、マッピング確率の集合のうちで最高のマッピング確率をもつ一つの意味標識を決定し、その一つの意味標識を前記の句にマッピングする手段をさらに有することを特徴とする、請求項11記載のシステム。
  14. 前記統計的手順が期待値最大化アルゴリズムを含むことを特徴とする、請求項11ないし13のうちいずれか一項記載のシステム。
  15. 未知の文または未知の句または未知の句のシーケンスに適用可能な文法を導出するために、意味標識と句または句のシーケンスとの間の実行されたマッピングをマッピングテーブルの形で保存するための手段をさらに有することを特徴とする、請求項13または14記載のシステム。
JP2006539050A 2003-11-12 2004-11-09 文法生成のための句への意味標識の付与 Pending JP2007513407A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP03104170 2003-11-12
PCT/IB2004/052352 WO2005048240A1 (en) 2003-11-12 2004-11-09 Assignment of semantic tags to phrases for grammar generation

Publications (1)

Publication Number Publication Date
JP2007513407A true JP2007513407A (ja) 2007-05-24

Family

ID=34585888

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006539050A Pending JP2007513407A (ja) 2003-11-12 2004-11-09 文法生成のための句への意味標識の付与

Country Status (7)

Country Link
US (1) US20080059149A1 (ja)
EP (1) EP1685555B1 (ja)
JP (1) JP2007513407A (ja)
CN (1) CN1879148A (ja)
AT (1) ATE421138T1 (ja)
DE (1) DE602004019131D1 (ja)
WO (1) WO2005048240A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105205501A (zh) * 2015-10-04 2015-12-30 北京航空航天大学 一种多分类器联合的弱标注图像对象检测方法

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8990126B1 (en) * 2006-08-03 2015-03-24 At&T Intellectual Property Ii, L.P. Copying human interactions through learning and discovery
GB0922608D0 (en) 2009-12-23 2010-02-10 Vratskides Alexios Message optimization
US9064004B2 (en) * 2011-03-04 2015-06-23 Microsoft Technology Licensing, Llc Extensible surface for consuming information extraction services
RU2013152795A (ru) 2011-04-28 2015-06-10 Конинклейке Филипс Н.В. Управляемая доставка искусственного клапана
US9158791B2 (en) 2012-03-08 2015-10-13 New Jersey Institute Of Technology Image retrieval and authentication using enhanced expectation maximization (EEM)
US10395270B2 (en) 2012-05-17 2019-08-27 Persado Intellectual Property Limited System and method for recommending a grammar for a message campaign used by a message optimization system
US10235359B2 (en) * 2013-07-15 2019-03-19 Nuance Communications, Inc. Ontology and annotation driven grammar inference
RU2592395C2 (ru) * 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Разрешение семантической неоднозначности при помощи статистического анализа
US9524289B2 (en) * 2014-02-24 2016-12-20 Nuance Communications, Inc. Automated text annotation for construction of natural language understanding grammars
US9881006B2 (en) * 2014-02-28 2018-01-30 Paypal, Inc. Methods for automatic generation of parallel corpora
US9767093B2 (en) 2014-06-19 2017-09-19 Nuance Communications, Inc. Syntactic parser assisted semantic rule inference
US10504137B1 (en) 2015-10-08 2019-12-10 Persado Intellectual Property Limited System, method, and computer program product for monitoring and responding to the performance of an ad
US10832283B1 (en) 2015-12-09 2020-11-10 Persado Intellectual Property Limited System, method, and computer program for providing an instance of a promotional message to a user based on a predicted emotional response corresponding to user characteristics
US11115279B2 (en) * 2018-12-07 2021-09-07 Hewlett Packard Enterprise Development Lp Client server model for multiple document editor
US11283677B2 (en) * 2018-12-07 2022-03-22 Hewlett Packard Enterprise Development Lp Maintaining edit position for multiple document editor

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
US5537317A (en) * 1994-06-01 1996-07-16 Mitsubishi Electric Research Laboratories Inc. System for correcting grammer based parts on speech probability
US5991710A (en) * 1997-05-20 1999-11-23 International Business Machines Corporation Statistical translation system with features based on phrases or groups of words
US20030191625A1 (en) * 1999-11-05 2003-10-09 Gorin Allen Louis Method and system for creating a named entity language model
US7016829B2 (en) * 2001-05-04 2006-03-21 Microsoft Corporation Method and apparatus for unsupervised training of natural language processing units
DE10145913A1 (de) * 2001-09-18 2003-04-03 Philips Corp Intellectual Pty Verfahren zur Bestimmung von zu Nichtterminalen einer Grammatik gehörigen Sequenzen von Terminalen oder von Terminalen und Platzhaltern
US7349839B2 (en) * 2002-08-27 2008-03-25 Microsoft Corporation Method and apparatus for aligning bilingual corpora
US7328147B2 (en) * 2003-04-03 2008-02-05 Microsoft Corporation Automatic resolution of segmentation ambiguities in grammar authoring

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105205501A (zh) * 2015-10-04 2015-12-30 北京航空航天大学 一种多分类器联合的弱标注图像对象检测方法
CN105205501B (zh) * 2015-10-04 2018-09-18 北京航空航天大学 一种多分类器联合的弱标注图像对象检测方法

Also Published As

Publication number Publication date
WO2005048240A1 (en) 2005-05-26
ATE421138T1 (de) 2009-01-15
US20080059149A1 (en) 2008-03-06
EP1685555A1 (en) 2006-08-02
EP1685555B1 (en) 2009-01-14
CN1879148A (zh) 2006-12-13
DE602004019131D1 (de) 2009-03-05

Similar Documents

Publication Publication Date Title
US11238845B2 (en) Multi-dialect and multilingual speech recognition
CN110603583B (zh) 语音识别系统和用于语音识别的方法
KR101259558B1 (ko) 문장경계 인식 장치 및 방법
Rastogi et al. Weighting finite-state transductions with neural context
JP4571822B2 (ja) テキストおよび音声の分類のための言語モデルの判別トレーニング
US6631346B1 (en) Method and apparatus for natural language parsing using multiple passes and tags
EP1575029B1 (en) Generating large units of graphonemes with mutual information criterion for letter to sound conversion
JP3768205B2 (ja) 形態素解析装置、形態素解析方法及び形態素解析プログラム
WO2019116604A1 (en) Speech recognition system
JP2008165786A (ja) 機械翻訳用のシーケンス分類
CN110147451B (zh) 一种基于知识图谱的对话命令理解方法
JP2008165783A (ja) シーケンス分類のためのモデルの識別トレーニング
US20100185670A1 (en) Mining transliterations for out-of-vocabulary query terms
JP2007513407A (ja) 文法生成のための句への意味標識の付与
EP1538535A2 (en) Determination of meaning for text input in natural language understanding systems
US20070225977A1 (en) System and method for diacritization of text
WO2006030302A1 (en) Optimization of text-based training set selection for language processing modules
Quarteroni et al. Simultaneous dialog act segmentation and classification from human-human spoken conversations
JP2006243728A (ja) 音素をテキストに変換する方法、そのコンピュータシステム、及びコンピュータプログラム
Hori et al. Statistical dialog management applied to WFST-based dialog systems
Hifny Restoration of Arabic diacritics using dynamic programming
CN117292680A (zh) 一种基于小样本合成的输电运检的语音识别的方法
JP4878220B2 (ja) モデル学習方法、情報抽出方法、モデル学習装置、情報抽出装置、モデル学習プログラム、情報抽出プログラム、およびそれらプログラムを記録した記録媒体
US20060074924A1 (en) Optimization of text-based training set selection for language processing modules
Imperl et al. Clustering of triphones using phoneme similarity estimation for the definition of a multilingual set of triphones