JP6943975B2

JP6943975B2 - ニューラル機械翻訳システム及び方法

Info

Publication number: JP6943975B2
Application number: JP2019555607A
Authority: JP
Inventors: ブラッドバリー，ジェームズ
Original assignee: セールスフォースドットコムインコーポレイティッド
Priority date: 2017-04-14
Filing date: 2018-04-11
Publication date: 2021-10-06
Anticipated expiration: 2038-04-11
Also published as: JP2021192298A; CN110506279B; US10565318B2; US11520998B2; US20180300317A1; CN110506279A; EP3610419A1; JP2020518891A; US20200117861A1; WO2018191344A1

Description

他の出願に関する相互参照
本願は、２０１８年２月２１日付けで出願された米国特許出願第１５／９０１，７２２号、及び２０１７年４月１４日付けで出願された米国仮特許出願第６２／４８５，８５６号に対する優先権を主張しており、それら各々は全体的にリファレンスに組み込まれる。
援用

以下の題材はあたかもここに完全に記載されているかのようにリファレンスにより組み込まれる：

ＣｈｒｉｓＤｙｅｒ，ＭｉｇｕｅｌＢａｌｌｅｓｔｅｒｏｓ，ＷａｎｇＬｉｎｇ，ＡｕｓｔｉｎＭａｔｔｈｅｗｓ，ａｎｄＮｏａｈＡＳｍｉｔｈ．２０１６ａ．Ｔｒａｎｓｉｔｉｏｎ−ｂａｓｅｄｄｅｐｅｎｄｅｎｃｙｐａｒｓｉｎｇｗｉｔｈｓｔａｃｋｌｏｎｇｓｈｏｒｔ−ｔｅｒｍｍｅｍｏｒｙ．ＩｎＥＭＮＬＰ（“Ｄｙｅｒｅｔａｌ．，２０１６ａ”）；

ＣｈｒｉｓＤｙｅｒ，ＡｄｈｉｇｕｎａＫｕｎｃｏｒｏ，ＭｉｇｕｅｌＢａｌｌｅｓｔｅｒｏｓ，ａｎｄＮｏａｈＳｍｉｔｈ．２０１６ｂ．Ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｇｒａｍｍａｒｓ．ＩｎＮＡＡＣＬ（“Ｄｙｅｒｅｔａｌ．，２０１６ｂ”）；

ＡｄｈｉｇｕｎａＫｕｎｃｏｒｏ，ＭｉｇｕｅｌＢａｌｌｅｓｔｅｒｏｓ，ＬｉｎｇｐｅｎｇＫｏｎｇ，ＣｈｒｉｓＤｙｅｒ，ＧｒａｈａｍＮｅｕｂｉｇ，ａｎｄＮｏａｈＡ．Ｓｍｉｔｈ．２０１７．Ｗｈａｔｄｏｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｇｒａｍｍａｒｓｌｅａｒｎａｂｏｕｔｓｙｎｔａｘ？ＩｎＥＡＣＬ（“Ｋｕｎｃｏｒｏｅｔａｌ．”）；

ＪｕｎｙｏｕｎｇＣｈｕｎｇ，ＳｕｎｇｊｉｎＡｈｎ，ａｎｄＹｏｓｈｕａＢｅｎｇｉｏ．２０１７．Ｈｉｅｒａｒｃｈｉｃａｌｍｕｌｔｉｓｃａｌｅｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｓ．ＩｎＩＣＬＲ；

ＡｋｉｋｏＥｒｉｇｕｃｈｉ，ＫａｚｕｍａＨａｓｈｉｍｏｔｏ，ａｎｄＹｏｓｈｉｍａｓａＴｓｕｒｕｏｋａ．２０１６．Ｔｒｅｅ−ｔｏ−ｓｅｑｕｅｎｃｅａｔｔｅｎｔｉｏｎａｌｎｅｕｒａｌｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ．ＩｎＡＣＬ；ａｎｄ

ＣＳ２２４Ｄ：ＤｅｅｐＬｅａｒｎｉｎｇｆｏｒＮＬＰ，ＬｅｃｔｕｒｅＮｏｔｅｓ：ＰａｒｔＩ，ＰａｒｔＩＩ，ＰａｒｔＩＩＩ，ＰａｒｔＩＶ，ａｎｄＰａｒｔＶ（“Ｓｏｃｈｅｒｅｔａｌ．”）．
開示される技術の分野

開示される技術は、人工知能型コンピュータ及びディジタル・データ処理システム、並びに知能のエミュレーションのための対応するデータ処理方法及び製品（即ち、知識ベース・システム、推論システム、及び知識獲得システム）に関し；不確実性を用いて推論するシステム（例えば、ファジー論理システム）、適応システム、機械学習システム、及び人工ニューラル・ネットワークを含む。開示される技術は、自然言語処理タスクのために、長短期メモリ（ＬＳＴＭ）ネットワークのようなディープ・ニューラル・ネットワークを使用する。

背景
このセクションで議論される対象事項は、このセクションでの単なる言及の結果として先行技術であると考えられるべきではない。同様に、このセクションで言及された、又は背景として提供され対象事項に関連する問題は、先行技術で既に認識されていたものと考えられるべきではない。このセクションにおける対象事項は単に、様々なアプローチを表しているに過ぎず、それ自体、保護が請求される技術の実装にも対応し得る。

機械翻訳のような自然言語処理タスクで言語階層を利用する多くの努力は、人が注釈を付けたツリーバンクから訓練された自己完結パーサー・システムの出力を利用する。第２のアプローチは、手元のタスクと言語階層の関連する態様とを一緒に学習することを目的とし、ツリーバンク注釈実行に対応しても対応しなくてもよい未注釈の訓練データセット・パース・ツリーから導出する。

言語階層を利用することを目的とした自然言語処理のため大部分のディープ・ラーニング・モデルは、ニューラル・ネットワークの再帰構造を記述するため、又は自身の構造を予測するネットワークのための教師信号又はトレーニング・データを提供するために、外部パーサーを統合する。幾つかのディープ・ラーニング・モデルは、２番目のアプローチをとり、階層構造を潜在変数（ａｌａｔｅｎｔｖａｒｉａｂｌｅ）として取り扱い、グラフ・ベースの条件付きランダム・フィールド、ストレート・スルー推定器、又はポリシー勾配強化学習に対して推論を適用し、勾配ベースの学習の離散的な潜在状態を伴う問題への非適用性に対処する。

機械翻訳のタスクについては、構文的に情報を与えられたモデルは、ディープ・ラーニング・コンテキストの内外双方で有望性を示しており、階層的なフレーズ・ベース・モデルは、しばしば、形態素構文入力特徴（ｍｏｒｐｈｏｓｙｎｔａｃｔｉｃｉｎｐｕｔｆｅａｔｕｒｅｓ）により補足されたニューラル機械翻訳モデル及び従来のもの、ツリー構造のエンコーダ、及び各々が純粋にシーケンシャルなベースラインより優れた共同訓練されたパーサーより優れている。

先験的な注釈なしに言語の階層構造を活用する自然言語処理の長年の目標を達成する好機が生じている。改善された自然言語処理がもたらされ得る。

図１は、アテンション・ニューラル機械翻訳システムが動作する環境の一実施形態を示す。

図２は、第１言語（例えば、ドイツ語）でソース・シーケンスを使用するＲＮＮＧエンコーダの一実施形態を示す。

図３は、ソース・シーケンスを処理するＲＮＮＧエンコーダの一実施形態を示す。

図４は、第２言語（例えば、英語）でターゲット・シーケンスを送るアテンション・ベースのＲＮＮＧデコーダの一実施形態を示す。

図５は、ターゲット・シーケンスを処理するアテンション・ベースのＲＮＮＧデコーダの一実施形態を示す。

図６は、ターゲット・シーケンスを処理するためにアテンション・ベースのＲＮＮＧデコーダによって適用されるアテンションの一例である。

図７は、アテンション・ニューラル機械翻訳システムによるアテンション・ベースのフレーズ構造解析についての一実施形態を示す。

図８は、アテンション・ニューラル機械翻訳システムによって適用されるアテンションの視覚化についての一実施形態である。

図９は、アテンション・ニューラル機械翻訳システムを実装するために使用されることが可能なコンピュータ・システムについての一実施態様を示す。

以下の議論は、当業者が開示された技術で生成及び使用できるように提示され、特定のアプリケーション及びその条件の文脈で提供されている。開示された実装に対する様々な変形は、当業者に容易に明らかであり、ここで規定される一般的な原理は、開示される技術の精神及び範囲から逸脱することなく、他の実装及びアプリケーションに適用されてもよい。従って、開示される技術は、示された実装に限定されるようには意図されておらず、ここで開示される原理及び特徴に合致する最も広い範囲が与えられるべきである。

イントロダクション
我々は先験的注釈なしに言語の階層構造を利用する自然言語処理の長年の目標を達成する機械翻訳タスクのためのアテンション・ニューラル機械翻訳モデルを紹介する。このモデルは、新規なアテンションＲＮＮＧデコーダを有する再帰ニューラル・ネットワーク・グラマー（ＲＮＮＧ）エンコーダを含み、ポリシー勾配強化学習を適用して、ソース・シーケンス及びターゲット・シーケンス双方に関して教師なしツリー構造を導出する。明示的なセグメンテーション又はパース・アノーテーションを伴わずに文字レベル・データセット上で訓練される場合、モデルは、もっともらしいセグメンテーション及び浅い解析を学習し、アテンション・ベースラインに近いパフォーマンスを得る。

モデルのエンコーダ及びデコーダＲＮＮＧは、両方とも、テキストを使用又は送り出す際にそれら自身の構成要素構造を予測するツリー構造ニューラル・ネットワークである。エンコーダ及びデコーダ・ネットワークは、文字レベルでテキストを取り込みながら、非制約項数のツリー構造を生成し、モデルが単語内の構造を発見して利用することを可能にする。エンコーダ及びデコーダＲＮＮＧの解析判断は、２つの対象：即ち、高い尤度で次の文字を予測することに報酬を与える言語モデル損失項と、エンコーダ及びデコーダＲＮＮＧにおける構成要素間の１対１のアテンション対応に報酬を与えるツリー・アテンション項との重み付け加算を使用して訓練される確率論的ポリシーによってパラメータ化される。

我々はｆｌｉｃｋｒ３０ｋデータセットのドイツ語−英語ペアでモデルを評価し、それは強力な文字レベル・ベースラインと同様のパフォーマンスを得ている。エンコーダ及びデコーダＲＮＮＧによって生成される潜在ツリーの分析は、モデルが合理的なセグメンテーション及び浅い構文解析を学習し、ドイツ語入力センテンスを取り込みながら構築されるほとんどのフレーズ・レベル構成要素が、英語出力を生成しながら構築される構成要素に有意に対応することを示す。

環境
図１はアテンション・ニューラル機械翻訳システム１０２が動作する環境１００についての一実施形態を示す。システム１０２は、再帰ニューラル・ネットワーク・グラマー（ＲＮＮＧ）エンコーダ１１２と、アテンション・ベースのＲＮＮＧデコーダ１２２とを備え、これらは再帰ニューラル・ネットワーク（ＲＮＮ）アーキテクチャ上で構築される。ＲＮＮＧ及びその変形（スタック専用再帰ニューラル・ネットワーク・グラマー（ｓ−ＲＮＮＧ）等）についての更なる詳細は、「Ｄｙｅｒｅｔａｌ．，２０１６ｂ」及び「Ｋｕｎｃｒｏｅｔａｌ．」にそれぞれ見出されることが可能であり、これらはあたかもここに完全に記載されているかのようにリファレンスに組み込まれている。長短期メモリ（ＬＳＴＭ）及びゲート付き再帰ユニット（ＧＲＵ）等のＲＮＮアーキテクチャについての更なる詳細は、「Ｓｏｃｈｅｒｅｔａｌ．」に見出されることが可能であり、これはあたかもここに完全に記載されているかのようにリファレンスに組み込まれる。アテンション・ベースのＲＮＮＧデコーダ１２２は、アテンダ１３２を含む。アテンダ１３２は、比較器１４２と、指数正規化部１５２と、凸結合部（ａｃｏｎｖｅｘｃｏｍｂｉｎａｔｏｒ）１６２とを含む。

システム１０２は、第１言語（例えば、ドイツ語）のソース・シーケンスを第２言語（例えば、英語）のターゲット・シーケンスに翻訳する。システム１０２は、トレーナー１３８によってトレーニング・データ１０５でトレーニングされる。トレーニング・データ１０５は、ソース・シーケンス１１５及びターゲット・シーケンス１１８を含む。トレーナー１３８は、教師フォーサ１４８と強化学習部１５８とを含む。環境１００はまた、システム１０２を評価するために使用される検証データ（図示せず）も含む。

トレーニングされ配備された後、システム１０２は、クライアント１６５（例えば、ＧｏｏｇｌｅＴｒａｎｓｌａｔｅ^ＴＭ）上で動作するウェブ・アプリケーションを介して推論データ１５５を受信する。即ち、システム１０２は、第１言語のソース・シーケンスを識別する翻訳リクエストを受信し、第２言語のターゲット・シーケンスをクライアント１６５に送信することによって、リアルタイムで翻訳リクエストに応答する。

環境１００のシステム・コンポーネントは、様々なタイプのコンピューティング・デバイス上で動作するソフトウェアによって実装される。デバイスの例は、ワークステーション、サーバー、コンピューティング・クラスタ、ブレード・サーバー、及びサーバー・ファームである。ネットワーク１２５は、環境１００のシステム・コンポーネントを結合し、すべて互いに通信している（実線の両矢印線で示されている）。実際の通信経路は、公的及び／又は私的なネットワーク上のポイント・ツー・ポイントであるとすることができる。通信は、様々なネットワーク、例えば、プライベート・ネットワーク、ＶＰＮ、ＭＰＬＳ回路、又はインターネットを介して行うことができ、適切なアプリケーション・プログラミング・インターフェース（ＡＰＩ）及びデータ交換フォーマット、例えば、表現可能状態転送（ＲＥＳＴ）、ジャバスクリプト・オブジェクト・ノーテーション（ＪＳＯＮ）、拡張マークアップ言語（ＸＭＬ）、シンプル・オブジェクト・アクセス・プロトコル（ＳＯＡＰ）、ジャバ・メッセージ・サービス（ＪＭＳ）、及び／又はジャバ・プラットフォーム・モジュール・システムを使用することができる。全ての通信は暗号化されることが可能である。通信は、一般に、ＥＤＧＥ、３Ｇ、４ＧＬＴＥ、Ｗｉ−Ｆｉ、及びＷｉＭＡＸ等のプロトコルを介して、ＬＡＮ（ローカル・エリア・ネットワーク）、ＷＡＮ（ワイド・エリア・ネットワーク）、電話ネットワーク（公衆交換電話網（ＰＳＴＮ））、セッション開始プロトコル（ＳＩＰ）、ワイヤレス・ネットワーク、ポイント・ツー・ポイント・ネットワーク、スター・ネットワーク、トークン・リング・ネットワーク、ハブ・ネットワーク、モバイル・インターネットを含むインターネット等のネットワーク上で行われる。更に、ユーザー名／パスワード、オーオース（ＯＡｕｔｈ）、ケルベロス（Ｋｅｒｂｅｒｏｓ）、セキュアＩＤ（ＳｅｃｕｒｅＩＤ）、ディジタル証明書などの様々な許可及び認証技法が、通信を保護するために使用されることが可能である。

環境１００のシステム・コンポーネントを説明してきたが、ここでＲＮＮＧエンコーダ１１２及びその処理について説明する。

ＲＮＮＧエンコーダ
上述のように、エンコーダ１１２及びデコーダ１２２は、互いに結合された再帰ニューラル・ネットワーク・グラマー（ＲＮＮＧ）ネットワークである。一実施形態では、ＲＮＮＧエンコーダ１１２は、スタック専用ＲＮＮＧ（Ｋｕｎｃｒｏｅｔａｌ．に記載されている）であり、ＲＮＮＧデコーダ１２２は、構成要素レベルのアテンション（例えば、文字レベルのアテンション）で増強されたスタック専用ＲＮＮＧである。

再帰ニューラル・ネットワーク・グラマーに関して、ＲＮＮＧはトップ・ダウン遷移ベース・モデルであり、そのモデルは、文章表現と解析ツリーとを共に構築し、スタックＬＳＴＭ（Ｄｙｅｒｅｔａｌ．，２０１６ａに記載されている）を用いて構文解析状態を表し、構成要素コンポジション機能として双方向ＬＳＴＭ（Ｂｉ−ＬＳＴＭ）を使用する。

ＲＮＮＧは、ストリング終端及びフレーズ構造非終端にわたる結合確率分布を定義する。形式的には、ＲＮＮＧはトリプル＜Ｎ，Σ，Θ＞によって定められ、Ｎは非終端記号（ＮＰ（名詞句）、ＶＰ（動詞句）等）の集合を示し、Σは全ての終端記号の集合を示し、Θはモデル・パラメータの集合を示す。より細かい粒度のフレーズ表現を構成するために手作りのルールを当てにする代わりに、ＲＮＮＧは、（ニューラル・ネットワーク・アーキテクチャ及びΘにおける）フレーズの構成を経て渡される情報を暗黙的にパラメータ化し、従って、古典的な確率的コンテキスト・フリー・グラマーにおける強い独立仮定を弱める。

ＲＮＮＧは遷移ベースの構文解析で使用されるもののような抽象状態マシンに基づいており、そのアルゴリズム状態は、（ｉ）部分的に完成した構成要素のスタック、（ｉｉ）既に生成された終端記号のバッファ、及び（ｉｉｉ）過去のアクションのリストを含む。センテンスｘ及びそのフレーズ構造ツリーｙを生成するために、ＲＮＮＧは、ｙをトップ・ダウンで構築するためにアクションのシーケンスをサンプリングする。ｙが与えられると、教師ありトレーニング中に使用される１つのそのようなシーケンスａ＝＜ａ_１，．．．，ａ_ｎ＞が存在する。ＲＮＮＧの３つのコンポーネントの各々は、ＬＳＴＭで埋め込まれ、少なくとも１つのＬＳＴＭの隠れ状態が、現在のタイムステップのための全ての実行可能なアクションにわたるソフトマックスを予測するために使用される。

ＲＮＮＧは３つの異なるアクションを使用する：
● ＮＴ（非終端）：オープン非終端をスタックに導入する，例えば「（ＮＰ）」；
● ＧＥＮ（生成）：終端記号を生成し、それをスタック及びバッファに配置する；及び
● ＲＥＤ（リデュース）：構成要素は今や完成していることを示す。現在の構成要素を含むスタックの要素はポップされ（最後のオープン非終端に戻る）、コンポジション関数が双方向ＬＳＴＭ（Ｂｉ−ＬＳＴＭ）によって実行され、単独の明示的な合成表現を生成し、これはスタックにプッシュされる。

各タイムステップで、モデルは、（完全なアルゴリズム状態で条件付けられる）とるべき次のアクションにわたる分布を定義するための特徴として、各コンポーネントについて別個のＬＳＴＭを用いて、スタック、バッファ、及び過去のアクションをエンコードする。ＲＮＮＧの重要な要素はコンポジション関数であり、これは、完成した構成要素又は構成要素の部分及び非終端ラベルを、スタック上の単一の明示的な要素に縮小又は変換する。この関数は、Ｂｉ−ＬＳＴＭを使用して新しい構成要素のベクトル表現を計算する。

ＲＮＮＧは生成モデルであるので、次式のように定義されるｐ（ｘ，ｙ）、ストリング及びツリーの結合分布を最大化しようとする：

言い換えれば、ｐ（ｘ，ｙ）は全ての過去のアクションで条件付けられた局所的確率の積として定義される。結合確率推定値ｐ（ｘ，ｙ）は、ｘに対する可能な構文解析の集合にわたってマージナル化することによって、フレーズ構造構文解析（ａｒｇｍａｘ_ｙｐ（ｙ｜ｘ）を見出すこと）及び言語モデリング（ｐ（ｘ）を見出すこと）の双方に使用されることが可能である。双方の推論問題は、重要度サンプリング手順（「Ｄｙｅｒｅｔａｌ．，２０１６ｂ」及び「Ｋｕｎｃｒｏｅｔａｌ．」に記載されている）を使用して解決することができる。

一実施形態では、ＲＮＮＧエンコーダ１１２は、異なるフレーズ・タイプに対して別個の新しい非終端トークンを欠いており、従って、Ｂｉ−ＬＳＴＭによって実現される合成関数に対する入力としてフレーズ・タイプを含まないという点で、「Ｄｙｅｒｅｔａｌ．，２０１６ｂ」のものと異なる。その代わりに、エンコーダに対するｘ_ｉの値は定数ｘ^ｅｎｃに固定され、ＲＮＮＧデコーダ１２２のｘ_ｊ ^ｄｅｃ値は、図５を参照して以下で説明されるアテンション・プロシジャによって決定される。

最初に説明したように、ＲＮＮＧは、３つの連結される入力を有する１層パーセプトロンｔａｎｈを使用して、パーサー遷移を予測し、３つの入力は次のとおりである：即ち、スタックの内容にわたる単方向ＬＳＴＭの最後の状態、分析されていないトークンのリバース・バッファにわたる単方向ＬＳＴＭの最後の状態、及び過去の遷移にわたるＬＳＴＭの結果。これらの状態の３つすべては、「Ｄｙｅｒｅｔａｌ．，２０１６ａ」に記載されているスタックＬＳＴＭアルゴリズムを使用して、パーサー遷移ごとに高々１つのＬＳＴＭステップで計算されることが可能である。

しかしながら、このようなベースラインＲＮＮＧは、パーサーの遷移をスタック表現のみに、即ちスタック専用ＲＮＮＧ（「Ｋｕｎｃｒｏｅｌａｌ．」に記載されている）に条件付けるものより優れている。幾つかの実装形態では、このスタックのみのケースに我々のモデルを制限することにより、ＲＮＮＧエンコーダ１１２及びＲＮＮＧデコーダ１２２の両方が、言語モデル損失を使用して教師あり学習され得る一方で、解析されていないトークンのリバース・バッファを介した単方向ＬＳＴＭの最後状態へのモデル・アクセスを可能にすることにより、次の文字を予測し、ゼロ損失を得る効率的な方法をもたらす。

図２、３、４及び５に関する以下の説明は、ドイツ語のソース・シーケンス「ＤｉｅｈｕｎｇｒｉｇｅＫａｔｚｅｗｅｈｔ」を英語のターゲット・シーケンス「Ｔｈｅｈａｎｇｒｙｃａｔｍｅｏｗｓ」に翻訳する状況における開示されるアテンション・メカニズムに焦点を当てている。

図２は、第１言語（例えば、ドイツ語）のソース・シーケンスを消費するＲＮＮＧエンコーダ１１２の一実施形態２００を示す。図３は、ソース・シーケンスを処理するＲＮＮＧエンコーダ１１２の一実施形態３００を示す。

図２において、例示のドイツ語ソース・シーケンスは、「ＤｉｅｈｕｎｇｒｉｇｅＫａｔｚｅｗｅｈｔ」である。図示の実施形態では、ＲＮＮＧエンコーダ１１２は、６つのＮＴ（非終端）アクションを行う。ＲＮＮＧエンコーダ１１２の各ＮＴアクションは、ｘ^ｅｎｃとしてベクトル化され、エンコードされ、又は埋め込まれる。一実施形態において、ｘ^ｅｎｃは一定の又は固定されたベクトルであり、ソース・シーケンスのフレーズ・ツリー構造の異なるフレーズ・タイプ構成要素のための共通の埋め込み（ａｃｏｍｍｏｎｅｍｂｅｄｄｉｎｇ）として役立つ。フレーズ・タイプ構成要素の具体例は、名詞句（ＮＰ）、動詞句（ＶＰ）、前置詞句（ｐｒｏｐｏｓｉｔｉｏｎａｌｐｈｒａｓｅ：ＰＰ）、及び文（Ｓ）を含む。言い換えれば、この実施形態によれば、符号化の異なるタイムステップにおいて、ＮＴアクションを埋め込むベクトルの値は、ｘ^ｅｎｃとして固定されたままであり、エンコードするタイムステップにわたって変化しない。また、エンコードするタイムステップにわたる共通の埋め込みｘ^ｅｎｃの伝播が図３に示されている。

ＮＴアクションを行う「直前」のＲＮＮＧエンコーダ１１２の状態又は隠れ状態は、ｘ_ｉ ^ｅｎｃによって表現される。言い換えれば、ｓ_ｉ ^ｅｎｃは、ソース・シーケンスのフレーズ・ツリー構造のフレーズ・タイプを予測する場合（直前）におけるエンコーダの状態を識別するエンコーダ・ツリー・ノードを表現している。図３に示される実施形態では、６つのそのような隠れ状態又はエンコーダ・ツリー・ノードが示されており（例えば、エンコーディング・タイムステップｔ_０，ｔ_１，ｔ_２，ｔ_８，ｔ_１９，ｔ_２９におけるもの）、その各々は、ＲＮＮＧエンコーダ１１２がＲＥＤ（リデュース）アクション（例えば、エンコーディング・タイムステップｔ_６，ｔ_１７，ｔ_２５，ｔ_２７，ｔ_３４，ｔ_３５におけるもの）を行った結果として生成される、所謂エンコーダ合成埋め込みのうちの１つによって補完される。一実施形態では、ＲＥＤアクションを行う場合に、ＲＮＮＧエンコーダ１１２は、オープン・フレーズ・タイプ構成要素をエンコード（ｘ^ｅｎｃ）することなく、双方向ＬＳＴＭ（Ｂｉ−ＬＳＴＭ）を使用して、ソース・シーケンスのフレーズ・ツリー構造の現在のトークン構成要素をエンコードし、最新のオープン・フレーズ・タイプ非終端に戻る。Ｂｉ−ＬＳＴＭの出力はエンコーダ合成埋め込みｃ_ｉ ^ｅｎｃである。例えば、エンコーディング・タイムステップｔ_６において、図３における第１ＲＥＤアクションは、Ｂｉ−ＬＳＴＭにより、ドイツ語の言葉「Ｄｉｅ」における文字トークンｘ^{Ｄ＋ｉ＋ｅ}の双方向符号化を引き起こす。双方向エンコーディング・プロシジャは、第３ＮＴアクションを行う直前にＲＮＮＧ符号器１１２の隠れ状態ｓ_１ ^ｅｎｃを補完するエンコーダ合成埋め込みｃ_１ ^ｅｎｃを生成する。

ソース・シーケンスのトークンに関して、それらは、ＲＮＮＧエンコーダ１１２がＧＥＮ（生成）アクションを行う場合に消費される。図３に示す実施形態では、トークンは文字ベースのトークン埋め込みｘ^{ｔｏｋｅｎｓ}である。一実施形態では、文字ベースのトークン埋め込みｘ^{ｔｏｋｅｎｓ}は、実数値ベクトルを使用して密にエンコードされることが可能である。別の実装では、文字ベースのトークン埋め込みｘ^{ｔｏｋｅｎｓ}は、１ホット・ベクトル（ｏｎｅ−ｈｏｔｖｅｃｔｏｒｓ）を使用して、疎にエンコードされることが可能である。

図３の入力／出力ワークフローに関し、ＲＮＮＧエンコーダ１１２は、ランダムな又は所定の隠れ状態ｓ_６ ^ｅｎｃで初期化される。各エンコーディング・タイムステップにおいて、ＲＮＮＧエンコーダ１１２の隠れ状態（エンコーダ状態）は、次のアクションがＲＥＤ、ＧＥＮ又はＮＴであるかどうかを決定するエンコーダ・ソフトマックス層に供給される。エンコーダ・ソフトマックス層が、ＲＮＮＧエンコーダ１１２の現在の隠れ状態を処理することに応答して、現在のエンコーディング・タイムステップでＮＴアクションを出力する場合、固定された埋め込みｘ^ｅｎｃが取得され、次の隠れ状態を生成するゲートＬＳＴＭ型処理のための次のエンコーディング・タイムステップにおいてＲＮＮＧエンコーダ１１２に対する入力として供給される（「Ｓｏｃｈｅｒｅｔａｌ．」に記載されている）。

エンコーダ・ソフトマックス層が、ＲＮＮＧエンコーダ１１２の現在の隠れ状態を処理することに応答して、現在のエンコーディング・タイムステップでＲＥＤアクションを出力する場合、エンコーダ合成埋め込みｃ_ｉ ^ｅｎｃが、Ｂｉ−ＬＳＴＭの合成関数によって生成され、次の隠れ状態を生成するために、ゲートＬＳＴＭ型処理に関する次のエンコーディング・タイムステップでＲＮＮＧエンコーダ１１２に対する入力として供給される（「Ｓｏｃｈｅｒｅｔａｌ．」に記載されている）。Ｂｉ−ＬＳＴＭへの入力は、現在のフレーズ構造の構成トークンの文字ベースのトークン埋め込みｘ^{ｔｏｋｅｎｓ}であり、フレーズ・タイプ固定埋め込みｘ^ｅｎｃによらず、フォワード及びリバース方向でＢｉ−ＬＳＴＭへ送られる

エンコーダ・ソフトマックス層が、ＲＮＮＧエンコーダ１１２の現在の隠れ状態を処理することに応答して、現在のエンコーディング・タイムステップでＧＥＮアクションを出力する場合、文字ベースのトークンｘ^{ｔｏｋｅｎ}が生成され、次の隠れ状態を生成するためにゲートＬＳＴＭ型処理の次のエンコーディング・タイムステップでＲＮＮＧエンコーダ１１２に入力として供給される（「Ｓｏｃｈｅｒｅｔａｔ．」に記載されている）。一実施形態では、ＧＥＮアクションが選択される場合、ＲＮＮＧエンコーダ１１２は、現在のエンコーダ状態を、１レイヤ語彙ソフトマックス・パーセプトロンに渡し、次のトークンが語彙内の文字各々である確率を与える。

ＲＮＮＧエンコーダ１１２及びその処理について説明してきたが、議論はアテンション・ベースのＲＮＮＧデコーダ１２２及びその処理に移る。

アテンション・ベースＲＮＮＧデコーダ
ＲＮＮＧエンコーダ１１２は、新しい非終端を表現するために単一のトークンｘ^ｅｎｃを使用するが、ＲＮＮＧデコーダ１２２は、エンコーダによって生成される全ての非終端ツリー・ノードのフレーズ表現の構造的アテンションによる重み付け加算として、スタックにおける新しい非終端を表現する。一実施形態では、デコーダ・スタック表現ｓ_ｊ ^ｄｅｃと各エンコーダ・ノードにおけるスタック表現∀ｓ_ｉ ^ｅｎｃとの間の正規化されたドット積（即ち、ｃ_ｊ ^ｅｎｃを除いてｘ_ｊ ^ｅｎｃまでを含むデコーダ・スタックＬＳＴＭの隠れ状態）を、エンコーダ・ノードに対応するフレーズ埋め込み∀ｃ_ｉ ^ｅｎｃの重み付け加算における係数として使用する：

エンコーダ及びデコーダ・スタック表現の間のドット積は、現在のデコーダ状態（の残留コンテキスト）とエンコーダ状態との間の構造的類似性の尺度である。特定のデコーダ非終端の中で、このモデルは通常のシーケンス・ツー・シーケンス変換に帰着する。対応する非終端のエンコーダの表現、又はそのような表現の重み付けされた組み合わせから開始して、デコーダは、子の構成要素（非終端及び終端の両方）の翻訳されたシーケンスを１つずつ送り出し、非終端の子を送り出す場合に限ってアテンションを適用する。

図４は、第２言語（例えば、英語）のターゲット・シーケンスを送り出すアテンション・ベースのＲＮＮＧデコーダ１２２の一実施形態４００を示す。図５は、ターゲット・シーケンスを処理するアテンション・ベースＲＮＮＧデコーダ１２２の一実施形態５００を示す。

図４において、ＲＮＮＧデコーダ１２２によって送り出される例示的な英語のターゲット・シーケンスは、「Ｔｈｅｈｕｎｇｒｙｃａｔｍｅｏｗｓ（空腹の猫がニャーと鳴く）」というものである。説明される実施例において、ＲＮＮＧデコーダ１２２は６つのＮＴ（非終端）アクションを行う。ＲＮＮＧデコーダ１２２のＮＴアクションは、ｘ_ｊ ^ｄｅｃとしてベクトル化され、エンコードされ、又は埋め込まれ、これは本明細書では、ターゲット・シーケンスのフレーズ・ツリー構造の予測されたフレーズ・タイプの「デコーダ埋め込み」と呼ばれる。デコーダ埋め込みｘ_ｊ ^ｄｅｃは、アテンダ１３２によって実施されるアテンション・メカニズムによって決定される（アテンダ１３２は上述したものであり、図５及び図６に関連して更に詳細に説明される）。予測されるフレーズ・タイプの具体例は、名詞句（ＮＰ）、動詞句（ＶＰ）、前置詞句（ＰＰ）、及び文（Ｓ）を含む。

ＮＴアクションを行う「直前」のＲＮＮＧデコーダ１２２の状態又は隠れ状態は、ｓ_ｊ ^ｄｅｃにより表される。言い換えれば、ｓ_ｊ ^ｄｅｃは、ターゲット・シーケンスのフレーズ・ツリー構造のフレーズ・タイプを予測する場合（直前）におけるデコーダの状態を識別するデコーダ・ツリー・ノードを表す。図５に示される実装では、そのような６つの隠れ状態又はデコーダ・ツリー・ノードが示され（例えば、デコーディング・タイムステップｔ_０，ｔ_１，ｔ_２，ｔ_８，ｔ_１７，ｔ_２５におけるもの）、それぞれは、ＲＥＤ（リデュース）アクション（例えば、デコーディング・タイムスタンプｔ_６，ｔ_１５，ｔ_２１，ｔ_２３，ｔ_３２，ｔ_３３におけるもの）を行うＲＮＮＧデコーダ１２２の結果として生成される、所謂デコーダ合成埋め込みｃ_ｊ ^ｄｅｃの１つによって補完される。一実施形態では、ＲＥＤアクションを行う場合に、ＲＮＮＧデコーダ１２２は、オープン・フレーズ・タイプ構成要素ｘ_ｊ ^ｄｅｃをエンコードすることなく、双方向ＬＳＴＭ（Ｂｉ−ＬＳＴＭ）を使用して、ターゲット・シーケンスのフレーズ・ツリー構造の現在のトークン構成要素をエンコードし、最新のオープン・フレーズ・タイプ非終端に戻る。Ｂｉ−ＬＳＴＭの出力は、デコーダ合成埋め込みｃ_ｊ ^ｄｅｃである。例えば、デコーディング・タイムステップｔ_６では、図５における第１ＲＥＤアクションは、Ｂｉ−ＬＳＴＭにより、英単語「Ｔｈｅ」における文字トークンｘ^{Ｔ＋ｈ＋ｅ}の双方向符号化を引き起こす。双方向符号化は、第３ＮＴアクションを行う直前にＲＮＮＧ復号器１２２の隠れ状態ｓ_１ ^ｄｅｃを補完するデコーダ合成埋め込みｃ_１ ^ｄｅｃを生成する。

ターゲット・シーケンスのトークンに関して、それらは、ＲＮＮＧデコーダ１２２がＧＥＮ（生成）アクションを行う場合に送り出される。図５に示す実施例では、トークンは文字ベースのトークン埋め込みｘ^{ｔｏｋｅｎｓ}である。一実施形態では、文字ベースのトークン埋め込みｘ^{ｔｏｋｅｎｓ}は、実数値ベクトルを使用して密にデコードされることが可能である。別の実装では、文字ベースのトークン埋め込みｘ^{ｔｏｋｅｎｓ}は、１ホット・ベクトルを使用して、疎にデコードすることが可能である。

図５の入力／出力ワークフローに関して、ＲＮＮＧデコーダ１２２は、ランダムな又は所定の隠れ状態ｓ_６ ^ｄｅｃで初期化される。一実施形態では、ソース・シーケンスの最終的な又は最後のエンコーダ合成埋め込み（例えば、ｃ_６ ^ｅｎｃ）は、ターゲット・シーケンス（例えば、ｘ_１ ^ｄｅｃ）の最初に予測されるフレーズ・タイプのためのデコーダ埋め込みとして使用される。即ち、図４及び図５に示されるように、ｘ_１ ^ｄｅｃ＝ｃ_６ ^ｅｎｃである。各デコーディング・タイムステップにおいて、ＲＮＮＧデコーダ１２２の隠れ状態（デコーダ状態）は、次のアクションがＲＥＤ、ＧＥＮ又はＮＴであるかどうかを決定するデコーダ・ソフトマックス層に供給される。デコーダ・ソフトマックス層が、ＲＮＮＧデコーダ１２２の現在の隠れ状態を処理することに応答して、現在のデコード・タイムステップでＮＴアクションを出力する場合、デコーダ埋め込みｘ_ｊ ^ｄｅｃは、アテンダ１３２によって実装されるアテンション・メカニズムによって決定され、次の隠れ状態を生成するゲートＬＳＴＭ型処理のための次のデコード・タイムステップでＲＮＮＧデコーダ１２２に対する入力として供給される（「Ｓｏｃｈｅｒｅｔａｌ．」に記載されている）。

デコーダ・ソフトマックス層が、ＲＮＮＧデコーダ１２２の現在の隠れ状態を処理することに応答して、現在のデコード・タイムステップでＲＥＤアクションを出力する場合、デコーダ合成埋め込みｃ_ｊ ^ｄｅｃは、Ｂｉ−ＬＳＴＭの合成関数によって生成され、次の隠れ状態を生成するゲートＬＳＴＭ型処理のための次のデコーディング・タイムステップでＲＮＮＧデコーダ１２２に対する入力として供給される（「Ｓｏｃｈｅｒｅｔａｌ．」に記載されている）。Ｂｉ−ＬＳＴＭへの入力は、現在のフレーズ構造の構成トークンの文字ベースのトークン埋め込みｘ^{ｔｏｋｅｎｓ}であり、フレーズ・タイプ・デコーダ埋め込みｘ_ｊ ^ｄｅｃなしに、Ｂｉ−ＬＳＴＭへ順方向及び逆方向に供給される。一実施形態では、エンコーダ及びデコーダは、共通のＢｉ−ＬＳＴＭを共有し、別の実施形態では、それらは、別個のＢｉ−ＬＳＴＭを使用する。

ＲＮＮＧデコーダ１２２の現在の隠れ状態を処理することに応答して、デコーダ・ソフトマックス層が現在のデコード・タイムステップでＧＥＮアクションを出力する場合、文字ベース・トークンｘ^{ｔｏｋｅｎ}が生成され、次の隠れ状態を生成するゲートＬＳＴＭ型処理のための次のデコーディング・タイムステップでＲＮＮＧデコーダ１２２に対する入力として供給される（「Ｓｏｃｈｅｒｅｔａｌ．」に記載されている）。一実施形態では、ＧＥＮアクションが選択される場合に、ＲＮＮＧデコーダ１２２は、現在のデコーダ状態を、１レイヤ語彙ソフトマックス・パーセプトロンに渡し、次のトークンが語彙のうちの各文字である確率を与える。

アテンション
図６は、ターゲット・シーケンスを処理するために、アテンション・ベースのＲＮＮＧデコーダ１２２によって適用されるアテンション（又は注意）６００の一例である。上述したように、ＲＮＮデコーダ１２２はアテンダ１３２を備える。アテンダ１３２は、比較器１４２と、指数正規化部１５２と、凸結合部１６２とを含む。比較器１４２は、現在のデコーダ状態（例えば、図６におけるｓ_１ ^ｄｅｃ）を表すデコーダ・ツリー・ノードを、エンコーダ中の異なるエンコーダ状態（例えば、図６におけるｓ_１ ^ｅｎｃ，ｓ_２ ^ｅｎｃ，ｓ_３ ^ｅｎｃ，ｓ_４ ^ｅｎｃ，ｓ_５ ^ｅｎｃ，ｓ_６ ^ｅｎｃ）を表すエンコーダ・ツリー・ノードと比較する。

比較は、内積、双一次関数、及び単層ニューラル・ネットワークのうちの少なくとも１つを使用して、比較器１４２によって実行されることが可能である。比較器１４２による比較は、ソース・シーケンスのフレーズ・ツリー構造とターゲット・シーケンスのフレーズ・ツリー構造との間の構文構造の類似性を測定することができる。

比較器１４２による比較の結果は、いわゆるアテンション値である。アテンション値は正規化されていないスカラー（図６ではλ_１ないしλ_６として示されている）である。指数正規化部１５２（例えば、ソフトマックス層）は、アテンション・ウェイトを生成するために、アテンション値を指数関数的に正規化する。アテンション・ウェイトは、合計して１になる正に正規化されたスカラーである（図６ではα_１ないしα_６として示されている）。ドイツ語の単語「Ｄｉｅ」は英語の単語「Ｔｈｅ」に構文的に最も類似しているので、ソース及びターゲット・シーケンスのうちの最も構文的に類似したフレーズ・ツリー構造（例えば、図６におけるｓ_１ ^ｄｅｃ及びｓ_１ ^ｅｎｃ）の間の比較器１４２による比較は、最も高い（即ち１に最も近い）アテンション・ウェイト（例えば、図６におけるα_１）を生成することができる。別の例において、ドイツ語の単語「ｈｕｎｇｒｉｇｅ」は英語の単語「ｈｕｎｇｒｙ」に構文的に最も類似しており、なぜなら双方の単語は定冠詞を先行詞とし、名詞句の始まりであるからであり、ソース及びターゲット・シーケンスの最も構文的に類似するフレーズ・ツリー構造（例えば、ｓ_２ ^ｄｅｃ及びｓ_２ ^ｅｎｃ）の間のコンパレータ１４２による比較は、最も高い（即ち、１に最も近い）アテンション・ウェイトを生成することができる。

比較及び指数正規化は、上述のステップ（ａ）によって数学的に記述される。

凸結合部１６２は、指数関数的に正規化された結果を各自のアテンション・ウェイト（例えばα_１ないしα_６）としてを使用して、エンコーダ・ツリー・ノード（例えば、図６におけるｃ_１ ^ｅｎｃ，ｃ_２ ^ｅｎｃ，ｃ_３ ^ｅｎｃ，ｃ_４ ^ｅｎｃ，ｃ_５ ^ｅｎｃ，ｃ_６ ^ｅｎｃ）に対応するエンコーダ合成埋め込みの重み付け加算を計算又は決定する。換言すれば、ターゲット・シーケンスのフレーズ・ツリー構造の各々についての予測フレーズ・タイプ（例えば、図５のデコーディング・タイムステップｔ_３におけるもの）に対するデコーダ埋め込み（例えば、図６におけるｘ_３ ^ｄｅｃ）は、アテンション・ウェイト（例えば、図６におけるα_１ないしα_６）によってスケーリングされたエンコーダ合成埋め込み（例えば、図６におけるｃ_１ ^ｅｎｃ，ｃ_２ ^ｅｎｃ，ｃ_３ ^ｅｎｃ，ｃ_４ ^ｅｎｃ，ｃ_５ ^ｅｎｃ，ｃ_６ ^ｅｎｃ）の凸結合である。凸結合は、上述のステップ（ｂ）によって数学的に記述される。

アテンション・ベースのＲＮＮＧデコーダ１２２及びその処理について説明してきたが、ここで議論はアテンション・ベースのフレーズ構造解析６００に移る。

アテンション・ベース・フレーズ構造解析
図７は、アテンション・ニューラル機械翻訳システム１０２によるアテンション・ベースのフレーズ構造解析７００の一実施形態を示す。

エンコード又はデコードのいずれかの最中の所与のタイムステップにおいて、３つの可能な遷移が存在し（但し、１つ又は複数が禁止され得る）：新しい非終端構成要素を開始すること（ＮＴ）、終端を予測して取り込むこと（ＧＥＮ）、又は現在の非終端を終了すること（ＲＥＤＵＣＥ）である。選択された遷移がＮＴである場合、ＲＮＮＧは、新しい非終端トークンをアクティブ構成に追加し、新しい非終端構成を開始する。遷移がＧＥＮである場合、ＲＮＮＧは、次のトークンを予測し、カーソル位置でコンテキスト・バッファからグランド・トゥルースの次のトークンを追加する。遷移がＲＥＤＵＣＥである場合、アクティブな非終端の内容が合成関数に渡され、新しい非終端トークンが合成の結果と置き換えられ、スタックＬＳＴＭが、以前のアクティブ構成要素にロールバックされる。３つ全ての場合において、スタックＬＳＴＭは、次に、１ステップ進める。

アテンション・ベースのフレーズ構造解析７００を説明してきたが、ここで議論はアテンション・ニューラル機械翻訳システム１０２のトレーニングに移る。

トレーニング
我々のモデルを確率的計算グラフとして定式化し、逆伝搬（決定論的ノードを通る正確な勾配を提供し、教師フォーサ１４８によって実現される）とバニラ・ポリシー・グラジエント（ｖａｎｉｌｌａｐｏｌｉｃｙｇｒａｄｉｅｎｔ）（確率論的ノードを通る勾配のモンテカルロ推定器を提供し、強化学習部１５８によって実現される）とを組み合わせた（トレーナー１３８によって実現される）トレーニング方法（パラダイム）を導く。我々のモデルには幾つかの種類のトレーニング信号がある。先ず、エンコーダ又はデコーダは、ＧＥＮアクションを選択すると、現在のスタック状態を１層ソフトマックス・パーセプトロンに通し、次のトークンが語彙のうちの文字各々である確率を与える。生成される各々のトークンに対する言語モデル損失Ｌ_ｋは、グランド・トゥルースの次のトークンに割り当てられる負の対数確率である。他の微分可能なトレーニング信号は、カバレッジ損失Ｌ_ｃであり、これは、アテンション・ウェイトが１対１写像の理想からどれだけ逸脱しているかの尺度である。このペナルティは、３つのＭＳＥ項の合計として計算される。

微分可能な損失を使用する逆伝搬は、出力ソフトマックス・パーセプトロンのウェイトのみに影響を及ぼす。これらのウェイトに対する全体的な損失関数は、全てのＬ_ｋ項とＬ_ｃとの重み付け加算である。

更に、或る種のツリー構造に向かって、又はそこから離れるようにバイアスする追加的な微分可能でない報酬ｒが存在する。ここで、負数はペナルティに対応する。モデルが１子のみの構成を有するリデュース（ＲＥＤＵＣＥ）を予測する場合（子がゼロの構成を有するＲＥＤＵＣＥは禁止されている）、又は行の中で２つのＲＥＤＵＣＥ又はＮＴの遷移を予測する場合に、−１のツリー報酬を割り当てる。これは、単項分岐（ｕｎａｒｙｂｒａｎｃｈｉｎｇ）に対してモデルをバイアスし、専ら左−又は右−分岐ツリー構造を生成してしまう可能性を減らす。更に、ルートを除くすべての構成要素に対して、子のサイズ及びタイプに基づいてツリー報酬を割り当てる。ｎ及びｔが非終端及び終端の子の数である場合、この報酬は、全ての子が終端である場合には４ｔであり、そうでない場合には９√ｎである。このような報酬構造は、同じ構成内の終端と非終端とを自由に混合することに対してモデルを偏らせ、トレーニングの初期に実質的なツリー構造を構築するインセンティブを提供し、従ってモデルは自明な局所的最小値で立ち往生しない。エンコーダ及びデコーダの両方において、各々の確率的動作ノードは、アクションがＲＥＤＵＣＥであれば対応するツリー報酬ｒ_ｋ（そうでなければゼロ）を有し、アクションがＧＥＮであれば対応する言語モデル損失Ｌ_ｋ（そうでなければゼロ）を有する。言語モデル損失から、文字の頻度の影響を減らしたいので、我々は、語彙の中の各々の文字ｚについて独立に計算された各ツリー報酬及び追加の指数移動平均ベースラインから、指数移動平均ベースラインを減算する。ＧＥＮ（ｋ）が、アクション１からｋのうちのＧＥＮ遷移数であり、γが減衰定数である場合、アクションｋに対する最終的な報酬Ｒ_ｋ ^ｍ（ｍ∈｛ｅｎｃ，ｄｅｃ｝）は、次のとおりである：

これらの報酬は、それぞれの確率的ノード（正規化されたアクション確率ｐ_ｋ ^ａ及び選択されたアクションａ_ｋを有する）が、標準的な多項式スコア関数推定器（ＲＥＩＮＦＯＲＣＥ）に従って逆伝播中に生成する勾配を定義する：

アテンション・ニューラル機械翻訳システム１０２のトレーニングについて説明してきたが、ここで議論はアテンション・ニューラル機械翻訳システム１０２によって適用されるアテンションの視覚化８００に移る。

アテンション視覚化
図８は、アテンション・ニューラル機械翻訳システム１０２によって適用されるアテンションの視覚化８００についての一実施形態である。展開セットからの２つの文に対するアテンション視覚化（Ａｔｔｅｎｔｉｏｎｖｉｓｕａｌｉｚａｔｉｏｎｓ）が示されている。２つの構成要素間のアテンションは、影が付いた四角形により表現され、四角形のｘ軸及びｙ軸への投影はそれぞれエンコーダ及びデコーダ構成要素をカバーしている。

ｆｌｉｃｋｒ３０ｋのドイツ語−英語ペア、ＷＭＴマルチモーダル変換共有タスクのテキスト成分に関して我々のモデルを評価した。ＯｐｅｎＮＭＴプロジェクトからの２つの層及び３８４個の隠れユニットを有するアテンション・シーケンス・ツー・シーケンス・モデルが、ベースラインとして文字レベルで実行され、貪欲推論で３２．０テストＢＬＥＵを得た。同じ隠れサイズ及び貪欲推論による我々のモデルは、反復なバイグラムを除去した後、２８．５というテストＢＬＥＵを達成している。我々は、ＰｙＴｏｒｃｈでモデルを実装し、ダイナミクス及び確率的計算グラフに対するその強力なサポートから恩恵を得て、バッチサイズ１０及びＡｄａｍオプティマイザでトレーニングし、１２エポック後にアーリー・ストッピングを行った。文字埋め込み及びエンコーダの埋め込みは、ランダムな３８４次元ベクトルに初期化された。γの値及びベースラインの指数移動平均の減衰定数は、両方とも０．９５に設定された。

翻訳のランダムな選択は補足資料に含まれ、２つのアテンション・プロットが図８に示されている。図８はまた、モデルの一般的なパソロジ（ａｃｏｍｍｏｎｐａｔｈｏｌｏｇｙ）を示し、フレーズ・エンコーダ構成要素は、対応するデコーダ構成要素の先頭語のデコード中に処理される一方、エンコーダ構成要素の先頭語は、フレーズ全体に対応するデコーダ構成要素のデコード中に処理される。別の一般的なパソロジは、翻訳における反復的な文の断片であり、これは、（「入力供給」アプローチのように）モデルが過去のアテンション・ウェイトに将来のアテンションを直接的に条件付けることができないことを理由に生成される可能性が高い。スタック及びバッファ入力双方を有するＲＮＮＧは言語モデル損失と互換性がないので我々が選ぶスタックのみのＲＮＮＧの我々の利用に起因して翻訳品質もまた影響を受ける。エンコード中に、モデルは、文のまさに開始時点で、最初の文字をどの程度深く埋め込むかを決定する。しかしながら、スタックのみのＲＮＮＧでは、文全体を含むバッファ表現を使用することができないので、この決定をランダムに行う。

アテンション・ニューラル機械翻訳システム１０２によって適用されるアテンションの視覚化８００のトレーニングを説明してきたが、ここで議論はアテンション・ニューラル機械翻訳システム１０２を実施するために使用されることが可能なコンピュータ・システム９００に移る。

コンピュータ・システム
図９は、アテンション・ニューラル機械翻訳システム１０２を実施するために使用することが可能なコンピュータ・システム９００の一実施態様を示す。コンピュータ・システム９００は、バス・サブシステム９５５を介して多数の周辺デバイスと通信する少なくとも１つの中央処理装置（ＣＰＵ）９７２を含む。これらの周辺装置は、例えば、メモリ装置及びファイル・ストレージ・サブシステム９３６を含むストレージ・サブシステム９１０と、ユーザー・インターフェース入力装置９３８と、ユーザー・インターフェース出力装置９７６と、ネットワーク・インターフェース・サブシステム９７４とを含むことが可能である。入出力装置は、コンピュータ・システム９００とのユーザーの対話を可能にする。ネットワーク・インターフェース・サブシステム９７４は、他のコンピュータ・システムにおける対応するインターフェース・デバイスに対するインターフェースを含む、外部ネットワークに対するインターフェースを提供する。アテンション・ニューラル機械翻訳システム１０２は、ストレージ・サブシステム９１０及びユーザー・インターフェース入力デバイス９３８に通信可能にリンクされることが可能である。

ユーザー・インターフェース入力デバイス９３８は、キーボード；マウス、トラックボール、タッチパッド、又はグラフィックスタブレット等のポインティングデバイス；スキャナ；ディスプレイに組み込まれたタッチスクリーン；音声認識システム及びマイクロホン等のオーディオ入力デバイス；並びに他のタイプの入力デバイスを含むことが可能である。一般に、「入力デバイス」という用語の使用は、コンピュータ・システム９００に情報を入力する全ての可能なタイプの装置及び方法を含むように意図されている。

ユーザー・インターフェース出力デバイス９７６は、ディスプレイ・サブシステム、プリンタ、ファックス・マシン、又はオーディオ出力デバイス等の非ビジュアル・ディスプレイを含むことが可能である。ディスプレイ・サブシステムは、ＬＥＤディスプレイ、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）等のフラット・パネル・デバイス、プロジェクション・デバイス、又は可視画像を生成する何らかの他の機構を含むことが可能である。ディスプレイ・サブシステムは、オーディオ出力装置のような非ビジュアル・ディスプレイを提供することも可能である。一般に、「出力装置」という用語の使用は、コンピュータ・システム９００からユーザーへ又は別のマシン又はコンピュータ・システムへ情報を出力する全ての可能なタイプの装置及び方法を含むように意図されている。

ストレージ・サブシステム９１０は、ここで説明されるモジュール及び方法の全部又は一部の機能を提供するプログラミング及びデータ構成を保存する。これらのソフトウェア・モジュールは一般にディープ・ラーニング・プロセッサ９７８によって実行される。

ディープ・ラーニング・プロセッサ９７８は、グラフィックス処理ユニット（ＧＰＵ）又はフィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）であるとすることが可能である。ディープ・ラーニング・プロセッサ９７８は、グーグル・クラウド・プラットフォーム（ＧｏｏｇｌｅＣｌｏｕｄＰｌａｔｆｏｒｍ）（商標）、サイリンクス（Ｘｉｌｉｎｘ）（商標）、及びシラスケール（Ｃｉｒｒａｓｃａｌｅ）（商標）等のディープ・ラーニング・クラウド・プラットフォームによってホストされることが可能である。ディープ・ラーニング・プロセッサ９７８の具体例は、グーグルのテンソル処理ユニット（ＴＰＵ）（商標）、ＧＸ４Ｒａｃｋｍｏｕｎｔシリーズ（商標）等のラックマウント・ソリューション、ＧＸ９ラックマウント・シリーズ（商標）、ＮＶＩＤＩＡＤＧＸ−１（商標）、マイクロソフトのＳｔｒａｔｉｘＶＦＰＧＡ（商標）、グラフコアの「ＩｎｔｅｌｌｉｇｅｎｔＰｒｏｃｅｓｓｏｒＵｎｉｔ（ＩＰＵ）」（商標）、クアルコムの「ＺｅｒｏｔｈＰｌａｔｆｏｒｍ」（商標）、「Ｓｎａｐｄｒａｇｏｎｐｒｏｃｅｓｓｏｒｓ」（商標）を用いた「ＺｅｒｏｔｈＰｌａｔｆｏｒｍ」、ＮＶＩＤＩＡの「ボルタ（Ｖｏｌｔａ）」（商標）、ＮＶＩＤＩＡの「ＤＲＩＶＥＰＸ」（商標）、ＮＶＩＤＩＡの「ＪＥＴＳＯＮＴＸ１／ＴＸ２ＭＯＤＵＬＥ」（商標）、Ｉｎｔｅｌの「Ｎｉｒｖａｎａ」（商標）、「ＭｏｖｉｄｉｕｓＶＰＵ（商標）」、「ＦｕｊｉｔｓｕＤＰＩ」（商標）、ＡＲＭの「ＤｙｎａｍｉｃＩＱ」（商標）、「ＩＢＭＴｒｕｅＮｏｒｔｈ」（商標）等を含む。

ストレージ・サブシステム９１０で使用されるメモリ・サブシステム９２２は、プログラム実行中に命令及びデータを格納するためのメイン・ランダム・アクセス・メモリ（ＲＡＭ）９３２と、不変の命令が格納されるリード・オンリ・メモリ（ＲＯＭ）９３４とを含む幾つかのメモリを含むことが可能である。ファイル・ストレージ・サブシステム９３６は、プログラム及びデータ・ファイルのための永続的なストレージを提供することが可能であり、ハード・ディスク・ドライブ、関連するリムーバブル・メディアを伴うフロッピー・ディスク・ドライブ、ＣＤ−ＲＯＭドライブ、光学ドライブ、又はリムーバブル・メディア・カートリッジを含むことが可能である。特定の実施態様の機能を実施するモジュールは、記憶サブシステム９１０に、又はプロセッサによってアクセス可能な他のマシンに、ファイル・ストレージ・サブシステム９３６によって保存されることが可能である。

バス・サブシステム９５５は、コンピュータ・システム９００の様々な構成要素及びサブシステムを、意図されるように互いに通信させる機構を提供する。バス・サブシステム９５５は、単一のバスとして概略的に示されているが、バス・サブシステムの代替実施形態、複数のバスを使用することが可能である。

コンピュータ・システム９００自体は、パーソナル・コンピュータ、ポータブル・コンピュータ、ワークステーション、コンピュータ端末、ネットワーク・コンピュータ、テレビジョン、メインフレーム、サーバー・ファーム、緩くネットワーク化されたコンピュータの広く分散されたセット、又は任意の他のデータ処理システムもしくはユーザー・デバイスを含む、様々なタイプのものであるとすることが可能である。コンピュータ及びネットワークのこれまでの変化する性質に起因して、図９に示されるコンピュータ・システム９００の説明は、本発明の好ましい実施形態を例示する目的のための特定の例としてのみ意図されている。図９に示すコンピュータ・システムよりも多い又は少ない構成要素を有する他の多くのコンピュータ・システム構成９００が可能である。

前述の説明は、開示された技術の製造及び使用を可能にするために提示されている。開示された実施形態に対する種々の変形は明らかであり、ここで規定された一般的な原理は、開示された技術の精神及び範囲から逸脱することなく、他の実施形態及びアプリケーションに適用されてもよい。従って、開示された技術は、示されている実施形態に限定されるようには意図されておらず、ここに開示される原理及び特徴に合致する最も広い範囲が与えられるべきである。開示される技術の範囲は、添付の特許請求の範囲によって定められる。

特定の実施形態
第１言語のソース・シーケンスを第２言語のターゲット・シーケンスに翻訳するためのアテンション・ニューラル機械翻訳モデルのシステム及び様々な実装を説明する。実装の１つ以上の特徴は、基本的な実装と組み合わせることが可能である。相互に排他的ではない実装同士は、組み合わせることが可能であるように教示されている。実装の１つ以上の特徴は、他の実装と組み合わせることが可能である。本開示はこれらのオプションをユーザーに折に触れて想起させる。これらのオプションを繰り返す記載についての幾つかの実装からの省略は、先行するセクションで教示された組み合わせを限定するものとして解釈されるべきではなく、これらの記載は、後述の実装の各々に援用により前方に組み込まれる。

我々は、機械翻訳のような自然言語処理タスクにおいて、教師なしツリー構造を活用する新しいアプローチを導入する。我々の実験は、小規模機械学習データセットが、潜在的言語構造を推論するのに十分なトレーニング信号を含むことを実証している。幾つかの実施形態では、バリュー関数ベースラインは、指数移動平均と置き換わることが可能であり、純粋な強化学習は、教師の強制と置き換わることが可能であり、ビーム探索は、欲張り推論の代わりに使用されることが可能である。提示される翻訳パソロジに対するソリューションは、バッファを見ることが可能であり且つスタックのみのスチューデント・モデルをトレーニングするのに役立つ教師モデルを使用する変分推論によって置き換えられることが可能である。

開示される技術は、第１言語のソース・シーケンスを第２言語のターゲット・シーケンスに翻訳するためのアテンション・ニューラル機械翻訳システムを提示する。アテンション・ニューラル機械翻訳システムは、多数の並列プロセッサ上で動作する。

アテンション・ニューラル・マシン翻訳システムは、エンコーダを備える。エンコーダは、多数の並列プロセッサのうちの１つで動作する第１スタック専用再帰ニューラル・ネットワーク・グラマー（ｓ−ＲＮＮＧ）ネットワークであるとすることが可能である。エンコーダは、ソース・シーケンスのトークン及びソース・シーケンスのフレーズ・ツリー構造をエンコードする。ソース・シーケンスのフレーズ・ツリー構造のうちの少なくとも１つは、（ｉ）ソース・シーケンスのフレーズ・ツリー構造のフレーズ・タイプを予測する場合にエンコーダ状態を表すエンコーダ・ツリー・ノードと、（ｉｉ）ソース・シーケンスのフレーズ・ツリー構造の構成要素を表すエンコーダ合成埋め込みとを含む。

アテンション・ニューラル機械翻訳システムは、アテンションに基づくデコーダを備える。アテンション・ベースのデコーダは、多数の並列プロセッサのうちの１つで動作する第２のｓ−ＲＮＮＧネットワークであるすることが可能である。アテンション・ベースのデコーダは、ターゲット・シーケンスのトークンとターゲット・シーケンスのフレーズ・ツリー構造とを出力する。ターゲット・シーケンスのフレーズ・ツリー構造各々の予測されたフレーズ・タイプに対するデコーダ埋め込みは、アテンション・ウェイトによってスケーリングされたエンコーダ合成埋め込みの凸結合である。

システムは、現在のデコーダ状態を表すデコーダ・ツリー・ノードを、エンコーディング中に異なるエンコーダ状態を表すエンコーダ・ツリー・ノードと比較することが可能である。これは、（ｉ）比較の結果を指数関数的に正規化し（いわゆるアテンション値）、（ｉｉ）指数関数的に正規化された結果をそれぞれのアテンション・ウェイトとして使用することで、エンコーダ・ツリー・ノードに対応するエンコーダ合成埋め込みの重み付け加算を計算することにより達成される。

開示されるこのシステムの実施及び他のシステムは、選択的に以下の特徴のうちの１つ以上を含む。システムはまた、開示された方法に関連して説明された特徴を含むことも可能である。簡潔にするために、システム特徴の代替的な組み合わせは、個々には列挙されていない。システム、方法、及び製品に適用可能な特徴は、基本特徴についての法上のクラス・セット各々について繰り返されていない。読者は、このセクションで特定される特徴が、法上の他のクラスの基本特徴とどのように容易に組み合わせられ得るかを理解するであろう。

比較は、内積、双一次関数、及び単層ニューラル・ネットワークのうちの少なくとも１つを使用して実行されることが可能である。比較は、ソース・シーケンスのフレーズ・ツリー構造とターゲット・シーケンスのフレーズ・ツリー構造との間の構文構造的な類似性を測ることが可能である。ソース及びターゲット・シーケンスのうち構文的に最も類似したフレーズ・ツリー構造の間の比較は、最も高いアテンション・ウェイトを生成することが可能である。

トークンは、文字ベースのトークンとすることができる。一実施形態では、文字ベースのトークンは、実数値ベクトルを利用して密に符号化されることが可能である。別の実施形態では、キャラクタ・ベースのトークンは、１ホット・ベクトルを利用して疎に符号化されることが可能である。

システムは、ソース・シーケンスのフレーズ・ツリー構造の異なるフレーズ・タイプ構成要素のための共通の埋め込みとして固定ベクトルを使用することが可能である。

エンコーダ合成埋め込みは、フレーズ・タイプ構成要素を符号化することなく、１つ以上の文字ベースのトークン構成要素を符号化することが可能である。

システムは、ソース・シーケンスの最終エンコーダ合成埋め込みを、ターゲット・シーケンスの最初に予測されたフレーズ・タイプのデコーダ埋め込みとして使用することが可能である。

システムは、ポリシー勾配強化学習を使用して、ソース及びターゲット・シーケンス双方の教師なしフレーズ・ツリー構造を導出することが可能である。

エンコーダ及びアテンション・ベースのデコーダは、長短期メモリ（ＬＳＴＭ）ネットワークであるとすることが可能である。

エンコーダ及びアテンション・ベース・デコーダはそれぞれ、エンコーダ及びデコーダ合成埋め込みを計算する双方向ＬＳＴＭ（Ｂｉ−ＬＳＴＭ）を含むことが可能である。

フレーズ・ツリー構造は、構成要素解析ツリー構造であるとすることが可能である。フレーズ・ツリー構造は、依存性解析ツリー構造であるとすることが可能である。

他の実装形態は、上述したシステムの動作を実行するためにプロセッサによって実行可能な命令を記憶する非一時的なコンピュータ可読記憶媒体を含むことができる。他の実施のための特定の実施形態についてのセクションで説明された特徴の各々は、この実施形態に等しく適用される。上述したように、他の全ての特徴がここで繰り返されるわけではなく、援用によって繰り返されているとみなされるべきである。

開示される技術は、第１言語のソース・シーケンスを第２言語のターゲット・シーケンスに翻訳するための再帰ニューラル・ネットワーク・グラマー（ＲＮＮＧ）に基づく機械翻訳システムを提供する。ＲＮＮＧベースの機械翻訳システムは、多数の並列プロセッサ上で動作する。

ＲＮＮＧベースの機械翻訳システムは、多数の並列プロセッサのうちの１つで動作するＲＮＧＧエンコーダを備える。ＲＮＮＧエンコーダは、各々のフレーズ・ツリー構造の文字ベースのトークン構成要素をエンコーダ合成ベクトルに埋め込むことによって、ソース・シーケンスのトークン及びソース・シーケンスのフレーズ・ツリー構造をエンコードする。

ＲＮＮＧベースの機械翻訳システムは、多数の並列プロセッサのうちの１つで動作するＲＮＧＧアテンション・ベースのデコーダを備える。ＲＮＮＧアテンション・ベースのデコーダは、ターゲット・シーケンスのトークンと、フレーズ・タイプによって分類されたターゲット・シーケンスのフレーズ・ツリー構造とを出力し、エンコーダ構成ベクトルに注意を払うことによって計算されたフレーズ・タイプを或るベクトルが表現し、アテンションは、エンコーディング中の現在のＲＮＮＧデコーダ状態とＲＮＮＧエンコーダ状態との間の比較を条件に決定される。

特定の実施形態のセクションで論じられた他の実施形態の特徴の各々は、この実施形態に等しく適用される。上述したように、他の全ての特徴はここでは繰り返されず、参照により繰り返されているとみなされるべきである。

システムは、複数の目的関数の加重和を利用してトレーニングされた確率的ポリシーによって、ＲＮＮＧエンコーダとＲＮＮＧアテンション・ベースのデコーダとの解析決定をパラメータ化することが可能である。目的関数は、高い尤度を有する次の文字ベースのトークンを予測することに報酬を与える言語モデル損失項であるとすることが可能である。目的関数は、ＲＮＮＧエンコーダ及びＲＮＮＧアテンション・ベースのデコーダにおける構成要素間の１対１アテンション対応関係に報酬を与えるツリー・アテンション項であるとすることが可能である。

比較は、内積、双一次関数、及び単層ニューラル・ネットワークのうちの少なくとも１つを使用して実行されることが可能である。比較は、ソース・シーケンスのフレーズ・ツリー構造とターゲット・シーケンスのフレーズ・ツリー構造との間の構文構造的な類似性を測定することが可能である。ソース及びターゲット・シーケンスの構文的に最も類似したフレーズ・ツリー構造の間の比較は、最も高いアテンション・ウェイトを生成することが可能である。

他の実装形態は、上述のシステムの動作を実行するためにプロセッサによって実行可能な命令を記憶する非一時的なコンピュータ可読記憶媒体を含むことができる。

開示された技術は、第１言語のソース・シーケンスを第２言語のターゲット・シーケンスに翻訳するアテンション・ニューラル・マシン翻訳方法を提供する。

本方法は、再帰ニューラル・ネットワーク・グラマー（ＲＮＮＧ）エンコーダを使用して、ソース・シーケンスのトークンとソース・シーケンスのフレーズ・ツリー構造とを符号化することを含む。ソース・シーケンスのフレーズ・ツリー構造のうちの少なくとも１つは、（ｉ）ソース・シーケンスのフレーズ・ツリー構造のフレーズ・タイプを予測するときにエンコーダ状態を表すエンコーダ・ツリー・ノードと、（ｉｉ）ソース・シーケンスのフレーズ・ツリー構造の構成要素を表すエンコーダ合成埋め込みとを含む。

本方法は、ＲＮＮＧアテンション・ベースのデコーダを使用して、ターゲット・シーケンスのトークンとターゲット・シーケンスのフレーズ・ツリー構造とを出力することを含む。ターゲット・シーケンスのフレーズ・ツリー構造各々の予測されたフレーズ・タイプに関するデコーダ埋め込みは、アテンション・ウェイトによってスケーリングされたエンコーダ構成埋め込みの凸結合である。

他の実装形態は、上述の方法を実行するためにプロセッサによって実行可能な命令を記憶する非一時的なコンピュータ可読記憶媒体（ＣＲＭ）を含むことができる。更に別の実装形態は、メモリと、メモリに格納された命令を実行して上述の方法を実行するように動作可能な１つ以上のプロセッサとを含むシステムを含むことができる。特定の実施形態のセクションにおいて説明された他の実施形態についての特徴の各々は、この実施形態に等しく適用される。上述したように、他の全ての特徴はここでは繰り返されず、参照により繰り返されているとみなされるべきである。

開示される技術は、第１言語のソース・シーケンスを第２言語のターゲット・シーケンスに翻訳する再帰ニューラル・ネットワーク・グラマー（ＲＮＮＧ）に基づく機械翻訳方法を提示する。

この方法は、エンコーダ合成ベクトルにフレーズ・ツリー構造各々の文字ベース・トークン構成要素を埋め込むことによって、ソース・シーケンスのトークン及びソース・シーケンスのフレーズ・ツリー構造をエンコードするように、ＲＮＮＧエンコーダを使用することを含む。

本方法は、ＲＮＮＧアテンション・ベース・デコーダを使用して、フレーズ・タイプによって分類されたターゲット・シーケンスのフレーズ・ツリー構造及びターゲット・シーケンスのトークンを出力することを含み、複数のエンコーダ合成ベクトルにわたって注意を払うことによって計算されるフレーズ・タイプを或るベクトルが表現し、アテンションは、エンコーディング中に現在のＲＮＮＧデコーダ状態とエンコーダ状態との間の比較に条件付けられている。

他の実装形態は、上述の方法を実行するためにプロセッサによって実行可能な命令を記憶する非一時的なコンピュータ可読記憶媒体（ＣＲＭ）を含むことができる。更に別の実装形態は、メモリと、メモリに格納された命令を実行して上述の方法を実行するように動作可能な１つ以上のプロセッサとを含むシステムを含むことができる。他の実施形態に関し、特定の実施形態のセクションにおいて説明された特徴の各々は、この実施形態に等しく適用される。上述したように、他の全ての特徴はここでは繰り返されず、参照により繰り返されているとみなされるべきである。

Claims

第１言語のソース・シーケンスを第２言語のターゲット・シーケンスに翻訳するアテンション・ニューラル機械翻訳システムであって：
前記ソース・シーケンスのトークンと前記ソース・シーケンスのフレーズ・ツリー構造とをエンコードするエンコーダ手段であって、前記ソース・シーケンスの前記トークンの各々は前記ソース・シーケンスからの文字に対応し、前記エンコーダ手段は、前記ソース・シーケンスの前記フレーズ・ツリー構造の少なくとも１つを、前記エンコードが：前記ソース・シーケンスの前記フレーズ・ツリー構造のフレーズ・タイプを予測する場合に、エンコーダ状態を表現するエンコーダ・ツリー・ノードと、前記ソース・シーケンスの前記フレーズ・ツリー構造の構成要素を表現するエンコーダ合成埋め込みとを含むようにエンコードするエンコーダ手段；及び
前記ターゲット・シーケンスのトークンと前記ターゲット・シーケンスのフレーズ・ツリー構造とを出力するアテンション・ベースのデコーダ手段であって、アテンション・ウェイトによりスケーリングされたエンコーダ合成埋め込みの凸結合として、前記ターゲット・シーケンスの前記フレーズ・ツリー構造各々の予測されるフレーズ・タイプについてデコーダ埋め込みをエンコードし、異なるフレーズ・タイプに対する共通の埋め込みとして一定のベクトルが使用される、デコーダ手段；
を備えるシステム。
前記エンコーダ手段及び前記アテンション・ベースのデコーダ手段は、長短期メモリ（ＬＳＴＭ）ネットワークであり、
前記エンコーダ手段及び前記アテンション・ベースのデコーダ手段の各々は、エンコーダ及びデコーダ合成埋め込みを計算する双方向ＬＳＴＭ（Ｂｉ−ＬＳＴＭ）を含む、又は
前記エンコーダ手段及び前記アテンション・ベースのデコーダ手段は、スタック・オンリ再帰ニューラル・ネットワーク・グラマー（ｓ−ＲＮＮＧ）ネットワークである、請求項１に記載のシステム。
前記フレーズ・ツリー構造は、構成要素分析ツリー構造、又は依存性分析ツリー構造である、請求項１−２のうち何れか１項に記載のシステム。
現在のデコーダ状態を表現するデコーダ・ツリー・ノードと、エンコード中に異なるエンコーダ状態を表現するエンコーダ・ツリー・ノードとを比較する比較手段であって、前記比較は、内積、双一次関数、及び単層ニューラル・ネットワークのうち少なくとも１つを使用して実行される、比較手段；
前記比較の結果を指数正規化する正規化手段；及び
前記指数正規化された結果を前記アテンション・ウェイトとして使用することで、前記エンコーダ・ツリー・ノードに対応するエンコーダ合成埋め込みの重み付け加算を計算する結合手段；
を更に備える請求項１−３のうち何れか１項に記載のシステム。
前記比較は、前記ソース・シーケンスの前記フレーズ・ツリー構造と前記ターゲット・シーケンスの前記フレーズ・ツリー構造との間の構文構造的な類似性を測り；及び
前記ソース・シーケンス及び前記ターゲット・シーケンスの構文的に最も類似するフレーズ・ツリー構造間の比較は、最も高いアテンション・ウェイトをもたらす、請求項４に記載のシステム。
前記トークンは文字ベースのトークンである、請求項５に記載のシステム。
前記ソース・シーケンスの前記フレーズ・ツリー構造の異なるフレーズ・タイプ構成要素の共通埋め込みとして、固定されたベクトルを使用するように更に構成されている請求項１−６のうち何れか１項に記載のシステム。
前記エンコーダ手段は、各々のフレーズ・ツリー構造の文字ベース・トークン構成をエンコーダ合成ベクトルに埋め込むことにより、前記ソース・シーケンスのトークンと前記ソース・シーケンスのフレーズ・ツリー構造とをエンコードするＲＮＮＧエンコーダ手段であり；及び
前記アテンション・ベースのデコーダ手段は、フレーズ・タイプにより分類された、前記ターゲット・シーケンスのフレーズ・ツリー構造と前記ターゲット・シーケンスのトークンとを出力するＲＮＮＧアテンション・ベースのデコーダ手段であり、エンコーダ合成ベクトルに注意を払うことにより計算される前記フレーズ・タイプを或るベクトルが表現し、前記注意は、エンコーディング中のＲＮＮＧエンコーダ状態と現在のＲＮＮＧデコーダ状態との間の比較により条件付けられる、デコーダ手段；
を備える請求項１、３−７のうち何れか１項に記載のシステム。
第１言語のソース・シーケンスを第２言語のターゲット・シーケンスに翻訳するアテンション・ニューラル機械翻訳方法であって：
前記ソース・シーケンスのトークンと前記ソース・シーケンスのフレーズ・ツリー構造とを再帰ニューラル・ネットワーク・グラマー（ＲＮＮＧ）エンコーダを利用してエンコードするステップであって、前記ソース・シーケンスの前記トークンの各々は前記ソース・シーケンスからの文字に対応し、前記ソース・シーケンスの前記フレーズ・ツリー構造の少なくとも１つのエンコードは：前記ソース・シーケンスの前記フレーズ・ツリー構造のフレーズ・タイプを予測する場合に、エンコーダ状態を表現するエンコーダ・ツリー・ノードと、前記ソース・シーケンスの前記フレーズ・ツリー構造の構成要素を表現するエンコーダ合成埋め込みとを含む、ステップ；及び
前記ターゲット・シーケンスのトークンと前記ターゲット・シーケンスのフレーズ・ツリー構造とをＲＮＮＧデコーダを利用して出力するステップであって、前記ＲＮＮＧデコーダは、アテンション・ウェイトによりスケーリングされたエンコーダ合成埋め込みの凸結合として、前記ターゲット・シーケンスの前記フレーズ・ツリー構造各々の予測されるフレーズ・タイプについてデコーダ埋め込みをエンコードし、異なるフレーズ・タイプに対する共通の埋め込みとして一定のベクトルが使用される、ステップ；
を有する方法。
現在のデコーダ状態を表現するデコーダ・ツリー・ノードと、エンコード中に異なるエンコーダ状態を表現するエンコーダ・ツリー・ノードとを比較するステップであって、前記比較は、内積、双一次関数、及び単層ニューラル・ネットワークのうち少なくとも１つを使用して実行される、ステップ；
前記比較の結果を指数正規化するステップ；及び
前記指数正規化された結果を前記アテンション・ウェイトとして使用することで、前記エンコーダ・ツリー・ノードに対応するエンコーダ合成埋め込みの重み付け加算を計算するステップ；
を更に備える請求項９に記載の方法。
前記比較は、前記ソース・シーケンスの前記フレーズ・ツリー構造と前記ターゲット・シーケンスの前記フレーズ・ツリー構造との間の構文構造的な類似性を測り；及び
前記ソース・シーケンス及び前記ターゲット・シーケンスの構文的に最も類似するフレーズ・ツリー構造間の比較は、最も高いアテンション・ウェイトをもたらす、請求項１０に記載の方法。
前記トークンは文字ベースのトークンである、請求項９−１１のうち何れか１項に記載の方法。
前記ソース・シーケンスの前記フレーズ・ツリー構造の異なるフレーズ・タイプ構成要素の共通埋め込みとして、固定されたベクトルを使用するステップを更に有する請求項９−１２のうち何れか１項に記載の方法。
各々のフレーズ・ツリー構造の文字ベース・トークン構成をエンコーダ合成ベクトルに埋め込むことにより、前記ソース・シーケンスのトークンと前記ソース・シーケンスのフレーズ・ツリー構造とをエンコードするようにＲＮＮＧエンコーダを使用するステップ；及び
フレーズ・タイプにより分類された、前記ターゲット・シーケンスのフレーズ・ツリー構造と前記ターゲット・シーケンスのトークンとを出力するためにＲＮＮＧアテンション・ベースのデコーダを使用するステップであって、エンコーダ合成ベクトルに注意を払うことにより計算される前記フレーズ・タイプを或るベクトルが表現し、前記注意は、エンコーディング中のＲＮＮＧエンコーダ状態と現在のＲＮＮＧデコーダ状態との間の比較により条件付けられる、ステップ；
を更に有する請求項９、１１−１３のうちの何れか１項に記載の方法。
請求項９−１４のうち何れか１項に記載の方法を実現するコンピュータ実行可能命令を有する非一時的なコンピュータ読み取り可能な媒体。