JP7400007B2

JP7400007B2 - 複数の言語タスク階層を通じてデータを処理するための深層ニューラルネットワークモデル

Info

Publication number: JP7400007B2
Application number: JP2022074636A
Authority: JP
Inventors: 和真橋本; ション，カイミング; ソーチャー，リチャード
Original assignee: セールスフォースインコーポレイテッド
Priority date: 2016-11-03
Filing date: 2022-04-28
Publication date: 2023-12-18
Anticipated expiration: 2037-11-03
Also published as: JP7553185B2; CN109923557B; CN110192203B; JP7068296B2; JP7035042B2; CA3039386A1; JP2020501230A; US20180121787A1; JP2019533259A; US20210279551A1; US20180121799A1; WO2018085729A1; CN110192204B; CA3039517C; JP2022097590A; WO2018085730A1; JP2020500366A; EP3535703A1; EP3535701A1; US11797825B2

Description

開示されている技術は、一般に、深層ニューラルネットワークを用いた自然言語処理（ＮＬＰ）のためのアーキテクチャに関し、詳細には、エンドツーエンドのトレーニング可能な同時多タスクニューラルネットワークモデルを用いたマルチタスク学習に関する。本アーキテクチャは、他の多層分析フレームワーク及びタスクに拡張可能である。

本出願は、２０１６年１１月３日に出願された米国仮特許出願第62/417,269号「JOINT MANY-TASK MODEL（同時多タスクモデル）」（代理人案件番号SALE 1182-1/1948PROV1）の利益を主張する。この優先権仮出願は、全ての目的のために参照により本明細書に組み込まれる。この優先権仮出願は、発明者の研究のさらなる詳細を提供する技術論文を含む。
本出願は、２０１６年１１月４日に出願された米国仮特許出願第62/418,070号「JOINT MANY-TASK MODEL（同時多タスクモデル）」（代理人案件番号SALE 1182-2/1948PROV2）の利益を主張する。この優先権仮出願は、全ての目的のために参照により本明細書に組み込まれる。この優先権仮出願は、発明者の研究のさらなる詳細を提供する技術論文を含む。
本出願は、２０１７年１月３１日に出願された米国特許出願第15/421,424号「DEEP NEURAL NETWORK MODEL FOR PROCESSING DATA THROUGH MUTLIPLE LINGUISTIC TASK HIERARCHIES（複数の言語タスク階層を通じてデータを処理するための深層ニューラルネットワークモデル）」（代理人案件番号SALE 1182-4/1948US2）の利益を主張する。この優先権出願は、全ての目的のために参照により本明細書に組み込まれる。
本出願は、２０１７年１月３１日に出願された米国特許出願第15/421,407号「JOINT MANY-TASK NEURAL NETWORK MODEL FOR MULTIPLE NATURAL LANGUAGE PROCESSING (NLP) TASKS（複数の自然言語処理（ＮＬＰ）タスクのための同時多タスクニューラルネットワークモデル）」（代理人案件番号SALE 1182-3/1948US1）の利益を主張する。この優先権出願は、全ての目的のために参照により本明細書に組み込まれる。
本出願は、２０１７年１月３１日に出願された米国特許出願第15/421,431号「TRAINING A JOINT MANY-TASK NEURAL NETWORK MODEL USING SUCCESSIVE REGULARIZATION（逐次正則化を用いた同時多タスクニューラルネットワークモデルのトレーニング）」（代理人案件番号SALE 1182-5/1948US3）の利益を主張する。この優先権出願は、全ての目的のために参照により本明細書に組み込まれる。

このセクションにおいて論じられている主題は、単にこのセクションにおいて述べられている結果として、従来技術であるとみなされるべきではない。同様に、このセクションにおいて述べられている又は背景として提供されている主題に関連付けられている問題は、従来技術において以前に認識されているとみなされるべきではない。このセクションにおける主題は、単に、特許請求される技術の実施形態に対応し得る異なるアプローチを表す。

転移及びマルチタスク学習は、従来、単一のソース－ターゲットペア又は非常に少ない類似するタスクのいずれかにフォーカスしていた。理想的には、形態素、構文、及び意味という言語レベルは、単一のモデルにおいてトレーニングされることにより、互いの利益になるであろう。開示されている技術は、単一のエンドツーエンドモデルにおいてますます深くなる層を使用して、ますます複雑化している様々な自然言語処理（ＮＬＰ）タスクを解決するための、いわゆる「同時多タスクニューラルネットワークモデル」を提供する。このモデルは、言語階層を考慮し、単語表現を全てのモデル層に直接結合し、下位タスクにおける予測を明示的に用い、壊滅的忘却を防ぐためのいわゆる「逐次正則化」技術を適用することにより、逐次トレーニングされる。下位レベルモデル層の３つの例は、品詞（ＰＯＳ）タグ付け層、チャンキング層、及び係り受け解析層である。上位レベルモデル層の２つの例は、意味関連性層及びテキスト含意層である。このモデルは、チャンキング、係り受け解析、意味関連性、及びテキスト含意に関する最高水準の結果を実現している。

図面において、同様の参照符号は、一般に、異なる図を通じて、同様の部分を指す。また、図面は、必ずしも縮尺通りではなく、代わりに、概して、開示されている技術の原理を示すことに対して強調がなされている。以下の説明において、開示されている技術の様々な実施形態が、図面を参照して説明される。
連続する層において、ますます複雑化しているＮＬＰタスクを実行する同時多タスクニューラルネットワークモデルの態様を示す図。同時多タスクニューラルネットワークモデルを実現するために使用され得る様々なモジュールを示す図。同時多タスクニューラルネットワークモデルを実現するために使用され得る様々なモジュールを示す図。入力単語、特に未知の単語、をロバストに符号化するために本出願において使用される同時埋め込み技術を示す図。文字ｎグラム埋め込みの使用が未知の単語の処理の向上をもたらすことを実証する様々な表を示す図。次元射影の一実施形態を示す図。同時多タスクニューラルネットワークモデルのＰＯＳ層の動作の一実施形態を示す図。同時多タスクニューラルネットワークモデルのＰＯＳタグ付けの結果を示す表を含む図。同時多タスクニューラルネットワークモデルのチャンキング層の動作の一実施形態を示す図。同時多タスクニューラルネットワークモデルのチャンキングの結果を示す表を含む図。係り受け解析層の動作の一実施形態を示す図。係り受け解析層のアテンション符号化器の動作の一実施形態を示す図。係り受け解析層のアテンション符号化器の動作の一実施形態を示す図。係り受け解析層のアテンション符号化器の動作の一実施形態を示す図。係り受け解析層のアテンション符号化器の動作の一実施形態を示す図。係り受け解析層のアテンション符号化器の動作の一実施形態を示す図。係り受け解析層の係り受け関係ラベル分類器の動作の一実施形態を示す図。モデルが係り受け解析を適用する２つの例示的な文を示す図。モデルの係り受け解析層の結果を示す表を含む図。意味関連性層の一実施形態を示す図。意味関連性タスクの結果を示す表を含む図。含意層の一実施形態を示す図。含意タスクの結果を示す表を含む図。分析階層に従って少なくとも３つの層がスタックされているスタック型ＬＳＴＭ系列処理器をトレーニングする一実施形態を示す図。「逐次正則化」技術の有効性を実証する表を含む図。５つの異なるＮＬＰタスクに関するテストセットの結果を示す表を含む図。同時多タスクニューラルネットワークモデルを実現するために使用され得るコンピュータシステムの簡略化されたブロック図。

詳細な説明
以下の説明は、当業者が開示されている技術を製造及び使用することを可能にするように提示されており、特定の用途及びその要件の文脈において提供されている。開示されている技術の主旨及び範囲から逸脱することなく、開示されている実施形態に対する様々な変更が、当業者には容易に明らかであり、本開示において規定されている一般的な原理は、他の実施形態及び用途にも適用可能である。したがって、開示されている技術は、例示されている実施形態に限定されるよう意図されるものではなく、本出願において開示されている原理及び特徴と整合する最も広い範囲に従うべきである。

（序論）
自然言語処理（ＮＬＰ）の分野において、複数のレベルの言語表現が、様々な方法で使用されている。例えば、品詞（ＰＯＳ）タグは、構文解析器により適用される。ＰＯＳタグは、自然言語推論、関係分類、感情分析、又は機械翻訳等のより上位レベルのタスクを向上させる。しかしながら、システムは、単方向パイプラインであり、エンドツーエンドでトレーニングされないことが多いので、より上位レベルのタスクは、通常、より下位レベルのタスクを向上させることができない。

深層学習において、教師あり単語及び文コーパスは、後続のタスクのための再帰型ニューラルネットワーク（ＲＮＮ）を初期化するためにしばしば使用される。しかしながら、同時トレーニングされないので、深層ＮＬＰモデルは、ますます複雑化している言語タスクの層をスタックすることからの利益をまだ示していない。代わりに、既存のモデルは、言語階層を無視して、完全に別々に又は同じ深さで、異なるタスクを予測するように、しばしば設計される。

開示されている技術の全体的なテーマは、連続する層において、ますます複雑化しているＮＬＰタスクを実行する、いわゆる「同時多タスクニューラルネットワークモデル」である。従来のＮＬＰパイプラインシステムとは異なり、同時多タスクニューラルネットワークモデルは、ＰＯＳタグ付け、チャンキング、及び係り受け解析についてエンドツーエンドでトレーニングされる。同時多タスクニューラルネットワークモデルは、さらに、意味関連性、テキスト含意、及び他のより上位レベルのタスクについてエンドツーエンドでトレーニングされ得る。単一のエンドツーエンドの実施形態において、このモデルは、チャンキング、係り受け解析、意味関連性、及びテキスト含意に関する最高水準の結果を得ている。これはまた、ＰＯＳタグ付けに関して競争力を有して機能する。さらに、このモデルの係り受け解析層は、単一のフィードフォワードパスに依拠し、ビーム探索を必要とせず、このことは、並列化を高め、計算効率を向上させる。

壊滅的忘却を回避しつつ、同時多タスクニューラルネットワークモデルが深さにおいて大きくなることを可能にするために、我々はまた、いわゆる「逐次正則化」技術を開示する。逐次正則化は、他のタスクの壊滅的干渉を示すことなく、１つのＮＬＰタスクの損失を改善するために、モデル重みの多層トレーニングを可能にする。タスク間の壊滅的干渉を回避することにより、このモデルは、より下位レベルのタスク及びより上位レベルのタスクが同時トレーニングから利益を受けることを可能にする。

汎化を向上させ、同時多タスクニューラルネットワークモデルにおける過剰適合（過学習）を低減させるために、我々は、さらに、いわゆる「次元射影（dimensionality projection）」技術を開示する。次元射影は、ニューラルネットワーク分類器の低次元出力を高次元ベクトル空間に射影することを含む。低次元空間から高次元空間へのこの射影は、過剰適合を低減させる次元ボトルネック（dimensionality bottleneck）をもたらす。

同時多タスクニューラルネットワークモデルに提供される入力単語、特に未知の単語、をロバストに符号化するために、我々は、「同時埋め込み（joint-embedding）」技術を開示する。同時埋め込みは、入力単語の単語埋め込みと入力単語の文字ｎグラム埋め込みとの組み合わせを使用して、入力単語を表現することを含む。同時埋め込みは、未知の単語に関する情報及び形態素素性を効率的に符号化する。

（同時多タスクニューラルネットワークモデル）
図１は、連続する層において、ますます複雑化しているＮＬＰタスクを実行する同時多タスクニューラルネットワークモデル１００の態様を示している。実施形態において、モデル１００は、言語階層に従って層がスタックされており、下位層への入力とともに、下位層の埋め込み出力を、上位層に提供するバイパス結合を含むスタック型長短期記憶（「ＬＳＴＭ」）文処理器である。言語階層は、文（例えば、sentence₁又はsentence₂）内の単語から、品詞、文のチャンク、単語と単語の係り受け親（dependency parents）との間の係り受けリンク（dependency links）、係り受けリンクに関するラベルまでを構築する。図１に示されている例において、モデル１００は、同様のアーキテクチャを有する２つのＬＳＴＭスタック（すなわち、スタックａ及びスタックｂ）を含む。一実施形態において、モデル１００は、１つのＬＳＴＭスタックのみを含む。別の実施形態において、モデル１００は、３つ以上のＬＳＴＭスタック（例えば、３つのＬＳＴＭスタック、４つのＬＳＴＭスタック、１０個のＬＳＴＭスタック等）を含む。

モデル１００において、スタックされている層は、品詞（ＰＯＳ）ラベル埋め込み層（例えば１０４ａ又は１０４ｂ）、ＰＯＳラベル埋め込み層の上にあるチャンク／チャンキングラベル埋め込み層（例えば１０６ａ又は１０６ｂ）、及び、チャンクラベル埋め込み層の上にある係り受け親識別及び係り受け関係ラベル埋め込み層（例えば１０８ａ又は１０８ｂ）を含む。

ＰＯＳラベル埋め込み層は、ＰＯＳラベル分類器を使用する双方向ＬＳＴＭとして実現される。これは、入力文内の単語を表現する単語埋め込みベクトル（例えば１０２ａ又は１０２ｂ）を処理し、単語の各々についてＰＯＳラベル埋め込みベクトル及びＰＯＳ状態ベクトルを生成する。

チャンクラベル埋め込み層は、チャンクラベル分類器を使用する双方向ＬＳＴＭとして実現される。これは、少なくとも単語埋め込みベクトルとＰＯＳラベル埋め込みベクトルとＰＯＳ状態ベクトルとを処理して、チャンクラベル埋め込み及びチャンク状態ベクトルを生成する。

係り受け親識別及び係り受け関係ラベル埋め込み層は、１つ以上の分類器を使用する双方向ＬＳＴＭとして実現される。これは、単語埋め込みとＰＯＳラベル埋め込みとチャンクラベル埋め込みとチャンク状態ベクトルとを処理して、入力文内の単語の各々の係り受け親を識別し、単語と単語のそれぞれの可能性のある親との間の関係の係り受け関係ラベル又はラベル埋め込みを生成する。

また、ＰＯＳラベル埋め込みベクトル、チャンクラベル埋め込みベクトル、及び係り受け関係ラベル埋め込みベクトルの次元数は、＋／－１０パーセント以内で類似している。

いくつかの実施形態において、モデル１００は、文内の単語についての、係り受け親の識別と係り受け関係ラベル埋め込みの生成とを反映した結果を少なくとも出力する出力処理器を含む。図１に示されている例において、関連性符号化器（例えば１１０ａ又は１１０ｂ）は、係り受け関係ラベル埋め込みを関連性層（例えば１１２）に提供する処理器の外部にあるとみなされ得る。関連性層は、第１の文と第２の文との間の関連性のカテゴリ分類を提供し、含意符号化器（例えば１１４ａ又は１１４ｂ）を介して含意層（例えば１１６）にカテゴリ分類を提供する。含意層は、第１の文と第２の文との間の含意のカテゴリ分類を出力する。実施形態において、関連性層及び含意層は、出力処理器として使用される。

バイパス結合に関して、バイパス結合は、下位層により使用された入力ベクトルを、変更することなく、上位層に提供する。図１に示されている例において、「タイプ２」バイパス結合は、単語表現を、モデル１００における各層に直接提供する。バイパス結合の別の例において、「タイプ３」バイパス結合は、ＰＯＳラベル埋め込み層において生成されたＰＯＳラベル埋め込みベクトルを、上位層の各々に提供する。バイパス結合の別の例において、「タイプ４」バイパス結合は、チャンクラベル埋め込み層において生成されたチャンクラベル埋め込みを、上位層の各々に提供する。

モデル１００はまた、下位層から、連続する上位層にだけ情報を提供する結合を含む。例えば、「タイプ５」結合は、意味関連性層において計算された、第１の文と第２の文との間の関連性のカテゴリ分類を、含意層に提供する。「タイプ６」結合は、含意層からの、第１の文と第２の文との間の含意のカテゴリ分類を出力する。また、「タイプ１」結合は、所与の層において生成された隠れ状態ベクトルを、連続する上位層にだけ提供する。

図１におけるコンポーネントは、ハードウェアで実装されてもよいしソフトウェアで実装されてもよく、図１に示されているのと全く同じブロックに分割される必要はない。コンポーネントの一部は、異なるプロセッサ又はコンピュータにおいて実装されてもよいし、複数の異なるプロセッサ又はコンピュータの間で分散されてもよい。さらに、コンポーネントの一部は、実現される機能に影響を及ぼすことなく、組み合わせられることもあるし、並列に動作することもあるし、図１に示されている順序とは異なる順序で動作することもあることが、理解されよう。また、本明細書において使用される場合、用語「コンポーネント」は、それ自体がコンポーネントを構成すると本明細書においてみなされ得る「サブコンポーネント」を含み得る。例えば、ＰＯＳラベル埋め込み層及びチャンクラベル埋め込み層は、「単語レベル処理器」コンポーネントのサブコンポーネントであるとも本明細書においてみなされ得る。同様に、係り受け親識別及び係り受け関係ラベル埋め込み層は、「構文レベル処理器」コンポーネントのサブコンポーネントであるとも本明細書においてみなされ得る。同様に、意味関連性層及び含意層は、本明細書において「意味レベル処理器」コンポーネントのサブコンポーネントであるとも本明細書においてみなされ得る。さらに、図１におけるブロックは、方法におけるフローチャートステップとみなされ得る。コンポーネント又はサブコンポーネントはまた、必ずしも、その全てのコードをメモリ内で連続して配置する必要はない。コードのいくつかの部分は、他のコンポーネント又はサブコンポーネント又はそれらの間に配置される他の関数からのコードにより、コードの他の部分から分離され得る。

いくつかの実施形態において、モデル１００は、分析階層に従って層がスタックされており、下位層への入力とともに、下位層の埋め込み出力を、上位層に提供するバイパス結合を含むスタック型ＬＳＴＭトークン系列処理器である。そのような実施形態において、モデル１００のスタックされている層は、第１の埋め込み層、第１の埋め込み層の上にある第２の埋め込み層、及び、第２の埋め込み層の上にある第３の埋め込み層を含む。

一実施形態において、双方向ＬＳＴＭ及び第１のラベル分類器として実現される、モデル１００の第１の埋め込み層は、入力系列内のトークンを表現するトークン埋め込みを処理し、トークンの第１のラベル埋め込み及び第１の状態ベクトルを生成する。一実施形態において、双方向ＬＳＴＭ及び第２のラベル分類器として実現される、モデル１００の第２の埋め込み層は、少なくともトークン埋め込みと第１のラベル埋め込みと第１の状態ベクトルとを処理して、第２のラベル埋め込み及び第２の状態ベクトルを生成する。一実施形態において、双方向ＬＳＴＭとして実現される、モデル１００の第３の埋め込み層は、少なくともトークン埋め込みと第１のラベル埋め込みと第２のラベル埋め込みと第２の状態ベクトルとを処理して、第３のラベル埋め込み及び第３の状態ベクトルを生成する。一実施形態において、モデル１００の出力処理器は、入力系列内のトークンについての第３のラベル埋め込みを反映した結果を少なくとも出力する。

いくつかの実施形態において、第１の埋め込み層は、さらに、第１の状態ベクトルの指数関数的正規化により、第１のラベル確率質量ベクトルを生成し、第１のラベル確率質量ベクトルから、第１のラベル埋め込みベクトルを生成する。いくつかの実施形態において、第２の埋め込み層は、さらに、第２の状態ベクトルの指数関数的正規化により、第２のラベル確率質量ベクトルを生成し、第２のラベル確率質量ベクトルから、第２のラベル埋め込みベクトルを生成する。いくつかの実施形態において、第３の埋め込み層は、さらに、第３の状態ベクトルの指数関数的正規化により、第３のラベル確率質量ベクトルを生成し、第３のラベル確率質量ベクトルから、第３のラベル埋め込みベクトルを生成する。実施形態において、第１のラベル埋め込みベクトル、第２のラベル埋め込みベクトル、及び第３のラベル埋め込みベクトルの次元数は、＋／－１０パーセント以内で類似している。

一実施形態において、モデル１００は、第１のラベル埋め込み層の下にあるトークン埋め込み処理器を含み、トークン埋め込み処理器は、トークン埋め込み器及び分解トークン埋め込み器を含む。トークン埋め込み器は、認識されると、系列内のトークンを、トークン埋め込みベクトルにより表現されるトークン埋め込み空間にマッピングする。分解トークン埋め込み器は、トークンのトークン分解を、複数のスケールで処理し、各処理されたトークン分解を、トークン分解埋め込み空間内の位置を表現する中間ベクトルにマッピングし、各一意な処理されたトークン分解についての中間ベクトルを組み合わせて、トークンの各々についてトークン分解埋め込みベクトルを生成する。トークン埋め込み処理器は、トークン埋め込み器の結果と分解トークン埋め込み器の結果とを組み合わせ、それにより、トークン埋め込み空間に以前にマッピングされなかったトークンが、それにもかかわらず、トークン分解埋め込みベクトルにより表現される。

（同時埋め込み）
図２Ａは、入力単語、特に未知の単語、をロバストに符号化するために使用される同時埋め込み技術２００を示している。同時埋め込みは、長さLの入力系列s内の各単語w_tについて、単語w_tの単語埋め込み２１０と、本明細書において「ｎ文字グラム」埋め込みとも呼ばれる、単語w_tの１つ以上の文字ｎグラム埋め込みと、を連結することにより、いわゆる「単語表現」２２２を構築することを含む。図２Ａにおいて、この連結演算は、「＋」記号で表されている。

単語埋め込みに関して、モデル１００は、単語埋め込み空間２０４を作成するための単語埋め込み行列をトレーニングする単語埋め込み器２０２を含む。一実施形態において、単語埋め込み器２０２は、スキップグラムモデルを使用して、単語埋め込み行列をトレーニングする。別の実施形態において、単語埋め込み器２０２は、連続単語袋詰め（ＣＢＯＷ）モデルを使用して、単語埋め込み行列をトレーニングする。実施形態において、単語埋め込み行列は、モデル１００の全てのＮＬＰタスクにわたって共有される。いくつかの実施形態において、語彙に含まれない単語は、特別な「UNK」トークンにマッピングされる。

文字ｎグラム埋め込みに関して、モデル１００は、文字埋め込み空間２０８を作成するための文字埋め込み行列をトレーニングする文字埋め込み器２０６を含む。一実施形態において、文字埋め込み器２０６は、スキップグラムモデルを使用して、文字埋め込み行列をトレーニングする。別の実施形態において、文字埋め込み器２０６は、連続単語袋詰め（ＣＢＯＷ）モデルを使用して、文字埋め込み行列をトレーニングする。実施形態において、文字ｎグラム埋め込みは、単語ベクトルと同じスキップグラム目的関数を使用して学習される。

本明細書において「ｎ文字グラム埋め込み器」とも呼ばれる文字埋め込み器２０６は、トレーニングデータにおける文字ｎグラムの語彙を構築し、各文字ｎグラムに対して埋め込みを割り当てる。図２Ａに示されている例において、文字埋め込み空間２０８は、１グラム埋め込み２１２、２グラム埋め込み２１４、３グラム埋め込み２１６、及び４グラム埋め込み２１８を含む。他の実施形態において、文字埋め込み空間２０８は、異なる、さらなる、且つ／又はより少ないｎグラムについての埋め込みを含む。

最終文字埋め込み２２０は、単語w_tの一意な文字ｎグラム埋め込みを表現するベクトルを要素ごとに組み合わせる。例えば、単語「Cat」の文字ｎグラム（ｎ＝１，２，３）は、｛C, a, t, #BEGIN#C, Ca, at, t#END#, #BEGIN#Ca, Cat, at#END#｝であり、ここで、「#BEGIN#」及び「#END#」は、それぞれ、各単語の始まり及び終わりを表す。これらの部分文字列を表現するベクトルの要素ごとの組み合わせは、要素ごとの平均又は最大値であってよい。文字ｎグラム埋め込みの使用は、未知の単語に関する情報及び形態素素性を効率的に提供する。したがって、各単語は、その対応する単語埋め込み２１０と文字埋め込み２２０との連結である単語表現

２２２として表現される。

実施形態において、単語埋め込み器２０２及び文字埋め込み器２０６は、いわゆる「単語埋め込み処理器」の一部である。ＰＯＳラベル埋め込み層は、単語埋め込み処理器の上にある。単語埋め込み器２０２は、認識されると、文内の単語を、単語埋め込みベクトルにより表現される単語埋め込み空間２０４にマッピングする。ｎ文字グラム埋め込み器２０６は、単語の文字部分文字列を、部分文字列長の複数のスケールで処理し、各処理された文字部分文字列を、文字埋め込み空間２０８内の位置を表現する中間ベクトルにマッピングし、各一意な処理された文字部分文字列についての中間ベクトルを組み合わせて、単語の各々について文字埋め込みベクトルを生成する。単語埋め込み処理器は、単語埋め込み器２０２の結果とｎ文字グラム埋め込み器２０６の結果とを組み合わせ、それにより、単語埋め込み空間に以前にマッピングされなかった単語が、それにもかかわらず、文字埋め込みベクトルにより表現される。未知の単語又は語彙外（ＯｏＶ）単語の処理は、質問回答等の他のＮＬＰタスクにも適切に適用される。

いくつかの実施形態において、ｎ文字グラム埋め込み器２０６は、中間ベクトルを組み合わせて、文字埋め込みベクトルにおいて要素ごとの平均を生成する。

ＰＯＳラベル埋め込み層は、さらに、単語埋め込みベクトルに加えて、入力文内の単語を表現するｎ文字グラム埋め込みベクトルを処理し、バイパス結合は、さらに、チャンクラベル埋め込み層と係り受け親識別及び係り受け関係ラベル埋め込み層とに、これらの上位層におけるそれぞれの双方向ＬＳＴＭへの入力として、ｎ文字グラム埋め込みベクトルを提供する。

トレーニングに関して、一実施形態に従うと、単語埋め込みは、ネガティブサンプリングを伴うスキップグラムモデル又はＣＢＯＷモデルを使用してトレーニングされる。文字ｎグラム埋め込みも同様にトレーニングされる。いくつかの実施形態において、単語埋め込みのトレーニングと文字ｎグラム埋め込みのトレーニングとの１つの差異は、スキップグラムモデルにおける各入力単語が、文字ｎグラム埋め込みのその対応する平均埋め込みで置き換えられることである。また、これらの埋め込みは、バックプロパゲーション中に勾配を使用して対応する文字ｎグラム埋め込みを更新するように、モデル１００の同時トレーニング中に微調整される。埋め込みパラメータは、

で表される。

一実施形態において、文字ｎグラムの語彙は、大文字と小文字とを区別する英語のWikipediaテキストであるトレーニングコーパス上に構築される。このような大文字と小文字とを区別する情報は、固有表現のようないくつかのタイプの単語を処理する上で重要である。単語w_tについて、対応するK個の文字ｎグラム

があり、ここで、重複及び未知のエントリは除去されていると仮定する。次いで、単語w_tは、以下のように計算される、埋め込み

により表現される：

上記において、

は、文字ｎグラム

のパラメータ付き埋め込みである。

さらに、トレーニングコーパスにおける各単語－文脈ペア

について、N個のネガティブ文脈単語がサンプリングされ、目的関数は、以下のように定義される：

上記において、

は、ロジスティックシグモイド関数であり、

は、文脈単語についての重みベクトルであり、

は、ネガティブサンプルである。

図２Ｂは、文字ｎグラム埋め込みの使用が未知の単語の処理の向上をもたらすことを実証する様々な表を示している。これは、事前にトレーニングされた文字ｎグラム埋め込みがある場合とない場合とについての、３つの単一タスクであるＰＯＳタグ付け、チャンキング、及び係り受け解析についての結果を示す、図２Ｂの表２２４に示されている。「W&C」列は、単語埋め込みと文字ｎグラム埋め込みとの両方を使用することに対応し、「Wのみ」列は、単語埋め込みのみを使用することに対応する。これらの結果は、事前にトレーニングされた単語埋め込みと文字ｎグラム埋め込みとを併用することが、結果を向上させるのに有用であることを明確に示している。文字ｎグラム埋め込みの事前トレーニングも有効である。例えば、事前トレーニングがないと、ＰＯＳの正解率は、９７．５２％から９７．３８％に低下し、チャンキングの正解率は、９５．６５％から９５．１４％に低下しているが、これらの正解率は、word2vec埋め込みのみを使用した場合の正解率よりも依然として良い。

図２Ｂの表２２６は、単語埋め込みと文字ｎグラム埋め込みとの併用が、未知の単語についての正解率に関して約１９％だけスコアを向上させていることを示している。図２Ｂの表２２８は、未知の単語についてのＵＡＳ及びＬＡＳにフォーカスした、文字ｎグラム埋め込みがある場合とない場合とについての、開発セットに関する係り受け解析スコアを示している。ＵＡＳは、unlabeled attachment score（ラベルなし正解率）の略語であり、ＬＡＳは、labeled attachment score（ラベルあり正解率）の略語である。ＵＡＳは、係り受け木の構造を調べ、出力が正しいヘッド及び係り受け関係を有するかどうかを評価する。ＵＡＳにおける構造スコアに加えて、ＬＡＳは、各係り受け関係に関する係り受けラベルの正解率も測る。表２２８は、文字レベルの情報を使用することが有効であること、特に、ＬＡＳスコアの向上が大きいこと、を明確に示している。

（次元射影）
図３は、次元射影３００の一実施形態を示している。次元射影は、双方向ＬＳＴＭのニューラルネットワークスタックにおいて下位層から上位層に中間結果を伝達することを含み、ここで、ニューラルネットワークスタックは、トークンの系列を処理する、分析フレームワークに対応する層を有し、下位層は、トークンの各々について分析フレームワークラベルベクトルを生成する。

図３において、隠れ状態ベクトル３１４は、ＬＳＴＭ若しくは双方向ＬＳＴＭ、又は他のＲＮＮ等、ニューラルネットワークにより生成される。隠れ状態ベクトル３１４は、高次元ベクトル空間３０２において符号化され、

という次元数を有し、これは、要素ごとに、

として識別され、dは、個々の次元を表し、下付き文字は、次元の順序位置を表す。一例において、

である。一実施形態において、分類器３０４は、利用可能なフレームワークラベルの数とほぼ同じ次元数を有するラベル空間ベクトルとして、隠れ状態ベクトル３１４を、分析フレームワークラベル空間３０６へと分類する。分析フレームワークラベル空間３０６は、言語的有意義性（linguistic meaningfulness）を符号化する。例えば、ＰＯＳラベル埋め込み層が、２０個のラベルを有する場合、

である。一実施形態において、分類器３０４は、次元削減行列

を含むだけである。別の実施形態において、分類器３０４は、次元削減重み行列

に加えて、次元削減重み行列

により生成されたラベル空間ベクトルを正規化する指数関数的正規化器３０８（例えばソフトマックス）を含む。

生成されると、低次元ラベル空間ベクトルは、次元拡張重み行列

３１０により、拡張次元ラベル空間３１２に射影されて、拡張トークンラベルベクトル３１６が生成される。拡張次元ラベル空間３１２は、高次元ベクトル空間である。したがって、隠れ状態ベクトル３１４と同様に、ラベルベクトル３１６も、高次元ベクトル空間にマッピングされ、

という次元数を有し、これは、要素ごとに、

として識別され、lは、個々の次元を表し、下付き文字は、次元の順序位置を表す。ラベルベクトル３１６は、隠れ状態ベクトル３１４の次元数とほぼ同じ次元数を有することに留意されたい。ほぼ同じであることは、＋／－１０パーセント以内を意味する。次元数が同じである必要はないが、同じである場合には、プログラミングがより簡単になり得る。

モデル１００は、処理の様々な段階において、次元射影を用いる。一例において、モデル１００は、低次元ＰＯＳ分析ラベル空間ベクトルが、該ベクトルを生成するために使用されたＰＯＳ隠れ状態ベクトルと同じ次元数を有するベクトル空間に射影されるように、次元射影を用いて、ＰＯＳラベル埋め込みを、より高次元の空間に射影する。別の例において、モデル１００は、低次元チャンク分析ラベル空間ベクトルが、該ベクトルを生成するために使用されたチャンク隠れ状態ベクトルと同じ次元数を有するベクトル空間に射影されるように、次元射影を用いて、チャンクラベル埋め込みを、より高次元の空間に射影する。同様に、他の例において、他の層も次元射影を用いる。

一実施形態において、利用可能な分析フレームワークラベルの数が、隠れ状態ベクトル３１４の次元数の５分の１以下である場合、ラベル空間ベクトル３１６は、モデル１００をトレーニングするときの過剰適合を低減させる次元ボトルネックとして機能する。別の実施形態において、利用可能な分析フレームワークラベルの数が、隠れ状態ベクトル３１４の次元数の１０分の１以下である場合、ラベル空間ベクトル３１６は、モデル１００をトレーニングするときの過剰適合を低減させる次元ボトルネックとして機能する。

次元ボトルネックはまた、機械翻訳等の他のＮＬＰタスクにおける処理を向上させる。

（単語レベルのタスク－ＰＯＳタグ付け）
図４Ａは、モデル１００のＰＯＳ層４００の動作の一実施形態を示している。

本明細書において「ＰＯＳ層」とも呼ばれるＰＯＳラベル埋め込み層は、ＰＯＳ状態ベクトル（例えば４０８）の指数関数的正規化（例えば、単一のＲｅＬＵ層を有するソフトマックス４０６）により、ＰＯＳラベル確率質量ベクトル（例えば４０４）を生成し、ＰＯＳラベル確率質量ベクトルから、ＰＯＳラベル埋め込みベクトル（例えば４０２）を生成する。

一実施形態において、モデル１００のＰＯＳラベル埋め込み層４００は、双方向ＬＳＴＭ４１０であり、その隠れ状態は、ＰＯＳタグを予測するために使用される。一実施形態において、以下のＬＳＴＭユニットが、前方へのパス方向について使用される：

上記において、入力

は、

、すなわち、前の隠れ状態と単語表現

との連結、と定義される。単語にわたるＬＳＴＭの後方へのパスも同じように拡張されるが、重みのセットが異なる。

w_tのＰＯＳタグを予測するために、前方状態と後方状態との連結

が、t番目の単語に対応する１層の双方向ＬＳＴＭ層において用いられる。次いで、各

が、単一のＲｅＬＵ層を有する指数関数的正規化器に与えられ、これが、ＰＯＳタグの各々についての確率ベクトル

を出力する。

図４Ｂは、モデル１００のＰＯＳタグ付けの結果を示す表を含む。モデル１００は、最高水準の結果に近いスコアを実現している。

（単語レベルのタスク－チャンキング）
図５Ａは、モデル１００のチャンキング層４００の動作の一実施形態を示している。

チャンキングは、各単語に対してチャンキングタグ（Ｂ－ＮＰ、Ｉ－ＶＰ等）を割り当てる単語レベルの分類タスクである。タグは、文内の主要句（major phrases）（又はチャンク）の領域を指定する。

本明細書において「チャンキング層」とも呼ばれるチャンクラベル埋め込み層５００は、さらに、チャンクラベル状態ベクトル（例えば５０８）の指数関数的正規化（例えば、単一のＲｅＬＵ層を有するソフトマックス５０６）により、チャンクラベル確率質量ベクトル（例えば５０４）を生成し、チャンクラベル確率質量ベクトルから、チャンクラベル埋め込みベクトル（例えば５０２）を生成する。

モデル１００において、チャンキングは、ＰＯＳ層の上にある第２の双方向ＬＳＴＭ層５１０を使用して実行される。双方向ＬＳＴＭ層をスタックする場合、ＬＳＴＭユニットに、以下の入力が提供される：

上記において、

は、最初のＰＯＳ層の隠れ状態である。重みラベル埋め込み

は、以下のように定義される：

上記において、Cは、ＰＯＳタグの数であり、

は、j番目のＰＯＳタグが単語w_tに割り当てられる確率質量であり、

は、対応するラベル埋め込みである。前述のように、ラベル埋め込みは、確率質量よりも高次元数であり得る。確率値は、ＰＯＳラベル埋め込み層が内蔵のＰＯＳタグ付け器のように動作することにより自動的に予測され、したがって、いくつかの実施形態において、正解ＰＯＳタグは必要とされない。

チャンキングタグを予測するために、チャンキング層において、連結された双方向の隠れ状態

を使用することにより、ＰＯＳタグ付けと同様の方策が用いられる。いくつかの実施形態において、単一のＲｅＬＵ隠れ層が、指数関数的分類器の前に使用される。

図５Ｂは、モデル１００のチャンキングの結果を示す表を含む。モデル１００は、最高水準の結果を実現しており、これは、より上位レベルのタスクに加えて、より下位レベルのタスクも同時学習により向上されることを示している。

（構文タスク－係り受け解析）
図６Ａは、モデル１００の係り受け解析層６００の動作の一実施形態を示している。

係り受け解析は、文内の単語のペアの間の構文関係（名詞を修飾する形容詞等）を識別する。

本明細書において「係り受け層又は係り受け解析層」とも呼ばれる係り受け親識別及び係り受け関係ラベル埋め込み層６００は、本明細書において「係り受け親分析器」とも呼ばれる双方向ＬＳＴＭ６０４により生成された親ラベル状態ベクトル６０２の分類及び指数関数的正規化により、親ラベル確率質量ベクトルを生成する。係り受け解析層は、親ラベル確率質量ベクトルから、親ラベル埋め込みベクトルを生成し、親ラベル状態ベクトル及び親ラベル埋め込みベクトルの分類及び指数関数的正規化により、係り受け関係ラベル確率質量ベクトルを生成し、係り受け関係ラベル確率質量ベクトルから、係り受け関係ラベル埋め込みベクトルを生成する。

係り受け親分析器６０４は、各単語について、単語埋め込みとＰＯＳラベル埋め込みとチャンクラベル埋め込みとチャンク状態ベクトルとを処理することを含め、入力文内の単語を処理して、文内の単語間の相互作用の前方への進行及び後方への進行を表現する前方状態ベクトル及び後方状態ベクトル６０２を蓄積する。

図６Ｂ、図６Ｃ、図６Ｄ、図６Ｅ、及び図６Ｆは、係り受け解析層６００のアテンション符号化器６１０の動作の一実施形態を示している。アテンション符号化器６１０は、文内の各単語についての前方状態ベクトル及び後方状態ベクトル６０２を処理して、当該単語又は他の単語について前方状態ベクトル及び後方状態ベクトル６０２に線形変換６０８を適用した後（これにより、線形変換における重み６０６がトレーニング可能である）、文内の各単語と文内の他の単語との間の内積６１２としてアテンションを符号化する。いくつかの実施形態において、センチネルベクトル６２２が、根単語（root word）を符号化するためにアテンション符号化器６１０により使用される。

アテンション符号化器６１０は、さらに、内積６１２のベクトル６１６に指数関数的正規化６１４を適用して、親ラベル確率質量ベクトル６１８を生成し、親ラベル確率質量ベクトルを射影して、親ラベル確率質量ベクトル６１８に応じて、前方状態ベクトル及び後方状態ベクトル６０２の線形変換の重み付け和６２０を混合又は計算することにより、親ラベル埋め込みベクトルを生成する。

図６Ｇは、係り受け解析層の係り受け関係ラベル分類器６２６の動作の一実施形態を示している。係り受け関係ラベル分類器６２６は、文内の各単語について、前方状態ベクトル及び後方状態ベクトル６０２並びに親ラベル埋め込みベクトル６２４を分類及び正規化して（ソフトマックス６２８等の別の指数関数的正規化器を使用することにより）、係り受け関係ラベル確率質量ベクトル６３０を生成し、係り受け関係ラベル確率質量ベクトル６３０を射影して係り受け関係ラベル埋め込みベクトル６３２を生成する。

上述のように、係り受け解析のために、モデル１００は、ＰＯＳ層及びチャンキング層の上にある第３の双方向ＬＳＴＭ層６０４を使用して、単語の全てのペアの間の関係を分類する。図６Ａに示されているように、係り受け解析ＬＳＴＭに対する入力ベクトルは、隠れ状態、単語表現１０２、並びに、２つの前のタスクについてのラベル埋め込み４０２及び５０２を含む：

ここで、チャンキングベクトルは、上記の式（１）におけるＰＯＳベクトルと同様のやり方で計算される。ＰＯＳタグ４０２及びチャンキングタグ５０２は、係り受け解析を向上させるために使用される。

逐次ラベル付けタスクと同様に、モデル１００は、文内の各単語について、本明細書において「ヘッド」とも呼ばれる親ノードを予測する。次いで、係り受けラベルが、子－親ノードペアの各々について予測される。ｔ番目の単語w_tの親ノードを予測するために、モデル１００は、w_tと親ノードの候補との間のマッチング関数６１２（ドット積／内積又は双線形積に基づく）を

として定義する。上記において、

は、パラメータ行列である。上述のように、根について、モデル１００は、

をパラメータ付きセンチネルベクトル６２２として定義する。上述のように、w_j（又は根ノード）がw_tの親である確率を計算するために、スコアが、指数関数的正規化器（例えばソフトマックス６１４）を使用して、以下のように正規化される：

上記において、Lは文の長さである。

次いで、係り受けラベルが、別の指数関数的正規化器（例えば、単一のＲｅＬＵ層を有するソフトマックス６２８）への入力として

を使用して予測される。テスト時において、一実施形態では、親ノード及び係り受けラベルが、文内の各単語について貪欲に（greedily）選択される。すなわち、モデル１００は、ＰＯＳラベル埋め込み層、チャンクラベル埋め込み層、又は、係り受け親識別及び係り受け関係ラベル埋め込み層においてビーム探索なく機能する。これは、モデル１００が単語ごとにラベル埋め込みを計算することが理由で生じ、これは、ビーム探索により通常もたらされる冗長さ及び計算待ち時間を回避するので、並列化を高め、計算効率を向上させる。加えて、係り受け解析中の単語ごとの計算は、単語がそれだけで根として予測される場合、モデル１００がそれを誤った予測として検出でき、単語についての新たな正しい予測を自動的に計算できるように、モデル１００が、誤ってラベル付けされた根を修正することを可能にする。

一実施形態において、モデル１００は、文内の各単語が１つの親ノードのみを有すると仮定する。別の実施形態において、モデル１００は、各単語が複数の親ノードを有することができると仮定し、巡回グラフのような計算を用いて、係り受けラベルを生成する。トレーニング時において、モデル１００は、正解又は真の子－親ペアを使用して、ラベル予測器をトレーニングする。

図６Ｈは、モデル１００が係り受け解析を適用する２つの例示的な文を示している。例（ａ）において、２つの太字の単語「counsels」及び「need」が、根ノードの子ノードとして予測され、下線が引かれた単語「counsels」が、正解アノテーションに基づく正しいものである。例（ｂ）において、どの単語も根ノードに接続されず、根の正しい子ノードは、下線が引かれた単語「chairman」である。モデル１００は、単一のパラメータ付きベクトルrを使用して、各文についての根ノードを表現し、様々なタイプの根ノードを取り込む。いくつかの実施形態において、モデル１００は、文依存の根表現を使用する。

図６Ｉは、モデル１００の係り受け解析層の結果を示す表を含む。モデル１００は、最高水準の結果を実現している。モデル１００の貪欲な（greedy）係り受け解析器は、大局的情報を用いたビーム探索に基づく以前の最高水準の結果よりも優れていることに留意されたい。これは、モデル１００の双方向ＬＳＴＭが、係り受け解析に必要な大局的情報を効率的に取り込んでいることを示している。

（意味タスク－意味関連性）
図７Ａは、モデル１００の意味関連性層７００の動作の一実施形態を示している。

モデル１００の次の２つのＮＬＰタスクは、２つの入力文の間の意味関係を符号化する。第１のタスクは、２つの文の間の意味関連性を測る。意味関連性層の出力は、入力文ペアについての実数値関連性スコアである。第２のタスクは、テキスト含意タスクであり、これは、前提文が仮説文を含意するかどうかを判定することを必要とする。これらは、一般的に、含意、矛盾、及び中立という３つのクラスである。

これらの２つの意味タスクは、互いに密接に関連している。実施形態において、良好な意味関連性は、低い意味関連性スコアにより表される。したがって、２つの文の間の意味関連性スコアが非常に低い場合、すなわち、２つの文が高い意味関連性を有する場合、これらは、互いを含意する可能性が高い。この直感に基づいて、且つ、より下位の層からの情報を利用するために、モデル１００は、関連性タスク及び含意タスクについて、それぞれ第４の双方向ＬＳＴＭ層及び第５の双方向ＬＳＴＭ層を使用する。

これらのタスクは、前のタスクにおいて使用された単語レベルの表現ではなく、文レベルの表現を必要とするので、モデル１００は、第４の層において、以下のように、文レベルの表現

を、全ての単語レベルの表現にわたる要素ごとの最大値として計算する：

上記において、Lは文の長さである。

sとs’との間の意味関連性をモデル化するために、特徴量ベクトルが、以下のように計算される：

上記において、

は、要素ごとの減算の絶対値であり、

は、要素ごとの乗算である。これらの演算の両方が、２つのベクトルの２つの異なる類似性指標とみなされ得る。次いで、

が、単一のマックスアウト隠れ層７２２を有する指数関数的正規化器（例えばソフトマックス）に与えられ、文ペアについての関連性スコア（例えば１～５の間）が出力される。マックスアウト隠れ層７２２は、最大非線形射影が指数関数的正規化器に与えられるように、それぞれが

の非線形射影を生成する複数の線形関数（例えばプールサイズが４である）を含む。

図７Ａを参照すると、係り受け親識別及び係り受け関係ラベル埋め込み層６００の上にある、双方向ＬＳＴＭ７０２を含む意味関連性層７００は、関連性ベクトル計算器７２０及び関連性分類器７１４も含む。関連性ベクトル計算器７２０は、第１の文及び第２の文のそれぞれの文内の単語の各々についての前方状態ベクトル及び後方状態ベクトル７０４の双方向ＬＳＴＭ計算と、それぞれの文内の単語についての前方状態ベクトル及び後方状態ベクトル７０４にわたる要素ごとの最大プーリング計算７０６と、を含め、第１の文及び第２の文の各々の文レベルの表現７０８ａ及び７０８ｂを計算して、それぞれの文を表現する文レベルの状態ベクトル７０８ａ及び７０８ｂを生成する。代替実施形態は、平均プーリングを用いてもよい。次いで、関連性ベクトル計算器７２０は、さらに、第１の文と第２の文との間の関連性のカテゴリ分類を導出するために関連性分類器７１４により処理される要素ごとの文レベルの関連性ベクトル７１２を計算する。いくつかの実施形態において、関連性ベクトル計算器は、さらなる処理のために、例えば、生成される関連性ラベル埋め込み７１８のために、カテゴリ分類を報告する。

関連性ベクトル計算器７２０は、第１の文についての文レベルの関連性ベクトル７０８ａと第２の文についての文レベルの関連性ベクトル７０８ｂとの間の要素ごとの差を計算し、第１の文についての文レベルの関連性ベクトル７０８ａと第２の文についての文レベルの関連性ベクトル７０８ｂとの間の要素ごとの積を計算し、要素ごとの差及び要素ごとの積の絶対値のベクトルを、関連性分類器７１４への入力として使用する特徴量抽出モジュール７１６を含む。

図７Ｂは、意味関連性タスクの結果を示す表を含む。モデル１００は、最高水準の結果を実現している。

（意味タスク－テキスト含意）
２つの文の間の含意分類のために、モデル１００はまた、意味関連性タスクと同様に、最大プーリング技術を使用する。前提－仮説ペア(s,s’)を３つのクラスのうちの１つに分類するために、モデル１００は、どれが前提（又は仮説）であるかを識別するために要素ごとの減算の絶対値を使用しないことを除いて、式（２）と同様に特徴量ベクトル

を計算する。次いで、

が、複数のマックスアウト隠れ層（例えば、３つのマックスアウト隠れ層）８２２を有する指数関数的正規化器（例えばソフトマックス）に与えられる。

マックスアウト隠れ層は、複数の線形関数及び非線形アクティベーションを入力に適用し、最良の結果を選択する。複数のマックスアウト隠れ層がスタックに配置されている場合、前のマックスアウト隠れ層からの最大出力が、次のマックスアウト隠れ層への入力として提供される。スタックにおける最後のマックスアウト隠れ層の最大出力が、分類のために指数関数的正規化器に提供される。時間最大プーリング（temporal max pooling）は、単に、複数の入力ベクトルの要素ごとの個々の次元を評価し、最大プーリング処理がなされたベクトルにおいて符号化するための、各順序位置についての最大次元値を選択することに留意されたい。対照的に、マックスアウト隠れ層は、入力ベクトルを複数の非線形変換にかけ、最大の次元値を有する１つの線形変換だけを選択する。

関連性層からの出力を直接利用するために、モデル１００は、関連性タスクについてのラベル埋め込みを使用する。モデル１００は、式（１）と同様に、意味関連性タスクについてクラスラベル埋め込みを計算する。連結されて含意分類器に与えられる最終特徴量ベクトルは、重み付けされた関連性埋め込みと特徴量ベクトル

とである。

図８Ａを参照すると、意味関連性層７００の上にある、双方向ＬＳＴＭ８０２を含む含意層８００は、含意ベクトル計算器８２０及び含意分類器８１４も含む。含意ベクトル計算器８２０は、第１の文及び第２の文のそれぞれの文内の単語の各々についての前方状態ベクトル及び後方状態ベクトル８０４の双方向ＬＳＴＭ計算と、それぞれの文内の単語についての前方状態ベクトル及び後方状態ベクトル８０４にわたる要素ごとの最大プーリング計算８０６と、を含め、第１の文及び第２の文の各々の文レベルの表現８０８ａ及び８０８ｂを計算して、それぞれの文を表現する文レベルの状態ベクトル８０８ａ及び８０８ｂを生成する。代替実施形態は、平均プーリングを用いてもよい。次いで、含意ベクトル計算器８２０は、さらに、第１の文と第２の文との間の含意のカテゴリ分類を導出するために含意分類器８１４により処理される要素ごとの文レベルの含意ベクトル８１２を計算する。いくつかの実施形態において、含意ベクトル計算器は、さらなる処理のために、例えば、生成される含意ラベル埋め込み８１８のために、カテゴリ分類を報告する。

含意ベクトル計算器８２０は、第１の文についての文レベルの含意ベクトル８０８ａと第２の文についての文レベルの含意ベクトル８０８ｂとの間の要素ごとの差を計算し、第１の文についての文レベルの含意ベクトル８０８ａと第２の文についての文レベルの含意ベクトル８０８ｂとの間の要素ごとの積を計算し、要素ごとの差及び要素ごとの積の絶対値のベクトルを、含意分類器８１４への入力として使用する特徴量抽出モジュール８１６を含む。

図８Ｂは、テキスト含意タスクの結果を示す表を含む。モデル１００は、最高水準の結果を実現している。

（トレーニング－逐次正則化）
ＮＬＰタスクにおいて、マルチタスク学習は、より上位レベルのタスクだけでなくより下位レベルのタスクも向上させる可能性を有している。事前にトレーニングされたモデルパラメータを固定されたものとして扱うのではなく、開示されている逐次正則化は、モデル１００が、壊滅的忘却なく、より下位レベルのタスクを継続的にトレーニングすることを可能にする。

モデル１００は、全てのデータセットにわたって同時トレーニングされる。各エポック中、最適化が、上述した対応するタスクと同じ順序で、各完全なトレーニングデータセットにわたって繰り返される。

（ＰＯＳ層のトレーニング）
ＰＯＳ層４００のための１つのトレーニングコーパスは、Penn TreebankのWall Street Journal（ＷＳＪ）部分である。このコーパスは、ＰＯＳタグでラベル付けされたトークンを含む。ＰＯＳ層４００のトレーニング中、これが現在の層であるので、Ｌ２ノルム正則化が、ＰＯＳ層４００の層パラメータに適用される。逐次正則化が、ただ１つの下位層、すなわち、単語埋め込み空間２０４及び文字埋め込み空間２０８を含む埋め込み層の層パラメータに適用される。

が、ＰＯＳ層４００に関連付けられているモデルパラメータのセットを表すとする。ここで、

は、第１の双方向ＬＳＴＭ及び分類器における重み行列のセットであり、

は、バイアスベクトルのセットである。

を最適化するための目的関数は、以下のように定義される：

上記において、

は、正しいラベルαが、文s内のw_tに割り当てられる確率値であり、

は、Ｌ２ノルム正則化項であり、λは、Ｌ２ノルム正則化ハイパーパラメータである。

は、逐次正則化項である。逐次正則化は、モデル１００における壊滅的忘却を防ぎ、したがって、モデル１００が他のタスクについて学習された情報を忘却するのを防ぐ。ＰＯＳタグ付けの場合、正則化は、

に適用され、

は、前のトレーニングエポックにおいて、最上層における最終タスクをトレーニングした後の埋め込みパラメータである。δは、逐次正則化ハイパーパラメータであり、これは、モデル１００の異なる層ごとに異なり得るものであり、また、ネットワーク重み及びバイアスに様々に割り当てられる値であり得る。

（チャンキング層のトレーニング）
チャンキング層５００をトレーニングするために、チャンクがラベル付けされているＷＳＪコーパスが使用された。チャンキング層５００のトレーニング中、これが現在の層であるので、Ｌ２ノルム正則化が、チャンキング層５００の層パラメータに適用される。逐次正則化が、２つの下位層、すなわち、埋め込み層及びＰＯＳ層４００の層パラメータに適用される。

チャンキング層のための目的関数は、以下のように定義される：

上記は、ＰＯＳタグ付けのものと類似しており、

は、

であり、上記において、

及び

は、

における重み及びバイアスパラメータを含む重み及びバイアスパラメータであり、

は、ＰＯＳラベル埋め込みのセットである。

は、現在のトレーニングエポックにおいてＰＯＳ層４００をトレーニングした後のＰＯＳパラメータである。

（係り受け層のトレーニング）
係り受け解析層６００をトレーニングするために、係り受けラベルが付されたＷＳＪコーパスが使用された。係り受け解析層６００のトレーニング中、これが現在の層であるので、Ｌ２ノルム正則化が、係り受け解析層６００の層パラメータに適用される。逐次正則化が、３つの下位層、すなわち、埋め込み層、ＰＯＳ層４００、及びチャンキング層５００の層パラメータに適用された。

係り受け層のための目的関数は、以下のように定義される：

上記において、

は、正しい親ノードラベルαがw_tに割り当てられる確率値であり、

は、正しい係り受けラベルβが子－親ペア

に割り当てられる確率値である。

は、

と定義され、上記において、

及び

は、

は、チャンキングラベル埋め込みのセットである。

（関連性層のトレーニング）
意味関連性層７００において、SICKデータセットがトレーニングにおいて使用された。意味関連性層７００のトレーニング中、これが現在の層であるので、Ｌ２ノルム正則化が、意味関連性層７００の層パラメータに適用された。逐次正則化が、４つの下位層、すなわち、埋め込み層、ＰＯＳ層４００、チャンキング層５００、及び係り受け解析層６００の層パラメータに適用された。

関連性層のための目的関数は、以下のように定義される：

上記において、

は、規定された関連性スコアにわたる正解分布であり、

は、文表現を所与とする予測分布であり、

は、２つの分布の間のKLダイバージェンスである。

は、

と定義される。

（含意層のトレーニング）
含意層８００をトレーニングするために、我々は、SICKデータセットを使用した。含意層８００のトレーニング中、これが現在の層であるので、Ｌ２ノルム正則化が、含意層８００の層パラメータに適用される。逐次正則化が、５つの下位層、すなわち、埋め込み層、ＰＯＳ層４００、チャンキング層５００、係り受け解析層６００、及び意味関連性層７００の層パラメータに適用される。

含意層のための目的関数は、以下のように定義される：

上記において、

は、正しいラベルαが前提－仮説ペア(s,s’)に割り当てられる確率値である。

は、

と定義され、上記において、

は、関連性ラベル埋め込みのセットである。

（トレーニングのエポック）
図９Ａを参照すると、図９Ａは、分析階層に従って少なくとも３つの層がスタックされているスタック型ＬＳＴＭ系列処理器をトレーニングする一実施形態を示している。図９Ａにおいて、第１の層、第２の層、及び第３の層（例えば、ＰＯＳ層４００、チャンキング層５００、及び係り受け層６００）は、各層に関するトレーニング例を用いてバックプロパゲーションによりトレーニングされ、トレーニング中、下位層への正則化パスダウンが伴う。トレーニングは、第１の層のトレーニング例（例えばＰＯＳデータ）を用いて、第１の層をトレーニングすること、第１の層への正則化パスダウントレーニングを伴う、第２の層のトレーニング例（例えばチャンキングデータ）を用いて、第２の層をトレーニングすること、及び、第１の層及び第２の層への正則化パスダウントレーニングを伴う、第３の層のトレーニング例（例えば係り受けデータ）を用いて、第３の層をトレーニングすることを含む。正則化パスダウントレーニングは、少なくとも２つの正則化項を含むフィットネス関数を有するトレーニング目的関数を制約することにより正則化される。少なくとも２つの正則化項は、下位層に適用された係数行列における重みの大きさの増加にペナルティを与えることにより正則化し、これは、下位層に適用された係数行列における重みの全ての変化を逐次正則化する。一実施形態において、フィットネス関数は、交差エントロピー損失である。別の実施形態において、フィットネス関数は、KLダイバージェンスである。さらに別の実施形態において、フィットネス関数は、平均二乗誤差である。

図９Ａに示されている例において、単一のエポックの２つのサブエポックが示されている。一実施形態において、モデル１００は、５つのＮＬＰタスクに対応する５つのサブエポックを有する。各サブエポックにおいて、現在の層のトレーニングデータに対応するトレーニング例のバッチ

が処理される。トレーニング例が、現在の層により処理されるたびに、下位層の層パラメータ

及び現在の層の層パラメータ

が、勾配をバックプロパゲーションすることにより更新される。

は、現在の層の所与のトレーニング例に関するバックプロパゲーションの結果としての、下位層のパラメータ

の更新された値を表す。また、各サブエポックの終わりにおいて、現在の層の埋め込みパラメータの現在の状態及び全ての下位層の埋め込みパラメータの現在の状態の「スナップショット」が取られる。スナップショット値は、本明細書において「現在のアンカー値」と呼ばれ、

として、メモリに保持される。

各サブエポックの終わりにおいて、逐次正則化項

は、更新値

が、層パラメータの現在のアンカー値

から大きくずれていないことを確実にする。

図９Ａにおいて、ＰＯＳ層４００における第１のサブエポックは、埋め込み層の現在のアンカー値で始まり、埋め込み層パラメータ

のみを逐次正則化する。逐次正則化は、現在の層のパラメータ、すなわち、ＰＯＳ層４００の層パラメータ

に適用されず、Ｌ２ノルム正則化

だけが、現在の層の更新されたパラメータに適用されて、正則化された現在の層のパラメータ

が生成される。逐次正則化は、ＰＯＳ層４００のトレーニング中に更新された下位層の層パラメータ値、すなわち、

が、現在のアンカー値

から大きくずれていないことを確実にする。これは、逐次正則化された下位層のパラメータ

をもたらす。サブエポックの終わりにおいて、最も直近に正則化された現在の層のパラメータ

及び最も直近に逐次正則化された下位層のパラメータ

が、スナップショット動作を受け、新たな現在のアンカー値として、メモリに保持される。

チャンキング層５００等の次の層において、下位層のパラメータは、埋め込み層及びＰＯＳ層についてのパラメータを含む。これらの下位層のパラメータは、逐次正則化を受けるのに対し、チャンキング層の現在の層のパラメータは、Ｌ２ノルム正則化だけを受ける。このプロセスは、モデル１００の全ての層に対して続く。

図９Ｂは、逐次正則化技術の有効性を実証する表を含む。図９Ｂにおいて、「SRなし」列は、モデル１００において逐次正則化を用いない場合の結果を示している。チャンキングの正解率は、逐次正則化により向上するが、他の結果は、あまり影響を受けないことが分かる。ここで使用されたチャンキングデータセットは、他の下位レベルタスクであるＰＯＳタグ付け及び係り受け解析と比較して、相対的に小さい。したがって、これらの結果は、データセットサイズが不均衡である場合に逐次正則化が有効であることを示唆している。

図１０は、５つの異なるＮＬＰタスクに関するテストセットの結果を示す表を含む。図１０において、「単一」列は、単一層の双方向ＬＳＴＭを使用して各タスクを別々に処理した結果を示し、「JMTall」列は、モデル１００の結果を示している。単一タスク設定は、自身のタスクのアノテーションのみを使用する。例えば、係り受け解析を単一のタスクとして扱う場合、ＰＯＳタグ及びチャンキングタグは使用されない。モデル１００において、５つの異なるタスクの全ての結果が向上していることがわかる。これは、モデル１００が、単一のモデルにおいて５つの異なるタスクを処理することを示している。モデル１００はまた、これらの異なるタスクから学習された任意の情報にアクセスすることを可能にする。例えば、いくつかの実施形態において、モデル１００をＰＯＳタグ付け器としてだけ使用するためには、第１の双方向ＬＳＴＭ層からの出力を使用することができる。出力は、個別のＰＯＳタグ及び重み付きＰＯＳラベル埋め込みであり得る。

図１０における表はまた、これらの異なるタスクの３つのサブセットの結果を示している。例えば、「JMTABC」の場合、最初の３つの層の双方向ＬＳＴＭだけが、３つのタスクを処理するために使用されている。「JMTDE」の場合、最初の３つの層からの全ての情報を省くことにより、上位の２つの層だけが、２層の双方向ＬＳＴＭとして使用されている。密接に関連するタスクの結果は、モデル１００が、上位レベルタスクだけでなく下位レベルタスクも向上させることを示している。

開示されている技術の他の実施形態は、指数関数的正規化器とは異なる正規化器を使用すること、指数関数的正規化器に加えて正規化器を使用すること、及び／又は、指数関数的正規化器と組み合わせて正規化器を使用することを含む。いくつかの例は、シグモイドベースの正規化器（例えば、マルチクラスシグモイド、区分ランプ）、双曲線正接ベースの正規化器、正規化線形ユニット（ＲｅＬＵ）ベースの正規化器、ＩＤベースの正規化器、ロジスティックベースの正規化器、正弦ベースの正規化器、余弦ベースの正規化器、単位合計（unit sum）ベースの正規化器、及びステップベースの正規化を含む。他の例は、階層的ソフトマックス、区分ソフトマックス、重点サンプリング、雑音対照推定、ネガティブサンプリング、ゲート付きソフトマックス、球状ソフトマックス、テイラーソフトマックス、及びスパースマックスを含む。さらに他の実施形態において、任意の他の従来の又は将来開発される正規化器が使用されてもよい。

本技術が、双方向ＬＳＴＭに関連して説明されているが、ＬＳＴＭの代替として進化する可能性がある他の新しい形態のＬＳＴＭが存在する。他の実施形態において、開示されている技術は、モデル１００の１つ以上の層又は全ての層において、単方向ＬＳＴＭを使用する。ＬＳＴＭのいくつかの変形例は、入力ゲートなし（ＮＩＧ：no input gate）の変形例、忘却ゲートなし（ＮＦＧ：no forget gate）の変形例、出力ゲートなし（ＮＯＧ：no output gate）の変形例、入力活性化関数なし（ＮＩＡＦ：no input activation function）の変形例、出力活性化関数なし（ＮＯＡＦ：no output activation function）の変形例、結合入力－忘却ゲート（ＣＩＦＧ：coupled input-forget gate）の変形例、のぞき穴（ＰＨ：peephole）の変形例、及びフルゲート再帰（ＦＧＲ：full gate recurrent）の変形例を含む。さらに他の実施形態は、ゲート付き再帰型ユニット（ＧＲＵ）、又は、任意の他のタイプのＲＮＮ、任意の他の従来の又は将来開発されるニューラルネットワークを含む。

さらに他の実施形態において、モデル１００の層は、有向非巡回グラフの形でスタックされる。そのような実施形態において、いくつかの層は、他の層の上に連続しなくてもよく、代わりに、非巡回的に配置されてもよい。

（特定の実施形態）
単一のエンドツーエンドモデルにおいてますます深くなる層を使用して、ますます複雑化している自然言語処理（ＮＬＰ）タスクを解決するための、いわゆる「同時多タスクニューラルネットワークモデル」のためのシステム、方法、及び製品が記載される。相互に排他的ではない実施形態は、組み合わせ可能であると教示される。実施形態の１つ以上の特徴は、他の実施形態と組み合わせられることもある。本開示は、これらのオプションについてユーザに定期的にリマインドする。これらのオプションを繰り返す記載事項の、いくつかの実施形態からの省略は、前のセクションにおいて教示された組み合わせを限定するものとして解釈されるべきではない。これらの記載事項は、参照により以下の実施形態の各々に組み込まれる。

図１Ｂ及び図１Ｃは、同時多タスクニューラルネットワークモデルを実現するために使用され得る様々なモジュールを示している。単語表現層１０２ａ、１０２ｂ、ＰＯＳ層１０４ａ、１０４ｂ、チャンキング層１０６ａ、１０６ｂ、係り受け層１０８ａ、１０８ｂ、関連性層１１０ａ、１１０ｂ、１１２、及び含意層１１４ａ、１１４ｂ、１１６等の、モデル１００の前述のモジュール又はコンポーネントは、代替的に、モデル１００の動作の原理を変えることなく、より小さくモジュール化されたモジュール又はコンポーネントを使用して説明され得る。

図１Ｂ及び図１Ｃにおけるモジュールは、ハードウェアで実装されてもよいしソフトウェアで実装されてもよく、図１Ｂ及び図１Ｃに示されているのと全く同じブロックに分割される必要はない。モジュールの一部は、異なるプロセッサ又はコンピュータにおいて実装されてもよいし、複数の異なるプロセッサ又はコンピュータの間で分散されてもよい。さらに、モジュールの一部は、実現される機能に影響を及ぼすことなく、組み合わせられることもあるし、並列に動作することもあるし、図１Ｂ及び図１Ｃに示されている順序とは異なる順序で動作することもあることが、理解されよう。また、本明細書において使用される場合、用語「モジュール」は、それ自体がモジュールを構成すると本明細書においてみなされ得る「サブモジュール」を含み得る。例えば、単語埋め込みモジュール１０２１及び単語ｎ文字グラムモジュール１０２２は、単語表現モジュール１０２ａ、１０２ｂのサブモジュールであるとも本明細書においてみなされ得る。別の例において、ＰＯＳ処理モジュール１０４１及びＰＯＳ生成モジュール１０４２は、ＰＯＳモジュール１０４ａ、１０４ｂのサブモジュールであると本明細書においてみなされ得る。さらに別の例において、係り受け処理モジュール１０８１、係り受け識別モジュール１０８２、係り受け生成モジュール１０８３、埋め込み処理モジュール１０８４、質量ベクトル処理モジュール１０８５、及び親ラベルベクトル生成モジュール１０８６は、係り受けモジュール１０８ａ、１０８ｂのサブモジュールであると本明細書においてみなされ得る。さらに別の例において、アテンション符号化器１０８７、アテンション符号化モジュール１０８７、親ラベルベクトルモジュール１０８９、及び親ラベル付けモジュール１０８６は、係り受けモジュール１０８ａ、１０８ｂのサブモジュールであると本明細書においてみなされ得る。さらに別の例において、係り受け親分析モジュール１１８０、埋め込みモジュール１１８１、状態ベクトル生成モジュール１１８２、正規化モジュール１１８４、係り受け関係ラベルベクトル生成モジュール１１８７、及び係り受けラベルベクトル生成モジュール１１８８は、係り受けモジュール１０８ａ、１０８ｂのサブモジュールであると本明細書においてみなされ得る。さらなる例において、文入力モジュール１１０１、文表現モジュール１１０２、関連性ベクトル決定モジュール１１０３、及び関連性分類モジュール１１０４は、関連性符号化モジュール１１０ａ、１１０ｂ及び／又は関連性モジュール１１２のサブモジュールであると本明細書においてみなされ得る。さらに別の例において、含意ベクトル決定モジュール１１４１、プーリングモジュール１１４２、及び含意分類モジュール１１４３は、含意符号化モジュール１１４ａ、１１４ｂ及び／又は含意モジュール１１６のサブモジュールであると本明細書においてみなされ得る。モジュールとして特定される、図１Ｂ及び図１Ｃにおけるブロックは、方法におけるフローチャートステップとみなされ得る。モジュールはまた、必ずしも、その全てのコードをメモリ内で連続して配置する必要はない。コードのいくつかの部分は、他のモジュール又はそれらの間に配置される他の関数からのコードにより、コードの他の部分から分離され得る。

一実施形態において、入力文内の単語を処理するハードウェア上で動作する多層ニューラルネットワークシステムであって、言語階層に従って層がスタックされている、ハードウェア上で動作するスタック型長短期記憶（ＬＳＴＭ）文処理器を含む多層ニューラルネットワークシステムが記載される。スタック型ＬＳＴＭ文処理器は、ＬＳＴＭ文モジュールのスタックで具現化され得る。スタック型ＬＳＴＭは、下位層への入力とともに、下位層の埋め込み出力を、上位層に提供するバイパス結合を含む。スタックされている層は、（ｉ）品詞（略してＰＯＳ）ラベル埋め込み層、（ｉｉ）ＰＯＳラベル埋め込み層の上にあるチャンクラベル埋め込み層、及び（ｉｉｉ）チャンクラベル埋め込み層の上にある係り受け親識別及び係り受け関係ラベル埋め込み層を含む。双方向ＬＳＴＭ及びＰＯＳラベル分類器として実現されるＰＯＳラベル埋め込み層は、入力文内の単語を表現する単語埋め込みベクトルを処理し、単語の各々についてＰＯＳラベル埋め込みベクトル及びＰＯＳ状態ベクトルを生成する。ＰＯＳラベル埋め込み層１０４のこれらのコンポーネントは、入力文内の単語を表現する単語埋め込みベクトルを処理するＰＯＳ処理モジュール１０４１、及び、単語の各々についてＰＯＳラベル埋め込みベクトル及びＰＯＳ状態ベクトルを生成するＰＯＳ生成モジュール１０４２で具現化され得る。

双方向ＬＳＴＭ及びチャンクラベル分類器として実現されるチャンクラベル埋め込み層１０６は、少なくとも単語埋め込みベクトルとＰＯＳラベル埋め込みベクトルとＰＯＳ状態ベクトルとを処理して、チャンクラベル埋め込み及びチャンク状態ベクトルを生成する。チャンクラベル埋め込み層１０６のこれらのコンポーネントは、少なくとも単語埋め込みベクトルとＰＯＳラベル埋め込みベクトルとＰＯＳ状態ベクトルとを処理するチャンク処理モジュール１０６１、及び、チャンクラベル埋め込み及びチャンク状態ベクトルを生成するチャンク生成モジュール１０６２で具現化され得る。

双方向ＬＳＴＭ及び１つ以上の分類器として実現される係り受け親識別及び係り受け関係ラベル埋め込み層１０８は、単語埋め込みとＰＯＳラベル埋め込みとチャンクラベル埋め込みとチャンク状態ベクトルとを処理して、入力文内の単語の各々の係り受け親を識別し、単語と単語のそれぞれの可能性のある親との間の関係の係り受け関係ラベル又はラベル埋め込みを生成する。係り受け親識別及び係り受け関係ラベル埋め込み層１０８のこれらのコンポーネントは、単語埋め込みとＰＯＳラベル埋め込みとチャンクラベル埋め込みとチャンク状態ベクトルとを処理する係り受け処理モジュール１０８１、入力文内の単語の各々の係り受け親を識別する係り受け識別モジュール１０８２、及び、単語と単語のそれぞれの可能性のある親との間の関係の係り受け関係ラベル又はラベル埋め込みを生成する係り受け生成モジュール１０８３で具現化され得る。

多層ニューラルネットワークシステムはまた、入力文内の単語についての係り受け親の識別及び係り受け関係ラベル埋め込みの生成を反映した結果を少なくとも出力する出力処理器をさらに含む。

このシステム及び開示されている技術の他の実施形態は各々、任意的に、以下の特徴及び／又は開示されている追加的なシステムに関して説明されている特徴のうちの１つ以上を含んでもよい。簡潔にするために、本出願において開示されている特徴の組み合わせは、個々には列挙されず、各ベースとなる特徴のセットについて繰り返されない。読者は、このセクションにおいて特定される特徴が、実施形態として特定されるベースとなる特徴のセットとどのように容易に組み合わせられ得るかを理解するであろう。

開示されている多層ニューラルネットワークシステムの一実施形態において、言語階層は、文内の単語から、品詞、文のチャンク、単語と単語の係り受け親との間の係り受けリンク、係り受けリンクに関するラベルまでを、構築する。

バイパス結合は、下位層により使用された入力ベクトルを、変更することなく、上位層に提供する。

いくつかの実施形態において、ＰＯＳラベル埋め込み層１０４は、さらに、単語埋め込みベクトルに加えて、入力文内の単語を表現するｎ文字グラム埋め込みベクトルを処理する。さらに、バイパス結合は、チャンクラベル埋め込み層と係り受け親識別及び係り受け関係ラベル埋め込み層とに、これらの上位層におけるそれぞれの双方向ＬＳＴＭへの入力として、ｎ文字グラム埋め込みベクトルを提供する。単語表現層１０２のこれらのさらなるコンポーネントは、単語埋め込みモジュール１０２１及びｎ文字グラム埋め込みモジュール１０２２で具現化され得る。バイパス結合は、チャンク処理モジュール及び係り受け処理モジュールとの結合で具現化され得る。

ＰＯＳラベル埋め込み層１０４は、さらに、ＰＯＳ状態ベクトルの指数関数的正規化により、ＰＯＳラベル確率質量ベクトルを生成し、ＰＯＳラベル確率質量ベクトルから、ＰＯＳラベル埋め込みベクトルを生成することができる。この機能は、ＰＯＳモジュール１０４で具現化され得る。さらに、チャンクラベル埋め込み層１０６は、チャンクラベル状態ベクトルのスケーリング正規化により、チャンクラベル確率質量ベクトルを生成し、チャンクラベル確率質量ベクトルから、チャンクラベル埋め込みベクトルを生成する。この機能は、チャンク生成モジュール１０６２で具現化され得る。さらに、係り受け親識別及び係り受け関係ラベル埋め込み層１０８は、双方向ＬＳＴＭにより生成された親ラベル状態ベクトルの分類及びスケーリング正規化により、親ラベル確率質量ベクトルを生成する。この機能は、係り受け識別モジュール１０８２で具現化され得る。係り受け親識別及び係り受け関係ラベル埋め込み層はまた、親ラベル確率質量ベクトルから、親ラベル埋め込みベクトルを生成し、親ラベル状態ベクトル及び親ラベル埋め込みベクトル分類の分類及び指数関数的正規化により、係り受け関係ラベル確率質量ベクトルを生成し、係り受け関係ラベル確率質量ベクトルから、係り受け関係ラベル埋め込みベクトルを生成する。この機能は、係り受け生成モジュール１０８３で具現化され得る。ＰＯＳラベル埋め込みベクトル、チャンクラベル埋め込みベクトル、及び係り受け関係ラベル埋め込みベクトルの次元数は、＋／－１０パーセント以内で類似している。

開示されている技術は、ＰＯＳラベル埋め込み層の下にある単語埋め込み層又は処理器１０２をさらに含み得る。単語埋め込み処理器は、単語埋め込み器１０２１及びｎ文字グラム埋め込み器１０２２を含む。単語埋め込み器は、認識されると、入力文内の単語を、単語埋め込みベクトルにより表現される単語埋め込み空間にマッピングする。さらに、ｎ文字グラム埋め込み器は、（ｉ）単語の文字部分文字列を、部分文字列長の複数のスケールで処理し、（ｉｉ）各処理された文字部分文字列を、文字埋め込み空間内の位置を表現する中間ベクトルにマッピングし、（ｉｉｉ）各一意な処理された文字部分文字列についての中間ベクトルを組み合わせて、単語の各々について文字埋め込みベクトルを生成する。単語埋め込み処理器はまた、単語埋め込み器の結果とｎ文字グラム埋め込み器の結果とを組み合わせ、それにより、単語埋め込み空間に以前にマッピングされなかった単語が、それにもかかわらず、文字埋め込みベクトルにより表現される。単語埋め込み層１０２のこれらのコンポーネントは、入力文内の単語をマッピングする単語埋め込みモジュール１０２１、及び、単語における異なるスケールの文字部分文字列をマッピングするｎ文字グラム埋め込みモジュール１０２２で具現化され得、ＰＯＳ処理モジュール１０４１は、さらに、ｎ文字グラム埋め込みモジュールの出力を処理して、単語埋め込み空間に以前にマッピングされなかった単語を表現する。

ｎ文字グラム埋め込み器は、少なくとも２つの方法で中間ベクトルを組み合わせることができる。ｎ文字グラム埋め込み器は、文字埋め込みベクトルにおいて要素ごとの平均を生成することもできるし、要素ごとの最大値を選択することもできる。ＰＯＳラベル分類器は、ソフトマックス層、又は、より一般的には、指数関数的正規化器を含み得る。これらの選択肢は、チャンクラベル分類器にも適用される。これらの代替の機能は、ｎ文字グラム埋め込みモジュール及び／又はチャンク処理モジュール若しくはチャンク生成モジュールで具現化され得る。

開示されている技術は、ＰＯＳラベル埋め込み層、チャンクラベル埋め込み層、又は係り受け親識別及び係り受け関係ラベル埋め込み層におけるビーム探索なく良好に機能する。これは、狭いスパンを有するビーム探索を伴って実現されることもある。

係り受け親識別及び係り受け関係ラベル埋め込み層は、さらに、係り受け親層及び係り受け関係ラベル分類器を含む。係り受け親識別層は、入力文内の単語を処理する、双方向ＬＳＴＭとして実現される係り受け親分析器を含む。具体的には、係り受け親分析器は、各単語について、単語埋め込みとＰＯＳラベル埋め込みとチャンクラベル埋め込みとチャンク状態ベクトルとを処理して、入力文内の単語の間の相互作用の前方への進行及び後方への進行を表現する前方状態ベクトル及び後方状態ベクトルを蓄積する。係り受け親識別層はまた、入力文内の各単語についての前方状態ベクトル及び後方状態ベクトルを処理し、入力文内の各単語の埋め込みと入力文内の他の単語の埋め込みとの間の内積としてアテンションを符号化する（ここで、内積の前に、単語又は他の単語についての前方状態ベクトル及び後方状態ベクトルに線形変換が適用されている）アテンション符号化器を含む。さらに、アテンション符号化器は、内積のベクトルに指数関数的正規化を適用して、親ラベル確率質量ベクトルを生成し、親ラベル確率質量ベクトルを射影して、親ラベル埋め込みベクトルを生成する。さらに、開示されている技術は、入力文内の各単語について、（ｉ）前方状態ベクトル及び後方状態ベクトル、親ラベル埋め込みベクトル、並びに親ラベル埋め込みベクトルを分類及び正規化して、係り受け関係ラベル確率質量ベクトルを生成し、（ｉｉ）係り受け関係ラベル確率質量ベクトルを射影して、係り受け関係ラベル埋め込みベクトルを生成する係り受け関係ラベル分類器を含む。係り受け親識別及び係り受け関係ラベル埋め込み層１０８のこれらのコンポーネントは、入力文内の単語を処理する係り受け親分析モジュール、及び、前方状態ベクトル及び後方状態ベクトルを処理して、親ラベル確率質量ベクトル及び親ラベル埋め込みベクトルを生成するアテンション符号化モジュールで具現化され得る。

一実施形態において、開示されている多層ニューラルネットワークシステムは、係り受け親識別及び係り受け関係ラベル埋め込み層の上にある意味関連性層をさらに含む。意味関連性層は、関連性ベクトル計算器及び関連性分類器を含み、多層ニューラルネットワークシステムを通じて処理された第１の文と第２の文とのペアに対して作用する。開示されている技術の関連性ベクトル計算器は、第１の文及び第２の文の各々の文レベルの表現を決定する。関連性ベクトル計算器により行われる決定は、（ｉ）第１の文及び第２の文のそれぞれの文内の単語の各々についての前方状態ベクトル及び後方状態ベクトルの双方向ＬＳＴＭ計算、及び（ｉｉ）それぞれの文を表現する文レベルの状態ベクトルを生成するための、それぞれの文内の単語についての前方状態ベクトル及び後方状態ベクトルにわたる要素ごとの最大プーリング計算を含む。関連性ベクトル計算器は、さらに、第１の文と第２の文との間の関連性のカテゴリ分類を導出するために関連性分類器により処理される要素ごとの文レベルの関連性ベクトルを計算する。この層は、さらなる処理のために、カテゴリ分類を報告することができる。

意味関連性層１１０のコンポーネントは、文入力モジュール１１０１、文表現モジュール１１０２、関連性ベクトル決定器１１０３、及び関連性分類器１１０４で具現化され得る。文入力モジュール１１０１は、文モジュールのスタックを通じて処理された第１の文と第２の文とのペアを入力する。関連性ベクトル決定器１１０３は、第１の文及び第２の文の各々の文レベルの表現を決定し、関連性ベクトル決定器１１０３は、第１の文及び第２の文のそれぞれの文内の単語の各々について前方状態ベクトル及び後方状態ベクトルを決定する双方向ＬＳＴＭと、それぞれの文内の単語の各々についての前方状態ベクトル及び後方状態ベクトルにわたって要素ごとに最大プーリングするプーリングモジュールと、それぞれの文を表現する文レベルの状態ベクトルを生成する文表現モジュール１１０２と、を含み、関連性分類器１１０４は、第１の文と第２の文との間の関連性をカテゴリ分類する。

関連性ベクトル計算器はまた、（ｉ）第１の文についての文レベルの関連性ベクトルと第２の文についての文レベルの関連性ベクトルとの間の要素ごとの差を決定し、（ｉｉ）第１の文についての文レベルの関連性ベクトルと第２の文についての文レベルの関連性ベクトルとの間の要素ごとの積を決定し、（ｉｉｉ）要素ごとの差の絶対値のベクトル及び要素ごとの積のベクトルを、関連性分類器への入力として使用することができる。

開示されている技術は、意味関連性層の上にある含意層をさらに含み得る。含意層は、含意ベクトル計算器及び含意分類器を含む。さらに、含意ベクトル計算器は、第１の文及び第２の文の各々の文レベルの表現を計算する。含意ベクトル計算器により行われる計算は、（ｉ）第１の文及び第２の文のそれぞれの文内の単語の各々についての前方状態ベクトル及び後方状態ベクトルの双方向ＬＳＴＭ計算、及び（ｉｉ）それぞれの文を表現する文レベルの状態ベクトルを生成するための、それぞれの文内の単語についての前方状態ベクトル及び後方状態ベクトルにわたる要素ごとの最大プーリング計算を含み得る。含意ベクトル計算器は、さらに、第１の文と第２の文との間の含意のカテゴリ分類を導出するために含意分類器により処理される要素ごとの文レベルの含意ベクトルを計算することができる。この層は、さらなる処理のために、カテゴリ分類を報告することができる。

含意層１１４のコンポーネントは、第１の文及び第２の文の各々の文レベルの表現を決定する含意ベクトル決定器１１４１であって、第１の文及び第２の文のそれぞれの文内の単語の各々について前方状態ベクトル及び後方状態ベクトルを決定する双方向ＬＳＴＭと、それぞれの文内の単語についての前方状態ベクトル及び後方状態ベクトルにわたって要素ごとに最大プーリングするプーリングモジュール１１４２と、それぞれの文を表現する文レベルの状態ベクトルを生成する文表現モジュール１０２と、を含む含意ベクトル決定器１１４１、及び、第１の文と第２の文との間の含意をカテゴリ分類する含意分類器１１４３で具現化され得る。

含意ベクトル決定器又は計算器は、さらに、（ｉ）第１の文についての文レベルの含意ベクトルと第２の文についての文レベルの含意ベクトルとの間の要素ごとの差を決定し、（ｉｉ）第１の文についての文レベルの含意ベクトルと第２の文についての文レベルの含意ベクトルとの間の要素ごとの積を決定し、（ｉｉｉ）要素ごとの差のベクトル及び要素ごとの積のベクトルを、含意分類器への入力として使用することができる。

別の実施形態において、言語階層に従って層がスタックされている、ハードウェア上で動作するスタック型長短期記憶（略してＬＳＴＭ）文処理器を用いて、入力文内の単語を処理する方法が提供される。このスタックは、ＬＳＴＭトークン系列モジュールのスタックで具現化され得る。これらのスタックされている層は、（ｉ）品詞（略してＰＯＳ）ラベル埋め込み層、（ｉｉ）ＰＯＳラベル埋め込み層の上にあるチャンクラベル埋め込み層、及び（ｉｉｉ）チャンクラベル埋め込み層の上にある係り受け親識別及び係り受け関係ラベル埋め込み層を含む。詳細には、開示されている技術のこの方法は、バイパス結合を介して、下位層により使用された入力とともに、下位層からの埋め込み出力を、上位層に提供することを含む。この方法はまた、ＰＯＳラベル埋め込み層において、双方向ＬＳＴＭ及びＰＯＳラベル分類器を適用して、入力文内の単語を表現する単語埋め込みベクトルを処理し、単語の各々についてＰＯＳラベル埋め込みベクトル及びＰＯＳ状態ベクトルを生成することを含む。さらに、この方法は、チャンクラベル埋め込み層において、双方向ＬＳＴＭ及びチャンクラベル分類器を適用して、少なくとも単語埋め込みベクトルとＰＯＳラベル埋め込みベクトルとＰＯＳ状態ベクトルとを処理し、チャンクラベル埋め込み及びチャンク状態ベクトルを生成することを含む。この方法に従うと、係り受け親識別及び係り受け関係ラベル埋め込み層において、双方向ＬＳＴＭ及び１つ以上の分類器が適用されて、単語埋め込みベクトルとＰＯＳラベル埋め込みベクトルとチャンクラベル埋め込みとチャンク状態ベクトルとが処理される。これは、入力文内の単語の各々の係り受け親を識別し、単語と単語のそれぞれの可能性のある親との間の関係の係り受け関係ラベル又はラベル埋め込みを生成するために、行われる。この方法はまた、入力文内の単語についての係り受け関係ラベル又はラベル埋め込みを反映した結果を出力することを含む。

この方法及び開示されている技術の他の実施形態は各々、任意的に、以下の特徴及び／又は開示されている追加的な方法に関して説明されている特徴のうちの１つ以上を含んでもよい。簡潔にするために、本出願において開示されている特徴の組み合わせは、個々には列挙されず、各ベースとなる特徴のセットについて繰り返されない。読者は、このセクションにおいて特定される特徴が、実施形態として特定されるベースとなる特徴のセットとどのように容易に組み合わせられ得るかを理解するであろう。

開示されている方法の一実施形態において、言語階層は、文内の単語から、品詞、文のチャンク、単語と単語の係り受け親との間の係り受けリンク、係り受けリンクに関するラベルまでを、構築する。

バイパス結合を介して提供することは、下位層により使用された入力ベクトルを、変更することなく、上位層に提供することができる。

いくつかの実施形態において、この方法は、ＰＯＳラベル埋め込み層において、単語埋め込みベクトルに加えて、入力文内の単語を表現するｎ文字グラム埋め込みベクトルを処理する。さらに、バイパス結合は、チャンクラベル埋め込み層と係り受け親識別及び係り受け関係ラベル埋め込み層とに、これらの上位層におけるそれぞれの双方向ＬＳＴＭへの入力として、ｎ文字グラム埋め込みベクトルを提供する。

開示されている方法は、ＰＯＳラベル埋め込み層において、ＰＯＳ状態ベクトルの指数関数的正規化により、ＰＯＳラベル確率質量ベクトルを生成することと、ＰＯＳラベル確率質量ベクトルから、ＰＯＳラベル埋め込みベクトルを生成することと、をさらに含み得る。さらに、この方法は、チャンクラベル埋め込み層において、チャンクラベル状態ベクトルのスケーリング正規化により、チャンクラベル確率質量ベクトルを生成し、チャンクラベル確率質量ベクトルから、チャンクラベル埋め込みベクトルを生成する。指数関数的正規化を適用するソフトマックス関数が、スケーリング正規化のために使用され得る。さらに、開示されている技術は、係り受け親識別及び係り受け関係ラベル埋め込み層において、（ｉ）双方向ＬＳＴＭにより生成された親ラベル状態ベクトルの分類及びスケーリング正規化により、親ラベル確率質量ベクトルを生成し、（ｉｉ）親ラベル確率質量ベクトルから、親ラベル埋め込みベクトルを生成し、（ｉｉｉ）親ラベル状態ベクトル及び親ラベル埋め込みベクトルの分類及びスケーリング正規化により、係り受け関係ラベル確率質量ベクトルを生成し、（ｉｖ）係り受け関係ラベル確率質量ベクトルから、係り受け関係ラベル埋め込みベクトルを生成する。

任意的に、ＰＯＳラベル埋め込みベクトル、チャンクラベル埋め込みベクトル、及び係り受け関係ラベル埋め込みベクトルの次元数は、＋／－１０パーセント以内で類似していてよい。

いくつかの実施形態において、スタックされている層は、ＰＯＳラベル埋め込み層の下にある単語埋め込み層を含み得る。単語埋め込み層は、単語埋め込み器及びｎ文字グラム埋め込み器を含み得る。さらに、この方法は、単語埋め込み器において、認識されると、入力文内の単語を、単語埋め込みベクトルにより表現される単語埋め込み空間にマッピングすることを含む。この方法はまた、ｎ文字グラム埋め込み器において、（ｉ）単語の文字部分文字列を、部分文字列長の複数のスケールで処理することと、（ｉｉ）各処理された文字部分文字列を、文字埋め込み空間内の位置を表現する中間ベクトルにマッピングすることと、（ｉｉｉ）各一意な処理された文字部分文字列についての中間ベクトルを組み合わせて、単語の各々について文字埋め込みベクトルを生成することと、を含む。単語埋め込み層は、単語埋め込み器及びｎ文字グラム埋め込み器からのベクトルを出力することができ、それにより、単語埋め込み空間に以前にマッピングされなかった単語が、それにもかかわらず、文字埋め込みベクトルにより表現される。単語埋め込み層のこれらのコンポーネントは、請求項に記載されているような単語埋め込みモジュール及びｎ文字グラム埋め込みモジュールで具現化され得る。

ｎ文字グラム埋め込み器は、少なくとも２つの方法で中間ベクトルを組み合わせることができる。ｎ文字グラム埋め込み器は、文字埋め込みベクトルにおいて要素ごとの平均を生成することもできるし、要素ごとの最大値を選択することもできる。ＰＯＳラベル分類器は、ソフトマックス層、又は、より一般的には、指数関数的正規化器を含み得る。これらの選択肢は、チャンクラベル分類器にも適用される。

開示されている技術は、ＰＯＳラベル埋め込み層、チャンクラベル埋め込み層、又は係り受け親識別及び係り受け関係ラベル埋め込み層におけるビーム探索なく良好に機能する。

係り受け親識別及び係り受け関係ラベル埋め込み層は、さらに、係り受け親分析器、アテンション符号化器、及び係り受け関係ラベル分類器を含む。開示されている方法は、係り受け親分析器において、双方向ＬＳＴＭを適用して、入力文内の単語を処理する。単語のこの処理は、各単語について、単語埋め込みとｎ文字グラム埋め込みとＰＯＳラベル埋め込みとチャンクラベル埋め込みとチャンク状態ベクトルとを処理して、入力文内の単語間の相互作用の前方への進行及び後方への進行を表現する前方状態ベクトル及び後方状態ベクトルを蓄積することを含み得る。この方法はまた、アテンション符号化器において、入力文内の各単語についての前方状態ベクトル及び後方状態ベクトルを処理して、単語又は他の単語についての前方状態ベクトル及び後方状態ベクトルに線形変換を適用した後（これにより、線形変換における重みがトレーニング可能である）、入力文内の各単語の埋め込みと入力文内の他の単語の埋め込みとの間の内積としてアテンションを符号化することを含み得る。この方法はまた、アテンション符号化器において、内積のベクトルに指数関数的正規化を適用して、親ラベル確率質量ベクトルを生成することと、親ラベル確率質量ベクトルを射影して、親ラベル埋め込みベクトルを生成することと、を含む。この方法は、係り受け関係ラベル分類器において、入力文内の各単語について、（ｉ）前方状態ベクトル及び後方状態ベクトル、親ラベル埋め込みベクトル、並びに親ラベル埋め込みベクトルを分類及び正規化して、係り受け関係ラベル確率質量ベクトルを生成し、（ｉｉ）係り受け関係ラベル確率質量ベクトルを射影して、係り受け関係ラベル埋め込みベクトルを生成する。

一実施形態において、スタックされている層すなわちモジュールのスタックは、係り受け親識別及び係り受け関係ラベル埋め込み層の上にある意味関連性層をさらに含む。意味関連性層は、関連性ベクトル計算器及び関連性分類器を含む。開示されている方法は、意味関連性層において、開示されている方法を通じて既に処理されている第１の文と第２の文とのペアに対して作用することを含む。さらに、開示されている方法は、関連性ベクトル計算器において、（ｉ）双方向ＬＳＴＭを適用して、第１の文及び第２の文のそれぞれの文内の単語の各々について前方状態ベクトル及び後方状態ベクトルを計算し、（ｉｉ）それぞれの文の各々についての前方状態ベクトル及び後方状態ベクトルの要素ごとの最大値を計算して、要素ごとの文レベルの関連性ベクトルを計算することにより、第１の文及び第２の文の各々の文レベルの表現を計算する。この方法はまた、文レベルの関連性ベクトルを処理して、第１の文と第２の文との間の関連性のカテゴリ分類を導出することを含む。この方法は、さらなる処理のために、カテゴリ分類又は文レベルの関連性ベクトルを報告することを含み得る。

開示されている技術は、関連性ベクトル決定器又は計算器１１２において、（ｉ）第１の文についての文レベルの関連性ベクトルと第２の文についての文レベルの関連性ベクトルとの間の要素ごとの差を決定し、（ｉｉ）第１の文についての文レベルの関連性ベクトルと第２の文についての文レベルの関連性ベクトルとの間の要素ごとの積を決定し、（ｉｉｉ）要素ごとの差の絶対値のベクトル及び要素ごとの積のベクトルを、関連性分類器への入力として使用する。

いくつかの実施形態において、スタックされている層は、意味関連性層の上にある含意層をさらに含む。含意層１１４は、含意ベクトル決定器又は計算器１１４１と含意分類器１１４２とを含む。含意ベクトル決定器は、（ｉ）双方向ＬＳＴＭを適用して、第１の文及び第２の文のそれぞれの文内の単語の各々について前方状態ベクトル及び後方状態ベクトルを決定し、（ｉｉ）それぞれの文の各々についての前方状態ベクトル及び後方状態ベクトルの要素ごとの最大値を決定することにより、第１の文及び第２の文の各々の文レベルの表現を決定する。開示されている方法は、（ｉ）含意ベクトル決定器において、要素ごとの文レベルの含意ベクトルを決定することと、（ｉｉ）文レベルの含意ベクトルを処理して、第１の文と第２の文との間の含意をカテゴリ分類することと、をさらに含む。

開示されている方法はまた、含意ベクトル決定器が、（ｉ）第１の文についての文レベルの含意ベクトルと第２の文についての文レベルの含意ベクトルとの間の要素ごとの差を決定することと、（ｉｉ）第１の文についての文レベルの含意ベクトルと第２の文についての文レベルの含意ベクトルとの間の要素ごとの積を決定することと、（ｉｉｉ）要素ごとの差のベクトル及び要素ごとの積のベクトルを、含意分類器への入力として使用することと、を含み得る。

別の実施形態において、入力系列内のトークンの系列を処理するハードウェア上で動作する多層ニューラルネットワークシステムであって、分析階層に従って層がスタックされているスタック型ＬＳＴＭトークン系列処理器を含む多層ニューラルネットワークシステムが記載される。このスタックは、ＬＳＴＭトークン系列モジュールのスタックで具現化され得る。スタック型ＬＳＴＭは、下位層への入力とともに、下位層の埋め込み出力を、上位層に提供するバイパス結合を含む。スタックされている層は、（ｉ）第１の埋め込み層、（ｉｉ）第１の埋め込み層の上にある第２の埋め込み層、及び（ｉｉｉ）第２の埋め込み層の上にある第３の埋め込み層を含む。双方向ＬＳＴＭ及び第１のラベル分類器として実現される第１の埋め込み層は、入力系列内のトークンを表現するトークン埋め込みを処理し、トークンの第１のラベル埋め込み及び第１の状態ベクトルを生成する。双方向ＬＳＴＭ及び第２のラベル分類器として実現される第２の埋め込み層は、少なくともトークン埋め込みと第１のラベル埋め込みと第１の状態ベクトルとを処理して、第２のラベル埋め込み及び第２の状態ベクトルを生成する。双方向ＬＳＴＭとして実現される第３の埋め込み層は、少なくともトークン埋め込みと第１のラベル埋め込みと第２のラベル埋め込みと第２の状態ベクトルとを処理して、第３のラベル埋め込み及び第３の状態ベクトルを生成する。これらの３つの埋め込み層のコンポーネントは、請求項に記載されるような、それぞれの層の第１の処理モジュール、第２の処理モジュール、及び第３の処理モジュール（例えば、１０２、１０４、１０６）、並びに、第１の生成モジュール、第２の生成モジュール、及び第３の生成モジュールで具現化され得る。この多層ニューラルネットワークシステムはまた、入力系列内のトークンについての第３のラベル埋め込みを反映した結果を少なくとも出力する出力処理器を含む。

開示されている多層ニューラルネットワークシステムの一実施形態において、第１の埋め込み層は、さらに、トークン埋め込みベクトルに加えて、入力系列内のトークンを表現するトークン分解埋め込みベクトルを処理する。さらに、バイパス結合は、第２の埋め込み層と第３の埋め込み層とに、これらの上位層におけるそれぞれの双方向ＬＳＴＭへの入力として、トークン分解埋め込みベクトルを提供する。

いくつかの実施形態において、第１の埋め込み層は、さらに、第１の状態ベクトルの指数関数的正規化により、第１のラベル確率質量ベクトルを生成し、第１のラベル確率質量ベクトルから、第１のラベル埋め込みベクトルを生成する。さらに、第２の埋め込み層は、第２の状態ベクトルの指数関数的正規化により、第２のラベル確率質量ベクトルを生成し、第２のラベル確率質量ベクトルから、第２のラベル埋め込みベクトルを生成する。さらに、第３の埋め込み層は、第３の状態ベクトルの指数関数的正規化により、第３のラベル確率質量ベクトルを生成し、第３のラベル確率質量ベクトルから、第３のラベル埋め込みベクトルを生成する。さらに、第１のラベル埋め込みベクトル、第２のラベル埋め込みベクトル、及び第３のラベル埋め込みベクトルの次元数は、＋／－１０パーセント以内で類似している。

開示されている技術は、第１の埋め込み層の下にあるトークン埋め込み処理器をさらに含み得る。トークン埋め込み処理器は、トークン埋め込み器及び分解トークン埋め込み器を含む。トークン埋め込み器は、認識されると、入力系列内のトークンを、トークン埋め込みベクトルにより表現されるトークン埋め込み空間にマッピングする。さらに、分解トークン埋め込み器は、（ｉ）トークンのトークン分解を、複数のスケールで処理し、（ｉｉ）各処理されたトークン分解を、トークン分解埋め込み空間内の位置を表現する中間ベクトルにマッピングし、（ｉｉｉ）各一意な処理されたトークン分解についての中間ベクトルを組み合わせて、トークンの各々についてトークン分解埋め込みベクトルを生成する。トークン埋め込み処理器はまた、トークン埋め込み器の結果と分解トークン埋め込み器の結果とを組み合わせ、それにより、トークン埋め込み空間に以前にマッピングされなかったトークンが、それにもかかわらず、トークン分解埋め込みベクトルにより表現される。

これらのラベル分類器のうち少なくとも１つは、ソフトマックス層、又は、より一般的には、指数関数的正規化器を含み得る。

開示されている技術はまた、第１のラベル埋め込み層～第３のラベル埋め込み層におけるビーム探索なく良好に機能する。

一実施形態において、開示されている多層ニューラルネットワークシステムは、第３のラベル埋め込み層の上にある第４のラベル埋め込み層をさらに含む。第４のラベル埋め込み層は、少なくともトークン埋め込みと第１のラベル埋め込みと第２のラベル埋め込みと第３のラベル埋め込みと第３の状態ベクトルとを処理して、第４のラベル埋め込み及び第４の状態ベクトルを生成する双方向ＬＳＴＭとして実現され得る。

開示されている技術はまた、第４のラベル埋め込み層の上にある第５のラベル埋め込み層を含む。第５のラベル埋め込み層は、少なくともトークン埋め込みと第１のラベル埋め込みと第２のラベル埋め込みと第３のラベル埋め込みと第４のラベル埋め込みと第４の状態ベクトルとを処理して、第５のラベル埋め込み及び第５の状態ベクトルを生成する双方向ＬＳＴＭとして実現され得る。

別の実施形態において、言語階層に従って層がスタックされている、ハードウェア上で動作するスタック型長短期記憶（略してＬＳＴＭ）文処理器を用いて、入力系列内のトークンを処理する方法が提供される。このスタックは、ＬＳＴＭトークン系列モジュールのスタックで具現化され得る。これらのスタックされている層は、（ｉ）第１の埋め込み層、（ｉｉ）第１の埋め込み層の上にある第２の埋め込み層、及び（ｉｉｉ）第２の埋め込み層の上にある第３の埋め込み層を含む。詳細には、この方法は、バイパス結合を介して、下位層により使用された入力とともに、下位層の埋め込み出力を、上位層に提供することを含む。この方法はまた、第１の埋め込み層が、双方向ＬＳＴＭ及び第１のラベル分類器を適用して、入力系列内のトークンを表現するトークン埋め込みを処理することと、トークンの第１のラベルベクトル及び第１の状態ベクトルを生成することと、を含む。さらに、この方法は、第２の埋め込み層が、双方向ＬＳＴＭ及び第２のラベル分類器を適用して、少なくともトークン埋め込みと第１のラベル埋め込みと第１の状態ベクトルとを処理して、第２のラベル埋め込み及び第２の状態ベクトルを生成することを含む。この方法に従うと、第３の埋め込み層が、双方向ＬＳＴＭを適用して、少なくとも単語埋め込みと第１のラベル埋め込みと第２のラベル埋め込みと第２の状態ベクトルとを処理し、第３のラベル埋め込み及び第３の状態ベクトルを生成する。さらに、開示されている技術に従うと、この方法は、入力系列内のトークンについての第３のラベル埋め込みを含む、分析階層に従ったスタック型ＬＳＴＭ分析を反映した結果を出力することを含む。

いくつかの実施形態において、この方法は、第１の埋め込み層において、トークン埋め込みベクトルに加えて、入力系列内のトークンを表現するトークン分解埋め込みベクトルを処理する。さらに、バイパス結合は、さらに、第２の埋め込み層と第３の埋め込み層とに、これらの上位層におけるそれぞれの双方向ＬＳＴＭへの入力として、トークン分解埋め込みベクトルを提供する。

開示されている方法は、第１の埋め込み層が、第１の状態ベクトルの指数関数的正規化により、第１のラベル確率質量ベクトルを生成することと、第１のラベル確率質量ベクトルから、第１のラベル埋め込みベクトルを生成することと、をさらに含み得る。さらに、第２の埋め込み層が、第２の状態ベクトルの指数関数的正規化により、第２のラベル確率質量ベクトルを生成し、第２のラベル確率質量ベクトルから、第２のラベル埋め込みベクトルを生成する。さらに、第３の埋め込み層が、第３の状態ベクトルの指数関数的正規化により、第３のラベル確率質量ベクトルを生成し、第３のラベル確率質量ベクトルから、第３のラベル埋め込みベクトルを生成する。開示されている方法に従うと、第１のラベル埋め込みベクトル、第２のラベル埋め込みベクトル、及び第３のラベル埋め込みベクトルの次元数は、＋／－１０パーセント以内で類似している。

開示されている方法はまた、トークン埋め込み器及び分解トークン埋め込み器を含む、第１のラベル埋め込み層の下にあるトークン埋め込み処理器を呼び出すことをさらに含み得る。さらに、この方法は、トークン埋め込み器において、認識されると、入力系列内のトークンを、トークン埋め込みベクトルにより表現されるトークン埋め込み空間にマッピングすることを含み得る。さらに、この方法は、分解トークン埋め込み器において、（ｉ）トークンのトークン分解を、複数のスケールで処理し、（ｉｉ）各処理されたトークン分解を、トークン分解埋め込み空間内の位置を表現する中間ベクトルにマッピングし、（ｉｉｉ）各一意な処理されたトークン分解についての中間ベクトルを組み合わせて、トークンの各々についてトークン分解埋め込みベクトルを生成する。この方法はまた、トークン埋め込み器の結果と分解トークン埋め込み器の結果とを組み合わせ、それにより、トークン埋め込み空間に以前にマッピングされなかったトークンが、それにもかかわらず、トークン分解埋め込みベクトルにより表現される。

開示されている技術に従うと、スタックされている層は、第３のラベル埋め込み層の上にある第４のラベル埋め込み層を含む。この方法はまた、第４のラベル埋め込み層において、双方向ＬＳＴＭを適用して、少なくともトークン埋め込みと第１のラベル埋め込みと第２のラベル埋め込みと第３のラベル埋め込みと第３の状態ベクトルとを処理し、第４のラベル埋め込み及び第４の状態ベクトルを生成することを含む。

別の実施形態において、スタックされている層は、第４のラベル埋め込み層の上にある第５のラベル埋め込み層を含む。さらに、この方法は、第５のラベル埋め込み層において、双方向ＬＳＴＭを適用して、少なくともトークン埋め込みと第１のラベル埋め込みと第２のラベル埋め込みと第３のラベル埋め込みと第４のラベル埋め込みと第４の状態ベクトルとを処理し、第５のラベル埋め込み及び第５の状態ベクトルを生成することを含む。

別の実施形態において、分析階層に従って少なくとも３つの層がスタックされている、ハードウェア上で動作するスタック型ＬＳＴＭ系列処理器をトレーニングする方法が提供される。バイパス結合は、下位層への入力とともに、下位層の埋め込み出力を、上位層に提供する。この方法は、第１の層、第２の層、及び第３の層を、各層に関するトレーニング例を用いてバックプロパゲーションによりトレーニングすることであって、トレーニング中、下位層への正則化パスダウンが伴う、トレーニングすることを含む。具体的には、このトレーニングは、（ｉ）第１の層のトレーニング例を用いて、第１の層をトレーニングすることと、（ｉｉ）第１の層への正則化パスダウントレーニングを伴う、第２の層のトレーニング例を用いて、第２の層をトレーニングすることと、（ｉｉｉ）第１の層及び第２の層への正則化パスダウントレーニングを伴う、第３の層のトレーニング例を用いて、第３の層をトレーニングすることと、を含む。正則化パスダウントレーニングは、少なくとも２つの正則化項を含むフィットネス関数を有するトレーニング目的関数を制約することにより正則化される。さらに、開示されている技術に従うと、少なくとも２つの正則化項は、下位層に適用された係数行列における重みの大きさの増加にペナルティを与えることにより正則化し、これは、下位層に適用された係数行列における重みの全ての変化を逐次正則化する。

フィットネス関数は、負対数尤度に基づく交差エントロピー、平均二乗誤差、又はカルバック・ライブラーダイバージェンス（KLダイバージェンス）であってよい。さらに、開示されている技術に従うと、フィットネス関数は、

により表され得、上記において、（ｎ）は、スタック型ＬＳＴＭのｎ番目の層を表し、

は、正しいラベルαが文s内のw_tに割り当てられる確率値を表す。

いくつかの実施形態において、下位層に適用された係数行列における重みの大きさの増加にペナルティを与える正則化項は、

であり、上記において、ｎと同じ層である（ｍ）は、スタック型ＬＳＴＭの層１～ｍを表し、λは、Ｌ２ノルム正則化ハイパーパラメータであり、

は、スタック型ＬＳＴＭの層１～ｍについて重み付け行列の要素に、要素ごとに二乗演算を適用する。

開示されている方法の一実施形態において、逐次正則化項は、

であり、上記において、ｎ－１と同じ層である（ｍ－１）は、スタック型ＬＳＴＭの層１～ｍ－１を表し、δは、逐次正則化ハイパーパラメータであり、

は、１つ以上の下位層の層パラメータを表し、

は、前のサブエポックにおいて保持された１つ以上の下位層の層パラメータを表し、

は、スタック型ＬＳＴＭの層１～ｍ－１について重み付け行列の要素に、要素ごとに二乗演算を適用する。

さらに、開示されている方法において、スタック型ＬＳＴＭにおける分析階層は、少なくとも５つの層又は少なくとも１０個の層を含み得る。さらに、スタック型ＬＳＴＭの下にあるベースメント（basement）層は、スタック型ＬＳＴＭとは別個にトレーニングされ得、スタック型ＬＳＴＭの最下層により使用される入力を生成することができる。スタック型ＬＳＴＭの上にあるアチック（attic）層も、スタック型ＬＳＴＭとは別個にトレーニングされ得、スタック型ＬＳＴＭの最上層からの出力を使用することができる。このトレーニング方法は、スタックにおける少なくとも５つの層又は少なくとも１０個の層をトレーニングすることを含み得る。ベースメント層及びアチック層は、別個にトレーニングされ得る。

別の実施形態において、双方向ＬＳＴＭのニューラルネットワークスタックにおいて下位層から上位層に中間結果を伝達する方法が提供される。双方向ＬＳＴＭのニューラルネットワークスタックは、トークンの系列を処理する、分析フレームワークに対応する層を含む。さらに、下位層は、トークンの各々について分析フレームワークラベルベクトルを生成する。具体的には、この方法は、系列について、下位層を使用してトークンを分析することを含む。トークンの分析は、（ｉ）双方向ＬＳＴＭを適用して、トークンの各々について前方状態ベクトル及び後方状態ベクトルを計算することと、（ｉｉ）分類器を前方状態ベクトル及び後方状態ベクトルに適用して、利用可能な分析フレームワークラベルの数とほぼ同じ次元数を有するラベル空間ベクトルとして、トークンの各々を、分析フレームワークラベル空間に埋め込むことと、（ｉｉｉ）各トークンのラベル空間ベクトルを、前方状態及び後方状態の次元数とほぼ同じ次元数を有する拡張次元ラベル空間に射影して、拡張トークンラベルベクトルを生成することと、を含み得る。さらに、この方法は、下位層から上位層に、前方状態ベクトル、後方状態ベクトル、及び拡張トークンラベルベクトルを伝達することを含み、それにより、トークンを処理するための分析フレームワークにおいてその役割を果たすために、上位層により必要とされる入力を提供する。

いくつかの実施形態において、開示されている方法は、状態ベクトル以外の、下位層により入力として受信されたベクトルを、バイパスにより上位層に伝達することを含む。下位層は、２つのより深い層の上にあり得る。さらに、開示されている方法は、２つのより深い層により入力として受信されたベクトル、及び、２つのより深い層により出力として生成された埋め込みラベルベクトルを、バイパスにより上位層に伝達することを含み得る。バイパスによるこの伝達は、伝達されるベクトルを、変更することなく、伝達させ得る。

開示されている方法に従うと、利用可能な分析フレームワークラベルの数は、前方状態及び後方状態の次元数よりも少なく、それにより、双方向ＬＳＴＭのニューラルネットワークスタックをトレーニングするときの過剰適合を低減させる次元ボトルネックを形成する。いくつかの実施形態において、次元数は、前方状態及び後方状態の次元数の５分の１以下又は１０分の１以下であり得る。

別の実施形態において、入力系列内のトークンの系列を処理するハードウェア上で動作する多層ニューラルネットワークシステムであって、ハードウェア上で動作する、分析階層に従って層がスタックされているスタック型ＬＳＴＭトークン系列処理器を含む多層ニューラルネットワークシステムが記載される。スタック型ＬＳＴＭトークン系列処理器は、ＬＳＴＭ文モジュールのスタックで具現化され得る。スタック型ＬＳＴＭは、下位層への入力とともに、下位層の埋め込み出力を、上位層に提供するバイパス結合を含む。スタックされている層は、（ｉ）第１の埋め込み層及び（ｉｉ）第１の埋め込み層の上にある第２の埋め込み層を含む。第１の埋め込み層は、双方向ＬＳＴＭ及び第１のラベル分類器として実現され、入力系列内のトークンを表現するトークン埋め込みを処理する。第１の埋め込み層はまた、トークンの各々について分析フレームワークラベルベクトルを生成する。さらに、双方向ＬＳＴＭは、トークンの各々について前方状態ベクトル及び後方状態ベクトルを生成する。第１の埋め込み層のこの機能は、入力系列内のトークンを表現するトークン埋め込みを処理する埋め込み処理モジュール、及び、分析フレームワークラベルベクトルを生成するラベルベクトル生成モジュールで具現化され得る。さらに、前方状態ベクトル及び後方状態ベクトルに適用される分類器は、利用可能な分析フレームワークラベルの数とほぼ同じ次元数を有するラベル空間ベクトルとして、トークンの各々を、分析フレームワークラベル空間に埋め込む。第１の埋め込み層のこの機能は、出力ポートで具現化され得る。

第１の埋め込み層はまた、各トークンのラベル空間ベクトルを、前方状態及び後方状態の次元数とほぼ同じ次元数を有する拡張次元ラベル空間に射影して、拡張トークンラベルベクトルを生成することができる。この方法はまた、第１の埋め込み層が、第２の埋め込み層に、前方状態ベクトル、後方状態ベクトル、及び拡張トークンラベルベクトルを送信し、それにより、トークンを処理するための分析フレームワークにおいてその役割を果たすために、第２の埋め込み層により必要とされる入力を提供する。

いくつかの実施形態において、この方法は、バイパスが、状態ベクトル以外の、第１の埋め込み層により入力として受信されたベクトルを、第２の埋め込み層に伝達することを含む。

この多層ニューラルネットワークシステムの一実施形態において、第１の埋め込み層は、２つのより深い層の上にある。このシステムは、さらに、２つのより深い層により入力として受信されたベクトル、及び、２つのより深い層により出力として生成された埋め込みラベルベクトルを、バイパスにより第２の埋め込み層に伝達する。バイパスは、ベクトルを、変更することなく、伝達することができる。

利用可能な分析フレームワークラベルの数は、前方状態及び後方状態の次元数よりも少ないものであり得、それにより、双方向ＬＳＴＭのニューラルネットワークスタックをトレーニングするときの過剰適合を低減させる次元ボトルネックを形成する。いくつかの実施形態において、次元数は、前方状態及び後方状態の次元数の５分の１以下又は１０分の１以下であり得る。

別の実施形態において、単語埋め込み空間に以前にマッピングされなかった単語を含む、入力文内の単語を処理するハードウェア上で動作する多層ニューラルネットワークシステムであって、単語埋め込み器又は埋め込みモジュールと部分文字列埋め込み器又は埋め込みモジュールであって、これらの両方が入力文内の単語を処理する、単語埋め込み器又は埋め込みモジュールと部分文字列埋め込み器又は埋め込みモジュールとを含む多層ニューラルネットワークシステムが記載される。単語埋め込み器は、以前に認識された単語を単語埋め込み空間にマッピングし、以前に認識されなかった単語を識別して、単語の各々について単語埋め込みベクトルを生成する。部分文字列埋め込み器は、（ｉ）単語の文字部分文字列を、部分文字列長の複数のスケールで処理し、（ｉｉ）各処理された文字部分文字列を、文字埋め込み空間内の位置を表現する中間ベクトルにマッピングし、（ｉｉｉ）各一意な処理された文字部分文字列についての中間ベクトルを組み合わせて、単語の各々について文字埋め込みベクトルを生成する。この多層ニューラルネットワークシステムはまた、さらなるプロセス又は処理層による使用のために、単語埋め込みベクトル及び文字埋め込みベクトルの両方を報告する埋め込み組み合わせ器を含み、それにより、単語埋め込み空間に以前にマッピングされなかった単語が、それにもかかわらず、文字埋め込みベクトルにより表現される。

開示されている多層ニューラルネットワークシステムの一実施形態において、部分文字列埋め込み器又は埋め込みモジュールは、（ｉ）各一意な処理された文字部分文字列についての中間ベクトルの要素ごとの平均化により、中間ベクトルを組み合わせる、又は、（ｉｉ）各一意な処理された文字部分文字列についての中間ベクトルからの最大値の要素ごとの選択により、中間ベクトルを組み合わせる。

いくつかの実施形態において、部分文字列埋め込み器又は埋め込みモジュールは、単語の始まり及び終わりにおけるセンチネルを計数せずに、２文字、３文字、及び４文字の部分文字列長を用いて、文字部分文字列を処理する。

中間ベクトルの次元数は、単語埋め込みベクトルの次元数と等しくてよい。

開示されている技術はまた、中間ベクトルを、単語埋め込みベクトルの次元数と等しい次元数の空間に射影することができる。

さらに、この多層ニューラルネットワークシステムは、以前に認識されなかった単語を、未知の単語についての予約単語埋め込みベクトルにマッピングする単語埋め込み器を含み得る。

別の実施形態において、ハードウェア上で動作する多層ニューラルネットワークシステムによる処理のために、単語埋め込み空間に以前にマッピングされなかった単語を含む、入力文内の単語を準備する方法が提供される。この処理は、単語埋め込み器及び部分文字列埋め込み器であって、これらの両方が入力文内の単語を処理する、単語埋め込み器及び部分文字列埋め込み器を使用して実行され得る。単語埋め込み器及び部分文字列埋め込み器は、それぞれ、単語埋め込み器モジュール及び文字列埋め込みモジュールで具現化され得る。この方法は、単語埋め込み器において、以前に認識された単語を単語埋め込み空間にマッピングすることと、以前に認識されなかった単語を識別して、単語の各々について単語埋め込みベクトルを生成することと、を含む。この方法はまた、部分文字列埋め込み器において、入力文内の単語の各々について、（ｉ）単語の文字部分文字列を、部分文字列長の複数のスケールで処理することと、（ｉｉ）各処理された文字部分文字列を、文字埋め込み空間内の位置を表現する中間ベクトルにマッピングすることと、（ｉｉｉ）各一意な処理された文字部分文字列についての中間ベクトルを組み合わせて、単語の各々について文字埋め込みベクトルを生成することと、を含む。さらに、この方法は、単語埋め込みベクトル及び文字埋め込みベクトルを出力することを含み、それにより、単語埋め込み空間に以前にマッピングされなかった単語が、それにもかかわらず、文字埋め込みベクトルにより表現される。

いくつかの実施形態において、部分文字列埋め込み器又は埋め込みモジュールは、（ｉ）各一意な処理された文字部分文字列についての中間ベクトルの要素ごとの平均化により、中間ベクトルを組み合わせることができる、又は、（ｉｉ）各一意な処理された文字部分文字列についての中間ベクトルからの最大値の要素ごとの選択により、中間ベクトルを組み合わせることができる。

開示されている方法は、部分文字列埋め込み器又は埋め込みモジュールが、単語の始まり及び終わりにおけるセンチネルを計数せずに、２文字、３文字、及び４文字の部分文字列長を用いて、文字部分文字列を処理することを含み得る。

一実施形態において、開示されている方法は、（ｉ）中間ベクトルを、単語埋め込みベクトルの次元数と等しい次元数の空間に射影すること、及び／又は、（ｉｉ）単語埋め込み器又は埋め込みモジュールが、以前に認識されなかった単語を、未知の単語についての予約単語埋め込みベクトルにマッピングすることを含み得る。

別の実施形態において、入力文内の単語を処理する、ハードウェア上で動作する、ニューラルネットワークデバイスの係り受け解析層コンポーネントが記載される。係り受け解析層は、チャンクラベル埋め込み及びチャンク状態ベクトルを生成するチャンクラベル埋め込み層の上にある。さらに、チャンクラベル埋め込み層は、ＰＯＳラベル埋め込みを生成するＰＯＳラベル埋め込み層の上にある。係り受け解析層コンポーネントは、係り受け親層及び係り受け関係ラベル分類器を含む。さらに、係り受け親層は、単語埋め込みとＰＯＳラベル埋め込みとチャンクラベル埋め込みとチャンク状態ベクトルとを処理して、双方向ＬＳＴＭにより生成された親ラベル状態ベクトルの分類及び指数関数的正規化により親ラベル確率質量ベクトルを生成する、双方向ＬＳＴＭ及び１つ以上の分類器を含む。係り受け親層はまた、親ラベル確率質量ベクトルから、親ラベル埋め込みベクトルを生成する。係り受け関係ラベル分類器は、親ラベル状態ベクトル及び親ラベル埋め込みベクトルの分類及び指数関数的正規化により、係り受け関係ラベル確率質量ベクトルを生成する。さらに、係り受け関係ラベル分類器は、係り受け関係ラベル確率質量ベクトルから、係り受け関係ラベル埋め込みベクトルを生成する。ＰＯＳラベル埋め込みベクトル、チャンクラベル埋め込みベクトル、及び係り受け関係ラベル埋め込みベクトルの次元数は、＋／－１０パーセント以内で類似している。係り受け解析層コンポーネントは、係り受け関係ラベル埋め込みベクトル又はこれに基づく係り受け関係ラベルを少なくとも出力する出力処理器をさらに含む。

係り受け解析層コンポーネント１０８の一部は、埋め込み処理モジュール１０８４、質量ベクトル生成モジュール１０８５、及び親ラベルベクトル生成モジュール１０８６で具現化され得る。埋め込み処理モジュールは、単語埋め込みとＰＯＳラベル埋め込みとチャンクラベル埋め込みとチャンク状態ベクトルとを処理する。質量ベクトル生成モジュールは、双方向ＬＳＴＭにより生成された親ラベル状態ベクトルから、親ラベル確率質量ベクトルを生成する。親ラベルベクトル生成モジュールは、親ラベル確率質量ベクトルから、親ラベル埋め込みベクトルを生成する。係り受け関係ラベル分類器は、正規化モジュール及び係り受けラベルベクトル生成モジュールで具現化され得る。正規化モジュールは、親ラベル状態ベクトル及び親ラベル埋め込みベクトルをスケーリング正規化する。係り受けラベルベクトル生成モジュールは、親ラベル確率質量ベクトルから、係り受け関係ラベル埋め込みベクトルを生成する。

このコンポーネント及び開示されている技術の他の実施形態は各々、任意的に、以下の特徴及び／又は開示されている追加的なコンポーネントに関して説明されている特徴のうちの１つ以上を含んでもよい。簡潔にするために、本出願において開示されている特徴の組み合わせは、個々には列挙されず、各ベースとなる特徴のセットについて繰り返されない。読者は、このセクションにおいて特定される特徴が、実施形態として特定されるベースとなる特徴のセットとどのように容易に組み合わせられ得るかを理解するであろう。

いくつかの実施形態において、双方向ＬＳＴＭは、入力文内の単語間の相互作用の前方への進行及び後方への進行を表現する、入力文内の各単語についての前方親ラベル状態ベクトル及び後方親ラベル状態ベクトルを生成し、前方親ラベル状態ベクトル及び後方親ラベル状態ベクトルから、親ラベル確率質量ベクトルが生成される。ニューラルネットワークの開示されている係り受け解析層コンポーネント１０８は、（ｉ）入力文内の各単語についての前方状態ベクトル及び後方状態ベクトルを処理し、（ｉｉ）入力文内の各単語の埋め込みと入力文内の他の単語の埋め込みとの間の内積のベクトルとして、アテンションを符号化し（内積の前に、単語又は他の単語についての前方状態ベクトル及び後方状態ベクトルに線形変換が適用されている）、（ｉｉｉ）符号化されたアテンションベクトルから、親ラベル埋め込みベクトルを生成するアテンション符号化器１０８７をさらに含む。アテンション符号化器のコンポーネントは、符号化されたアテンションベクトルから、親ラベル埋め込みベクトルを生成するアテンション符号化モジュール１０８８及び親ラベルベクトルモジュール１０８９で具現化され得る。

内積の前に適用される線形変換は、係り受け親層及び係り受け関係分類器のトレーニング中にトレーニング可能である。

開示されている係り受け解析層コンポーネントに従うと、（ｉ）係り受け関係確率質量ベクトルが決定される利用可能な分析フレームワークラベルの数は、前方状態及び後方状態の次元数よりも少なく、それにより、双方向ＬＳＴＭのニューラルネットワークスタックをトレーニングするときの過剰適合を低減させる次元ボトルネックを形成する、又は、（ｉｉ）係り受け関係確率質量ベクトルが計算される利用可能な分析フレームワークラベルの数は、前方状態及び後方状態の次元数の１０分の１以下であり、それにより、双方向ＬＳＴＭのニューラルネットワークスタックをトレーニングするときの過剰適合を低減させる次元ボトルネックを形成する。いくつかの実施形態において、次元数は、前方状態及び後方状態の次元数の５分の１以下であり得る。

一実施形態において、入力文内の単語を処理する、ハードウェア上で動作する、ニューラルネットワークデバイスの係り受け解析層コンポーネントが記載される。係り受け解析層は、チャンクラベル埋め込み及びチャンク状態ベクトルを生成するチャンクラベル埋め込み層の上にある。チャンクラベル埋め込み層は、ＰＯＳラベル埋め込み及びＰＯＳ状態ベクトルを生成するＰＯＳラベル埋め込み層の上にある。係り受け解析層コンポーネントは、係り受け親層及び係り受け関係ラベル分類器を含む。さらに、係り受け親層は、入力文内の単語を処理する、双方向ＬＳＴＭとして実現される係り受け親分析器を含む。双方向ＬＳＴＭは、各単語について、単語埋め込みとＰＯＳラベル埋め込みとチャンクラベル埋め込みとチャンク状態ベクトルとを処理して、入力文内の単語間の相互作用の前方への進行及び後方への進行を表現する前方状態ベクトル及び後方状態ベクトルを蓄積する。係り受け親分析器１１８０のコンポーネントは、各単語について、単語埋め込みとＰＯＳラベル埋め込みとチャンクラベル埋め込みとチャンク状態ベクトルとを処理する埋め込みモジュール又は処理器１１８１、及び、入力文内の単語間の相互作用の前方への進行及び後方への進行を表現する前方状態ベクトル及び後方状態ベクトルを生成する状態ベクトル生成モジュール１１８２で具現化され得る。

係り受け親層はまた、（ｉ）入力文内の各単語についての前方状態ベクトル及び後方状態ベクトルを処理し、（ｉｉ）可能性のある係り受けに対するアテンションを符号化し、（ｉｉｉ）スケーリング正規化を内積のベクトルに適用して、親ラベル確率質量ベクトルを生成し、親ラベル確率質量ベクトルを射影して、親ラベル埋め込みベクトルを生成するアテンション符号化器を含む。アテンション符号化器１０８７のこれらのコンポーネントの機能は、スケーリング正規化を適用して、親ラベル確率質量ベクトルを生成する正規化モジュール１１８４、及び、親ラベル確率質量ベクトルを射影して、親ラベル埋め込みベクトルを生成する親ラベル付けモジュール１１８６で具現化され得る。

さらに、係り受け関係ラベル分類器は、入力文内の各単語について、（ｉ）前方状態ベクトル及び後方状態ベクトル、親ラベル埋め込みベクトル、並びに親ラベル埋め込みベクトルを分類及び正規化して、係り受け関係ラベル確率質量ベクトルを生成し、（ｉｉ）係り受け関係ラベル確率質量ベクトルを射影して、係り受け関係ラベル埋め込みベクトルを生成する。係り受け解析層コンポーネントはまた、各単語の係り受け関係についての分類ラベル、係り受け関係ラベル確率質量ベクトル、又は係り受け関係ラベル埋め込みベクトルを反映した結果を少なくとも出力する出力処理器を含む。係り受け関係ラベル分類器１１８６は、埋め込みベクトル及び親ラベル埋め込みベクトルから、係り受け関係ラベル確率質量ベクトルを生成する係り受け関係ラベルベクトル生成モジュール１１８７、及び、係り受け関係ラベル確率質量ベクトルから、係り受け関係ラベル埋め込みベクトルを生成する係り受けラベルベクトル生成モジュール１１８８で具現化され得る。

可能性のある係り受けに対するアテンションは、入力文内の各単語の埋め込みと入力文内の他の単語の埋め込みとの間の内積として決定され得、内積の前に、単語又は他の単語についての前方状態ベクトル及び後方状態ベクトルに線形変換が適用されている。

いくつかの実施形態において、次元ボトルネックは、上述したように、利用可能な分析フレームワークラベルの数を制限することにより、スタックをトレーニングするときの過剰適合を低減させる利点をもって、もたらされ得る。代替実施形態において、（ｉ）係り受け関係確率質量ベクトルが計算される利用可能な分析フレームワークラベルの数は、前方状態及び後方状態の次元数の５分の１以下であり、それにより、双方向ＬＳＴＭのニューラルネットワークスタックをトレーニングするときの過剰適合を低減させる次元ボトルネックを形成する、又は、（ｉｉ）係り受け関係確率質量ベクトルが計算される利用可能な分析フレームワークラベルの数は、前方状態及び後方状態の次元数の１０分の１以下であり、それにより、双方向ＬＳＴＭのニューラルネットワークスタックをトレーニングするときの過剰適合を低減させる次元ボトルネックを形成する。

別の実施形態において、入力文内の単語を処理する、ハードウェア上で動作する、ニューラルネットワークシステム又はデバイスを用いる係り受け解析の方法が提供される。係り受け解析層は、チャンクラベル埋め込み及びチャンク状態ベクトルを生成するチャンクラベル埋め込み層の上にある。チャンクラベル埋め込み層は、ＰＯＳラベル埋め込みを生成するＰＯＳラベル埋め込み層の上にある。さらに、係り受け解析層は、係り受け親層及び係り受け関係ラベル分類器を含む。開示されている方法は、係り受け親層において、単語埋め込みとＰＯＳラベル埋め込みとチャンクラベル埋め込みとチャンク状態ベクトルとを処理する双方向ＬＳＴＭ及び１つ以上の分類器を適用して、双方向ＬＳＴＭにより生成された親ラベル状態ベクトルの分類及びスケーリング正規化により、親ラベル確率質量ベクトルを生成することを含む。スケーリング正規化は、指数関数的正規化を実行するソフトマックスコンポーネントを使用して実施され得る。この方法はまた、親ラベル確率質量ベクトルから、親ラベル埋め込みベクトルを生成することを含む。開示されている方法は、係り受け関係ラベル分類器において、（ｉ）親ラベル状態ベクトル及び親ラベル埋め込みベクトルの分類及びスケーリング正規化により、係り受け関係ラベル確率質量ベクトルを生成することと、（ｉｉ）係り受け関係ラベル確率質量ベクトルから、係り受け関係ラベル埋め込みベクトルを生成することと、をさらに含む。開示されている方法に従うと、係り受け関係ラベル埋め込みベクトル又はこれに基づく係り受け関係ラベルが少なくとも報告、出力、又は保持される。

任意的に、ＰＯＳラベル埋め込みベクトル、チャンクラベル埋め込みベクトル、及び係り受け関係ラベル埋め込みベクトルの次元数は、＋／－１０パーセント以内で類似している。

いくつかの実施形態において、この方法は、双方向ＬＳＴＭが、入力文内の単語間の相互作用の前方への進行及び後方への進行を表現する、入力文内の各単語についての前方親ラベル状態ベクトル及び後方親ラベル状態ベクトルを生成することを含み、前方親ラベル状態ベクトル及び後方親ラベル状態ベクトルから、親ラベル確率質量ベクトルが生成される。この方法はまた、入力文内の各単語についての前方状態ベクトル及び後方状態ベクトルを処理するアテンション符号化器において、ベクトルとして、可能性のある係り受けに対するアテンションを符号化することを含む。

これは、入力文内の各単語の埋め込みと入力内の他の単語の埋め込みとの間の内積を決定することと、内積の前に、単語又は他の単語についての前方状態ベクトル及び後方状態ベクトルに線形変換を適用することと、符号化されたアテンションベクトルから、親ラベル埋め込みベクトルを生成することと、を含み得る。

開示されている方法に従うと、次元ボトルネックは、上述したように、利用可能な分析フレームワークラベルの数を制限することにより、スタックをトレーニングするときの過剰適合を低減させる利点をもって、もたらされ得る。代替実施形態において、（ｉ）係り受け関係確率質量ベクトルが計算される利用可能な分析フレームワークラベルの数は、前方状態及び後方状態の次元数の５分の１以下であり、それにより、双方向ＬＳＴＭのニューラルネットワークスタックをトレーニングするときの過剰適合を低減させる次元ボトルネックを形成する、又は、（ｉｉ）係り受け関係確率質量ベクトルが計算される利用可能な分析フレームワークラベルの数は、前方状態及び後方状態の次元数の１０分の１以下であり、それにより、双方向ＬＳＴＭのニューラルネットワークスタックをトレーニングするときの過剰適合を低減させる次元ボトルネックを形成する。

別の実施形態において、入力文内の単語を処理する、ハードウェア上で動作する、ニューラルネットワークデバイスを用いる係り受け解析の方法が提供される。係り受け解析層は、チャンクラベル埋め込み及びチャンク状態ベクトルを生成するチャンクラベル埋め込み層の上にある。チャンクラベル埋め込み層は、ＰＯＳラベル埋め込みを生成するＰＯＳラベル埋め込み層の上にある。さらに、係り受け解析層は、係り受け親層及び係り受け関係ラベル分類器を含む。開示されている方法は、係り受け親層において、係り受け親分析器において、双方向ＬＳＴＭを適用して、入力文内の単語を処理することを含む。これらのプロセスは、各単語について、単語埋め込みとＰＯＳラベル埋め込みとチャンクラベル埋め込みとチャンク状態ベクトルとを処理して、入力文内の単語間の相互作用の前方への進行及び後方への進行を表現する前方状態ベクトル及び後方状態ベクトルを蓄積することを含む。開示されている方法はまた、係り受け親層において、入力文内の各単語についての前方状態ベクトル及び後方状態ベクトルを処理するアテンション符号化器において、（ｉ）入力文内の各単語の埋め込みと入力文内の他の単語の埋め込みとの間の内積として、アテンションを符号化することと（内積の前に、単語又は他の単語についての前方状態ベクトル及び後方状態ベクトルに線形変換が適用されている）、（ｉｉ）スケーリング正規化を内積のベクトルに適用して、親ラベル確率質量ベクトルを生成し、親ラベル確率質量ベクトルを射影して、親ラベル埋め込みベクトルを生成することと、を含む。さらに、開示されている方法に従うと、係り受け関係ラベル分類器において、入力文内の各単語について、（ｉ）前方状態ベクトル及び後方状態ベクトル、親ラベル埋め込みベクトル、並びに親ラベル埋め込みベクトルを分類及び正規化して、係り受け関係ラベル確率質量ベクトルを生成し、（ｉｉ）係り受け関係ラベル確率質量ベクトルを射影して、係り受け関係ラベル埋め込みベクトルを生成する。開示されている方法はまた、各単語の係り受け関係についての分類ラベル、係り受け関係ラベル確率質量ベクトル、又は係り受け関係ラベル埋め込みベクトルを反映した結果を少なくとも出力することを含む。

他の実施形態は、プロセッサとプロセッサに接続されたメモリとにより組み合わせ可能である命令が与えられた有形の非一時的なコンピュータ読み取り可能な媒体を含み得る。命令は、コンピュータデバイス及び１つ以上のサーバ上で実行されたときに、前述の方法のいずれかを実行する。さらに他の実施形態において、プロセッサとプロセッサに接続されたメモリとにより組み合わせ可能である命令を含む有形の非一時的なコンピュータ読み取り可能な媒体は、前述のシステムを実現する。

さらに別の実施形態は、１つ以上のプロセッサと、１つ以上のプロセッサに接続された、コンピュータ命令を含むメモリと、を含む少なくとも１つのサーバを含むコンピューティングシステムであって、コンピュータ命令が、１つ以上のプロセッサ上で実行されたとき、コンピュータ命令が、コンピューティングシステムに、前述のプロセスのうちのいずれかを実行させる、コンピューティングシステムを含み得る。

開示されている技術は、上記で詳述された好ましい実施形態及び例を参照することにより開示されているが、これらの例は、限定ではなく例示であるよう意図されていることを理解されたい。当業者であれば、変更及び組み合わせが容易に思い付くであろうことが企図されており、そのような変更及び組み合わせは、本発明の主旨及び請求項の範囲内である。

（コンピュータシステム）
図１１は、同時多タスクニューラルネットワークモデル１００を実現するために使用され得るコンピュータシステム１１００の簡略化されたブロック図である。コンピュータシステム１１００は、一般に、バスサブシステム１１３２を介して複数の周辺デバイスと通信する１つ以上のＣＰＵプロセッサ１１２０を含む。これらの周辺デバイスは、例えばメモリデバイスを含むメモリサブシステム１１１２及びファイル記憶サブシステム１１１８と、ユーザインタフェース入力デバイス１１３０と、ユーザインタフェース出力デバイス１１２４と、ネットワークインタフェースサブシステム１１２２と、複数のＧＰＵプロセッシングコア又はＧＰＵプロセッサ１１２８を含むＧＰＵ１１２６と、を含み得る。入力デバイス及び出力デバイスは、コンピュータシステム１１００とのユーザインタラクションを可能にする。ネットワークインタフェースサブシステム１１２２は、他のコンピュータシステムにおける対応するインタフェースデバイスへのインタフェースを含め、外部ネットワークへのインタフェースを提供する。

いくつかの実施形態に従うと、同時多タスクニューラルネットワークモデル１００の動作は、ＧＰＵプロセッシングコア１１２８により実行される。

ユーザインタフェース入力デバイス１１３０又はクライアント若しくはクライアントデバイスは、キーボード；マウス、トラックボール、タッチパッド、又はグラフィックスタブレット等のポインティングデバイス；スキャナ；ディスプレイに組み込まれたタッチスクリーン；音声認識システム及びマイクロフォン等のオーディオ入力デバイス；及び、他のタイプの入力デバイスを含み得る。概して、用語「入力デバイス」の使用は、コンピュータシステム１１００に情報を入力するための全ての可能なタイプのデバイス及び態様を含むよう意図されている。

ユーザインタフェース出力デバイス１１２４は、ディスプレイサブシステム；プリンタ；ファックス機；及び、オーディオ出力デバイス等の非視覚的ディスプレイを含み得る。ディスプレイサブシステムは、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）等のフラットパネルデバイス、投影デバイス、又は可視画像を生成するための何らかの他の機構を含み得る。ディスプレイサブシステムはまた、オーディオ出力デバイス等の非視覚的ディスプレイを提供することができる。概して、用語「出力デバイス」の使用は、コンピュータシステム１１００からユーザ又は別のマシン若しくはコンピュータシステムに情報を出力するための全ての可能なタイプのデバイス及び態様を含むよう意図されている。

記憶サブシステム１１１０は、本開示に記載のモジュール及び方法の一部又は全ての機能を提供するプログラミング及びデータ構造を記憶する。これらのソフトウェアモジュールは、一般に、ＣＰＵプロセッサ１１２０により単独で、又は、ＧＰＵプロセッサ１１２８等の他のプロセッサとＣＰＵプロセッサ１１２０との組み合わせにより、実行される。

記憶サブシステムにおけるメモリサブシステム１１１２は、プログラムの実行中に命令及びデータを記憶するためのメインランダムアクセスメモリ（ＲＡＭ）１１１６と、固定された命令が記憶される読み取り専用メモリ（ＲＯＭ）１１１４と、を含め、複数のメモリを含み得る。ファイル記憶サブシステム１１１８は、プログラム及びデータファイルのための永続的記憶を提供することができ、ハードディスクドライブ、フロッピー（登録商標）ディスクドライブ及び関連する着脱可能な媒体、ＣＤ－ＲＯＭドライブ、光学ドライブ、及び着脱可能なメディアカートリッジを含み得る。所定の実施形態の機能を実装しているモジュールは、ファイル記憶サブシステム１１１８又はメモリサブシステム１１１２により記憶されることもあるし、プロセッサによりアクセス可能な他のマシンに記憶されることもある。

バスサブシステム１１３２は、意図されるようにコンピュータシステム１１００の様々なコンポーネント及びサブシステムに互いと通信させるための機構を提供する。バスサブシステム１１３２が、単一のバスとして概略的に図示されているが、バスサブシステムの代替実施形態は、複数のバスを使用してもよい。いくつかの実施形態において、アプリケーションサーバ（図示せず）は、ハードウェア及び／又はソフトウェア（例えばオペレーティングシステム）等、コンピュータシステム１１００のアプリケーションが動作することを可能にするフレームワークであってよい。

コンピュータシステム１１００自体は、パーソナルコンピュータ、ポータブルコンピュータ、ワークステーション、コンピュータ端末、ネットワークコンピュータ、テレビジョン、メインフレーム、サーバファーム、自由にネットワーク化されたコンピュータの広く分散されているセット、又は、任意の他のデータ処理システム若しくはユーザデバイスを含む様々なタイプであってよい。コンピュータ及びネットワークの常に変化する性質に起因して、図１１に示されているコンピュータシステム１１００の記載は、本発明の好ましい実施形態を例示するための具体例として意図されているに過ぎない。図１１に示されているコンピュータシステムよりも多い又は少ないコンポーネントを有する、コンピュータシステム１１００の多くの他の構成が可能である。

前述の説明は、開示されている技術の製造及び使用を可能にするように提示されている。開示されている技術の主旨及び範囲から逸脱することなく、開示されている実施形態に対する様々な変更が明らかであり、本開示において規定されている一般的な原理は、他の実施形態及び用途にも適用可能である。したがって、開示されている技術は、例示されている実施形態に限定されるよう意図されるものではなく、本出願において開示されている原理及び特徴と整合する最も広い範囲に従うべきである。開示されている技術の範囲は、請求項により定められる。

（付録）
付録が、以下に添付されている：

Claims

長短期記憶（ＬＳＴＭ）のニューラルネットワークスタックにおいて、下位層から上位層に中間結果を伝達する方法であって、前記スタックは、トークンの系列を処理する分析フレームワークに対応する層を有し、前記方法は、
前記トークンの系列におけるトークンを表すトークン埋め込みを処理して、第１の埋め込みにすることと、
双方向ＬＳＴＭを適用して、前記トークンに対する前方状態ベクトルと後方状態ベクトル、トークンに対する１つの前方状態ベクトルと１つの後方状態ベクトルを計算することと、
前記前方状態ベクトル及び前記後方状態ベクトルに分類器を適用して、利用可能な分析フレームワークラベルの数に対応する次元数を有するラベル空間ベクトルとして前記トークンを分析フレームワークラベル空間に埋め込むことであって、前記利用可能な分析フレームワークラベルの数は、前記前方状態ベクトル及び前記後方状態ベクトルの次元数よりも小さい、ことと、
前記トークンの前記ラベル空間ベクトルを、前記前方状態ベクトル及び前記後方状態ベクトルの次元数を有する拡張次元ラベル空間に射影して、拡張トークンラベルベクトルを生成することと、
前記下位層から前記上位層へ、前記前方状態ベクトル、前記後方状態ベクトル、前記拡張トークンラベルベクトル、及び前記第１の埋め込みを伝達して、それにより、前記上位層が前記トークンを処理するために必要とする入力を供給することと、を含む、方法。
前記上位層へのバイパス結合によって、前記下位層によって入力として受けられるベクトルを伝達することをさらに含む、請求項１に記載の方法。
前記上位層へのバイパス結合によって、前記下位層及び前の下位層によって入力として受けるベクトルを伝達することをさらに含む、請求項１に記載の方法。
前記上位層の上にある層へのバイパス結合によって、前記下位層及び前記上位層によって入力として受けるベクトル、並びに前記上位層によって生成されたベクトルを伝達することをさらに含む、請求項１記載の方法。
前記分類器は、次元削減行列である、請求項１～４のいずれか一項に記載の方法。
前記トークンの前記ラベル空間ベクトルを前記拡張次元ラベル空間に射影する前に、前記ラベル空間ベクトルを正規化する、請求項１～５のいずれか一項に記載の方法。
前記トークンの前記ラベル空間ベクトルを前記拡張次元ラベル空間に射影することは、次元拡張重み行列を前記ラベル空間ベクトルに適用することをさらに含む、請求項１～６のいずれか一項に記載の方法。
前記拡張トークンラベルベクトルの次元数が、前記前方状態ベクトルと前記後方状態ベクトルの前記次元数の１０％以内である、請求項１～７のいずれか一項に記載の方法。
前記利用可能な分析フレームワークラベルの数が、前記前方状態ベクトルと前記後方状態ベクトルの前記次元数の１／５以下であり、それにより、双方向ＬＳＴＭの前記ニューラルネットワークスタックをトレーニングするときに、過剰適合を低減させる次元ボトルネックを形成する、請求項１～８のいずれか一項に記載の方法。
前記利用可能な分析フレームワークラベルの数が、前方及び後方状態ベクトルの次元数の１／１０以下であり、それによって、双方向ＬＳＴＭのニューラルネットワークスタックをトレーニングするときに、過剰適合を低減させる次元ボトルネックを形成する、請求項１～９のいずれか一項に記載の方法。
入力系列におけるトークンの系列を処理する多層ニューラルネットワークシステムであって、前記システムは、
下位層への入力を前記下位層の埋め込み出力とともに上位層に提供する複数のバイパス結合を有する、分析階層に従って層にスタックされたスタック型長短期記憶（ＬＳＴＭ）トークン系列プロセッサを含み、前記スタックされた層は、
少なくとも１つの双方向ＬＳＴＭを含む、第１の埋め込み層を含み、前記第１の埋め込み層は、トークンの前記入力系列における前記トークンを表すトークン埋め込みを、
前記トークン埋め込みから前記トークンに対する前方状態ベクトルと後方状態ベクトルを計算することと、
前記前方状態ベクトル及び前記後方状態ベクトルに第１のラベル分類器を適用して、利用可能な分析フレームワークラベルの数に対応する次元数を有するラベル空間ベクトルとして前記トークンを分析フレームワークラベル空間に埋め込むことと、
前記トークンの前記ラベル空間ベクトルを、前記前方状態ベクトル及び前記後方状態ベクトルの次元数に対応する次元数を有する拡張次元ラベル空間に射影して、拡張トークンラベルベクトルを生成することと、
前記第１の埋め込み層の上にある第２の埋め込み層に、前記前方状態ベクトル、前記後方状態ベクトル、前記拡張トークンラベルベクトル、及び前記第１の埋め込みを、前記第２の埋め込み層が前記トークンを処理するための入力として伝達することと、を行うことにより受信する、多層ニューラルネットワークシステム。
前記スタックされた層は、前記第２の埋め込み層をさらに含み、前記第２の埋め込み層は、第２の双方向ＬＳＴＭを含み、前記前方状態ベクトル、前記後方状態ベクトル、前記拡張トークンラベルベクトル、及び前記第１の埋め込みを前記バイパス結合を介して受信する、請求項１１に記載の多層ニューラルネットワークシステム。
前記複数のバイパス結合におけるバイパス結合は、前記後方状態ベクトル及び前記前方状態ベクトル以外に、前記第１の埋め込み層によって入力として受けるベクトルを前記第２の埋め込み層に伝達する、請求項１１又は１２に記載の多層ニューラルネットワークシステム。
前記複数のバイパス結合における第２のバイパス結合は、前記後方状態ベクトル及び前方状態ベクトルを伝達する、請求項１１～１３のいずれか一項に記載の多層ニューラルネットワークシステム。
前記複数のバイパス結合におけるバイパス結合は、前記第１の埋め込み層及び前の下位層によって入力として受けられるベクトルを前記第２の埋め込み層に伝達する、請求項１１又は１２に記載の多層ニューラルネットワークシステム。
前記スタックされた層は、前記第２の埋め込み層の上にある第３の埋め込み層をさらに含み、前記複数のバイパス結合におけるバイパス結合は、前記第１の埋め込み層及び前記第２の埋め込み層によって入力として受けられるベクトルを前記第３の埋め込み層に伝達する、請求項１１又は１２に記載の多層ニューラルネットワークシステム。
前記第１のラベル分類器は、次元削減行列である、請求項１１～１６のいずれか一項に記載の多層ニューラルネットワークシステム。
前記トークンの前記ラベル空間ベクトルを前記拡張次元ラベル空間に射影する前に、前記ラベル空間ベクトルを正規化する、請求項１１～１７のいずれか一項に記載の多層ニューラルネットワークシステム。
前記利用可能な分析フレームワークラベルの数が、前記前方状態ベクトルと前記後方状態ベクトルの次元数の１／５以下であり、それにより、双方向ＬＳＴＭのニューラルネットワークスタックをトレーニングするときに、過剰適合を低減させる次元ボトルネックを形成する、請求項１１～１８のいずれか一項に記載の多層ニューラルネットワークシステム。
コンピュータデバイスによって実行されるときに、前記コンピュータデバイスに、長短期記憶（ＬＳＴＭ）のニューラルネットワークスタックにおいて、下位層から上位層に中間結果を伝達させる命令を記憶するコンピュータ読み取り可能な媒体であって、前記スタックは、トークンの系列を処理する分析フレームワークに対応する層を有し、前記命令は、
前記トークンの系列におけるトークンを表すトークン埋め込みを処理して、第１の埋め込みにすることと、
双方向ＬＳＴＭを適用して、前記トークンに対する前方状態ベクトルと後方状態ベクトル、トークンに対する１つの前方状態ベクトルと１つの後方状態ベクトルを計算することと、
前記前方状態ベクトル及び前記後方状態ベクトルに分類器を適用して、利用可能な分析フレームワークラベルの数に対応する次元数を有するラベル空間ベクトルとして前記トークンを分析フレームワークラベル空間に埋め込むことであって、前記利用可能な分析フレームワークラベルの数は、前記前方状態ベクトル及び前記後方状態ベクトルの次元数よりも小さい、ことと、
前記トークンのラベル空間ベクトルを、前記前方状態ベクトル及び前記後方状態ベクトルの次元数を有する拡張次元ラベル空間に射影して、拡張トークンラベルベクトルを生成することと、
前記下位層から前記上位層へ、前記前方状態ベクトル、前記後方状態ベクトル、前記拡張トークンラベルベクトル、及び第１の埋め込みを、前記上位層が前記トークンを処理するための入力として伝達することと、を含む、コンピュータ読み取り可能な媒体。