JP2019185748A - インタラクティブ言語習得のシステム、及び方法 - Google Patents

インタラクティブ言語習得のシステム、及び方法 Download PDF

Info

Publication number
JP2019185748A
JP2019185748A JP2019026738A JP2019026738A JP2019185748A JP 2019185748 A JP2019185748 A JP 2019185748A JP 2019026738 A JP2019026738 A JP 2019026738A JP 2019026738 A JP2019026738 A JP 2019026738A JP 2019185748 A JP2019185748 A JP 2019185748A
Authority
JP
Japan
Prior art keywords
visual
natural language
language input
neural network
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019026738A
Other languages
English (en)
Other versions
JP6722789B2 (ja
Inventor
チャン、ハイチャオ
Haichao Zhang
ユ、ハオナン
ウ、ウェイ
Wei Xu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu USA LLC
Original Assignee
Baidu USA LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu USA LLC filed Critical Baidu USA LLC
Publication of JP2019185748A publication Critical patent/JP2019185748A/ja
Application granted granted Critical
Publication of JP6722789B2 publication Critical patent/JP6722789B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/08Electrically-operated educational appliances providing for individual presentation of information to a plurality of student stations
    • G09B5/14Electrically-operated educational appliances providing for individual presentation of information to a plurality of student stations with provision for individual teacher-student communication
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B7/00Electrically-operated teaching apparatus or devices working with questions and answers
    • G09B7/02Electrically-operated teaching apparatus or devices working with questions and answers of the type wherein the student is expected to construct an answer to the question which is presented or wherein the machine gives an answer to the question presented by a student
    • G09B7/04Electrically-operated teaching apparatus or devices working with questions and answers of the type wherein the student is expected to construct an answer to the question which is presented or wherein the machine gives an answer to the question presented by a student characterised by modifying the teaching programme in response to a wrong answer, e.g. repeating the question, supplying a further explanation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】会話環境を介したワンショット概念学習によるインタラクティブ言語習得のためのシステムと方法を提供する。【解決手段】ステップ205において、このゲームにおけるセッションをインタラクション期間中にランダムにインスタンス化する。テストセッションは独立したデータセットを使用して構築され、データセットは、訓練中にこれまでになかった言語とワンショット学習能力を評価する。ステップ210において、セッションにおいて、教師はオブジェクトをランダムに選択し、一つのインタラクション方式をランダムに選択することで、そのオブジェクトについて学習者とインタラクションを行う。ステップ215において、学習者は教師によって選択されたインタラクション方式に基いてそれに応じて教師とインタラクションを行う。ステップ220において、最大ステップ数に達した時、学習者が正しくインタラクションを行うとセッションは終了する。【選択図】図2

Description

本開示は、概して、改善されたコンピュータ性能、特徴、及び用途を提供可能なコンピュータ学習のためのシステム並びに方法に関する。
言語は、人間にとって最も自然なコミュニケーション形態の一つであり、通常、人間の知能の基本と見なされる。従って、知的エージェントが人間とコミュニケーションをとるために言語を使うことができることは重要である。ディープニューラルネットワークを用いた教師あり訓練は、言語学習の進歩を促進することにつながったが、主に、訓練データの統計データを捕らえること、新しいシナリオへの適応性の欠如、及び非効率的な再訓練や壊滅的な忘却なしに新しい知識を習得するための柔軟性という問題がある。また、ディープニューラルネットワークモデルの教師あり訓練は多数の訓練サンプルを必要とするが、多くの興味深い用途は少量のデータから迅速に学習する必要があり、それは教師あり設定に対して更に大きな挑戦をもたらす。
従って、機械学習のためのコンピューティングデバイスの機能を改善するインタラクティブ設定での概念学習を伴うインタラクティブ言語習得のためのシステム及び方法が必要とされる。
本開示の実施形態を参考して、その例としては図面に示される。これらの図は、例示的なものであり、限定するものではない。本開示は、これらの実施形態のコンテクストにおいて説明されるが、本開示の範囲はこれらの特定実施形態に制限されないことを理解すべきである。図中の項目は縮尺通りではない可能性がある。
本明細書の実施形態に係る、インタラクティブ言語及びワンショット概念学習のための例示的会話ゲームを示す。
本明細書の実施形態に係る、インタラクティブ言語及びワンショット概念学習のためのプロセスを示す。
本明細書の実施形態に係る、インタラクティブ言語及びワンショット概念学習を実施するためのネットワーク構造を示す。
本明細書の実施形態に係る、ネットワーク構造でワンショット概念学習を実施するプロセスを示す。
本明細書の実施形態に係る、インタラクティブ言語及びワンショット概念学習を実施するためのインタープリタRNN及びスピーカRNNを示す。
本明細書の実施形態に係る、記憶拡張ニューラルネットワークによる模倣方法を示す。
本明細書の実施形態に係る、コンテクスト適応行動シェーピングのための方法を示す。
本明細書の実施形態に係る、画像の変化がない単語レベルのタスクに用いられる訓練中の報酬の進化を図示的に示す。
本明細書の実施形態に係る、画像の変化がない単語レベルのタスクのテスト性能を示す。
本明細書の実施形態に係る、異なるテスト画像変化率でフルーツデータセットにおける単語レベルのタスクに対するテスト成功率及び報酬を示す。
本明細書の実施形態に係る、新規クラスに対する提案方法の例示的な結果をグラフで示す。
本明細書の実施形態に係る、画像の変化があるセンテンスレベルのタスクのテスト性能を示す。
本明細書の実施形態に係る、異なる方法による例示的対話を示す。 本明細書の実施形態に係る、異なる方法による例示的対話を示す。 本明細書の実施形態に係る、異なる方法による例示的対話を示す。 本明細書の実施形態に係る、異なる方法による例示的対話を示す。
本明細書の実施形態に係る、コンピューティングデバイス/情報処理システムの簡略化したブロック図を示す。
以下、説明を目的として、本開示を理解するために詳細を説明する。なお、明らかなように、当業者にとっては、これらの詳細がなくても本開示を実施できる。また、当業者であれば、後述する本開示の実施形態は、例えば、プロセス、装置、システム、機器又は方法などの様々な方式で有形のコンピュータ可読媒体で実施できると理解すべきである。
図示する構成要素又はモジュールは本開示の例示的な実施形態についての説明であり、本開示を明瞭にするためのものである。理解すべきなのは、本明細書の全体にわたって、構成要素がサブユニットを含む単独な機能ユニットとして記述されてもよいが、当業者であれば、種々の構成要素又はその一部が単独な構成要素に区画されてもよく、例えば単一のシステム又は構成要素の内部に集積されてもよいと認識すべきである。注意すべきなのは、本明細書で論述される機能又は動作は構成要素として実施されてもよい。構成要素は、ソフトウェア、ハードウェア、又はそれらの組み合わせで実施されてもよい。
なお、図中の構成要素又はシステム間の接続は、直接接続に限定されることを意図していない。逆に、これらの構成要素の間のデータは中間構成要素によって変更されたり、再フォーマットされたり、又は他の方式で変更されたりしてもよい。また、付加的接続又はより少ない接続を利用してもよい。また、注意すべきなのは、「結合」、「接続」又は「通信可能に結合」という用語が、直接接続、一つ又は複数の中間機器を介した間接接続及び無線接続を含むと理解すべきである。
本明細書において、「一実施形態」、「好ましい実施形態」、「実施形態」又は「複数の実施形態」とは、当該実施形態を参照しながら説明する特定の特徴、構造、特性又は機能が本開示の少なくとも一実施形態に含まれてもよく、一以上の実施形態に含まれてもよいことを意味する。また、本明細書において複数の箇所に記載された上記用語は、必ずしも同一の実施形態又は複数の実施形態を指すものではない。
本明細書の様々な箇所において、特定の用語の使用は例示のためのものであり、限定するものではない。サービス、機能又はリソースは単一のサービス、機能又はリソースに限定されず、これらの用語の使用は、分散又は統合可能な関連サービス、機能又はリソースのグループ化を指すことができる。
「含む」、「含まれる」、「備える」、「備えられる」という用語は、オープンな用語と理解されるべきであり、その後に挙げられるいかなる内容はいずれも例示的なものであり、列挙された項目に限定されることを意味しない。本明細書で用いられる見出しはいずれも組織的な目的に過ぎなく、明細書又は特許請求の範囲を限定するものではないと理解されるべきである。本特許文献で言及される全ての参照文献は、その全文を引用により本明細書に組み込まれる。
更に、(1)いくつかのステップは選択的に実施されてもよいこと、(2)ステップは本明細書で説明される特定の順番に制限されなくてもよいこと、(3)一部のステップは異なる順番で実行されてもよいこと、及び(4)一部のステップは同時に実行されてもよいことを、当業者が理解すべきである。
[A.はじめに]
言語は、人間にとって最も自然なコミュニケーション形態の一つであり、通常、人間の知能の基本と見なされる。従って、知的エージェントが人間とコミュニケーションをとるために言語を使うことができることは重要である。ディープニューラルネットワークを用いた教師あり訓練は、言語学習の進歩を促進することにつながったが、主に、訓練データの統計データを捕らえること、新しいシナリオへの適応性の欠如、及び非効率的な再訓練又は壊滅的な忘却なしに新しい知識を習得するための柔軟性という問題がある。また、ディープニューラルネットワークモデルの教師あり訓練は多数の訓練サンプルを必要とするが、多くの興味深い用途は少量のデータから迅速に学習する必要があり、それは教師あり設定に対して更に大きな挑戦をもたらす。
それに対して、人間による学習方式は教師あり設置とは大きく異なる。まずは、人間は世界に行動を起こし、その行動の結果から学習する。移動などの機械的な行動の場合、結果は主に幾何学的及び機械的原理に従い、言語の場合、人間は話すことで行動し、結果は通常に会話相手(つまり教師)からの口頭及びその他の行動フィードバック(例えば、うなずき)の形の応答である。これらのタイプのフィードバックには、通常、その後の会話で言語スキルを向上させる情報信号が含まれ、人間の言語習得プロセスにおいて重要な役割を果たす。次に、人間は、少量のデータから新しい概念を習得する優れた能力を示している。ほんの一例でさえ、子供は推論をすることができ、概念間で合理的な境界を明確的にすることができるので、ワンショット学習の能力を実証した。
人間の言語習得プロセス及びワンショット学習能力は、いずれも人間の知能の印象的な現れであり、そして、計算言語学習のための新規な設置やアルゴリズムを設計するために示唆を与える。一つ又は複数の実施形態において、会話は、言語学習のインタラクティブ環境及び新しい知識を習得するための自然なインターフェースとして用いられる。本明細書にワンショット概念学習能力を用いたインタラクティブ言語習得方法を開示する。これらの方法は、エージェントが基礎となる言語をゼロから学習し、新規オブジェクトに関する情報を積極的に探して記憶するという転換可能なスキルを習得することを可能にし、ワンショット学習能力を開発し、それらは、純粋に教師との会話を通してインタラクションを行う。
[B.いくつかの関連作業]
教師あり言語学習。ディープニューラルネットワークによる言語学習は、機械翻訳、対話生成、画像キャプション及び視覚的質問応答を含む多くの応用分野で大きな成功を収める。訓練を行うために、多くのラベル付きデータが必要であり、収集するために巨大な努力が必要である。また、このような設置は基本的に訓練データの統計データを捕らえ、言語学習のインタラクティブ性質を尊重しないため、再訓練や忘却なしに新しい知識を習得する柔軟性が低くなる。
シーケンス強化学習。最近のいくつかの研究では、強化学習(RL)を使用して、特定の測定基準に従って予め訓練された言語モデルの性能を調整した。この特許文書の研究は、自然言語の行動空間におけるRLにも関連しており、純粋なテキスト対話による言語学習を探求する動機を持っている。しかしながら、上記のいくつかの研究において、候補シーケンス集合が提供され、そして、行動はその集合から一つを選択することである。ここでの主な焦点の一つはゼロから言語を学習することにあり、エージェントは、簡単に提供された候補集合から一つを選択するのではなく、シーケンス行動を生成することを学習する必要がある。
コミュニケーションと言語の出現。最近の研究では、コミュニケーションと言葉の発明を学習することについて検討された。出現した言語は、人間が後処理により解釈される必要がある。しかし、ここでの実施形態は、理解及び生成という二重の観点から言語学習を達成することを要旨としており、後処理なしでエージェントの話す行動を容易に理解する。言語学習に関するいくつかの研究は、推測者-回答者設定を使用し、推測者が回答者に質問して追加の情報を収集することによって最終目標(例えば、分類)を達成しようと試みる。これらの研究は、推測者が最終目標を達成するのを助けるために質問される問題を最適化することを試みるが、ここでの一つ又は複数の焦点は、転換可能な会話及びワンショット能力である。
ワンショット学習とアクティブ学習。最近のいくつかの研究では、ワンショット学習については検討された。記憶拡張ネットワークは、ワンショット学習のために、外部メモリにグランドトゥルースクラスラベルと混合された視覚的表現を記憶する。クラスラベルは画像の表示に続いて常に提供される。従って、エージェントは受動的な方式で教師から情報を受け取る。ある研究は、外部メモリがないVanillaバニラリカレントニューラルネットワーク(RNN)を使用して、能動学習に向けた努力を展示した。どちらの研究も画像分類のみに焦点を当てて、これは、クラスラベルが暗記のために直接提供されていることを意味する。それに対して、本開示は、会話型インタラクションによる言語及びワンショット学習を目標としており、そして、学習者は、暗記のために教師のセンテンスから重要な情報を抽出することを学習する必要がある。
[C.会話ゲームの実施形態]
一つ又は複数の実施形態では、認知科学から幼児の言語発展を研究する実験に啓発された会話ゲームが構築される。図1に、本明細書の実施形態による、インタラクティブ言語及びワンショット概念学習のための例示的会話ゲームを示している。会話ゲーム100は、エージェント(以下、学習者と同義の用語)が言語を習得し、ワンショット学習能力を発達させるための環境を提供する。ここでのワンショット学習は、セッション中に、行為者にそれ以上の訓練が現れていないことを意味し、そして、図1に示すように、教師によって一度だけ教えられた後、これまでに見たことのないクラスの新規画像についての質問を教師に正しく答えることが期待される。会話ゲーム100は訓練期間110と、訓練期間110に続くテスト期間120を含む。訓練期間110及び/又はテスト期間120は一つ又は複数のセッションを含んでもよい。訓練セッションにおいて、教師は質問をしたり、学習者の質問に答えたり、発言をしたり、あるいは何も言わないことがある。教師は、学習者の応答に応じて、励まし(反対)として報酬のフィードバックを提供する。学習者は、インタープリタ132及びスピーカ134を介して教師のセンテンスを解釈することと、応答を生成することとを交互に繰り返す。図1に示すように、学習者は、最初にほとんど意味のあることを言うことができない。一つ又は複数の訓練セッションを通じて、インタラクティブのために意味のある応答を生み出すことができる。訓練後のテスト期間120において、(学習者が訓練中にこれまで見たことのない新規クラスである)チェリーの画像に直面したとき、学習者はそれについて質問(「それは何ですか」)することができ、そして、一度だけ教えられた後、チェリーの別の例のために正しい文(これはチェリーです)を生成する。
このゲームで成功するためには、エージェントは、必ず、1)センテンスを生成することで話すことと、2)1度だけの接触で有用な情報を抽出して記憶し、その後の会話でその情報を使用することと、3)コンテクストとそれ自身の知識に応じて適応的に振る舞う(例えば、未知のオブジェクトについての質問、既知のものについての質問への回答)こととを学習する必要があり、それらは、いずれも教師とのインタラクションを通じて達成される。これにより、開示された会話ゲームは、他のゲームとは区別され、他のゲームでは、エージェントが話すことができないか、又は、自分でセンテンスを生成することで「話す」ことのではなく、提供された集合から候補を選択するか、又は、ゲームは遅進学習に焦点を当てて、ワンショット学習には及ばない。
図2に、本明細書の実施形態による、インタラクティブ言語及びワンショット概念学習のためのプロセスを示している。ステップ205において、セッション(S)でインタラクション期間中にこのゲームにおいてランダムにインスタンス化される。テストセッションは独立したデータセットを使用して構築され、当該データセットは、訓練中にこれまでになかった、言語とワンショット学習能力を評価するための概念を持っている。
ステップ210において、セッションにおいて、教師はオブジェクトをランダムに選択し、以下の中から一つのインタラクション方式をランダムに選択することで、そのオブジェクトについて学習者とインタラクションを行う。1)質問をすること(例えば、「これは何ですか」)、2)何も言わないこと(すなわち、「」)、又は3)発言をすること(例えば、「これはサルです」)である。
ステップ215において、学習者は、教師によって選択されたインタラクション方式に基づいてそれに応じて教師とインタラクションを行う。たとえば、教師が質問をしたり、何も言わなかったりした場合、i)学習者が質問をすると、教師は質問されたオブジェクトについての発言(例えば「それはカエルです」)を提供するとともに、質問の報酬(例えば+0.1)を与え、ii)学習者が何も言わないと、教師は依然として答え(例えば「これは象です」)を提供するが、学習者の沈黙に反対するために誤った回答報酬(例えば-1)を与え、iii)学習者からの他のすべての正しくない応答に対して、教師は誤った回答報酬を提供し、次のランダムオブジェクトへ移動してインタラクションを行う。 教師が発言を生成するとき、正しい発言が生成された場合には学習者は報酬を受け取らず、そうでなければ誤った回答の報酬が与えられる。
ステップ220において、学習者が正しくインタラクションを行うと、例えば教師の質問に正しく答えた場合、教師が何も言わないときに正しい発言を生成した場合(正解の報酬を受け取ること、+1)、又は最大インタラクションのステップ数に達した場合に、セッションは終了する。
学習者はセッションの全体にわたって正しく振る舞うならば成功する:新規オブジェクトについて質問すること、質問されたときに答えを生成すること、及び教師がセッション内で教えられたオブジェクトについて何も言わないときに発言することである。そうでなければそれは失敗である。
[D.共同模倣及び強化によるインタラクティブ言語習得の実施形態]
動機。教師と会話し、教師からのフィードバックに応じて改善することによって、会話と、ワンショット学習能力の発達を学習することを目的とする。ここで、一つ又は複数の実施形態は、共同模倣と強化方法とを使用してこの目的を達成する。模倣は、エージェントが合理的センテンスを生成する基本的な能力を発達させるのに寄与する。学習は教師の会話中の行動を観察することで行われるので、エージェントは、教師と会話しているエキスパートエージェントを模倣するのではなく、本質的に第三者の観点から教師を模倣する。会話中、エージェントは、グラウンドトゥルース答えを明確にラベル付けすることなくセンテンスと画像を認識し、そして、生の知覚を理解し、有用な情報を抽出し、後で教師の質問に対する答えを生成するときに使用するために記憶する。純粋に教師を模倣することは魅力的であるが、このような方法で訓練されたエージェントは反響行動、すなわち、模擬行動のみを発達させる。教師からの確認的なフィードバックを強化し、行動ポリシーを調整することで適応的に模擬を超えて会話することを学習する。それによって学習者が習得した話し能力を使用し、報酬のフィードバックに応じて適応させることを可能にする。これは、赤ちゃんの言語学習プロセスに関するいくつかの見解に類似し、即ち、赤ちゃんが親との試行錯誤によって習得した話しスキルを使用し、話し行動の結果に応じて改善する。赤ちゃんが聞く能力がないと話す能力を十分に発揮できず、訓練されたオウムと有意義な会話をするのは難しいという事実は、言語学習における模倣と強化の両方の重要性を意味する。
公式化。実施形態において、エージェントの応答は、可能なシーケンスの確率分布からのサンプルとしてモデル化することができる。具体的に、一つのセッションについて、視覚入力vと会話履歴H={w,a,…,w}を与え、エージェントの応答aは話し行動の分布a〜pθ (a|H,v)からサンプリングすることで生成されてもよい。エージェントは、発話aを出力することによって教師とインタラクションを行い、次のステップで教師からのフィードバックを受け取り、なお、wt+1センテンスを口頭のフィードバックとし、rt+1を報酬のフィードバックとする(aによると、セッションCで説明されたように正の値を奨励とし、負の値を反対とする)。目標の中心はpθ (・)の学習である。この問題は、コスト関数Lθ(これは模倣コスト関数Lθ と強化コスト関数Lθ との合計である)の最小化として公式化される。以下のように示す。
(1)
式中、E(・)は、教師からのすべてのセンテンスWにおける予想値であり、γは報酬の割引係数であり、且つ[γ]はγの羃乗を示す。模倣項は予測性分布pθ (w|Ht−1,a)を学習する場合に、それらの間のパラメータ共有を通じてpθ に寄与する。
アーキテクチャ。一つ又は複数の実施形態において、図3に示すように、学習者は、4つの主な構成要素、即ち、外部メモリ310、インタープリタ320、スピーカ330、コントローラ340、及び視覚エンコーダ350を含む。外部メモリ310は、情報を自由に記憶及び検索することができ、開示されたワンショット学習のためのネットワークの構成要素となる。インタープリタ320は、教師のセンテンスを解釈し、知覚信号から情報を抽出し、その情報を外部メモリに記憶することを担当する。スピーカ330は、外部メモリへの読み取りアクセスによりセンテンス応答を生成することを担当する。応答は、外部メモリに記憶されている情報を利用して情報を尋ねる質問、又は教師の質問への回答の発言であってもよい。コントローラ340は、スピーカの挙動を調節してコンテクスト(例えば、学習者の知識状態)に応じて応答を生成する。視覚エンコーダ350は、入力画像を取得して視覚的特徴表現を出力する。一つ又は複数の実施形態において、視覚的特徴表現は、視覚的特徴ベクトル、視覚的特徴行列又は他の適用可能なフォーマットである。いくつかの実施形態において、それは畳み込みニューラルネットワーク(CNN)、続いて全結合(FC)層として実施される。新規画像入力の場合、新規画像から算出された視覚的特徴ベクトルkは、センテンスコンテンツ抽出器により教師のセンテンス入力から抽出されたセンテンスコンテンツc(センテンスモダリティ)とともに、視覚コンテンツc(視覚モダリティ)として記憶され、注意機構は視覚モダリティと関連付けられ、<c,c>ペアとして外部メモリに記憶されている。一つ又は複数の実施形態において、センテンスコンテンツcは単語埋め込みベクトルの混合物である。いくつかの実施形態において、センテンス入力を有する画像入力について、コンテンツ重要性ゲートgmemは、コンテンツc(c,c)をメモリに書き込むべきか否かを適応的に制御するために用いられる。メモリ書き込み動作のさらなる詳細は、セクションH.2及び式(5)〜(7)を参照することができる。図3に示すセンテンスコンテンツ抽出器については、便宜上、<c,c>をマルチモーダルペアとしてメモリ310に記憶するプロセスを示すものであることを理解されたい。一つ又は複数の実施形態において、センテンスコンテンツ抽出器はインタープリタの一部である。
図4は、本明細書の実施形態による、ネットワーク構造によるワンショット概念学習の実施プロセスを示している。ステップ405において、時間ステップtで、インタープリタはインタープリタRNN(図5に図示的に示され、以下で第1のRNNともいう)を使用して教師からのゼロ以上の単語及び過去の会話情報を含む自然言語入力wを状態ベクトルh に符号化する。いくつかの実施形態において、自然言語入力は自然言語センテンスである。「センテンス」とは、正式な意味で適切、完全なセンテンスを形成するか否かにかかわらず、ゼロ個以上の単語の集合を意味すると理解されるべきである。ここで使用される「センテンス」は、正しい大文字使用及び/又は句読点を必要とすることもない。ゼロ単語は、教師が画像を提示して何も言わないときの状況に対応する。図5において、記号<bos>はセンテンスの始まり(すなわち自然言語句の始まり)を示し、記号<eos>はセンテンスの終わり(すなわち自然言語句の終わり)を示す。視覚知覚も符号化され、外部メモリから情報を検索するキーとして用いられる。実施形態において、インタープリタRNNは、知覚入力から抽出された重要性重み付け情報で外部メモリを更新しようとする。ステップ410において、h を、制御ベクトルcを生成するための学習可能なコントローラf(・)で拡張された恒等写像である剰余構造ネットワークを通過させる。実施形態において、制御ベクトルcはコントローラの出力をコントローラの入力(h )に組み合わせる(例えば、加算する)ことによって得られる。ステップ415において、制御ベクトルcは、応答aを生成するために、スピーカRNN(図5に図示的に示され、以下、第2のRNNともいう)の初期状態として用いられる。ステップ420において、スピーカRNNの最終状態hlast は、次の時間ステップにおけるインタープリタRNNの初期状態として使用される。
図5は、本明細書の実施形態による、インタラクティブ言語及びワンショット概念学習を実施するためのインタープリタRNN(又は第1のRNN)510とスピーカRNN(又は第2のRNN)520とを図示的に示している。実施形態において、インタープリタRNN510とスピーカRNN520とはパラメータを共有し、且つ、いずれも動作のための複数のフュージョンゲートを含む。図5に示すように、インタープリタRNN510は、時間ステップt−1のRNNの最後の状態における入力(hlast t−1)と、インタープリタにおいて時間ステップtで外部メモリのセンテンスモダリティ下でのセンテンスコンテンツから読み出されたベクトル(r )とを受信する。スピーカRNN520におけるフュージョンゲートは、スピーカにおける時間ステップtでの制御ベクトルcの入力と、外部メモリのセンテンスモダリティ下でのセンテンスコンテンツから読み出されたベクトル(r )とを受信する。式(4)と(14)において、メモリ読み取りが定義される。
[1.反響行動のための記憶拡張ニューラルネットワークによる模倣の実施形態]
教師の話し方は、エージェントに模倣の情報源を提供する。例えば、センテンスを構成する文法は、エージェントが教師のセンテンスから学習できる有用なスキルであり、インタープリタとスピーカの両方に役立つ可能性がある。模倣は、インタープリタを使用して教師の将来のセンテンスを予測し、及びインタープリタとスピーカの間のパラメータを共有することにより達成される。
図6に、本開示の実施形態による、記憶拡張ニューラルネットワークを利用して模倣する方法を示している。予測のために、画像v、及び教師と学習者の両方からの前のセンテンス{w,a,…,wt−1,at−1}を条件とする次のセンテンスwの確率は、次のように表すことができる。
(2)
式中hlast t−1、は、時間ステップt−1でのRNNの最後状態であり、{Ht−1,at−1}のサマリーとし(図3参照)、そして、iはセンテンスにおける単語にインデックスをつける。
一つ又は複数の実施形態において、t番目のセンテンスのi番目の単語の確率はRNNを用いてモデル化され、なお、tまでのセンテンスとt番目のセンテンスにおけるiまでの単語は、固定長の状態ベクトルh =RNN(hi−1 ,w )によって捕らえられる(605)。一つ又は複数の実施形態において、学習され外部メモリに記憶された知識を取り入れるために、i)センテンスの構文構造を捕らえるためのRNNの状態からの次の単語の予測分布pθ と、ii)先に学習した知識を代表するための外部メモリからの情報と、に基づいてフュージョンゲートgにより次の単語を適応的に生成する(610)。
(3)
式中、p=softmax(EMLP(h ))、且つp=softmax(Er)。E∈Rd×kは、単語埋め込みテーブルであり、ここで、dは埋め込み次元であり、kは語彙サイズである。rは視覚キーを使用して外部メモリから読み取られたベクトルであり、次のセッションで詳述される。fMLP(・)は、RNN状態空間と単語埋め込み空間との間の語彙ギャップをブリッジ接続するための多層の多層パーセプトロン(MLP)である。実施形態において、フュージョンゲートgはg=f(h ,c)として算出され、式中、cは信頼度スコアc=max(Er)であり、良好に学習する概念は、設計上、高いスコアを持つべきである(Gセッション)。ステップ615において、学習者又はエージェントは、教師センテンスの予測誤差を最小化することで模倣する。
マルチモダリティ関連記憶の実施形態。一つ又は複数の実施形態において、マルチモダリティメモリを使用してそれぞれのモダリティの視覚(v)と、センテンス(s)の特徴を記憶するとともに、それらの間の対応関係を保留する。シングルモダリティと比較して、このような設計下では、情報構成はより構造化され、且つクロスモダリティ検索は簡単である。現在の視覚画像から算出された視覚キーK(Gセッション参照)が与えられた場合に、メモリから検索され得る対応するベクトル又はセンテンスの特徴は以下の通りである:
(4)
一つ又は複数の実施形態において、MとMは、視覚とセンテンスモダリティに用いられる同じ数のスロット(列)を有するメモリである。メモリ読み取りは、r=Mαとして実施されてもよく、式中、αは、KとMのスロットとの間のコサイン類似度を算出することで視覚モダリティを介して取得されるソフトリーディングウェイトである。
メモリ書き込みは、ニューラルチューリングマシンと類似可能であり、コンテンツ重要性ゲートgmemを有してコンテンツcをメモリに書き込むべきか否かを適応的に制御する:
(5)
視覚モダリティについてc≡kである。センテンスモダリティについて、教師によって生成されたセンテンスからcを選択的に抽出する必要がある。これは、一つ又は複数の実施形態において、注意機構を使用してc=Wγに従って達成され、式中、Wは行列を示し、ただし、列は、センテンスにおけるすべての単語の埋め込みベクトルである。γは、センテンスにおける各単語の相対的重要性の正規化された注意ベクトルを示し、センテンス表現ベクトルと各単語のコンテクストベクトルとの間のコサイン類似度によって測定され、双方向RNNを使用して算出される。実施形態において、スカラー値コンテンツ重要性ゲートgmemは教師からのセンテンスの関数として算出され、これは、メモリに書き込まれるコンテンツの重要性がコンテンツ自体に依存することを意味する(さらなる詳細については、セクションH参照)。メモリ書き込みは、消去及び追加操作で達成されることができる。
(6)
(7)
丸中点(CIRCLED DOT OPERATOR)は、アダマール積(Hadamard)を示し、書き込み位置βは最も長く使われていないアクセス機構を用いて決定されることができる。
[2.強化学習によるコンテクスト適応行動シェーピングの実施形態]
模倣は、反響行動を生成する基本的な言語能力を発達させるが、コンテクストや学習者の知識状態に応じて教師と適応的に会話するには十分ではない。実施形態において、RLを使用してポリシーを最適化することで、報酬フィードバックを利用してエージェントの行動をシェーピングする。会話履歴H={w,a,…,w}と視覚入力vとが与えられると、スピーカはエージェントの応答aを生成でき、それは、すべての可能なシーケンスにおける分布からのサンプルとしてモデル化できる。
(8)
は、インタープリタRNNによりh に符号化されることができるので、スピーカRNNに対応する行動ポリシーは、pθ (a|h ,v)として表すことができる。インタープリタを介して模倣によって学習された言語スキルを利用するために、RNNでスピーカを実施し、インタープリタRNNとパラメータを共有することができるが、コントローラネットワークによって変調される条件付き信号でセンテンスを生成する(図3)。
(9)
コントローラf(・)を使用して変調する理由は、基本言語モデルは学習者にセンテンスを生成する反響能力のみを提供するが、コンテクストに応じた適応行動を必ずしも提供するわけではないからである(例えば、新規オブジェクトに直面した場合に質問をし、その自身の知識状態に応じた先に学習されたオブジェクトに対する回答を提供する)。パラメータを共有するため、如何なる追加のモジュールや学習の信号がなければ、エージェントの行動は教師の行動と同じになる。従って、エージェントが適応的な方式で話すことを学習することは困難である。
図7には、本明細書の実施形態による、コンテクスト適応行動シェーピングのための方法を示している。ステップ705において、話し行動の結果から学習するために、強化コスト関数Lθ で表されるように予想される将来の報酬を最大化することで行動ポリシーpθ (・)を調整する。式(8)が微分不可能なサンプリング操作を含むので、ステップ710において、強化モジュールにおいて、ポリシー勾配定理を使用してpθ (・)を更新するための勾配を導出する。
(10)
式中、A=V(h ,c)−rt+1−γV(h t+1,ct+1)は、バリューネットワークV(・)を使用して推定した優位性である。模倣モジュールは、クロスエントロピー損失を有する模倣コスト関数Lθ を実施し、予測分布pθ (・)におけるパラメータに対してそれを最小化することによって貢献し、これらのパラメータはpθ (・)と共有される。模倣からの訓練信号は、コントローラを経由せずにショートカット接続を行うことができる。f(・)、V(・)及び訓練に関するさらなる詳細は、セクションGを参照する。
[E.いくつかの実験]
なお、これらの実験及び結果は例示として提供され、特定の条件下で一つ又は複数の具体的な実施形態を使用して実行される。従って、これらの実験及びそれらの結果はいずれも本特許文献の開示の範囲を限定するものではない。
本開示において、実験はベースライン方法と比較して行われる。実験は最初、単語レベルのタスクで行われる。このタスクでは、教師と学習者が毎回一つの単語をやり取りする。次に、概念の学習に対する画像の変化の影響を検討した。更に、より難しいセンテンスレベルのタスクに対して評価を行い、当該タスクにおいて、教師とエージェントが可変長センテンスの形でコミュニケーションを行う。
設定。特定のデータセットに適応する能力ではなく、移転可能スキルを学習する際の性能を評価するために、動物データセットを訓練に使用し、フルーツデータセットで訓練されたモデルをテストした(図1)。データセットについてのさらなる詳細はセクションFに記載されている。各セッションは2つのランダムにサンプリングされたクラスを含み、インタラクションステップの最大数は6である。
ベースライン。以下の方法を比較した:
・強化:本明細書のモデル実施形態と同じネットワーク構造を有し、且つRLのみを使用して訓練を行い、即ち、Lθ を最小化する。
・模倣:リカレントエンコーダデコーダモデルであって、模倣によって訓練(Lθ を最小化する)される。
・模倣+ガウスRL:制御ベクトルcの潜在空間においてガウスポリシーを用いた模倣と強化の結合方法である。当該ポリシーは、行動ポリシーが依存するcを変更することで変更される。
[1.単語レベルのタスク]
この実験において、単語レベルのタスクに焦点が当てられ、これは、異なるアルゴリズムの基本的な行動を分析し理解する機会を提供するとともに、注意をそらす要因を回避するようになる。教師は毎回一つの単語を話すが、学習者は依然として文末の(例えば、<eos>)記号で終わる完全なセンテンスを生成することを学習する必要があることに留意されたい。
図8は、異なる方法による訓練中の報酬の進化曲線を示している。強化805がほとんど進化していないことが観察され、主に、シーケンス行動の広いスペースにおいて探索が困難であるからである。模倣810は、訓練中に強化よりも高い報酬を獲得し、例えば質問のような合理的なセンテンスを生成することでいくつかのペナルティを回避することができるからである。模倣+ガウスRL815は、模倣と強化の両方よりも高い報酬を獲得し、これは、RL構成要素が行動ポリシーをより高い報酬に向けてシェーピングすることを示している。しかし、ガウスポリシーは潜在的な特徴空間で行動ポリシーを間接的に最適化するため、探索や学習には効率的ではない。提案820とは、ここで提案されるモデルの一例を指し、訓練中に最高の最終報酬が達成される。
動物データセットを使用してモデルを訓練し、フルーツデータセットで評価する。図9は、1K個のテストセッションにおける成功率と平均報酬をまとめたものである。観察できるように、強化905は、本質的な学習効率が低いので最も低い成功率(0.0%)と報酬(-6.0)を達成した。模倣910は、成功率(28.6%)と報酬値(-2.7)の両方で、強化よりも優れる。模倣+ガウスRL915は、テスト中に、より高い報酬(-1.2)を達成したが、その成功率(32.1%)は模倣と同様であり、主に、厳格な成功の基準を有するためである。提案920はここで提案されたモデルの一例を指し、最高の成功率(97.4%)及び平均報酬(+1.1)が達成され(主に探索訓練における行動サンプリングのため、テスト報酬は訓練報酬よりも高い)、その性能はすべてのベースライン方法よりも大幅に上回っている。この実験から、強化を適切に使用する模倣は、適応行動(例えば、新規オブジェクトについての質問を積極的に提出し、学習したオブジェクトについての回答又は発言を生成する)を達成するために重要であることが明らかである。
[2.画像変化がある学習]
図10に示すように、ワンショット概念学習に対するクラス内の画像変化の影響を評価するために、モデルを画像変化あり又は画像変化なしで訓練し、テスト中に異なる画像変化率下で(セッションにおいて新規画像が存在する可能性)の性能を比較した。図10は、異なる変化率下での異なる方法の成功率及び報酬を示している。それらの方法は、強化1005、模倣1010、模倣+ガウスRL1015、及び提案の実施形態1020を含む。動物データセット上で訓練されたモデルについて、異なるテスト画像変化率下で、フルーツデータセット上でテストし、変化率が0.5である場合を実線、変化がない場合を破線で示す。
画像の変化がない場合に訓練されたモデルの性能は、変化率の増加につれて著しく低下することが観察された。変化率が0.5である場合に訓練されたモデルの性能も評価された。図10は、予想される性能低下もあるが、性能はより徐々に低下することを明らかに示しており、これは、ワンショット概念の学習に対する画像変化の重要性を示している。
一つ又は複数の実施形態において、本明細書の実施形態によれば、サンプリングされた訓練及びテスト画像は、画像変化なし及び画像変化ありで訓練された視覚エンコーダを使用して抽出されたそれらの対応する特徴によって表される。一つ又は複数の実施形態において、動物データセット及びフルーツデータセットから10個のクラスがランダムにサンプリングされ、動物データセット上に画像変化なし及び画像変化ありで訓練された視覚エンコーダを使用して特徴を抽出する。画像変化ありで訓練を行う場合、特徴スペースにおいて視覚的に類似した概念のクラスタが現れ、これは、一般化可能な概念を学習するために、より特徴的な視覚エンコーダが得られたことを示している。
[3.センテンスレベルタスク]
本開示において、センテンスレベルタスクのモデルが更に評価された。教師のセンテンスには様々な変化があり、センテンスの長さが1から5の範囲である。セッションFにおいて教師の例文が示されている。このタスクは、2つの点で単語レベルのタスクよりもやりがいがある。i)学習者は文の異なる場所に現れる可能性がある有用な情報を抽出することを学習しなければならないため、情報処理はより困難である。ii)センテンスの生成も単語レベルのタスクよりも困難であり、学習者はRNNと外部メモリからの情報を適応的に融合して完全なセンテンスを生成する必要がある。図12は、新規テストセットにおける異なる方法の成功率及び平均報酬に関する比較を示し、それらの方法は、強化1205、模倣1210、模倣+ガウスRL1215、及び提案1220(例示的な実施形態を示す)を含む。図12から観察できるように、提案1220は、成功率(82.8%)と平均報酬(+0.8)の両方で他のすべての比較方法よりも優れており、これは、その有効性を証明し、より複雑なセンテンスレベルのタスクでも同様である。
本開示は、また、テストセットに適用されたときに提案された方法の情報抽出及び適応的センテンス構成プロセスを視覚化する。図11は、本明細書の実施形態による、新規クラスに対する提案された方法の例示的結果を図示している。学習者は、新しいクラスについて尋ね、インタープリタを使用して、単語レベルの注意γ(深い色は高い注意に対応する)及びコンテンツ重要性ゲートgmem1120を介して共同で教師のセンテンス1110から有用な情報を抽出することができる。スピーカはフュージョンゲートg(図5に530として示される)を使用してスピーカRNNからの信号(スモールg)1130と外部メモリからの信号(ラージg)1140との間で適応的に切り替えて、センテンス応答を生成する。図11に示すように、エージェントは教師のセンテンスから有用な情報を抽出することを学習し、コンテンツ重要性ゲートを使用してどのコンテンツを外部メモリに書き込むのかを制御する。具体的に、オブジェクトの名称を含むセンテンスは、より大きいgmem値を有し、センテンス中の他の単語に比べて、オブジェクトの名称に対応する単語は、より大きい注意の重みγを有する。γとgmemとを組み合わせた効果は、オブジェクトの名称に対応する単語が外部メモリに書き込まれる可能性が高いことを表す。エージェントは、また、外部メモリを使用して教師のセンテンスから抽出された情報を記憶するのを学習し、RNNからの信号と適応的に融合し(構文構造を捕らえる)、新しい概念を含む完全なセンテンスを生成することに成功した。例えば「何」、「私」、「できる」及び「見る」という単語を生成する場合、フュージョンゲートgの値は小さく、これは、主にRNNからの信号に依存して生成することを意味する(式(3)及び 図11参照)。逆に、オブジェクトの名称(例えば、「バナナ」及び「キュウリ」)を生成する場合、フュージョンゲートgは大きな値を有し、これは外部メモリからの信号をより重視することを意味する。この実験は、提案された方法が言語学習とワンショット学習のより複雑なセンテンスレベルのタスクに適用することを示した。もっとおもしろいことは、それが理解しやすい解釈可能な操作プロセスを学習したことである。図13A〜図13Dは、異なる方法からの例示的対話を含むさらなる結果を示している。
[F.データベースの実施形態と例文]
動物データセットには、合計で40の動物クラスが含まれ、408の画像を有し、クラスごとには平均で10つの画像を含む。フルーツデータセットには、合計で16のクラスと48の画像を含み、クラスごとに3つの画像を含む。表1では、オブジェクトクラスと画像をまとめた。表2では、様々な場合(質問、回答、及び何も言わない場合)における教師からの例文を示している。
[G.ネットワーク詳細の実施形態]
以下、例示的な実施形態を提供する。しかしながら、様々なネットワーク構成要素は、異なるように構成されてもよく、又は異なるサブ構成要素を使用してもよいが、それでも本開示の精神及び範囲内で機能することに留意されたい。
[1.視覚エンコーダ]
実施形態において、視覚エンコーダは、入力画像を取り込んで、視覚的特徴表現を出力する。一つ又は複数の実施形態において、視覚的特徴表現は視覚的特徴ベクトル、視覚的特徴行列又は他の適用可能なフォーマットである。それは、畳み込みニューラルネットワーク(CNN)、続いて全結合(FC)層として実施されてもよい。一つ又は複数の実施形態において、各CNNは4つの層を有する。各層は、サイズが3×3である32、64、128、256個のフィルタを有し、続いて、プーリングサイズが3、ストライドが2のマックスプーリングである。ReLU活性化は全ての層に使用可能である。CNNの後に、出力次元が512と1024である2つのFC層を使用し、それぞれReLUと線形活性化を有する。
[2.インタープリタとスピーカ]
インタープリタ及びスピーカは、それぞれインタープリタRNN及びスピーカRNNを用いて実施され、それらはパラメータを共有する。状態次元(state dimension)が1024であるゲートリカレントユニット(GRU)を使用して実施することができる。RNNに入力する前に、一つ又は複数の実施形態において、まずは、単語IDを、次元が1024である単語埋め込みベクトルに投影し、続いて、ReLU活性化を有する2つのFC層及び線形活性化を有する第3のFC層であり、それらはいずれも1024の出力次元を有する。
[3.フュージョンゲート]
実施形態において、フュージョンゲートgは、ReLU活性化を有する2つの全結合(FC)層、及びsigmoid(S型)活性化を有する第3のFC層として実施される。 各層の出力次元は、それぞれ50、10及び1である。
[4.コントローラ]
コントローラは恒等写像とともに、剰余構造ネットワークを形成し、以下のように示される。
(11)
実施形態において、f(・)は、ReLU活性化を有する2つのFC層及び線形活性化を有する第3のFC層として実施され、それらはいずれも1024の出力次元を有する。
[5.バリューネットワーク]
実施形態において、バリューネットワークを導入して予想累積将来報酬を推定する。これはインタープリタRNNの状態ベクトルhと信頼度cを入力とする。それは、ReLU活性化を有し且つ出力次元がそれぞれ512及び204である2つのFC層として実施されてもよい。第3の層は、線形活性化を有し、且つ出力次元が1である別のFC層であってもよい。それは、コストを最小化することで訓練され、具体的には、以下の通りである。
(12)
V’(・)は、バリューネットワークのターゲットバージョンを示し、定期的にV(・)からコピーされる前に、そのパラメータが固定されたままである。
[6.信頼度スコア]
信頼度スコアは次のように定義される。
(13)
なお、E∈Rd×kは単語埋め込みテーブルであり、dは埋め込み次元であり、kは語彙サイズである。r∈Rは外部メモリのセンテンスモダリティから読み取られたベクトルであり、以下のように示される。
(14)
式中、αはkとMのスロットとの間のコサイン類似度を算出することで視覚モダリティを通して得られるソフトリーディングウェイトである。メモリに記憶されているコンテンツは教師のセンテンス{w,w,…,w,…,w}から抽出されるものである(セクションHで詳しく説明される)。
(15)
式中、w∈Rは、単語wの単語埋め込みテーブルEから抽出された埋め込みベクトルを示す。従って、情報抽出に有効なγと、情報検索に有効なαとを有するよく学習した概念について、rは、埋め込みベクトルであるべきであり、大部分又は主に視覚画像に関連するラベル単語に対応する。従って、cの値は大きくなければならず、そのラベル単語が埋め込みテーブルにおける所在位置で最大値に達する。全く新しい概念では、メモリにそれに関する情報が含まれていないので、読みの注意αは集中されないので、rは外部メモリ内の既存の単語埋め込みベクトルの平均値であり、これにより、小さなc値を取得する。
[H.センテンスコンテンツ抽出及び重要性ゲートの実施形態]
以下、例示的な実施形態を提供する。しかしながら、様々なネットワーク構成要素は、異なるように構成されてもよく、又は異なるサブ構成要素を使用してもよいが、それでも本開示の精神及び範囲内で機能することに留意されたい。
[1.コンテンツ抽出]
実施形態において、注意スキームは、メモリに書き込まれるセンテンスから有用な情報を抽出するために用いられる。センテンスw={w,w,…,w}と、対応する単語埋め込みベクトル{w,w,…,w}とを与えると、まずは、双方向RNNを用いてセンテンスのサマリーを生成し、順方向パス(pass)の状態{w ,w ,…,w }と、逆方向パスの状態{w ,w ,…,w }を得る。サマリーベクトルは、順方向パスの最後状態と逆方向パスの第1の状態の結合であってもよい。
(16)
一つ又は複数の実施形態において、コンテクストベクトルは、単語埋め込みベクトルと順方向パス及び逆方向パスの両方の状態ベクトルとの結合である。
(17)
単語レベルの注意γ={γ,γ,…,γ}は、変換センテンスサマリーベクトルsと各コンテクストベクトルw の間のコサイン類似度として算出されてもよい。
(18)
一つ又は複数の実施形態において、二つのMLPは、出力次元が1024である2つのFC層を含み、各層にそれぞれ線形活性化及び双曲線正接活性化を有する。メモリに書き込まれるコンテンツcは、以下のように算出することができる。
(19)
[2.重要性ゲート]
実施形態において、コンテンツ重要性ゲートはgmem=σ(fMLP(s))として算出され、これは、メモリに書き込まれるコンテンツの重要性は教師からのセンテンスに依存することを意味する。MLPは二つのFC層を含んでもよく、当該FC層はReLU活性化を有し、且つ出力次元がそれぞれ50及び30である。別の線形活性化を有するFC層を使用してもよく、且つ出力次元20を使用してもよい。実施形態では、出力層は、出力次元1及びsigmoid活性化σを有するFC層である。
[I.訓練詳細の実施形態]
実施形態において、ネットワークは減衰したAdagradを用いて訓練される。バッチサイズ16、学習率1×10−5、及び重み減少率1.6×10−3を使用した。経験リプレイも使用される。報酬割引係数γは0.99、単語埋め込み次元dは1024、辞書サイズkは80である。視覚画像サイズは32×32であり、生成されたセンテンスの最大長は6であり、メモリサイズは10である。提案された実施形態の方法について、探索訓練中にサンプリング操作を使用してセンテンスを生成し、テスト中に最大操作を使用する。最大操作は、すべてのベースライン方法についての訓練及びテストに使用される。単語埋め込みベクトルはランダムベクトルとして初期化され、訓練中に固定されたままである。
[J.新規データに関する対話例]
実施形態において、動物データセット上でモデルを訓練し、フルーツデータセット上で評価する。図13A〜図13Dは、異なる方法による対話例を示している。観察によると、強化は、学習者が黙っているというポリシーにつなぐことが分かる。模倣と模倣+ガウスRLの両方とも合理的なセンテンスを生成することができるが、コンテクストに応じて適応的に話すことができない。提案は、コンテクストに応じて適応的に話すことができ、新規クラスについての情報を尋ね、そして教師によって一度だけ教えられた後に質問に答える。
[K.いくつかの結論]
本特許文書では、ワンショット視覚概念学習の基礎言語習得の実施形態が提出された。この結果は、記憶拡張ネットワークを用いて、純粋に教師とインタラクションし、共同模倣及び強化学習を介してインタラクション中に自然に発生するフィードバックから、学習することによって達成された。実験結果は、モデルの実施形態がいくつかの異なる設定にわたるワンショット学習による言語習得に有効であることを示している。提案された実施形態は、より現実的な環境にさらに適用することができ、セッションにわたる永続的記憶は、生涯学習の設定に使用することができる。
[I.システム実施形態]
実施形態において、本特許文書の態様は、一つ又は複数の情報処理システム/コンピューティングシステムに関わることができ、それらを含むことができ、又は、一つ又は複数の情報処理システム/コンピューティングシステムの上で実施されてもよい。コンピューティングシステムは、あらゆる形式の情報、知能、又はデータを、計算、演算、決定、分類、処理、送信、受信、検索、発信、ルーティング、交換、記憶、表示、通信、明示、検出、記録、再生、処理、又は利用するように動作可能な任意の手段又は手段の組み合わせを含んでもよい。例えば、コンピューティングシステムは、パーソナルコンピュータ(例えば、ラップトップコンピュータ)、タブレットコンピュータ、ファブレット、パーソナルデジタルアシスタント(PDA)、スマートフォン、スマートウォッチ、スマートパッケージ、サーバ(例えば、ブレードサーバ又はラックサーバ)、ネットワーク記憶装置、カメラ又は任意の他の適切な装置であってもよく、更に大きさ、形状、性能、機能及び価格が異なっていてもよい。コンピューティングシステムは、ランダムアクセスメモリ(RAM)、一つ又は複数の処理リソース(例えば、中央処理装置(CPU)又はハードウェア又はソフトウェア制御ロジック)、ROM及び/又は他のタイプのメモリを含んでもよい。コンピューティングシステムにおける別の構成要素は、一つ又は複数のディスクドライブ、外部装置と通信するための一つ又は複数のネットワークポート、並びに様々な入力及び出力(I/O)装置(例えば、キーボード、マウス、タッチスクリーン及び/又はビデオディスプレイ)を含んでもよい。コンピューティングシステムは、更に様々なハードウェア構成要素の間で通信を送信するように動作可能な一つ又は複数のバスを含んでもよい。
図14は、本開示の実施形態による、コンピューティングデバイス/情報処理システム(又はコンピューティングシステム)の簡略化したブロック図を示す。コンピューティングシステムが異なるように配置され、異なる構成要素を含んでもよく、図14に示すように、より少ない構成要素又はより多くの構成要素を有することを含むが、システム1400について示された機能は、コンピューティングシステムの様々な実施形態をサポートするように動作し得ると理解すべきである。
図14に示すように、コンピューティングシステム1400は、コンピューティングリソースを提供するとともにコンピュータを制御する一つ又は複数の中央処理装置(CPU)1401を含む。CPU1401は、マイクロプロセッサ等によって実施されてもよく、且つ一つ又は複数のグラフィックスプロセシングユニット(GPU)1419及び/又は数学的計算に用いられる浮動小数点コプロセッサを更に含んでもよい。システム1400は、システムメモリ1402を更に含んでもよい。システムメモリ1402は、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、又は両者の態様であってもよい。
図14に示すように、複数のコントローラ及び周辺装置を更に提供することができる。入力コントローラ1403は、例えばキーボード、マウス、タッチスクリーン及び/又はスタイラスの様々な入力装置1404に接続可能なインターフェースを表す。コンピューティングシステム1400は、一つ又は複数の記憶装置1408にインターフェース接続される記憶コントローラ1407を更に含んでもよく、記憶装置のそれぞれは、記憶媒体(例えば磁気テープ又は磁気ディスクを含む)、又は光媒体(システム、ユーティリティ及びアプリケーションを実行するための命令のプログラムを記録するために使用可能であり、本発明の各態様を実施するプログラムの実施形態を含んでもよい)を含む。記憶装置1408は、更に本開示において処理されたデータ又は処理しようとするデータを記憶してもよい。システム1400は、表示装置1411に接続されるインターフェースを提供するための表示コントローラ1409を更に含んでもよい。表示装置1411は、陰極線管(CRT)、薄膜トランジスタ(TFT)ディスプレイ、有機発光ダイオード、エレクトロルミネッセンパネル、プラズマパネル又は他のタイプのディスプレイであってもよい。コンピューティングシステム1400は、一つ又は複数の周辺装置1406に用いられる一つ又は複数の周辺コントローラ又はインタフェース1405を更に含んでもよい。周辺装置の例としては、一つ又は複数のプリンタ、スキャナー、入力装置、出力装置、センサなどが挙げられる。通信コントローラ1414は、一つ又は複数の通信装置1415とインターフェース接続可能であり、システム1400は、インターネット、クラウドリソース(例えば、イーサネット(登録商標)クラウド、ファイバーチャネル・オーバー・イーサネット(FCoE)/データセンタブリッジ(DCB)クラウド)、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、ストレージエリアネットワーク(SAN)を含む様々なネットワークのうちのいずれか、又は赤外線信号を含む任意の適切な電磁波キャリア信号によって、遠隔装置に接続することを可能にする。
示されたシステムにおいて、すべての主なシステム構成要素は、バス1416に接続されてもよく、バス1416は一つ以上の物理バスを表すことができる。しかし、様々なシステム構成要素は互いに物理的に近接してもよく、物理的に近接しなくてもよい。例えば、入力データ及び/又は出力データは、一つの物理的位置から別の物理的位置に遠隔伝送されることができる。なお、本開示の各態様を実現するプログラムは、ネットワークを介して遠隔位置(例えば、サーバ)からアクセスすることができる。このようなデータ及び/又はプログラムは、様々な機械可読媒体のうちのいずれかによって伝送されてもよい。機械可読媒体は、例えばハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、例えばCD-ROM及びホログラフィック装置のような光媒体、光磁気媒体、並びに、例えば特定用途向け集積回路(ASIC)、プログラマブルロジックデバイス(PLD)、フラッシュメモリデバイス及びROMとRAMデバイスのような特別にプログラムコードを記憶したり、記憶して実行したりするように構成されるハードウェア装置を含むが、これらに限定されない。
本発明の態様は、一つ又は複数のプロセッサ又は処理ユニットにステップを実行させるように指示するための命令によって、一つ又は複数の非一時的コンピュータ可読媒体で符号化することができる。なお、一つ又は複数の非一時的コンピュータ可読媒体は、揮発性及び不揮発性メモリを含むべきである。なお、ハードウェア実現方式又はソフトウェア/ハードウェア実現方式を含む代替的な実施態様でも可能である。ハードウェアが実現する機能は、ASIC、プログラマブルアレイ、デジタル信号処理回路等によって実現されることができる。このため、請求項のいずれかに記載の用語「手段」は、ソフトウェア実現方式とハードウェア実現方式の両方を含むことを意味する。同様に、本明細書に使用された用語「コンピュータ可読媒体」は、その上に具現化された命令のプログラムを有するソフトウェア及び/又はハードウェア、又はそれらの組み合わせを含む。これらの代替的な実施態様を考慮すると、図面及び添付の明細書は、当業者がプログラムコード(即ち、ソフトウェア)を作成し及び/又は回路(即ち、ハードウェア)を製造して所要の処理を実行することに必要な機能情報を提供すると理解すべきである。
なお、本発明の実施形態は、様々なコンピュータ実施の動作を実行するためのコンピュータコードを有する非一時的な有形コンピュータ可読媒体を有するコンピュータ製品に更に関してもよい。媒体とコンピュータコードは本発明の目的のために特別に設計され構築されるものであってもよく、当業者の公知のものや利用可能なものであってもよい。有形コンピュータ可読媒体の例は、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、CD−ROM及びホログラフィック装置のような光媒体、光磁気媒体、及び特別にプログラムコードを記憶又は記憶して実行するように構成されるハードウェア装置(例えば、特定用途向け集積回路(ASIC)、プログラマブルロジックデバイス(PLD)、フラッシュメモリデバイス及びROMやRAMデバイス)を含むが、それらに限定されない。コンピュータコードの例は、機械コード(例えば、コンパイラによって生成されるコード)、及びコンピュータがインタープリタで実行したより高水準のコードを有するファイルを含む。本発明の実施形態は、処理装置により実行されるプログラムモジュール内における機械実行可能な命令として全体的又は部分的に実現されてもよい。プログラムモジュールの例は、ライブラリ、プログラム、ルーチン、オブジェクト、構成要素及びデータ構造を含む。分散型コンピューティング環境では、プログラムモジュールはローカル、遠隔地又は両方の設定環境に物理的に配置されてもよい。
当業者であれば、コンピューティングシステム又はプログラミング言語は本発明の実施に極めて重要ではないと理解すべきである。また、当業者は、前記複数の構成要素が物理的及び/又は機能的にサブモジュールに区画されてもよく一体的に組み合わせられてもよいと理解すべきである。
当業者であれば、上記の例と実施形態は例示的なものであり、本開示の範囲を限定するものではないと理解すべきである。本明細書及び図面に基づいて当業者に明らかなすべての置換、強化、同等物、組み合わせ又は改良は本開示の趣旨及び範囲内に属する。なお、特許請求の範囲のいずれの構成要素は、複数の依存関係、構成及び組み合わせを有するように、異なって配置されてもよい。
本願の一態様によれば、複数の時間ステップを含むセッションおいてインタラクティブ言語学習に基づくコンピュータ実施方法を提供し、前記方法は、
時間ステップで、視覚画像を含む入力と、前記視覚画像に関連するゼロ以上の単語を含む自然言語入力とを受信するステップと、
視覚エンコーダを使用して前記視覚画像を視覚的特徴表現に符号化するステップと、
注意機構を使用して前記自然言語入力を自然言語入力表現に符号化するステップと、
第1のニューラルネットワークにおいて少なくとも前記自然言語入力及び先の状態ベクトルに基づいて状態ベクトルを生成するステップと、
前記第1のニューラルネットワークを介して前記視覚的特徴表現と前記自然言語入力表現とを、視覚モダリティとセンテンスモダリティのペアとしてメモリに記憶するステップと、
前記状態ベクトルを剰余構造化ネットワークに通過させて制御ベクトルを生成し、状態入力として第2のニューラルネットワークの挙動を変調するステップと、
少なくとも前記制御ベクトルを使用して、学習された注意及びコンテンツの重要性を使用して、前記第2のニューラルネットワークによって指示される提案された応答部分と、前記メモリから検索された自然言語入力表現の少なくとも一部を用いて指示される提案された応答部分との間で、適応的に選択するステップであって、前記視覚的特徴表現を視覚キーとして使用して前記自然言語入力表現を検索することにより、前記入力に対応する応答を形成するステップと、を含む。
本願の他の一態様によれば、訓練されたエージェントが習得した言語能力と発達したワンショット学習能力とを使用するためのコンピュータ実施方法を提供し、前記方法は、
視覚画像を含む入力と、前記視覚画像に関連するゼロ以上の単語を含む自然言語入力とを受信するステップと、
視覚エンコーダを使用して前記視覚画像を視覚キーに符号化するステップと、
注意機構を使用して前記自然言語入力を自然言語入力表現に符号化するステップと、
第1のニューラルネットワークにおいて少なくとも前記自然言語入力及び先の状態ベクトルに基づいて状態ベクトルを生成するステップと、
前記状態ベクトルに基づいて制御ベクトルを生成して第2のニューラルネットワークの挙動を変調するステップと、
少なくとも部分的に前記制御ベクトルによって制御されるフュージョンゲートを使用して、前記第2のニューラルネットワークによって指示される提案された応答部分と、メモリから検索された自然言語入力表現の少なくとも一部を用いて指示される提案された応答部分との間で適応的に選択するステップであって、前記視覚キーを使用して前記自然言語入力表現を検索することにより、前記入力に対応する応答を形成し、前記メモリには、少なくとも一つの視覚モダリティとセンテンスモダリティのペアが記憶されており、視覚モダリティとセンテンスモダリティのペアのそれぞれは、記憶された視覚的特徴表現と記憶された自然言語入力表現とを含むステップと、を含む。
本願のさらなる一態様によれば、ワンショット視覚概念学習によるインタラクティブ言語習得のためのシステムを提供し、前記システムは、
視覚画像を視覚的特徴表現に符号化するための視覚エンコーダと、
少なくとも、前記視覚画像に関連するゼロ以上の単語を含む自然言語入力と、過去の情報を用いた先の状態ベクトルとに基づいて、状態ベクトルを生成するための第1のニューラルネットワークと、
視覚的特徴表現と自然言語入力表現とを含む、視覚モダリティとセンテンスモダリティのペアを少なくとも一つ記憶するメモリと、
前記状態ベクトルを受信して制御ベクトルを生成する剰余構造化ネットワークと、
挙動変調のための前記制御ベクトルを受信する第2のニューラルネットワークであって、前記第2のニューラルネットワークによって指示される提案された応答部分と、前記メモリから検索された自然言語入力表現の少なくとも一部を使用して指示される提案された応答部分との間で適応的に選択し、前記視覚的特徴表現を視覚キーとして使用して前記自然言語入力表現を検索することにより、前記入力に対応する応答を形成する第2のニューラルネットワークと、を備える。
図14に示すように、複数のコントローラ及び周辺装置を更に提供することができる。入力コントローラ1403は、例えばキーボード、マウス、タッチスクリーン及び/又はスタイラスの様々な入力装置1404に接続可能なインターフェースを表す。コンピューティングシステム1400は、一つ又は複数の記憶装置1408にインターフェース接続される記憶コントローラ1407を更に含んでもよく、記憶装置のそれぞれは、記憶媒体(例えば磁気テープ又は磁気ディスクを含む)、又は光媒体(システム、ユーティリティ及びアプリケーションを実行するための命令のプログラムを記録するために使用可能であり、本発明の各態様を実施するプログラムの実施形態を含んでもよい)を含む。記憶装置1408は、更に本開示において処理されたデータ又は処理しようとするデータを記憶してもよい。システム1400は、表示装置1411に接続されるインターフェースを提供するための表示コントローラ1409を更に含んでもよい。表示装置1411は、陰極線管(CRT)、薄膜トランジスタ(TFT)ディスプレイ、有機発光ダイオード、エレクトロルミネッセンパネル、プラズマパネル又は他のタイプのディスプレイであってもよい。コンピューティングシステム1400は、一つ又は複数の周辺装置1406に用いられる一つ又は複数の周辺コントローラ又はインタフェース1405を更に含んでもよい。周辺装置の例としては、一つ又は複数のプリンタ、スキャナー、入力装置、出力装置、センサなどが挙げられる。コンピューティングシステム1400は、更にプリンタ1413と通信するためのプリンタコントローラ1412を含んでもよい。通信コントローラ1414は、一つ又は複数の通信装置1415とインターフェース接続可能であり、システム1400は、インターネット、クラウドリソース(例えば、イーサネット(登録商標)クラウド、ファイバーチャネル・オーバー・イーサネット(FCoE)/データセンタブリッジ(DCB)クラウド)、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、ストレージエリアネットワーク(SAN)を含む様々なネットワークのうちのいずれか、又は赤外線信号を含む任意の適切な電磁波キャリア信号によって、遠隔装置に接続することを可能にする。

Claims (20)

  1. 複数の時間ステップを含むセッションにおいてインタラクティブ言語学習に基づくコンピュータ実施方法であって、
    時間ステップで、視覚画像を含む入力と、前記視覚画像に関連するゼロ以上の単語を含む自然言語入力とを受信するステップと、
    視覚エンコーダを使用して前記視覚画像を視覚的特徴表現に符号化するステップと、
    注意機構を使用して前記自然言語入力を自然言語入力表現に符号化するステップと、
    第1のニューラルネットワークにおいて少なくとも前記自然言語入力及び先の状態ベクトルに基づいて状態ベクトルを生成するステップと、
    前記第1のニューラルネットワークを介して前記視覚的特徴表現と前記自然言語入力表現とを、視覚モダリティとセンテンスモダリティのペアとしてメモリに記憶するステップと、
    前記状態ベクトルを剰余構造化ネットワークに通過させて制御ベクトルを生成し、状態入力として第2のニューラルネットワークの挙動を変調するステップと、
    少なくとも前記制御ベクトルを使用して、学習された注意及びコンテンツの重要性を使用して、前記第2のニューラルネットワークによって指示される提案された応答部分と、前記メモリから検索された自然言語入力表現の少なくとも一部を用いて指示される提案された応答部分との間で、適応的に選択するステップであって、前記視覚的特徴表現を視覚キーとして使用して前記自然言語入力表現を検索することにより、前記入力に対応する応答を形成するステップと、を含む、
    コンピュータ実施方法。
  2. 前記第2のニューラルネットワークの前記時間ステップにおける最終状態を、次の時間ステップにおける前記第1のニューラルネットワークへの入力として使用するステップを更に含む、
    請求項1に記載のコンピュータ実施方法。
  3. 前記応答が正しい応答である場合、又はインタラクションステップの最大数に達した場合には、前記セッションを終了する、
    請求項1に記載のコンピュータ実施方法。
  4. 前記剰余構造化ネットワークは、学習可能なコントローラを有する恒等写像拡張ネットワークである、
    請求項1に記載のコンピュータ実施方法。
  5. 前記学習可能なコントローラは、前記状態ベクトルを受信して出力を生成し、前記制御ベクトルは、前記コントローラの出力と前記状態ベクトルとを組み合わせることで得られる、
    請求項4に記載のコンピュータ実施方法。
  6. 前記自然言語入力、前記視覚入力、及び前記生成された応答に応じて、教師により、フィードバック及び報酬を生成することを更に含む、
    請求項1に記載のコンピュータ実施方法。
  7. 前記報酬は、スカラー値フィードバックであり、前記応答の正確さに応じて、正の値で励ましとして、負の値で反対とする、
    請求項6に記載のコンピュータ実施方法。
  8. 強化コスト関数によって表されるように予想される将来の報酬を最大化することにより、前記報酬を利用して応答を生成する際の行動ポリシーを調整する、
    請求項6に記載のコンピュータ実施方法。
  9. 前記第1のニューラルネットワークにおいて模倣コスト関数によって前記自然言語入力を予測する際の誤差を最小化し、前記第1のニューラルネットワークと前記第2のニューラルネットワークとの間にパラメータを共有することにより、前記行動ポリシーを同時に最適化する、
    請求項8に記載のコンピュータ実施方法。
  10. メモリ書き込み動作では、コンテンツ重要性ゲートは前記自然言語入力の関数として算出されて、前記自然言語入力のコンテンツを前記メモリに書き込むか否かを適応的に制御する、
    請求項1に記載のコンピュータ実施方法。
  11. 訓練されたエージェントが習得した言語能力と発達したワンショット学習能力とを使用するためのコンピュータ実施方法であって、
    視覚画像を含む入力と、前記視覚画像に関連するゼロ以上の単語を含む自然言語入力とを受信するステップと、
    視覚エンコーダを使用して前記視覚画像を視覚キーに符号化するステップと、
    注意機構を使用して前記自然言語入力を自然言語入力表現に符号化するステップと、
    第1のニューラルネットワークにおいて少なくとも前記自然言語入力及び先の状態ベクトルに基づいて状態ベクトルを生成するステップと、
    前記状態ベクトルに基づいて制御ベクトルを生成して第2のニューラルネットワークの挙動を変調するステップと、
    少なくとも部分的に前記制御ベクトルによって制御されるフュージョンゲートを使用して、前記第2のニューラルネットワークによって指示される提案された応答部分と、メモリから検索された自然言語入力表現の少なくとも一部を用いて指示される提案された応答部分との間で適応的に選択するステップであって、前記視覚キーを使用して前記自然言語入力表現を検索することにより、前記入力に対応する応答を形成し、前記メモリには、少なくとも一つの視覚モダリティとセンテンスモダリティのペアが記憶されており、視覚モダリティとセンテンスモダリティのペアのそれぞれは、記憶された視覚的特徴表現と記憶された自然言語入力表現とを含むステップと、を含む、
    コンピュータ実施方法。
  12. 前記少なくとも一つの視覚モダリティとセンテンスモダリティのペアは、前記第1のニューラルネットワークを介して、過去の自然言語入力及び関連する視覚入力を使用して、学習されたコンテンツ重要性に基づいて記憶される、
    請求項11に記載のコンピュータ実施方法。
  13. 記憶された自然言語入力表現は、行列及び正規化された注意ベクトルに基づいて得られ、ここで、前記行列の列は、関連する過去の自然言語入力からのすべての単語の埋め込みベクトルであり、前記正規化された注意ベクトルは、前記関連する過去の自然言語入力における各単語の相対的重要性を示す、
    請求項12に記載のコンピュータ実施方法。
  14. 前記第2のニューラルネットワークによって指示される提案された応答部分は、単語レベル注意とコンテンツ重要性を介して前記自然言語入力から共同で抽出される、
    請求項11に記載のコンピュータ実施方法。
  15. クロスモダリティ検索により前記メモリから前記自然言語入力表現を検索し、前記クロスモダリティ検索は、前記視覚キーを使用してソフトリーディングウェイトを取得することで実施される、
    請求項11に記載のコンピュータ実施方法。
  16. 前記ソフトリーディングウェイトは、前記視覚キーと記憶された視覚的特徴表現とのコサイン類似度を算出することで得られ、得られたソフトリーディングウェイトと前記記憶された自然言語入力表現との積を実施することで、前記自然言語入力表現の少なくとも一部を、前記視覚画像に関連するラベル単語に対応する埋め込みベクトルとして検索する、
    請求項15に記載のコンピュータ実施方法。
  17. ワンショット視覚概念学習によるインタラクティブ言語習得のためのシステムであって、
    視覚画像を視覚的特徴表現に符号化するための視覚エンコーダと、
    少なくとも、前記視覚画像に関連するゼロ以上の単語を含む自然言語入力と、過去の情報を用いた先の状態ベクトルとに基づいて、状態ベクトルを生成するための第1のニューラルネットワークと、
    視覚的特徴表現と自然言語入力表現とを含む、視覚モダリティとセンテンスモダリティのペアを少なくとも一つ記憶するメモリと、
    前記状態ベクトルを受信して制御ベクトルを生成する剰余構造化ネットワークと、
    挙動変調のための前記制御ベクトルを受信する第2のニューラルネットワークであって、前記第2のニューラルネットワークによって指示される提案された応答部分と、前記メモリから検索された自然言語入力表現の少なくとも一部を使用して指示される提案された応答部分との間で適応的に選択し、前記視覚的特徴表現を視覚キーとして使用して前記自然言語入力表現を検索することにより、前記入力に対応する応答を形成する第2のニューラルネットワークと、を備える、
    システム。
  18. 前記第1のニューラルネットワークと前記第2のニューラルネットワークは、いずれもリカレントニューラルネットワークであり、且つパラメータを共有する、
    請求項17に記載のシステム。
  19. 前記剰余構造化ネットワークは、前記状態ベクトルを受信し出力を生成するための学習可能なコントローラを含み、前記制御ベクトルは、前記コントローラの出力を前記状態ベクトルに結合することで得られる、
    請求項17に記載のシステム。
  20. 前記第2のニューラルネットワークは、少なくとも部分的に学習した注意とコンテンツ重要性とに基づいて、前記第2のニューラルネットワークによって指示される提案された応答部分と、前記メモリから検索された提案された応答部分との間で、適応的に切り替えるための一つ又は複数のフュージョンゲートを含む、
    請求項17に記載のシステム。
JP2019026738A 2018-04-12 2019-02-18 インタラクティブ言語習得のシステム、及び方法 Active JP6722789B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/951,905 2018-04-12
US15/951,905 US11074829B2 (en) 2018-04-12 2018-04-12 Systems and methods for interactive language acquisition with one-shot visual concept learning through a conversational game

Publications (2)

Publication Number Publication Date
JP2019185748A true JP2019185748A (ja) 2019-10-24
JP6722789B2 JP6722789B2 (ja) 2020-07-15

Family

ID=68162075

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019026738A Active JP6722789B2 (ja) 2018-04-12 2019-02-18 インタラクティブ言語習得のシステム、及び方法

Country Status (3)

Country Link
US (1) US11074829B2 (ja)
JP (1) JP6722789B2 (ja)
CN (1) CN110379225B (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021235866A1 (ko) * 2020-05-20 2021-11-25 서울대학교병원 병원 리소스에 대한 환자 니즈 예측 방법 및 시스템
DE112020004868T5 (de) 2019-10-09 2022-06-30 Alps Alpine Co., Ltd. Bedienungseingabevorrichtung
WO2024042707A1 (ja) * 2022-08-26 2024-02-29 日本電信電話株式会社 メタ学習方法、メタ学習装置及びプログラム

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8577671B1 (en) 2012-07-20 2013-11-05 Veveo, Inc. Method of and system for using conversation state information in a conversational interaction system
US9465833B2 (en) 2012-07-31 2016-10-11 Veveo, Inc. Disambiguating user intent in conversational interaction system for large corpus information retrieval
US9852136B2 (en) 2014-12-23 2017-12-26 Rovi Guides, Inc. Systems and methods for determining whether a negation statement applies to a current or past query
US9854049B2 (en) 2015-01-30 2017-12-26 Rovi Guides, Inc. Systems and methods for resolving ambiguous terms in social chatter based on a user profile
US11417235B2 (en) * 2017-05-25 2022-08-16 Baidu Usa Llc Listen, interact, and talk: learning to speak via interaction
US10824909B2 (en) * 2018-05-15 2020-11-03 Toyota Research Institute, Inc. Systems and methods for conditional image translation
US11347966B2 (en) * 2018-07-20 2022-05-31 Samsung Electronics Co., Ltd. Electronic apparatus and learning method of electronic apparatus
US12080187B1 (en) * 2018-07-27 2024-09-03 Elemental Cognition Inc. Information and dialog models for education
US11188797B2 (en) * 2018-10-30 2021-11-30 International Business Machines Corporation Implementing artificial intelligence agents to perform machine learning tasks using predictive analytics to leverage ensemble policies for maximizing long-term returns
WO2020163801A1 (en) * 2019-02-08 2020-08-13 Warner Bros. Entertainment Inc. Intra-vehicle games
US11798029B2 (en) * 2019-06-14 2023-10-24 Microsoft Technology Licensing, Llc System for effective use of data for personalization
CN110309289B (zh) * 2019-08-23 2019-12-06 深圳市优必选科技股份有限公司 一种句子生成方法、句子生成装置及智能设备
KR102302137B1 (ko) * 2019-10-31 2021-09-15 주식회사 엘지씨엔에스 외국어 학습장치 및 이를 이용하는 외국어 학습서비스 제공방법
CN110956617A (zh) * 2019-11-18 2020-04-03 湖北工业大学 基于循环注意力模型的大脑核磁共振异常图像可视化方法
WO2021121576A1 (en) * 2019-12-18 2021-06-24 Telefonaktiebolaget Lm Ericsson (Publ) A computer software module arrangement, a circuitry arrangement, an arrangement and a method for improved software execution monitoring
US11741371B2 (en) * 2020-03-20 2023-08-29 International Business Machines Corporation Automatically generating diverse text
CN111291015B (zh) * 2020-04-28 2020-08-07 国网电子商务有限公司 一种用户行为异常检测方法及装置
CN111967272B (zh) * 2020-06-23 2023-10-31 合肥工业大学 基于语义对齐的视觉对话生成系统
CN112069199B (zh) * 2020-08-20 2022-08-05 浙江大学 一种基于中间语法树的多轮自然语言转sql方法
US11883746B2 (en) * 2021-02-23 2024-01-30 Electronic Arts Inc. Adversarial reinforcement learning for procedural content generation and improved generalization
CN112989977B (zh) * 2021-03-03 2022-09-06 复旦大学 一种基于跨模态注意力机制的视听事件定位方法及装置
CN112989017B (zh) * 2021-05-17 2021-08-10 南湖实验室 用于生成对话策略学习用高质量模拟经验的方法
CN113468364B (zh) * 2021-07-21 2024-04-09 京东科技信息技术有限公司 一种图像处理方法及装置
CN113673773B (zh) * 2021-08-25 2024-01-23 山东科技大学 一种融合知识背景和学习时间预测的学习路径推荐方法
US11875699B2 (en) 2022-04-21 2024-01-16 Columbia College Methods for online language learning using artificial intelligence and avatar technologies
CN115082915B (zh) * 2022-05-27 2024-03-29 华南理工大学 一种基于多模态特征的移动机器人视觉-语言导航方法
CN114913403B (zh) * 2022-07-18 2022-09-20 南京信息工程大学 基于度量学习的视觉问答方法
US20240221725A1 (en) * 2022-12-30 2024-07-04 Pearson Education, Inc. System and method for artificial intelligence-based language skill assessment and development
CN116680201B (zh) * 2023-07-31 2023-10-17 南京争锋信息科技有限公司 一种基于机器学习的系统压力测试方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05204399A (ja) * 1992-01-29 1993-08-13 Meidensha Corp 不特定話者音素認識方法
JP2017091525A (ja) * 2015-11-03 2017-05-25 バイドゥ・ユーエスエイ・リミテッド・ライアビリティ・カンパニーBaidu USA LLC 視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法
JP2017534956A (ja) * 2015-05-21 2017-11-24 バイドゥ ユーエスエイ エルエルシーBaidu USA LLC 多言語画像質問応答

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7152051B1 (en) 2002-09-30 2006-12-19 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9679258B2 (en) 2013-10-08 2017-06-13 Google Inc. Methods and apparatus for reinforcement learning
US10445641B2 (en) * 2015-02-06 2019-10-15 Deepmind Technologies Limited Distributed training of reinforcement learning systems
CN105700526B (zh) * 2016-01-13 2018-07-27 华北理工大学 具有自主学习能力的在线序列极限学习机方法
US11645444B2 (en) 2016-05-10 2023-05-09 Trustees Of Tufts College Systems and methods enabling online one-shot learning and generalization by intelligent systems of task-relevant features and transfer to a cohort of intelligent systems
US10546066B2 (en) 2016-08-31 2020-01-28 Microsoft Technology Licensing, Llc End-to-end learning of dialogue agents for information access
DE202017106132U1 (de) 2016-10-10 2017-11-13 Google Llc Neuronale Netze zum Auswählen von durch einen Roboteragenten auszuführenden Aktionen
CN106951512A (zh) 2017-03-17 2017-07-14 深圳市唯特视科技有限公司 一种基于混合编码网络的端到端对话控制方法
CN107480206B (zh) 2017-07-25 2020-06-12 杭州电子科技大学 一种基于多模态低秩双线性池化的图像内容问答方法
CN107506823B (zh) 2017-08-22 2020-11-13 南京大学 一种用于对话生成的混合神经网络模型的构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05204399A (ja) * 1992-01-29 1993-08-13 Meidensha Corp 不特定話者音素認識方法
JP2017534956A (ja) * 2015-05-21 2017-11-24 バイドゥ ユーエスエイ エルエルシーBaidu USA LLC 多言語画像質問応答
JP2017091525A (ja) * 2015-11-03 2017-05-25 バイドゥ・ユーエスエイ・リミテッド・ライアビリティ・カンパニーBaidu USA LLC 視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ADAM SANTORO, ET AL.: "Meta-learning with memory-augmented neural networks", [ONLINE], vol. 48, JPN6020008107, 2016, US, pages 1842 - 1850, XP055357768, ISSN: 0004224898 *
海野 裕也: "人と機械の言語獲得", 認知科学, vol. 第24巻,第1号, JPN6020008106, 1 March 2017 (2017-03-01), JP, pages 16 - 22, ISSN: 0004224897 *
石橋 陽一、外1名: "連想対話モデル:発話文から連想した視覚情報を用いた応答文生成", 第10回データ工学と情報マネジメントに関するフォーラム (第16回日本データベース学会年次大会) [, JPN6020008104, 6 March 2018 (2018-03-06), JP, pages 1 - 8, ISSN: 0004224896 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112020004868T5 (de) 2019-10-09 2022-06-30 Alps Alpine Co., Ltd. Bedienungseingabevorrichtung
WO2021235866A1 (ko) * 2020-05-20 2021-11-25 서울대학교병원 병원 리소스에 대한 환자 니즈 예측 방법 및 시스템
KR20210143635A (ko) * 2020-05-20 2021-11-29 서울대학교병원 병원 리소스에 대한 환자 니즈 예측 방법 및 시스템
KR102429319B1 (ko) 2020-05-20 2022-08-04 서울대학교병원 병원 리소스에 대한 환자 니즈 예측 방법 및 시스템
WO2024042707A1 (ja) * 2022-08-26 2024-02-29 日本電信電話株式会社 メタ学習方法、メタ学習装置及びプログラム

Also Published As

Publication number Publication date
CN110379225A (zh) 2019-10-25
US20190318648A1 (en) 2019-10-17
CN110379225B (zh) 2021-08-31
US11074829B2 (en) 2021-07-27
JP6722789B2 (ja) 2020-07-15

Similar Documents

Publication Publication Date Title
JP6722789B2 (ja) インタラクティブ言語習得のシステム、及び方法
US11860969B2 (en) Universal transformers
CN112487182B (zh) 文本处理模型的训练方法、文本处理方法及装置
US11514330B2 (en) Systems and methods for continual updating of response generation by an artificial intelligence chatbot
JP6952201B2 (ja) 質問応答としてのマルチタスク学習
Li et al. Learning through dialogue interactions by asking questions
JP2021524623A (ja) 質問応答としてのマルチタスク学習
CN113656570A (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
JP2019023717A (ja) 傾聴、インタラクト、及びトーク:インタラクションを介するスピーキング学習
KR102040400B1 (ko) 머신러닝을 이용한 사용자 맞춤형 문제 제공 시스템 및 방법
KR20190125154A (ko) 심리 상담 데이터를 기계 학습한 자동 대화 장치 및 그 방법
Wahde et al. Conversational agents: Theory and applications
CN110770759A (zh) 神经网络系统
CN112115246A (zh) 基于对话的内容推荐方法、装置、计算机设备及存储介质
US12050983B2 (en) Attention neural networks with parallel attention and feed-forward layers
Bansal et al. Transforming conversations with AI—a comprehensive study of ChatGPT
Doering et al. Curiosity did not kill the robot: A curiosity-based learning system for a shopkeeper robot
CN115408502A (zh) 在同步会议中认知学习以生成模拟现场代理动作的脚本
Zhou et al. Building task-oriented visual dialog systems through alternative optimization between dialog policy and language generation
JP2024506580A (ja) 適応勾配クリッピングを用いるニューラルネットワーク
US20230178076A1 (en) Controlling interactive agents using multi-modal inputs
WO2023158881A1 (en) Computationally efficient distillation using generative neural networks
Zhang et al. Interactive language acquisition with one-shot visual concept learning through a conversational game
Jawahar Personalized ECA Tutoring with Self-Adjusted POMDP Policies and User Clustering
Caron et al. TacticalGPT: uncovering the potential of LLMs for predicting tactical decisions in professional football

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190227

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200303

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200603

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200616

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200622

R150 Certificate of patent or registration of utility model

Ref document number: 6722789

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250